Подржано учење из људских повратних информација

У машинском учењу, подржано учење из људских повратних информација (енгл. Reinforcement learning from human feedback, RLHF), такође познато као учење уз помоћ људских преференција, техника је усклађивања интелигентног агента са људским преференцијама. У класичном подржаном учењу, циљ таквог агента је да научи функцију која се назива политика која максимизира награду коју добија на основу тога колико добро обавља свој задатак.^[1] У случају људских преференција, међутим, обично је тешко експлицитно дефинисати функцију награђивања која се приближава људским преференцијама. Стога, РЛХФ настоји да обучи „модел награђивања“ директно из повратних информација људи.^[2] Модел награђивања се прво обучава на надзирани начин — независно од политике која се оптимизује — да би се предвидело да ли је одговор на дати упит добар (висока награда) или лош (ниска награда) на основу података о рангирању прикупљених од људских анотатора. Овај модел се затим користи као функција награђивања за побољшање политике агента кроз алгоритам оптимизације као што је проксимална оптимизација политике.^[3]

РЛХФ се може применити на различите домене у машинском учењу, укључујући задатке обраде природног језика као што су сумирање текста и конверзацијски агенти, задатке компјутерског вида као што су модели текста у слику и развој робота за видео игре. Док је РЛХФ ефикасан метод обучавања модела да боље делују у складу са људским преференцијама, он се такође суочава са изазовима због начина на који се прикупљају подаци о људским преференцијама. Иако РЛХФ не захтева огромне количине података за побољшање перформанси, проналажење висококвалитетних података о преференцијама је и даље скуп процес. Штавише, ако подаци нису пажљиво прикупљени из репрезентативног узорка, резултујући модел може показати нежељене пристрасности.

Мотивација[уреди | уреди извор]

Оптимизација модела заснованог на љуским повратним информацијама је пожељна када је задатак тешко специфицирати, али лако проценити.^[4]^[5] На пример, за задатак генерисања убедљиве приче, док би настојање да се од људи генеришу примери добрих и лоших прича било тешко и дуготрајно, људи могу лако и брзо да процене квалитет различитих прича генерисаних вештачком интелигенцијом. Циљ би тада био да модел користи ове људске повратне информације како би побољшао своје генерисање прича.

Било је различитих претходних покушаја коришћења повратних информација од људи за оптимизацију излазних резултата модела, укључујући подржано учење, али већина покушаја је била или уска и тешко их је генерализовати, разложити на комплексне задатке,^[6]^[7]^[8]^[9] или су се суочили са потешкоћама у учењу из оскудне или бучне функције награђивања.^[10]^[11] РЛХФ је био покушај да се створи општи алгоритам за учење из практичне количине повратних информација људи.^[4]^[3] Такође се показало да РЛХФ побољшава робусност и истраживање РЛ агенаса.^[12]

Референце[уреди | уреди извор]

^ Русселл, Стуарт Ј.; Норвиг, Петер (2016). Артифициал интеллигенце: а модерн аппроацх (Тхирд, Глобал изд.). Бостон Цолумбус Индианаполис Неw Yорк Сан Францисцо Уппер Саддле Ривер Амстердам Цапе Тоwн Дубаи Лондон Мадрид Милан Муницх Парис Монтреал Торонто Делхи Меxицо Цитy Сао Пауло Сyднеy Хонг Конг Сеоул Сингапоре Таипеи Токyо: Пеарсон. стр. 830—831. ИСБН 978-0-13-604259-4.
^ Зиеглер, Даниел M.; Стиеннон, Нисан; Wу, Јеффреy; Броwн, Том Б.; Радфорд, Алец; Амодеи, Дарио; Цхристиано, Паул; Ирвинг, Геоффреy (2019). „Фине-Тунинг Лангуаге Моделс фром Хуман Преференцес”. арXив:1909.08593  [цс.CL].
^ ^а ^б Ламберт, Натхан; Цастрицато, Лоуис; вон Wерра, Леандро; Хаврилла, Алеx. „Иллустратинг Реинфорцемент Леарнинг фром Хуман Феедбацк (РЛХФ)”. хуггингфаце.цо. Приступљено 4. 3. 2023.
^ ^а ^б „Леарнинг фром хуман преференцес”. опенаи.цом. Приступљено 4. 3. 2023.
^ „Леарнинг тхроугх хуман феедбацк”. www.деепминд.цом (на језику: енглески). 12. 6. 2017. Приступљено 4. 3. 2023.
^ Кноx, W. Брадлеy; Стоне, Петер; Бреазеал, Цyнтхиа (2013). „Траининг а Робот виа Хуман Феедбацк: А Цасе Студy”. Социал Роботицс. Лецтуре Нотес ин Цомпутер Сциенце (на језику: енглески). Спрингер Интернатионал Публисхинг. 8239: 460—470. ИСБН 978-3-319-02674-9. дои:10.1007/978-3-319-02675-6_46. Приступљено 26. 2. 2024.
^ Акроур, Риад; Сцхоенауер, Марц; Себаг, Мицхèле (2012). „АПРИЛ: Ацтиве Преференце Леарнинг-Басед Реинфорцемент Леарнинг”. Мацхине Леарнинг анд Кноwледге Дисцоверy ин Датабасес. Лецтуре Нотес ин Цомпутер Сциенце (на језику: енглески). Спрингер. 7524: 116—131. ИСБН 978-3-642-33485-6. арXив:1208.0984 . дои:10.1007/978-3-642-33486-3_8. Приступљено 26. 2. 2024.
^ Wилсон, Аарон; Ферн, Алан; Тадепалли, Прасад (2012). „А Баyесиан Аппроацх фор Полицy Леарнинг фром Трајецторy Преференце Qуериес”. Адванцес ин Неурал Информатион Процессинг Сyстемс. Цурран Ассоциатес, Инц. 25. Приступљено 26. 2. 2024.
^ Сцхоенауер, Марц; Акроур, Риад; Себаг, Мицхеле; Соуплет, Јеан-Цхристопхе (18. 6. 2014). „Программинг бy Феедбацк”. Процеедингс оф тхе 31ст Интернатионал Цонференце он Мацхине Леарнинг (на језику: енглески). ПМЛР: 1503—1511. Приступљено 26. 2. 2024.
^ Wарнелл, Гарретт; Wаyтоwицх, Ницхолас; Лаwхерн, Вернон; Стоне, Петер (25. 4. 2018). „Дееп ТАМЕР: Интерацтиве Агент Схапинг ин Хигх-Дименсионал Стате Спацес”. Процеедингс оф тхе АААИ Цонференце он Артифициал Интеллигенце. 32 (1). С2ЦИД 4130751. арXив:1709.10163 . дои:10.1609/аааи.в32и1.11485.
^ МацГласхан, Јамес; Хо, Марк К; Лофтин, Роберт; Пенг, Беи; Wанг, Гуан; Робертс, Давид L.; Таyлор, Маттхеw Е.; Литтман, Мицхаел L. (6. 8. 2017). „Интерацтиве леарнинг фром полицy-депендент хуман феедбацк”. Процеедингс оф тхе 34тх Интернатионал Цонференце он Мацхине Леарнинг - Волуме 70. ЈМЛР.орг: 2285—2294. арXив:1701.06049 .
^ Баи, Yунтао; Јонес, Андy; Ндоуссе, Камал; Аскелл, Аманда; Цхен, Анна; ДасСарма, Нова; Драин, Даwн; Форт, Станислав; Гангули, Дееп; Хенигхан, Том; Јосепх, Ницхолас; Кадаватх, Саурав; Кернион, Јацксон; Цонерлy, Том; Ел-Схоwк, Схеер; Елхаге, Нелсон; Хатфиелд-Доддс, Зац; Хернандез, Даннy; Хуме, Тристан; Јохнстон, Сцотт; Кравец, Схауна; Ловитт, Лиане; Нанда, Неел; Олссон, Цатхерине; Амодеи, Дарио; Броwн, Том; Цларк, Јацк; МцЦандлисх, Сам; Олах, Цхрис; Манн, Бен; Каплан, Јаред (2022). „Траининг а Хелпфул анд Хармлесс Ассистант wитх Реинфорцемент Леарнинг фром Хуман Феедбацк”. арXив:2204.05862  [цс.CL].

[1] Русселл, Стуарт Ј.; Норвиг, Петер (2016). Артифициал интеллигенце: а модерн аппроацх (Тхирд, Глобал изд.). Бостон Цолумбус Индианаполис Неw Yорк Сан Францисцо Уппер Саддле Ривер Амстердам Цапе Тоwн Дубаи Лондон Мадрид Милан Муницх Парис Монтреал Торонто Делхи Меxицо Цитy Сао Пауло Сyднеy Хонг Конг Сеоул Сингапоре Таипеи Токyо: Пеарсон. стр. 830—831. ИСБН 978-0-13-604259-4.

[2] Зиеглер, Даниел M.; Стиеннон, Нисан; Wу, Јеффреy; Броwн, Том Б.; Радфорд, Алец; Амодеи, Дарио; Цхристиано, Паул; Ирвинг, Геоффреy (2019). „Фине-Тунинг Лангуаге Моделс фром Хуман Преференцес”. арXив:1909.08593  [цс.CL].

[huggingface-3] а ^б Ламберт, Натхан; Цастрицато, Лоуис; вон Wерра, Леандро; Хаврилла, Алеx. „Иллустратинг Реинфорцемент Леарнинг фром Хуман Феедбацк (РЛХФ)”. хуггингфаце.цо. Приступљено 4. 3. 2023.

[openai-4] а ^б „Леарнинг фром хуман преференцес”. опенаи.цом. Приступљено 4. 3. 2023.

[5] „Леарнинг тхроугх хуман феедбацк”. www.деепминд.цом (на језику: енглески). 12. 6. 2017. Приступљено 4. 3. 2023.

[6] Кноx, W. Брадлеy; Стоне, Петер; Бреазеал, Цyнтхиа (2013). „Траининг а Робот виа Хуман Феедбацк: А Цасе Студy”. Социал Роботицс. Лецтуре Нотес ин Цомпутер Сциенце (на језику: енглески). Спрингер Интернатионал Публисхинг. 8239: 460—470. ИСБН 978-3-319-02674-9. дои:10.1007/978-3-319-02675-6_46. Приступљено 26. 2. 2024.

[7] Акроур, Риад; Сцхоенауер, Марц; Себаг, Мицхèле (2012). „АПРИЛ: Ацтиве Преференце Леарнинг-Басед Реинфорцемент Леарнинг”. Мацхине Леарнинг анд Кноwледге Дисцоверy ин Датабасес. Лецтуре Нотес ин Цомпутер Сциенце (на језику: енглески). Спрингер. 7524: 116—131. ИСБН 978-3-642-33485-6. арXив:1208.0984 . дои:10.1007/978-3-642-33486-3_8. Приступљено 26. 2. 2024.

[8] Wилсон, Аарон; Ферн, Алан; Тадепалли, Прасад (2012). „А Баyесиан Аппроацх фор Полицy Леарнинг фром Трајецторy Преференце Qуериес”. Адванцес ин Неурал Информатион Процессинг Сyстемс. Цурран Ассоциатес, Инц. 25. Приступљено 26. 2. 2024.

[9] Сцхоенауер, Марц; Акроур, Риад; Себаг, Мицхеле; Соуплет, Јеан-Цхристопхе (18. 6. 2014). „Программинг бy Феедбацк”. Процеедингс оф тхе 31ст Интернатионал Цонференце он Мацхине Леарнинг (на језику: енглески). ПМЛР: 1503—1511. Приступљено 26. 2. 2024.

[10] Wарнелл, Гарретт; Wаyтоwицх, Ницхолас; Лаwхерн, Вернон; Стоне, Петер (25. 4. 2018). „Дееп ТАМЕР: Интерацтиве Агент Схапинг ин Хигх-Дименсионал Стате Спацес”. Процеедингс оф тхе АААИ Цонференце он Артифициал Интеллигенце. 32 (1). С2ЦИД 4130751. арXив:1709.10163 . дои:10.1609/аааи.в32и1.11485.

[11] МацГласхан, Јамес; Хо, Марк К; Лофтин, Роберт; Пенг, Беи; Wанг, Гуан; Робертс, Давид L.; Таyлор, Маттхеw Е.; Литтман, Мицхаел L. (6. 8. 2017). „Интерацтиве леарнинг фром полицy-депендент хуман феедбацк”. Процеедингс оф тхе 34тх Интернатионал Цонференце он Мацхине Леарнинг - Волуме 70. ЈМЛР.орг: 2285—2294. арXив:1701.06049 .

[12] Баи, Yунтао; Јонес, Андy; Ндоуссе, Камал; Аскелл, Аманда; Цхен, Анна; ДасСарма, Нова; Драин, Даwн; Форт, Станислав; Гангули, Дееп; Хенигхан, Том; Јосепх, Ницхолас; Кадаватх, Саурав; Кернион, Јацксон; Цонерлy, Том; Ел-Схоwк, Схеер; Елхаге, Нелсон; Хатфиелд-Доддс, Зац; Хернандез, Даннy; Хуме, Тристан; Јохнстон, Сцотт; Кравец, Схауна; Ловитт, Лиане; Нанда, Неел; Олссон, Цатхерине; Амодеи, Дарио; Броwн, Том; Цларк, Јацк; МцЦандлисх, Сам; Олах, Цхрис; Манн, Бен; Каплан, Јаред (2022). „Траининг а Хелпфул анд Хармлесс Ассистант wитх Реинфорцемент Леарнинг фром Хуман Феедбацк”. арXив:2204.05862  [цс.CL].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]