Пажња (машинско учење)

С Википедије, слободне енциклопедије

Пажња заснована на машинском учењу је механизам који интуитивно опонаша когнитивну пажњу. Он израчунава „меке“ тежине за сваку реч, тачније за њено уграђивање, у прозору контекста. Ове тежине се могу израчунати паралелно (као што је у трансформаторима) или секвенцијално (као у рекурентним неуронским мрежама). „Меке“ тежине могу да се мењају током сваког рада, за разлику од „тврдих“ пондера, који су (пре-)увежбани и фино подешени и остају замрзнути након тога.

Пажња је усмерена на решавање слабости у коришћењу информација из скривених излаза рекурентних неуронских мрежа. Рекурентне неуронске мреже фаворизују новије информације садржане у речима на крају реченице, док се очекује да ће информације раније у реченици бити ослабљене. Пажња омогућава израчунавање скривене репрезентације лексема једнаког приступа било ком делу реченице директно, а не само преко претходног скривеног стања.

Раније употребе повезале су овај механизам са системом за превођење језика серијске рекурентне неуронске мреже (испод), али касније коришћење у Трансформерима великих језичких модела уклонило је рекурентну неуронску мрежу и у великој мери се ослањало на бржу паралелну шему пажње.

Претходници[уреди | уреди извор]

Претходници механизма су коришћени у рекурентним неуронским мрежама које су, међутим, секвенцијално израчунавале „меке“ тежине и, на сваком кораку, разматрале тренутну реч и друге речи унутар контекстног прозора. Они су били познати као мултипликативни модули, сигма пи јединице[1] и хипер-мреже.[2] Они су коришћени у мрежама дуготрајне краткорочне меморије (ЛСТМ), мулти-сензорној обради података (звук, слике, видео и текст) у перцепторима, брзој меморији контролора тежине,[3] задацима расуђивања у диференцибилним неуронским рачунарима и неуронским Тјуринговим машинама.[4][5][6][7][8]

Референце[уреди | уреди извор]

  1. ^ Румелхарт, Давид Е.; Мццлелланд, Јамес L.; Гроуп, ПДП Ресеарцх (1987-07-29). Параллел Дистрибутед Процессинг, Волуме 1: Еxплоратионс ин тхе Мицроструцтуре оф Цогнитион: Фоундатионс, Цхаптер 2 (ПДФ) (на језику: енглески). Цамбридге, Масс: Брадфорд Боокс. ИСБН 978-0-262-68053-0. 
  2. ^ Yанн Лецун (2020). Дееп Леарнинг цоурсе ат НYУ, Спринг 2020, видео лецтуре Wеек 6. Корисна информација се налази на: 53:00. Приступљено 2022-03-08. 
  3. ^ Сцхмидхубер, Јüрген (1992). „Леарнинг то цонтрол фаст-wеигхт мемориес: ан алтернативе то рецуррент нетс.”. Неурал Цомпутатион. 4 (1): 131—139. С2ЦИД 16683347. дои:10.1162/нецо.1992.4.1.131. 
  4. ^ Гравес, Алеx; Wаyне, Грег; Реyнолдс, Малцолм; Харлеy, Тим; Данихелка, Иво; Грабска-Барwиńска, Агниесзка; Цолменарејо, Сергио Гóмез; Грефенстетте, Едwард; Рамалхо, Тиаго; Агапиоу, Јохн; Бадиа, Адриà Пуигдомèнецх; Херманн, Карл Моритз; Зwолс, Yори; Островски, Георг; Цаин, Адам; Кинг, Хелен; Суммерфиелд, Цхристопхер; Блунсом, Пхил; Кавукцуоглу, Кораy; Хассабис, Демис (2016-10-12). „Хyбрид цомпутинг усинг а неурал нетwорк wитх дyнамиц еxтернал меморy”. Натуре (на језику: енглески). 538 (7626): 471—476. Бибцоде:2016Натур.538..471Г. ИССН 1476-4687. ПМИД 27732574. С2ЦИД 205251479. дои:10.1038/натуре20101. 
  5. ^ Васwани, Асхисх; Схазеер, Ноам; Пармар, Ники; Усзкореит, Јакоб; Јонес, Ллион; Гомез, Аидан Н; Каисер, Łукасз; Полосукхин, Иллиа (2017). „Аттентион ис Алл yоу Неед” (ПДФ). Адванцес ин Неурал Информатион Процессинг Сyстемс. Цурран Ассоциатес, Инц. 30. 
  6. ^ Рамацхандран, Прајит; Пармар, Ники; Васwани, Асхисх; Белло, Ирwан; Левскаyа, Анселм; Схленс, Јонатхон (2019-06-13). „Станд-Алоне Селф-Аттентион ин Висион Моделс”. арXив:1906.05909Слободан приступ [цс.CV]. 
  7. ^ Јаегле, Андреw; Гимено, Фелиx; Броцк, Андреw; Зиссерман, Андреw; Винyалс, Ориол; Царреира, Јоао (2021-06-22). „Перцеивер: Генерал Перцептион wитх Итеративе Аттентион”. арXив:2103.03206Слободан приступ [цс.CV]. 
  8. ^ Раy, Тиернан. „Гоогле'с Супермодел: ДеепМинд Перцеивер ис а степ он тхе роад то ан АИ мацхине тхат цоулд процесс анyтхинг анд еверyтхинг”. ЗДНет (на језику: енглески). Приступљено 2021-08-19. 

Спољашње везе[уреди | уреди извор]