Разјашњавање смисла речи

С Википедије, слободне енциклопедије

Разјашњавање смисла речи (Wорд-сенсе дисамбигуатион, WСД) је процес идентификације смисла речи на који се мисли у реченици или другом сегменту датог контекста. У обради и спознаји људског језика, то је обично подсвесно/аутоматско, али често може доћи до свесне пажње када двосмисленост нарушава јасноћу комуникације, с обзиром на свеприсутну полисемију у природном језику. У рачунарској лингвистици, то је отворени проблем који утиче на друго писање везано за рачунар, као што је дискурс, побољшање релевантности претраживача, резолуција анафоре, кохерентност и закључивање.

С обзиром на то да природни језик захтева одраз неуролошке стварности, као што је обликовано способностима које пружају неуронске мреже мозга, рачунарска наука је имала дугорочни изазов у развоју способности компјутера за обраду природног језика и машинско учење.

Приступи и методе[уреди | уреди извор]

Постоје два главна приступа ВСД-у – дубоки приступи и плитки приступи.

Дубоки приступи претпостављају приступ свеобухватном корпусу светског знања. Ови приступи се генерално не сматрају веома успешним у пракси, углавном зато што такав корпус знања не постоји у компјутерски читљивом формату, изван веома ограничених домена.[1] Поред тога, због дуге традиције у рачунарској лингвистици, покушаја таквих приступа у смислу кодираног знања и у неким случајевима, може бити тешко направити разлику између знања укљученог у лингвистичко или светско знање. Први покушај је био од стране Маргарет Мастерман и њених колега, у јединици за истраживање језика у Кембриџу у Енглеској током 1950-их. Овај покушај је као податке користио верзију Рогетовог тезауруса на бушеним картицама и његове нумерисане „главе“, као индикатор тема и тражио је понављања у тексту, користећи постављени алгоритам пресека. То није било веома успешно,[2] али је имало снажне везе са каснијим радом, посебно са Јаровскијевом оптимизацијом машинског учења тезаурусним методом током 1990-их.

Плитки приступи не покушавају да разумеју текст, већ узимају у обзир околне речи. Компјутер може аутоматски да изведе ова правила, користећи корпус речи за обуку означених њиховим осетним речи. Овај приступ, иако теоретски није једнако моћан као дубоки приступи, даје супериорне резултате у пракси, због ограниченог знања рачунара о свету.

Постоје четири конвенционална приступа ВСД-у:

Скоро сви ови приступи функционишу тако што дефинишу прозор од н речи садржаја око сваке речи која треба да се разјасни у корпусу и статистички анализирају тих н околних речи. Два плитка приступа која се користе за обучавање, а затим разјашњавање су наивни Бајесови класификатори и стабла одлучивања. У недавним истраживањима, методе засноване на кернелу, као што су методе потпорних вектора, показале су супериорне перформансе у надгледаном учењу. Приступи засновани на графовима такође су привукли велику пажњу истраживачке заједнице и тренутно постижу перформансе блиске последњој речи технологије.

Методе засноване на речнику и знању[уреди | уреди извор]

Лесков алгоритам[3] је семинални метод базиран на речнику. Заснива се на хипотези да су речи које се користе заједно у тексту повезане једна са другом и да се однос може уочити у дефиницијама речи и њиховом смислу. Смисао две (или више) речи се може разјаснити проналажењем пара значења у речнику са највећим преклапањем речи у њиховим речничким дефиницијама. На пример, када се раздвоје речи „борова шишарка”, дефиниције одговарајућих значења укључују речи зимзелено и дрво (барем у једном речнику). Сличан приступ[4] тражи најкраћи пут између две речи: друга реч се итеративно претражује међу дефиницијама сваке семантичке варијанте прве речи, затим међу дефиницијама сваке семантичке варијанте сваке речи у претходним дефиницијама и тако даље. Коначно, прва реч је раздвојена избором семантичке варијанте која минимизира растојање од прве до друге речи.

Алтернатива употреби дефиниција је разматрање опште сродности речи-смисла и израчунавање семантичке сличности сваког пара значења речи на основу дате лексичке базе знања као што је WордНет. Методе засноване на графиконима, које подсећају на истраживања ширеће активације из раних дана истраживања вештачке интелигенције, примењене су са одређеним успехом. Показало се да сложенији приступи засновани на графовима раде скоро једнако добро као и надгледане методе[5] или их чак надмашују у појединим доменима.[6][7] Недавно је објављено да једноставне мере повезивања графова, као што је степен, обављају најсавременији WСД у присуству довољно богате базе лексичког знања.[8] Такође, показало се да аутоматски пренос знања у облику семантичких односа са Википедије на WордНет подстиче једноставне методе засноване на знању, омогућавајући им да се такмиче са најбољим надгледаним системима, те чак и да их надмашују у специфичним доменским окружењима.[9]

Употреба преференција за избор (или ограничења избора) је такође корисна, на пример, знајући да се обично кува храна, реч бас се може раздвојити у „Ја кувам гргеча“.

Надзиране методе[уреди | уреди извор]

Надзиране методе су засноване на претпоставци да контекст може сам по себи пружити довољно доказа да се разазнају значења речи (дакле, здрав разум и резоновање се сматрају непотребним). Вероватно је сваки алгоритам машинског учења примењен на WСД, укључујући повезане технике као што су избор карактеристика, оптимизација параметара и ансамбалско учење. Методе потпорних вектора и учење засновано на меморији су се показали као најуспешнији приступи до сада, вероватно зато што могу да се носе са високодимензионалношћу простора карактеристика. Међутим, ове надгледане методе су подложне новом уском грлу у стицању знања јер се за обуку ослањају на знатне количине ручно означених корпуса, чије је креирање напорно и скупо.

Полунадзиране методе[уреди | уреди извор]

Због недостатка података за обуку, многи алгоритми за разазначавање смисла речи користе полунадгледано учење, које омогућава и означене и неозначене податке. Алгоритам Јаровског је био рани пример таквог алгоритма.[10] Он користи својства „Један смисао по колокацији“ и „Један смисао по дискурсу“ људских језика за разјашњавање смисла речи. Из посматрања произилази да речи имају тенденцију да испољавају само једно значење у већини датог дискурса и на датој колокацији.[11]

Бутстрапинг приступ почиње од мале количине почетних података за сваку реч: било ручно означених примера за тренинг или малог броја поузданих правила одлучивања (нпр. 'свирање' у контексту 'баса' скоро увек указује на музички инструмент). Семе се користи за обуку почетног класификатора, користећи било коју надзирану методу. Овај класификатор се затим користи на неозначеном делу корпуса за издвајање већег скупа за обуку, у који су укључене само најпоузданије класификације. Процес се понавља, сваки нови класификатор се обучава на сукцесивно већем корпусу обуке, све док се цео корпус не обухвати или док се не достигне дати максимални број итерација.

Методе без надзора[уреди | уреди извор]

Учење без надзора је највећи изазов за WСД истраживаче. Основна претпоставка је да се слична значења јављају у сличним контекстима, и да се смислови могу индуковати из текста груписањем појављивања речи користећи неку меру сличности контекста,[12] задатак који се назива индукција смисла речи или дискриминација. Затим се нове појаве речи могу класификовати у најближе индуковане кластере/чула. Перформансе су биле ниже него код других метода описаних изнад, мада су поређења тешка пошто индуковани смислови морају бити мапирани у познати речник значења речи. Ако мапирање на скуп речничких значења није пожељно, могу се извршити евалуације засноване на кластерима (укључујући мере ентропије и чистоће). Алтернативно, методе индукције смисла речи могу се тестирати и поредити у оквиру апликације. На пример, показало се да индукција смисла речи побољшава груписање резултата веб претраге повећањем квалитета кластера резултата и степена диверсификације листа резултата.[13][14] Очекује се да ће учење без надзора превазићи уско грло у стицању знања јер оно не зависи од мануелног доприноса.

Представљање речи узимајући у обзир њихов контекст кроз густе векторе фиксне величине (уграђивање речи) постало је један од најосновнијих блокова у неколико НЛП система.[15][16][17] Иако већина традиционалних техника уграђивања речи спаја речи са више значења у један векторски приказ, оне се и даље могу користити за побољшање WСД-а.[18] Једноставан приступ коришћењу унапред израчунатих уградњи речи за представљање смисла речи је израчунавање центоида кластера значења.[19][20] Поред техника уграђивања речи, лексичке базе података (нпр. WордНет, ЦонцептНет, БабелНет) такође могу помоћи системима без надзора у мапирању речи и њихових значења у речнике. Неке технике које комбинују лексичке базе података и уграђивање речи представљене су у АутоЕxтенд[21][22] и Анотацији најприкладнијег смисла (МССА).[23] У АутоЕxтенд-у,[22] они представљају метод који раздваја улазну репрезентацију објекта у његова својства, као што су речи и њихова значења речи. АутоЕxтенд користи структуру графа за мапирање објеката речи (нпр. текст) и неречи (нпр. синсетови у WордНет-у) као чворове и однос између чворова као ивице. Релације (ивице) у АутоЕxтенд-у могу или да изразе додавање или сличност између његових чворова. Први обухвата интуицију иза рачуна офсета,[15] док други дефинише сличност између два чвора. У МССА,[23] систем разјашњавања без надзора користи сличност између значења речи у прозору фиксног контекста да би одабрао најприкладнији смисао речи користећи унапред обучени модел за уграђивање речи и WордНет. За сваки прозор контекста, МССА израчунава тежиште сваке дефиниције смисла речи усредњавањем вектора речи у WордНет-овим глосама (тј. кратко дефинисање глоса и један или више примера употребе) користећи унапред обучени модел за уграђивање речи. Ови центри се касније користе за одабир смисла речи са највећом сличношћу циљне речи са њеним непосредно суседним суседима (тј. претходним и следећим речима). Након што су све речи означене и раздвојене, могу се користити као корпус за обуку у било којој стандардној техници уграђивања речи. У својој побољшаној верзији, МССА може да користи уградњу смисла речи да би поновио свој процес разјашњавања итеративно.

Други приступи[уреди | уреди извор]

Други приступи се могу разликовати у својим методама:

Други језици[уреди | уреди извор]

  • Хинди: Недостатак лексичких ресурса на хиндском је ометао перформансе надгледаних модела WСД-а, док ненадгледани модели пате због обимне морфологије. Могуће решење овог проблема је пројектовање WСД модела помоћу паралелних корпуса.[32][33] Стварање Хинди WордНет-а[34] утрло је пут за неколико надгледаних метода за које је доказано да производе већу прецизност у разјашњавању именица.[35]

Софтвер[уреди | уреди извор]

  • Бабелфy,[36] уједињени савремени систем за вишејезично разазнавање значења речи и повезивање ентитета
  • БабелНет АПИ,[37] Јава АПИ за вишејезичну базу знања Wорд Сенсе Дисамбигуатион на 6 различитих језика користећи БабелНет семантичку мрежу
  • WордНет::СенсеРелате,[38] пројекат који укључује бесплатне системе отвореног кода за разјашњавање смисла речи и разазначавање смисла лексичких узорака
  • УКБ: Грапх Басе WСД,[39] колекција програма за разјашњавања смисла речи заснованог на графовима и лексичкој сличности/сродности користећи већ постојећу Лексичку базу знања[40]
  • пyWСД,[41] питонове имплементације технологија за разазначавање значења речи (WСД)

Референце[уреди | уреди извор]

  1. ^ Ленат & Гуха 1989.
  2. ^ Wилкс, Слатор & Гутхрие 1996.
  3. ^ Леск 1986, стр. 24–26.
  4. ^ Диамантини, C.; Мирцоли, А.; Потена, D.; Сторти, Е. (2015-06-01). „Семантиц дисамбигуатион ин а социал информатион дисцоверy сyстем”. 2015 Интернатионал Цонференце он Цоллаборатион Тецхнологиес анд Сyстемс (ЦТС). стр. 326—333. ИСБН 978-1-4673-7647-1. С2ЦИД 13260353. дои:10.1109/ЦТС.2015.7210442. 
  5. ^ Навигли & Веларди 2005, стр. 1063–1074.
  6. ^ Навигли, Литкоwски & Харгравес 2007, стр. 30–35.
  7. ^ Агирре, Лопез де Лацалле & Сороа 2009, стр. 1501–1506.
  8. ^ Навигли & Лапата 2010, стр. 678–692.
  9. ^ Понзетто & Навигли 2010, стр. 1522–1531.
  10. ^ Yароwскy 1995, стр. 189–196.
  11. ^ Митков, Руслан (2004). „13.5.3 Тwо цлаимс абоут сенсес”. Тхе Оxфорд Хандбоок оф Цомпутатионал Лингуистицс (на језику: енглески). ОУП. стр. 257. ИСБН 978-0-19-927634-9. Архивирано из оригинала 2022-02-22. г. Приступљено 2022-02-22. 
  12. ^ Сцхüтзе 1998, стр. 97–123.
  13. ^ Навигли & Црисафулли 2010.
  14. ^ Ди Марцо & Навигли 2013.
  15. ^ а б Миколов, Томас; Цхен, Каи; Цоррадо, Грег; Деан, Јеффреy (2013-01-16). „Еффициент Естиматион оф Wорд Репресентатионс ин Вецтор Спаце”. арXив:1301.3781Слободан приступ [цс.CL]. 
  16. ^ Пеннингтон, Јеффреy; Соцхер, Рицхард; Маннинг, Цхристопхер (2014). „Глове: Глобал Вецторс фор Wорд Репресентатион”. Процеедингс оф тхе 2014 Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг (ЕМНЛП). Строудсбург, ПА, УСА: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1532—1543. С2ЦИД 1957433. дои:10.3115/в1/д14-1162Слободан приступ. 
  17. ^ Бојаноwски, Пиотр; Граве, Едоуард; Јоулин, Арманд; Миколов, Томас (децембар 2017). „Енрицхинг Wорд Вецторс wитх Субwорд Информатион”. Трансацтионс оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. 5: 135—146. ИССН 2307-387X. арXив:1607.04606Слободан приступ. дои:10.1162/тацл_а_00051Слободан приступ. 
  18. ^ Иацобацци, Игнацио; Пилехвар, Мохаммад Тахер; Навигли, Роберто (2016). „Ембеддингс фор Wорд Сенсе Дисамбигуатион: Ан Евалуатион Студy”. Процеедингс оф тхе 54тх Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс (Волуме 1: Лонг Паперс). Берлин, Германy: Ассоциатион фор Цомпутатионал Лингуистицс: 897—907. дои:10.18653/в1/П16-1085Слободан приступ. хдл:11573/936571Слободан приступ. Архивирано из оригинала 2019-10-28. г. Приступљено 2019-10-28. 
  19. ^ Бхингардиве, Судха; Сингх, Дхирендра; V, Рудрамуртхy; Редкар, Ханумант; Бхаттацхарyyа, Пусхпак (2015). „Унсупервисед Мост Фреqуент Сенсе Детецтион усинг Wорд Ембеддингс”. Процеедингс оф тхе 2015 Цонференце оф тхе Нортх Америцан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс: Хуман Лангуаге Тецхнологиес. Денвер, Цолорадо: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1238—1243. С2ЦИД 10778029. дои:10.3115/в1/Н15-1132. Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21. 
  20. ^ Бутнару, Андреи; Ионесцу, Раду Тудор; Христеа, Флорентина (2017). „СхотгунWСД: Ан унсупервисед алгоритхм фор глобал wорд сенсе дисамбигуатион инспиред бy ДНА сеqуенцинг”. Процеедингс оф тхе 15тх Цонференце оф тхе Еуропеан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс (на језику: енглески): 916—926. арXив:1707.08084Слободан приступ. Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21. 
  21. ^ Ротхе, Сасцха; Сцхüтзе, Хинрицх (2015). „АутоЕxтенд: Еxтендинг Wорд Ембеддингс то Ембеддингс фор Сyнсетс анд Леxемес”. Волуме 1: Лонг Паперс. Ассоциатион фор Цомпутатионал Лингуистицс анд тхе Интернатионал Јоинт Цонференце он Натурал Лангуаге Процессинг. Процеедингс оф тхе 53рд Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс анд тхе 7тх Интернатионал Јоинт Цонференце он Натурал Лангуаге Процессинг. Строудсбург, Пеннсyлваниа, УСА: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1793—1803. Бибцоде:2015арXив150701127Р. С2ЦИД 15687295. арXив:1507.01127Слободан приступ. дои:10.3115/в1/п15-1173. 
  22. ^ а б Ротхе, Сасцха; Сцхüтзе, Хинрицх (септембар 2017). „АутоЕxтенд: Цомбининг Wорд Ембеддингс wитх Семантиц Ресоурцес”. Цомпутатионал Лингуистицс. 43 (3): 593—617. ИССН 0891-2017. дои:10.1162/цоли_а_00294Слободан приступ. 
  23. ^ а б Руас, Террy; Гроскy, Wиллиам; Аизаwа, Акико (децембар 2019). „Мулти-сенсе ембеддингс тхроугх а wорд сенсе дисамбигуатион процесс”. Еxперт Сyстемс wитх Апплицатионс. 136: 288—303. С2ЦИД 52225306. арXив:2101.08700Слободан приступ. дои:10.1016/ј.есwа.2019.06.026. хдл:2027.42/145475Слободан приступ. 
  24. ^ Глиоззо, Магнини & Страппарава 2004, стр. 380–387.
  25. ^ Буителаар ет ал. 2006, стр. 275–298.
  26. ^ МцЦартхy ет ал. 2007, стр. 553–590.
  27. ^ Мохаммад & Хирст 2006, стр. 121–128.
  28. ^ Лапата & Келлер 2007, стр. 348–355.
  29. ^ Иде, Ерјавец & Туфис 2002, стр. 54–60.
  30. ^ Цхан & Нг 2005, стр. 1037–1042.
  31. ^ Схиебер, Стуарт M. (1992). Цонстраинт-басед Граммар Формалисмс: Парсинг анд Тyпе Инференце фор Натурал анд Цомпутер Лангуагес (на језику: енглески). Массацхусеттс: МИТ Пресс. ИСБН 978-0-262-19324-5. Архивирано из оригинала 2023-07-15. г. Приступљено 2018-12-23. 
  32. ^ Бхаттацхарyа, Индрајит, Лисе Гетоор, анд Yосхуа Бенгио. Унсупервисед сенсе дисамбигуатион усинг билингуал пробабилистиц моделс Архивирано 2016-01-09 на сајту Wayback Machine. Процеедингс оф тхе 42нд Аннуал Меетинг он Ассоциатион фор Цомпутатионал Лингуистицс. Ассоциатион фор Цомпутатионал Лингуистицс, 2004.
  33. ^ Диаб, Мона, анд Пхилип Ресник. Ан унсупервисед метход фор wорд сенсе таггинг усинг параллел цорпора Архивирано 2016-03-04 на сајту Wayback Machine. Процеедингс оф тхе 40тх Аннуал Меетинг он Ассоциатион фор Цомпутатионал Лингуистицс. Ассоциатион фор Цомпутатионал Лингуистицс, 2002.
  34. ^ Хинди WордНет
  35. ^ Манисх Синха, Махесх Кумар, Прабхакар Панде, Лаxми Касхyап, анд Пусхпак Бхаттацхарyyа. Хинди wорд сенсе дисамбигуатион Архивирано 2016-03-04 на сајту Wayback Machine. Ин Интернатионал Сyмпосиум он Мацхине Транслатион, Натурал Лангуаге Процессинг анд Транслатион Суппорт Сyстемс, Делхи, Индиа, 2004.
  36. ^ „Бабелфy”. Бабелфy. Архивирано из оригинала 2014-08-08. г. Приступљено 2018-03-22. 
  37. ^ „БабелНет АПИ”. Бабелнет.орг. Архивирано из оригинала 2018-03-22. г. Приступљено 2018-03-22. 
  38. ^ „WордНет::СенсеРелате”. Сенсерелате.соурцефорге.нет. Архивирано из оригинала 2018-03-21. г. Приступљено 2018-03-22. 
  39. ^ „УКБ: Грапх Басе WСД”. Иxа2.си.еху.ес. Архивирано из оригинала 2018-03-12. г. Приступљено 2018-03-22. 
  40. ^ „Леxицал Кноwледге Басе (ЛКБ)”. Моин.делпх-ин.нет. 2018-02-05. Архивирано из оригинала 2018-03-09. г. Приступљено 2018-03-22. 
  41. ^ алватионс. „пyWСД”. Гитхуб.цом. Архивирано из оригинала 2018-06-11. г. Приступљено 2018-03-22. 

Литература[уреди | уреди извор]

Спољашње везе[уреди | уреди извор]