Разјашњавање смисла речи

Разјашњавање смисла речи (Wорд-сенсе дисамбигуатион, WСД) је процес идентификације смисла речи на који се мисли у реченици или другом сегменту датог контекста. У обради и спознаји људског језика, то је обично подсвесно/аутоматско, али често може доћи до свесне пажње када двосмисленост нарушава јасноћу комуникације, с обзиром на свеприсутну полисемију у природном језику. У рачунарској лингвистици, то је отворени проблем који утиче на друго писање везано за рачунар, као што је дискурс, побољшање релевантности претраживача, резолуција анафоре, кохерентност и закључивање.

С обзиром на то да природни језик захтева одраз неуролошке стварности, као што је обликовано способностима које пружају неуронске мреже мозга, рачунарска наука је имала дугорочни изазов у развоју способности компјутера за обраду природног језика и машинско учење.

Приступи и методе[уреди | уреди извор]

Постоје два главна приступа ВСД-у – дубоки приступи и плитки приступи.

Дубоки приступи претпостављају приступ свеобухватном корпусу светског знања. Ови приступи се генерално не сматрају веома успешним у пракси, углавном зато што такав корпус знања не постоји у компјутерски читљивом формату, изван веома ограничених домена.^[1] Поред тога, због дуге традиције у рачунарској лингвистици, покушаја таквих приступа у смислу кодираног знања и у неким случајевима, може бити тешко направити разлику између знања укљученог у лингвистичко или светско знање. Први покушај је био од стране Маргарет Мастерман и њених колега, у јединици за истраживање језика у Кембриџу у Енглеској током 1950-их. Овај покушај је као податке користио верзију Рогетовог тезауруса на бушеним картицама и његове нумерисане „главе“, као индикатор тема и тражио је понављања у тексту, користећи постављени алгоритам пресека. То није било веома успешно,^[2] али је имало снажне везе са каснијим радом, посебно са Јаровскијевом оптимизацијом машинског учења тезаурусним методом током 1990-их.

Плитки приступи не покушавају да разумеју текст, већ узимају у обзир околне речи. Компјутер може аутоматски да изведе ова правила, користећи корпус речи за обуку означених њиховим осетним речи. Овај приступ, иако теоретски није једнако моћан као дубоки приступи, даје супериорне резултате у пракси, због ограниченог знања рачунара о свету.

Постоје четири конвенционална приступа ВСД-у:

Методе засноване на речницима и знању: Оне се првенствено ослањају на речнике, тезаурусе и лексичке базе знања, без употребе било каквог корпуса доказа.
Полу-надзиране или минимално надгледане методе: Оне користе секундарни извор знања као што је мали анотирани корпус као почетни подаци у процесу покретања, или двојезични прилагођени корпус.
Надзиране методе: Оне користе смисаоно обележене корпусе за обуку.
Методе без надзора: Ове методе избегавају (скоро) потпуно спољне информације и раде директно из необрађених корпуса без коментара. Ове методе су такође познате под називом дискриминација по смислу речи.

Скоро сви ови приступи функционишу тако што дефинишу прозор од н речи садржаја око сваке речи која треба да се разјасни у корпусу и статистички анализирају тих н околних речи. Два плитка приступа која се користе за обучавање, а затим разјашњавање су наивни Бајесови класификатори и стабла одлучивања. У недавним истраживањима, методе засноване на кернелу, као што су методе потпорних вектора, показале су супериорне перформансе у надгледаном учењу. Приступи засновани на графовима такође су привукли велику пажњу истраживачке заједнице и тренутно постижу перформансе блиске последњој речи технологије.

Методе засноване на речнику и знању[уреди | уреди извор]

Лесков алгоритам^[3] је семинални метод базиран на речнику. Заснива се на хипотези да су речи које се користе заједно у тексту повезане једна са другом и да се однос може уочити у дефиницијама речи и њиховом смислу. Смисао две (или више) речи се може разјаснити проналажењем пара значења у речнику са највећим преклапањем речи у њиховим речничким дефиницијама. На пример, када се раздвоје речи „борова шишарка”, дефиниције одговарајућих значења укључују речи зимзелено и дрво (барем у једном речнику). Сличан приступ^[4] тражи најкраћи пут између две речи: друга реч се итеративно претражује међу дефиницијама сваке семантичке варијанте прве речи, затим међу дефиницијама сваке семантичке варијанте сваке речи у претходним дефиницијама и тако даље. Коначно, прва реч је раздвојена избором семантичке варијанте која минимизира растојање од прве до друге речи.

Алтернатива употреби дефиниција је разматрање опште сродности речи-смисла и израчунавање семантичке сличности сваког пара значења речи на основу дате лексичке базе знања као што је WордНет. Методе засноване на графиконима, које подсећају на истраживања ширеће активације из раних дана истраживања вештачке интелигенције, примењене су са одређеним успехом. Показало се да сложенији приступи засновани на графовима раде скоро једнако добро као и надгледане методе^[5] или их чак надмашују у појединим доменима.^[6]^[7] Недавно је објављено да једноставне мере повезивања графова, као што је степен, обављају најсавременији WСД у присуству довољно богате базе лексичког знања.^[8] Такође, показало се да аутоматски пренос знања у облику семантичких односа са Википедије на WордНет подстиче једноставне методе засноване на знању, омогућавајући им да се такмиче са најбољим надгледаним системима, те чак и да их надмашују у специфичним доменским окружењима.^[9]

Употреба преференција за избор (или ограничења избора) је такође корисна, на пример, знајући да се обично кува храна, реч бас се може раздвојити у „Ја кувам гргеча“.

Надзиране методе[уреди | уреди извор]

Надзиране методе су засноване на претпоставци да контекст може сам по себи пружити довољно доказа да се разазнају значења речи (дакле, здрав разум и резоновање се сматрају непотребним). Вероватно је сваки алгоритам машинског учења примењен на WСД, укључујући повезане технике као што су избор карактеристика, оптимизација параметара и ансамбалско учење. Методе потпорних вектора и учење засновано на меморији су се показали као најуспешнији приступи до сада, вероватно зато што могу да се носе са високодимензионалношћу простора карактеристика. Међутим, ове надгледане методе су подложне новом уском грлу у стицању знања јер се за обуку ослањају на знатне количине ручно означених корпуса, чије је креирање напорно и скупо.

Полунадзиране методе[уреди | уреди извор]

Због недостатка података за обуку, многи алгоритми за разазначавање смисла речи користе полунадгледано учење, које омогућава и означене и неозначене податке. Алгоритам Јаровског је био рани пример таквог алгоритма.^[10] Он користи својства „Један смисао по колокацији“ и „Један смисао по дискурсу“ људских језика за разјашњавање смисла речи. Из посматрања произилази да речи имају тенденцију да испољавају само једно значење у већини датог дискурса и на датој колокацији.^[11]

Бутстрапинг приступ почиње од мале количине почетних података за сваку реч: било ручно означених примера за тренинг или малог броја поузданих правила одлучивања (нпр. 'свирање' у контексту 'баса' скоро увек указује на музички инструмент). Семе се користи за обуку почетног класификатора, користећи било коју надзирану методу. Овај класификатор се затим користи на неозначеном делу корпуса за издвајање већег скупа за обуку, у који су укључене само најпоузданије класификације. Процес се понавља, сваки нови класификатор се обучава на сукцесивно већем корпусу обуке, све док се цео корпус не обухвати или док се не достигне дати максимални број итерација.

Методе без надзора[уреди | уреди извор]

Учење без надзора је највећи изазов за WСД истраживаче. Основна претпоставка је да се слична значења јављају у сличним контекстима, и да се смислови могу индуковати из текста груписањем појављивања речи користећи неку меру сличности контекста,^[12] задатак који се назива индукција смисла речи или дискриминација. Затим се нове појаве речи могу класификовати у најближе индуковане кластере/чула. Перформансе су биле ниже него код других метода описаних изнад, мада су поређења тешка пошто индуковани смислови морају бити мапирани у познати речник значења речи. Ако мапирање на скуп речничких значења није пожељно, могу се извршити евалуације засноване на кластерима (укључујући мере ентропије и чистоће). Алтернативно, методе индукције смисла речи могу се тестирати и поредити у оквиру апликације. На пример, показало се да индукција смисла речи побољшава груписање резултата веб претраге повећањем квалитета кластера резултата и степена диверсификације листа резултата.^[13]^[14] Очекује се да ће учење без надзора превазићи уско грло у стицању знања јер оно не зависи од мануелног доприноса.

Представљање речи узимајући у обзир њихов контекст кроз густе векторе фиксне величине (уграђивање речи) постало је један од најосновнијих блокова у неколико НЛП система.^[15]^[16]^[17] Иако већина традиционалних техника уграђивања речи спаја речи са више значења у један векторски приказ, оне се и даље могу користити за побољшање WСД-а.^[18] Једноставан приступ коришћењу унапред израчунатих уградњи речи за представљање смисла речи је израчунавање центоида кластера значења.^[19]^[20] Поред техника уграђивања речи, лексичке базе података (нпр. WордНет, ЦонцептНет, БабелНет) такође могу помоћи системима без надзора у мапирању речи и њихових значења у речнике. Неке технике које комбинују лексичке базе података и уграђивање речи представљене су у АутоЕxтенд-у^[21]^[22] и Анотацији најприкладнијег смисла (МССА).^[23] У АутоЕxтенд-у,^[22] они представљају метод који раздваја улазну репрезентацију објекта у његова својства, као што су речи и њихова значења речи. АутоЕxтенд користи структуру графа за мапирање објеката речи (нпр. текст) и неречи (нпр. синсетови у WордНет-у) као чворове и однос између чворова као ивице. Релације (ивице) у АутоЕxтенд-у могу или да изразе додавање или сличност између његових чворова. Први обухвата интуицију иза рачуна офсета,^[15] док други дефинише сличност између два чвора. У МССА,^[23] систем разјашњавања без надзора користи сличност између значења речи у прозору фиксног контекста да би одабрао најприкладнији смисао речи користећи унапред обучени модел за уграђивање речи и WордНет. За сваки прозор контекста, МССА израчунава тежиште сваке дефиниције смисла речи усредњавањем вектора речи у WордНет-овим глосама (тј. кратко дефинисање глоса и један или више примера употребе) користећи унапред обучени модел за уграђивање речи. Ови центри се касније користе за одабир смисла речи са највећом сличношћу циљне речи са њеним непосредно суседним суседима (тј. претходним и следећим речима). Након што су све речи означене и раздвојене, могу се користити као корпус за обуку у било којој стандардној техници уграђивања речи. У својој побољшаној верзији, МССА може да користи уградњу смисла речи да би поновио свој процес разјашњавања итеративно.

Други приступи[уреди | уреди извор]

Други приступи се могу разликовати у својим методама:

Вишезначност вођена доменом;^[24]^[25]
Идентификација доминантних значења речи;^[26]^[27]^[28]
WСД користећи вишејезичне доказе.^[29]^[30]
WСД решење у језички независном НЛУ Џона Бала, комбинујући Патом теорију и РРГ (улога и референтна граматика)
Типско закључивање у граматикама заснованим на ограничењима.^[31]

Други језици[уреди | уреди извор]

Хинди: Недостатак лексичких ресурса на хиндском је ометао перформансе надгледаних модела WСД-а, док ненадгледани модели пате због обимне морфологије. Могуће решење овог проблема је пројектовање WСД модела помоћу паралелних корпуса.^[32]^[33] Стварање Хинди WордНет-а^[34] утрло је пут за неколико надгледаних метода за које је доказано да производе већу прецизност у разјашњавању именица.^[35]

Софтвер[уреди | уреди извор]

Бабелфy,^[36] уједињени савремени систем за вишејезично разазнавање значења речи и повезивање ентитета
БабелНет АПИ,^[37] Јава АПИ за вишејезичну базу знања Wорд Сенсе Дисамбигуатион на 6 различитих језика користећи БабелНет семантичку мрежу
WордНет::СенсеРелате,^[38] пројекат који укључује бесплатне системе отвореног кода за разјашњавање смисла речи и разазначавање смисла лексичких узорака
УКБ: Грапх Басе WСД,^[39] колекција програма за разјашњавања смисла речи заснованог на графовима и лексичкој сличности/сродности користећи већ постојећу Лексичку базу знања^[40]
пyWСД,^[41] питонове имплементације технологија за разазначавање значења речи (WСД)

Референце[уреди | уреди извор]

^ Ленат & Гуха 1989.
^ Wилкс, Слатор & Гутхрие 1996.
^ Леск 1986, стр. 24–26.
^ Диамантини, C.; Мирцоли, А.; Потена, D.; Сторти, Е. (2015-06-01). „Семантиц дисамбигуатион ин а социал информатион дисцоверy сyстем”. 2015 Интернатионал Цонференце он Цоллаборатион Тецхнологиес анд Сyстемс (ЦТС). стр. 326—333. ИСБН 978-1-4673-7647-1. С2ЦИД 13260353. дои:10.1109/ЦТС.2015.7210442.
^ Навигли & Веларди 2005, стр. 1063–1074.
^ Навигли, Литкоwски & Харгравес 2007, стр. 30–35.
^ Агирре, Лопез де Лацалле & Сороа 2009, стр. 1501–1506.
^ Навигли & Лапата 2010, стр. 678–692.
^ Понзетто & Навигли 2010, стр. 1522–1531.
^ Yароwскy 1995, стр. 189–196.
^ Митков, Руслан (2004). „13.5.3 Тwо цлаимс абоут сенсес”. Тхе Оxфорд Хандбоок оф Цомпутатионал Лингуистицс (на језику: енглески). ОУП. стр. 257. ИСБН 978-0-19-927634-9. Архивирано из оригинала 2022-02-22. г. Приступљено 2022-02-22.
^ Сцхüтзе 1998, стр. 97–123.
^ Навигли & Црисафулли 2010.
^ Ди Марцо & Навигли 2013.
^ ^а ^б Миколов, Томас; Цхен, Каи; Цоррадо, Грег; Деан, Јеффреy (2013-01-16). „Еффициент Естиматион оф Wорд Репресентатионс ин Вецтор Спаце”. арXив:1301.3781  [цс.CL].
^ Пеннингтон, Јеффреy; Соцхер, Рицхард; Маннинг, Цхристопхер (2014). „Глове: Глобал Вецторс фор Wорд Репресентатион”. Процеедингс оф тхе 2014 Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг (ЕМНЛП). Строудсбург, ПА, УСА: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1532—1543. С2ЦИД 1957433. дои:10.3115/в1/д14-1162 .
^ Бојаноwски, Пиотр; Граве, Едоуард; Јоулин, Арманд; Миколов, Томас (децембар 2017). „Енрицхинг Wорд Вецторс wитх Субwорд Информатион”. Трансацтионс оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. 5: 135—146. ИССН 2307-387X. арXив:1607.04606 . дои:10.1162/тацл_а_00051 .
^ Иацобацци, Игнацио; Пилехвар, Мохаммад Тахер; Навигли, Роберто (2016). „Ембеддингс фор Wорд Сенсе Дисамбигуатион: Ан Евалуатион Студy”. Процеедингс оф тхе 54тх Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс (Волуме 1: Лонг Паперс). Берлин, Германy: Ассоциатион фор Цомпутатионал Лингуистицс: 897—907. дои:10.18653/в1/П16-1085 . хдл:11573/936571 . Архивирано из оригинала 2019-10-28. г. Приступљено 2019-10-28.
^ Бхингардиве, Судха; Сингх, Дхирендра; V, Рудрамуртхy; Редкар, Ханумант; Бхаттацхарyyа, Пусхпак (2015). „Унсупервисед Мост Фреqуент Сенсе Детецтион усинг Wорд Ембеддингс”. Процеедингс оф тхе 2015 Цонференце оф тхе Нортх Америцан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс: Хуман Лангуаге Тецхнологиес. Денвер, Цолорадо: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1238—1243. С2ЦИД 10778029. дои:10.3115/в1/Н15-1132. Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21.
^ Бутнару, Андреи; Ионесцу, Раду Тудор; Христеа, Флорентина (2017). „СхотгунWСД: Ан унсупервисед алгоритхм фор глобал wорд сенсе дисамбигуатион инспиред бy ДНА сеqуенцинг”. Процеедингс оф тхе 15тх Цонференце оф тхе Еуропеан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс (на језику: енглески): 916—926. арXив:1707.08084 . Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21.
^ Ротхе, Сасцха; Сцхüтзе, Хинрицх (2015). „АутоЕxтенд: Еxтендинг Wорд Ембеддингс то Ембеддингс фор Сyнсетс анд Леxемес”. Волуме 1: Лонг Паперс. Ассоциатион фор Цомпутатионал Лингуистицс анд тхе Интернатионал Јоинт Цонференце он Натурал Лангуаге Процессинг. Процеедингс оф тхе 53рд Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс анд тхе 7тх Интернатионал Јоинт Цонференце он Натурал Лангуаге Процессинг. Строудсбург, Пеннсyлваниа, УСА: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1793—1803. Бибцоде:2015арXив150701127Р. С2ЦИД 15687295. арXив:1507.01127 . дои:10.3115/в1/п15-1173.
^ ^а ^б Ротхе, Сасцха; Сцхüтзе, Хинрицх (септембар 2017). „АутоЕxтенд: Цомбининг Wорд Ембеддингс wитх Семантиц Ресоурцес”. Цомпутатионал Лингуистицс. 43 (3): 593—617. ИССН 0891-2017. дои:10.1162/цоли_а_00294 .
^ ^а ^б Руас, Террy; Гроскy, Wиллиам; Аизаwа, Акико (децембар 2019). „Мулти-сенсе ембеддингс тхроугх а wорд сенсе дисамбигуатион процесс”. Еxперт Сyстемс wитх Апплицатионс. 136: 288—303. С2ЦИД 52225306. арXив:2101.08700 . дои:10.1016/ј.есwа.2019.06.026. хдл:2027.42/145475 .
^ Глиоззо, Магнини & Страппарава 2004, стр. 380–387.
^ Буителаар ет ал. 2006, стр. 275–298.
^ МцЦартхy ет ал. 2007, стр. 553–590.
^ Мохаммад & Хирст 2006, стр. 121–128.
^ Лапата & Келлер 2007, стр. 348–355.
^ Иде, Ерјавец & Туфис 2002, стр. 54–60.
^ Цхан & Нг 2005, стр. 1037–1042.
^ Схиебер, Стуарт M. (1992). Цонстраинт-басед Граммар Формалисмс: Парсинг анд Тyпе Инференце фор Натурал анд Цомпутер Лангуагес (на језику: енглески). Массацхусеттс: МИТ Пресс. ИСБН 978-0-262-19324-5. Архивирано из оригинала 2023-07-15. г. Приступљено 2018-12-23.
^ Бхаттацхарyа, Индрајит, Лисе Гетоор, анд Yосхуа Бенгио. Унсупервисед сенсе дисамбигуатион усинг билингуал пробабилистиц моделс Архивирано 2016-01-09 на сајту Wayback Machine. Процеедингс оф тхе 42нд Аннуал Меетинг он Ассоциатион фор Цомпутатионал Лингуистицс. Ассоциатион фор Цомпутатионал Лингуистицс, 2004.
^ Диаб, Мона, анд Пхилип Ресник. Ан унсупервисед метход фор wорд сенсе таггинг усинг параллел цорпора Архивирано 2016-03-04 на сајту Wayback Machine. Процеедингс оф тхе 40тх Аннуал Меетинг он Ассоциатион фор Цомпутатионал Лингуистицс. Ассоциатион фор Цомпутатионал Лингуистицс, 2002.
^ Хинди WордНет
^ Манисх Синха, Махесх Кумар, Прабхакар Панде, Лаxми Касхyап, анд Пусхпак Бхаттацхарyyа. Хинди wорд сенсе дисамбигуатион Архивирано 2016-03-04 на сајту Wayback Machine. Ин Интернатионал Сyмпосиум он Мацхине Транслатион, Натурал Лангуаге Процессинг анд Транслатион Суппорт Сyстемс, Делхи, Индиа, 2004.
^ „Бабелфy”. Бабелфy. Архивирано из оригинала 2014-08-08. г. Приступљено 2018-03-22.
^ „БабелНет АПИ”. Бабелнет.орг. Архивирано из оригинала 2018-03-22. г. Приступљено 2018-03-22.
^ „WордНет::СенсеРелате”. Сенсерелате.соурцефорге.нет. Архивирано из оригинала 2018-03-21. г. Приступљено 2018-03-22.
^ „УКБ: Грапх Басе WСД”. Иxа2.си.еху.ес. Архивирано из оригинала 2018-03-12. г. Приступљено 2018-03-22.
^ „Леxицал Кноwледге Басе (ЛКБ)”. Моин.делпх-ин.нет. 2018-02-05. Архивирано из оригинала 2018-03-09. г. Приступљено 2018-03-22.
^ алватионс. „пyWСД”. Гитхуб.цом. Архивирано из оригинала 2018-06-11. г. Приступљено 2018-03-22.

Литература[уреди | уреди извор]

Агирре, Е.; Лопез де Лацалле, А.; Сороа, А. (2009). „Кноwледге-басед WСД он Специфиц Домаинс: Перформинг беттер тхан Генериц Супервисед WСД” (ПДФ). Проц. оф ИЈЦАИ.
Агирре, Е.; Стевенсон, M. (2007). „Кноwледге соурцес фор WСД”. Ур.: Агирре, Е.; Едмондс, П. Wорд Сенсе Дисамбигуатион: Алгоритхмс анд Апплицатионс. Неw Yорк: Спрингер. ИСБН 978-1402068706.
Бар-Хиллел, Y. (1964). Лангуаге анд информатион. Реадинг, МА: Аддисон-Wеслеy.
Буителаар, П.; Магнини, Б.; Страппарава, C.; Воссен, П. (2006). „Домаин-специфиц WСД”. Ур.: Агирре, Е.; Едмондс, П. Wорд Сенсе Дисамбигуатион: Алгоритхмс анд Апплицатионс. Неw Yорк: Спрингер.
Цхан, Y. С.; Нг, Х. Т. (2005). Сцалинг уп wорд сенсе дисамбигуатион виа параллел теxтс. Процеедингс оф тхе 20тх Натионал Цонференце он Артифициал Интеллигенце. Питтсбургх: АААИ.
Ди Марцо, А.; Навигли, Р. (2013). „Цлустеринг анд Диверсифyинг Wеб Сеарцх Ресултс wитх Грапх-Басед Wорд Сенсе Индуцтион”. Цомпутатионал Лингуистицс. МИТ Пресс. 39 (3): 709—754. С2ЦИД 1775181. дои:10.1162/ЦОЛИ_а_00148.
Едмондс, П. (2000). „Десигнинг а таск фор СЕНСЕВАЛ-2” (Тецх. ноте). Бригхтон, УК: Университy оф Бригхтон.
Феллбаум, Цхристиане (1997). „Аналyсис оф а хандwритинг таск”. Проц. оф АНЛП-97 Wорксхоп он Таггинг Теxт wитх Леxицал Семантицс: Wхy, Wхат, анд Хоw?. Wасхингтон D.C.
Глиоззо, А.; Магнини, Б.; Страппарава, C. (2004). Унсупервисед домаин релеванце естиматион фор wорд сенсе дисамбигуатион (ПДФ). Процеедингс оф тхе 2004 Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг. Барцелона, Спаин: ЕМНЛП.
Иде, Н.; Ерјавец, Т.; Туфис, D. (2002). Сенсе дисцриминатион wитх параллел цорпора (ПДФ). Процеедингс оф АЦЛ Wорксхоп он Wорд Сенсе Дисамбигуатион: Рецент Суццессес анд Футуре Дирецтионс. Пхиладелпхиа.
Лапата, M.; Келлер, Ф. (2007). Ан информатион ретриевал аппроацх то сенсе ранкинг (ПДФ). Процеедингс оф тхе Хуман Лангуаге Тецхнологy Цонференце оф тхе Нортх Америцан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. Роцхестер, Неw Yорк: ХЛТ-НААЦЛ.
Ленат, D.; Гуха, Р. V. (1989). Буилдинг Ларге Кноwледге-Басед Сyстемс. Аддисон-Wеслеy.
Леск, M. (1986). Аутоматиц сенсе дисамбигуатион усинг мацхине реадабле дицтионариес: Хоw то телл а пине цоне фром ан ице цреам цоне (ПДФ). Проц. оф СИГДОЦ-86: 5тх Интернатионал Цонференце он Сyстемс Доцументатион. Торонто, Цанада.
Литкоwски, К. C. (2005). „Цомпутатионал леxицонс анд дицтионариес”. Ур.: Броwн, К. Р. Енцyцлопаедиа оф Лангуаге анд Лингуистицс (2нд изд.). Оxфорд: Елсевиер Публисхерс.
Магнини, Б.; Цаваглиà, Г. (2000). Интегратинг субјецт фиелд цодес инто WордНет. Процеедингс оф тхе 2нд Цонференце он Лангуаге Ресоурцес анд Евалуатион. Атхенс, Грееце: ЛРЕЦ.
МцЦартхy, D.; Коелинг, Р.; Wеедс, Ј.; Царролл, Ј. (2007). „Унсупервисед ацqуиситион оф предоминант wорд сенсес” (ПДФ). Цомпутатионал Лингуистицс. 33 (4): 553—590. дои:10.1162/цоли.2007.33.4.553.
МцЦартхy, D.; Навигли, Р. (2009). „Тхе Енглисх Леxицал Субститутион Таск” (ПДФ). Лангуаге Ресоурцес анд Евалуатион. Спрингер. 43 (2): 139—159. С2ЦИД 16888516. дои:10.1007/с10579-009-9084-1.
Михалцеа, Р. (април 2007). Усинг Wикипедиа фор Аутоматиц Wорд Сенсе Дисамбигуатион (ПДФ). Проц. оф тхе Нортх Америцан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. Роцхестер, Неw Yорк: НААЦЛ. Архивирано из оригинала (ПДФ) 2008-07-24. г.
Мохаммад, С.; Хирст, Г. (2006). Детермининг wорд сенсе доминанце усинг а тхесаурус (ПДФ). Процеедингс оф тхе 11тх Цонференце он Еуропеан цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. Тренто, Италy: ЕАЦЛ.
Навигли, Р. (2006). Меанингфул Цлустеринг оф Сенсес Хелпс Боост Wорд Сенсе Дисамбигуатион Перформанце (ПДФ). Проц. оф тхе 44тх Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс јоинт wитх тхе 21ст Интернатионал Цонференце он Цомпутатионал Лингуистицс. Сyднеy, Аустралиа: ЦОЛИНГ-АЦЛ. Архивирано из оригинала (ПДФ) 2011-06-29. г.
Навигли, Р.; Црисафулли, Г. (2010). Индуцинг Wорд Сенсес то Импрове Wеб Сеарцх Ресулт Цлустеринг (ПДФ). Проц. оф тхе 2010 Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг. МИТ Стата Центер, Массацхусеттс, УС: ЕМНЛП.
Навигли, Р.; Лапата, M. (2010). „Ан Еxпериментал Студy оф Грапх Цоннецтивитy фор Унсупервисед Wорд Сенсе Дисамбигуатион” (ПДФ). ИЕЕЕ Трансацтионс он Паттерн Аналyсис анд Мацхине Интеллигенце. ИЕЕЕ Пресс. 32 (4): 678—692. ПМИД 20224123. С2ЦИД 1454904. дои:10.1109/ТПАМИ.2009.36.
Навигли, Р.; Литкоwски, К.; Харгравес, О. (2007). СемЕвал-2007 Таск 07: Цоарсе-Граинед Енглисх Алл-Wордс Таск (ПДФ). Проц. оф Семевал-2007 Wорксхоп (СемЕвал), ин тхе 45тх Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. Прагуе, Цзецх Републиц: АЦЛ.
Навигли, Р.; Веларди, П. (2005). „Струцтурал Семантиц Интерцоннецтионс: а Кноwледге-Басед Аппроацх то Wорд Сенсе Дисамбигуатион” (ПДФ). ИЕЕЕ Трансацтионс он Паттерн Аналyсис анд Мацхине Интеллигенце. 27 (7): 1075—1086. ПМИД 16013755. С2ЦИД 12898695. дои:10.1109/ТПАМИ.2005.149.
Палмер, M.; Бабко-Малаyа, О.; Данг, Х. Т. (2004). Дифферент сенсе грануларитиес фор дифферент апплицатионс (ПДФ). Процеедингс оф тхе 2нд Wорксхоп он Сцалабле Натурал Лангуаге Ундерстандинг Сyстемс ин ХЛТ/НААЦЛ. Бостон.
Понзетто, С. П.; Навигли, Р. (2010). Кноwледге-рицх Wорд Сенсе Дисамбигуатион ривалинг супервисед сyстемс (ПДФ). Проц. оф тхе 48тх Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. АЦЛ. Архивирано из оригинала (ПДФ) 2011-09-30. г.
Прадхан, С.; Лопер, Е.; Длигацх, D.; Палмер, M. (2007). СемЕвал-2007 Таск 17: Енглисх леxицал сампле, СРЛ анд алл wордс (ПДФ). Проц. оф Семевал-2007 Wорксхоп (СЕМЕВАЛ), ин тхе 45тх Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. Прагуе, Цзецх Републиц: АЦЛ.
Сцхüтзе, Х. (1998). „Аутоматиц wорд сенсе дисцриминатион” (ПДФ). Цомпутатионал Лингуистицс. 24 (1): 97—123.
Сноw, Р.; Пракасх, С.; Јурафскy, D.; Нг, А. Y. (2007). Леарнинг то Мерге Wорд Сенсес (ПДФ). Процеедингс оф тхе 2007 Јоинт Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг анд Цомпутатионал Натурал Лангуаге Леарнинг. ЕМНЛП-ЦоНЛЛ.
Снyдер, Б.; Палмер, M. (2004). Тхе Енглисх алл-wордс таск. Проц. оф тхе 3рд Интернатионал Wорксхоп он тхе Евалуатион оф Сyстемс фор тхе Семантиц Аналyсис оф Теxт (Сенсевал-3). Барцелона, Спаин. Архивирано из оригинала 2011-06-29. г.
Wеавер, Wаррен (1949). „Транслатион” (ПДФ). Ур.: Лоцке, W.Н.; Боотх, А.D. Мацхине Транслатион оф Лангуагес: Фоуртеен Ессаyс. Цамбридге, МА: МИТ Пресс. Архивирано из оригинала (ПДФ) 24. 07. 2011. г. Приступљено 20. 03. 2024.
Wилкс, Y.; Слатор, Б.; Гутхрие, L. (1996). Елецтриц Wордс: дицтионариес, цомпутерс анд меанингс. Цамбридге, Массацхусеттс: МИТ Пресс.
Yароwскy, D. (1992). Wорд-сенсе дисамбигуатион усинг статистицал моделс оф Рогет'с цатегориес траинед он ларге цорпора. Проц. оф тхе 14тх цонференце он Цомпутатионал лингуистицс. ЦОЛИНГ.
Yароwскy, D. (1995). Унсупервисед wорд сенсе дисамбигуатион ривалинг супервисед метходс. Проц. оф тхе 33рд Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс.
Агирре, Енеко; Едмондс, Пхилип, ур. (2007). Wорд Сенсе Дисамбигуатион: Алгоритхмс анд Апплицатионс. Спрингер. ИСБН 978-1402068706.
Едмондс, Пхилип; Килгаррифф, Адам (2002). „Интродуцтион то тхе специал иссуе он евалуатинг wорд сенсе дисамбигуатион сyстемс”. Јоурнал оф Натурал Лангуаге Енгинееринг. 8 (4): 279—291. С2ЦИД 17866880. дои:10.1017/С1351324902002966.
Иде, Нанцy; Вéронис, Јеан (1998). „Wорд сенсе дисамбигуатион: Тхе стате оф тхе арт” (ПДФ). Цомпутатионал Лингуистицс. 24 (1): 1—40.
Јурафскy, Даниел; Мартин, Јамес Х. (2000). Спеецх анд Лангуаге Процессинг. Неw Јерсеy, УС: Прентице Халл.
Килгаррифф, А. (1997). „И дон'т белиеве ин wорд сенсес” (ПДФ). Цомпут. Хуман. 31 (2): 91—113. С2ЦИД 3265361. дои:10.1023/А:1000583911091.
Килгаррифф, А.; Грефенстетте, Г. (2003). „Интродуцтион то тхе специал иссуе он тхе Wеб ас цорпус” (ПДФ). Цомпутатионал Лингуистицс. 29 (3): 333—347. С2ЦИД 2649448. дои:10.1162/089120103322711569.
Маннинг, Цхристопхер D.; Сцхüтзе, Хинрицх (1999). Фоундатионс оф Статистицал Натурал Лангуаге Процессинг. Цамбридге, Массацхусеттс: МИТ Пресс.
Навигли, Роберто (2009). „Wорд Сенсе Дисамбигуатион: А Сурвеy” (ПДФ). АЦМ Цомпутинг Сурвеyс. 41 (2): 1—69. С2ЦИД 461624. дои:10.1145/1459352.1459355.
Ресник, Пхилип; Yароwскy, Давид (2000). „Дистингуисхинг сyстемс анд дистингуисхинг сенсес: Неw евалуатион метходс фор wорд сенсе дисамбигуатион”. Натурал Лангуаге Енгинееринг. 5 (2): 113—133. С2ЦИД 19915022. дои:10.1017/С1351324999002211.
Yароwскy, Давид (2001). „Wорд сенсе дисамбигуатион”. Ур.: Дале; et al. Хандбоок оф Натурал Лангуаге Процессинг. Неw Yорк: Марцел Деккер. стр. 629—654.

Спољашње везе[уреди | уреди извор]

Цомпутатионал Лингуистицс Специал Иссуе он Wорд Сенсе Дисамбигуатион (1998)
Wорд Сенсе Дисамбигуатион Туториал бy Рада Михалцеа анд Тед Педерсен (2005).

[FOOTNOTELenatGuha1989-1] Ленат & Гуха 1989.

[FOOTNOTEWilksSlatorGuthrie1996-2] Wилкс, Слатор & Гутхрие 1996.

[FOOTNOTELesk198624–26-3] Леск 1986, стр. 24–26.

[4] Диамантини, C.; Мирцоли, А.; Потена, D.; Сторти, Е. (2015-06-01). „Семантиц дисамбигуатион ин а социал информатион дисцоверy сyстем”. 2015 Интернатионал Цонференце он Цоллаборатион Тецхнологиес анд Сyстемс (ЦТС). стр. 326—333. ИСБН 978-1-4673-7647-1. С2ЦИД 13260353. дои:10.1109/ЦТС.2015.7210442.

[FOOTNOTENavigliVelardi20051063–1074-5] Навигли & Веларди 2005, стр. 1063–1074.

[FOOTNOTENavigliLitkowskiHargraves200730–35-6] Навигли, Литкоwски & Харгравес 2007, стр. 30–35.

[FOOTNOTEAgirreLopez_de_LacalleSoroa20091501–1506-7] Агирре, Лопез де Лацалле & Сороа 2009, стр. 1501–1506.

[FOOTNOTENavigliLapata2010678–692-8] Навигли & Лапата 2010, стр. 678–692.

[FOOTNOTEPonzettoNavigli20101522–1531-9] Понзетто & Навигли 2010, стр. 1522–1531.

[FOOTNOTEYarowsky1995189–196-10] Yароwскy 1995, стр. 189–196.

[11] Митков, Руслан (2004). „13.5.3 Тwо цлаимс абоут сенсес”. Тхе Оxфорд Хандбоок оф Цомпутатионал Лингуистицс (на језику: енглески). ОУП. стр. 257. ИСБН 978-0-19-927634-9. Архивирано из оригинала 2022-02-22. г. Приступљено 2022-02-22.

[FOOTNOTESchütze199897–123-12] Сцхüтзе 1998, стр. 97–123.

[FOOTNOTENavigliCrisafulli2010-13] Навигли & Црисафулли 2010.

[FOOTNOTEDi_MarcoNavigli2013-14] Ди Марцо & Навигли 2013.

[:0-15] а ^б Миколов, Томас; Цхен, Каи; Цоррадо, Грег; Деан, Јеффреy (2013-01-16). „Еффициент Естиматион оф Wорд Репресентатионс ин Вецтор Спаце”. арXив:1301.3781  [цс.CL].

[16] Пеннингтон, Јеффреy; Соцхер, Рицхард; Маннинг, Цхристопхер (2014). „Глове: Глобал Вецторс фор Wорд Репресентатион”. Процеедингс оф тхе 2014 Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг (ЕМНЛП). Строудсбург, ПА, УСА: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1532—1543. С2ЦИД 1957433. дои:10.3115/в1/д14-1162 .

[17] Бојаноwски, Пиотр; Граве, Едоуард; Јоулин, Арманд; Миколов, Томас (децембар 2017). „Енрицхинг Wорд Вецторс wитх Субwорд Информатион”. Трансацтионс оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. 5: 135—146. ИССН 2307-387X. арXив:1607.04606 . дои:10.1162/тацл_а_00051 .

[18] Иацобацци, Игнацио; Пилехвар, Мохаммад Тахер; Навигли, Роберто (2016). „Ембеддингс фор Wорд Сенсе Дисамбигуатион: Ан Евалуатион Студy”. Процеедингс оф тхе 54тх Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс (Волуме 1: Лонг Паперс). Берлин, Германy: Ассоциатион фор Цомпутатионал Лингуистицс: 897—907. дои:10.18653/в1/П16-1085 . хдл:11573/936571 . Архивирано из оригинала 2019-10-28. г. Приступљено 2019-10-28.

[19] Бхингардиве, Судха; Сингх, Дхирендра; V, Рудрамуртхy; Редкар, Ханумант; Бхаттацхарyyа, Пусхпак (2015). „Унсупервисед Мост Фреqуент Сенсе Детецтион усинг Wорд Ембеддингс”. Процеедингс оф тхе 2015 Цонференце оф тхе Нортх Америцан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс: Хуман Лангуаге Тецхнологиес. Денвер, Цолорадо: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1238—1243. С2ЦИД 10778029. дои:10.3115/в1/Н15-1132. Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21.

[20] Бутнару, Андреи; Ионесцу, Раду Тудор; Христеа, Флорентина (2017). „СхотгунWСД: Ан унсупервисед алгоритхм фор глобал wорд сенсе дисамбигуатион инспиред бy ДНА сеqуенцинг”. Процеедингс оф тхе 15тх Цонференце оф тхе Еуропеан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс (на језику: енглески): 916—926. арXив:1707.08084 . Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21.

[21] Ротхе, Сасцха; Сцхüтзе, Хинрицх (2015). „АутоЕxтенд: Еxтендинг Wорд Ембеддингс то Ембеддингс фор Сyнсетс анд Леxемес”. Волуме 1: Лонг Паперс. Ассоциатион фор Цомпутатионал Лингуистицс анд тхе Интернатионал Јоинт Цонференце он Натурал Лангуаге Процессинг. Процеедингс оф тхе 53рд Аннуал Меетинг оф тхе Ассоциатион фор Цомпутатионал Лингуистицс анд тхе 7тх Интернатионал Јоинт Цонференце он Натурал Лангуаге Процессинг. Строудсбург, Пеннсyлваниа, УСА: Ассоциатион фор Цомпутатионал Лингуистицс. стр. 1793—1803. Бибцоде:2015арXив150701127Р. С2ЦИД 15687295. арXив:1507.01127 . дои:10.3115/в1/п15-1173.

[:1-22] а ^б Ротхе, Сасцха; Сцхüтзе, Хинрицх (септембар 2017). „АутоЕxтенд: Цомбининг Wорд Ембеддингс wитх Семантиц Ресоурцес”. Цомпутатионал Лингуистицс. 43 (3): 593—617. ИССН 0891-2017. дои:10.1162/цоли_а_00294 .

[:2-23] а ^б Руас, Террy; Гроскy, Wиллиам; Аизаwа, Акико (децембар 2019). „Мулти-сенсе ембеддингс тхроугх а wорд сенсе дисамбигуатион процесс”. Еxперт Сyстемс wитх Апплицатионс. 136: 288—303. С2ЦИД 52225306. арXив:2101.08700 . дои:10.1016/ј.есwа.2019.06.026. хдл:2027.42/145475 .

[FOOTNOTEGliozzoMagniniStrapparava2004380–387-24] Глиоззо, Магнини & Страппарава 2004, стр. 380–387.

[FOOTNOTEBuitelaarMagniniStrapparavaVossen2006275–298-25] Буителаар ет ал. 2006, стр. 275–298.

[FOOTNOTEMcCarthyKoelingWeedsCarroll2007553–590-26] МцЦартхy ет ал. 2007, стр. 553–590.

[FOOTNOTEMohammadHirst2006121–128-27] Мохаммад & Хирст 2006, стр. 121–128.

[FOOTNOTELapataKeller2007348–355-28] Лапата & Келлер 2007, стр. 348–355.

[FOOTNOTEIdeErjavecTufis200254–60-29] Иде, Ерјавец & Туфис 2002, стр. 54–60.

[FOOTNOTEChanNg20051037–1042-30] Цхан & Нг 2005, стр. 1037–1042.

[Shieber1992-31] Схиебер, Стуарт M. (1992). Цонстраинт-басед Граммар Формалисмс: Парсинг анд Тyпе Инференце фор Натурал анд Цомпутер Лангуагес (на језику: енглески). Массацхусеттс: МИТ Пресс. ИСБН 978-0-262-19324-5. Архивирано из оригинала 2023-07-15. г. Приступљено 2018-12-23.

[32] Бхаттацхарyа, Индрајит, Лисе Гетоор, анд Yосхуа Бенгио. Унсупервисед сенсе дисамбигуатион усинг билингуал пробабилистиц моделс Архивирано 2016-01-09 на сајту Wayback Machine. Процеедингс оф тхе 42нд Аннуал Меетинг он Ассоциатион фор Цомпутатионал Лингуистицс. Ассоциатион фор Цомпутатионал Лингуистицс, 2004.

[33] Диаб, Мона, анд Пхилип Ресник. Ан унсупервисед метход фор wорд сенсе таггинг усинг параллел цорпора Архивирано 2016-03-04 на сајту Wayback Machine. Процеедингс оф тхе 40тх Аннуал Меетинг он Ассоциатион фор Цомпутатионал Лингуистицс. Ассоциатион фор Цомпутатионал Лингуистицс, 2002.

[34] Хинди WордНет

[35] Манисх Синха, Махесх Кумар, Прабхакар Панде, Лаxми Касхyап, анд Пусхпак Бхаттацхарyyа. Хинди wорд сенсе дисамбигуатион Архивирано 2016-03-04 на сајту Wayback Machine. Ин Интернатионал Сyмпосиум он Мацхине Транслатион, Натурал Лангуаге Процессинг анд Транслатион Суппорт Сyстемс, Делхи, Индиа, 2004.

[36] „Бабелфy”. Бабелфy. Архивирано из оригинала 2014-08-08. г. Приступљено 2018-03-22.

[37] „БабелНет АПИ”. Бабелнет.орг. Архивирано из оригинала 2018-03-22. г. Приступљено 2018-03-22.

[38] „WордНет::СенсеРелате”. Сенсерелате.соурцефорге.нет. Архивирано из оригинала 2018-03-21. г. Приступљено 2018-03-22.

[39] „УКБ: Грапх Басе WСД”. Иxа2.си.еху.ес. Архивирано из оригинала 2018-03-12. г. Приступљено 2018-03-22.

[40] „Леxицал Кноwледге Басе (ЛКБ)”. Моин.делпх-ин.нет. 2018-02-05. Архивирано из оригинала 2018-03-09. г. Приступљено 2018-03-22.

[41] алватионс. „пyWСД”. Гитхуб.цом. Архивирано из оригинала 2018-06-11. г. Приступљено 2018-03-22.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]