Razjašnjavanje smisla reči

Razjašnjavanje smisla reči (Word-sense disambiguation, WSD) je proces identifikacije smisla reči na koji se misli u rečenici ili drugom segmentu datog konteksta. U obradi i spoznaji ljudskog jezika, to je obično podsvesno/automatsko, ali često može doći do svesne pažnje kada dvosmislenost narušava jasnoću komunikacije, s obzirom na sveprisutnu polisemiju u prirodnom jeziku. U računarskoj lingvistici, to je otvoreni problem koji utiče na drugo pisanje vezano za računar, kao što je diskurs, poboljšanje relevantnosti pretraživača, rezolucija anafore, koherentnost i zaključivanje.

S obzirom na to da prirodni jezik zahteva odraz neurološke stvarnosti, kao što je oblikovano sposobnostima koje pružaju neuronske mreže mozga, računarska nauka je imala dugoročni izazov u razvoju sposobnosti kompjutera za obradu prirodnog jezika i mašinsko učenje.

Pristupi i metode[уреди | уреди извор]

Postoje dva glavna pristupa VSD-u – duboki pristupi i plitki pristupi.

Duboki pristupi pretpostavljaju pristup sveobuhvatnom korpusu svetskog znanja. Ovi pristupi se generalno ne smatraju veoma uspešnim u praksi, uglavnom zato što takav korpus znanja ne postoji u kompjuterski čitljivom formatu, izvan veoma ograničenih domena.^[1] Pored toga, zbog duge tradicije u računarskoj lingvistici, pokušaja takvih pristupa u smislu kodiranog znanja i u nekim slučajevima, može biti teško napraviti razliku između znanja uključenog u lingvističko ili svetsko znanje. Prvi pokušaj je bio od strane Margaret Masterman i njenih kolega, u jedinici za istraživanje jezika u Kembridžu u Engleskoj tokom 1950-ih. Ovaj pokušaj je kao podatke koristio verziju Rogetovog tezaurusa na bušenim karticama i njegove numerisane „glave“, kao indikator tema i tražio je ponavljanja u tekstu, koristeći postavljeni algoritam preseka. To nije bilo veoma uspešno,^[2] ali je imalo snažne veze sa kasnijim radom, posebno sa Jarovskijevom optimizacijom mašinskog učenja tezaurusnim metodom tokom 1990-ih.

Plitki pristupi ne pokušavaju da razumeju tekst, već uzimaju u obzir okolne reči. Kompjuter može automatski da izvede ova pravila, koristeći korpus reči za obuku označenih njihovim osetnim reči. Ovaj pristup, iako teoretski nije jednako moćan kao duboki pristupi, daje superiorne rezultate u praksi, zbog ograničenog znanja računara o svetu.

Postoje četiri konvencionalna pristupa VSD-u:

Metode zasnovane na rečnicima i znanju: One se prvenstveno oslanjaju na rečnike, tezauruse i leksičke baze znanja, bez upotrebe bilo kakvog korpusa dokaza.
Polu-nadzirane ili minimalno nadgledane metode: One koriste sekundarni izvor znanja kao što je mali anotirani korpus kao početni podaci u procesu pokretanja, ili dvojezični prilagođeni korpus.
Nadzirane metode: One koriste smisaono obeležene korpuse za obuku.
Metode bez nadzora: Ove metode izbegavaju (skoro) potpuno spoljne informacije i rade direktno iz neobrađenih korpusa bez komentara. Ove metode su takođe poznate pod nazivom diskriminacija po smislu reči.

Skoro svi ovi pristupi funkcionišu tako što definišu prozor od n reči sadržaja oko svake reči koja treba da se razjasni u korpusu i statistički analiziraju tih n okolnih reči. Dva plitka pristupa koja se koriste za obučavanje, a zatim razjašnjavanje su naivni Bajesovi klasifikatori i stabla odlučivanja. U nedavnim istraživanjima, metode zasnovane na kernelu, kao što su metode potpornih vektora, pokazale su superiorne performanse u nadgledanom učenju. Pristupi zasnovani na grafovima takođe su privukli veliku pažnju istraživačke zajednice i trenutno postižu performanse bliske poslednjoj reči tehnologije.

Metode zasnovane na rečniku i znanju[уреди | уреди извор]

Leskov algoritam^[3] je seminalni metod baziran na rečniku. Zasniva se na hipotezi da su reči koje se koriste zajedno u tekstu povezane jedna sa drugom i da se odnos može uočiti u definicijama reči i njihovom smislu. Smisao dve (ili više) reči se može razjasniti pronalaženjem para značenja u rečniku sa najvećim preklapanjem reči u njihovim rečničkim definicijama. Na primer, kada se razdvoje reči „borova šišarka”, definicije odgovarajućih značenja uključuju reči zimzeleno i drvo (barem u jednom rečniku). Sličan pristup^[4] traži najkraći put između dve reči: druga reč se iterativno pretražuje među definicijama svake semantičke varijante prve reči, zatim među definicijama svake semantičke varijante svake reči u prethodnim definicijama i tako dalje. Konačno, prva reč je razdvojena izborom semantičke varijante koja minimizira rastojanje od prve do druge reči.

Alternativa upotrebi definicija je razmatranje opšte srodnosti reči-smisla i izračunavanje semantičke sličnosti svakog para značenja reči na osnovu date leksičke baze znanja kao što je WordNet. Metode zasnovane na grafikonima, koje podsećaju na istraživanja šireće aktivacije iz ranih dana istraživanja veštačke inteligencije, primenjene su sa određenim uspehom. Pokazalo se da složeniji pristupi zasnovani na grafovima rade skoro jednako dobro kao i nadgledane metode^[5] ili ih čak nadmašuju u pojedinim domenima.^[6]^[7] Nedavno je objavljeno da jednostavne mere povezivanja grafova, kao što je stepen, obavljaju najsavremeniji WSD u prisustvu dovoljno bogate baze leksičkog znanja.^[8] Takođe, pokazalo se da automatski prenos znanja u obliku semantičkih odnosa sa Vikipedije na WordNet podstiče jednostavne metode zasnovane na znanju, omogućavajući im da se takmiče sa najboljim nadgledanim sistemima, te čak i da ih nadmašuju u specifičnim domenskim okruženjima.^[9]

Upotreba preferencija za izbor (ili ograničenja izbora) je takođe korisna, na primer, znajući da se obično kuva hrana, reč bas se može razdvojiti u „Ja kuvam grgeča“.

Nadzirane metode[уреди | уреди извор]

Nadzirane metode su zasnovane na pretpostavci da kontekst može sam po sebi pružiti dovoljno dokaza da se razaznaju značenja reči (dakle, zdrav razum i rezonovanje se smatraju nepotrebnim). Verovatno je svaki algoritam mašinskog učenja primenjen na WSD, uključujući povezane tehnike kao što su izbor karakteristika, optimizacija parametara i ansambalsko učenje. Metode potpornih vektora i učenje zasnovano na memoriji su se pokazali kao najuspešniji pristupi do sada, verovatno zato što mogu da se nose sa visokodimenzionalnošću prostora karakteristika. Međutim, ove nadgledane metode su podložne novom uskom grlu u sticanju znanja jer se za obuku oslanjaju na znatne količine ručno označenih korpusa, čije je kreiranje naporno i skupo.

Polunadzirane metode[уреди | уреди извор]

Zbog nedostatka podataka za obuku, mnogi algoritmi za razaznačavanje smisla reči koriste polunadgledano učenje, koje omogućava i označene i neoznačene podatke. Algoritam Jarovskog je bio rani primer takvog algoritma.^[10] On koristi svojstva „Jedan smisao po kolokaciji“ i „Jedan smisao po diskursu“ ljudskih jezika za razjašnjavanje smisla reči. Iz posmatranja proizilazi da reči imaju tendenciju da ispoljavaju samo jedno značenje u većini datog diskursa i na datoj kolokaciji.^[11]

Butstraping pristup počinje od male količine početnih podataka za svaku reč: bilo ručno označenih primera za trening ili malog broja pouzdanih pravila odlučivanja (npr. 'sviranje' u kontekstu 'basa' skoro uvek ukazuje na muzički instrument). Seme se koristi za obuku početnog klasifikatora, koristeći bilo koju nadziranu metodu. Ovaj klasifikator se zatim koristi na neoznačenom delu korpusa za izdvajanje većeg skupa za obuku, u koji su uključene samo najpouzdanije klasifikacije. Proces se ponavlja, svaki novi klasifikator se obučava na sukcesivno većem korpusu obuke, sve dok se ceo korpus ne obuhvati ili dok se ne dostigne dati maksimalni broj iteracija.

Metode bez nadzora[уреди | уреди извор]

Učenje bez nadzora je najveći izazov za WSD istraživače. Osnovna pretpostavka je da se slična značenja javljaju u sličnim kontekstima, i da se smislovi mogu indukovati iz teksta grupisanjem pojavljivanja reči koristeći neku meru sličnosti konteksta,^[12] zadatak koji se naziva indukcija smisla reči ili diskriminacija. Zatim se nove pojave reči mogu klasifikovati u najbliže indukovane klastere/čula. Performanse su bile niže nego kod drugih metoda opisanih iznad, mada su poređenja teška pošto indukovani smislovi moraju biti mapirani u poznati rečnik značenja reči. Ako mapiranje na skup rečničkih značenja nije poželjno, mogu se izvršiti evaluacije zasnovane na klasterima (uključujući mere entropije i čistoće). Alternativno, metode indukcije smisla reči mogu se testirati i porediti u okviru aplikacije. Na primer, pokazalo se da indukcija smisla reči poboljšava grupisanje rezultata veb pretrage povećanjem kvaliteta klastera rezultata i stepena diversifikacije lista rezultata.^[13]^[14] Očekuje se da će učenje bez nadzora prevazići usko grlo u sticanju znanja jer ono ne zavisi od manuelnog doprinosa.

Predstavljanje reči uzimajući u obzir njihov kontekst kroz guste vektore fiksne veličine (ugrađivanje reči) postalo je jedan od najosnovnijih blokova u nekoliko NLP sistema.^[15]^[16]^[17] Iako većina tradicionalnih tehnika ugrađivanja reči spaja reči sa više značenja u jedan vektorski prikaz, one se i dalje mogu koristiti za poboljšanje WSD-a.^[18] Jednostavan pristup korišćenju unapred izračunatih ugradnji reči za predstavljanje smisla reči je izračunavanje centoida klastera značenja.^[19]^[20] Pored tehnika ugrađivanja reči, leksičke baze podataka (npr. WordNet, ConceptNet, BabelNet) takođe mogu pomoći sistemima bez nadzora u mapiranju reči i njihovih značenja u rečnike. Neke tehnike koje kombinuju leksičke baze podataka i ugrađivanje reči predstavljene su u AutoExtend-u^[21]^[22] i Anotaciji najprikladnijeg smisla (MSSA).^[23] U AutoExtend-u,^[22] oni predstavljaju metod koji razdvaja ulaznu reprezentaciju objekta u njegova svojstva, kao što su reči i njihova značenja reči. AutoExtend koristi strukturu grafa za mapiranje objekata reči (npr. tekst) i nereči (npr. sinsetovi u WordNet-u) kao čvorove i odnos između čvorova kao ivice. Relacije (ivice) u AutoExtend-u mogu ili da izraze dodavanje ili sličnost između njegovih čvorova. Prvi obuhvata intuiciju iza računa ofseta,^[15] dok drugi definiše sličnost između dva čvora. U MSSA,^[23] sistem razjašnjavanja bez nadzora koristi sličnost između značenja reči u prozoru fiksnog konteksta da bi odabrao najprikladniji smisao reči koristeći unapred obučeni model za ugrađivanje reči i WordNet. Za svaki prozor konteksta, MSSA izračunava težište svake definicije smisla reči usrednjavanjem vektora reči u WordNet-ovim glosama (tj. kratko definisanje glosa i jedan ili više primera upotrebe) koristeći unapred obučeni model za ugrađivanje reči. Ovi centri se kasnije koriste za odabir smisla reči sa najvećom sličnošću ciljne reči sa njenim neposredno susednim susedima (tj. prethodnim i sledećim rečima). Nakon što su sve reči označene i razdvojene, mogu se koristiti kao korpus za obuku u bilo kojoj standardnoj tehnici ugrađivanja reči. U svojoj poboljšanoj verziji, MSSA može da koristi ugradnju smisla reči da bi ponovio svoj proces razjašnjavanja iterativno.

Drugi pristupi[уреди | уреди извор]

Drugi pristupi se mogu razlikovati u svojim metodama:

Višeznačnost vođena domenom;^[24]^[25]
Identifikacija dominantnih značenja reči;^[26]^[27]^[28]
WSD koristeći višejezične dokaze.^[29]^[30]
WSD rešenje u jezički nezavisnom NLU Džona Bala, kombinujući Patom teoriju i RRG (uloga i referentna gramatika)
Tipsko zaključivanje u gramatikama zasnovanim na ograničenjima.^[31]

Drugi jezici[уреди | уреди извор]

Hindi: Nedostatak leksičkih resursa na hindskom je ometao performanse nadgledanih modela WSD-a, dok nenadgledani modeli pate zbog obimne morfologije. Moguće rešenje ovog problema je projektovanje WSD modela pomoću paralelnih korpusa.^[32]^[33] Stvaranje Hindi WordNet-a^[34] utrlo je put za nekoliko nadgledanih metoda za koje je dokazano da proizvode veću preciznost u razjašnjavanju imenica.^[35]

Softver[уреди | уреди извор]

Babelfy,^[36] ujedinjeni savremeni sistem za višejezično razaznavanje značenja reči i povezivanje entiteta
BabelNet API,^[37] Java API za višejezičnu bazu znanja Word Sense Disambiguation na 6 različitih jezika koristeći BabelNet semantičku mrežu
WordNet::SenseRelate,^[38] projekat koji uključuje besplatne sisteme otvorenog koda za razjašnjavanje smisla reči i razaznačavanje smisla leksičkih uzoraka
UKB: Graph Base WSD,^[39] kolekcija programa za razjašnjavanja smisla reči zasnovanog na grafovima i leksičkoj sličnosti/srodnosti koristeći već postojeću Leksičku bazu znanja^[40]
pyWSD,^[41] pitonove implementacije tehnologija za razaznačavanje značenja reči (WSD)

Reference[уреди | уреди извор]

^ Lenat & Guha 1989.
^ Wilks, Slator & Guthrie 1996.
^ Lesk 1986, стр. 24–26.
^ Diamantini, C.; Mircoli, A.; Potena, D.; Storti, E. (2015-06-01). „Semantic disambiguation in a social information discovery system”. 2015 International Conference on Collaboration Technologies and Systems (CTS). стр. 326—333. ISBN 978-1-4673-7647-1. S2CID 13260353. doi:10.1109/CTS.2015.7210442.
^ Navigli & Velardi 2005, стр. 1063–1074.
^ Navigli, Litkowski & Hargraves 2007, стр. 30–35.
^ Agirre, Lopez de Lacalle & Soroa 2009, стр. 1501–1506.
^ Navigli & Lapata 2010, стр. 678–692.
^ Ponzetto & Navigli 2010, стр. 1522–1531.
^ Yarowsky 1995, стр. 189–196.
^ Mitkov, Ruslan (2004). „13.5.3 Two claims about senses”. The Oxford Handbook of Computational Linguistics (на језику: енглески). OUP. стр. 257. ISBN 978-0-19-927634-9. Архивирано из оригинала 2022-02-22. г. Приступљено 2022-02-22.
^ Schütze 1998, стр. 97–123.
^ Navigli & Crisafulli 2010.
^ Di Marco & Navigli 2013.
^ ^а ^б Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-01-16). „Efficient Estimation of Word Representations in Vector Space”. arXiv:1301.3781  [cs.CL].
^ Pennington, Jeffrey; Socher, Richard; Manning, Christopher (2014). „Glove: Global Vectors for Word Representation”. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics. стр. 1532—1543. S2CID 1957433. doi:10.3115/v1/d14-1162 .
^ Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas (децембар 2017). „Enriching Word Vectors with Subword Information”. Transactions of the Association for Computational Linguistics. 5: 135—146. ISSN 2307-387X. arXiv:1607.04606 . doi:10.1162/tacl_a_00051 .
^ Iacobacci, Ignacio; Pilehvar, Mohammad Taher; Navigli, Roberto (2016). „Embeddings for Word Sense Disambiguation: An Evaluation Study”. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany: Association for Computational Linguistics: 897—907. doi:10.18653/v1/P16-1085 . hdl:11573/936571 . Архивирано из оригинала 2019-10-28. г. Приступљено 2019-10-28.
^ Bhingardive, Sudha; Singh, Dhirendra; V, Rudramurthy; Redkar, Hanumant; Bhattacharyya, Pushpak (2015). „Unsupervised Most Frequent Sense Detection using Word Embeddings”. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics. стр. 1238—1243. S2CID 10778029. doi:10.3115/v1/N15-1132. Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21.
^ Butnaru, Andrei; Ionescu, Radu Tudor; Hristea, Florentina (2017). „ShotgunWSD: An unsupervised algorithm for global word sense disambiguation inspired by DNA sequencing”. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (на језику: енглески): 916—926. arXiv:1707.08084 . Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21.
^ Rothe, Sascha; Schütze, Hinrich (2015). „AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes”. Volume 1: Long Papers. Association for Computational Linguistics and the International Joint Conference on Natural Language Processing. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, Pennsylvania, USA: Association for Computational Linguistics. стр. 1793—1803. Bibcode:2015arXiv150701127R. S2CID 15687295. arXiv:1507.01127 . doi:10.3115/v1/p15-1173.
^ ^а ^б Rothe, Sascha; Schütze, Hinrich (септембар 2017). „AutoExtend: Combining Word Embeddings with Semantic Resources”. Computational Linguistics. 43 (3): 593—617. ISSN 0891-2017. doi:10.1162/coli_a_00294 .
^ ^а ^б Ruas, Terry; Grosky, William; Aizawa, Akiko (децембар 2019). „Multi-sense embeddings through a word sense disambiguation process”. Expert Systems with Applications. 136: 288—303. S2CID 52225306. arXiv:2101.08700 . doi:10.1016/j.eswa.2019.06.026. hdl:2027.42/145475 .
^ Gliozzo, Magnini & Strapparava 2004, стр. 380–387.
^ Buitelaar et al. 2006, стр. 275–298.
^ McCarthy et al. 2007, стр. 553–590.
^ Mohammad & Hirst 2006, стр. 121–128.
^ Lapata & Keller 2007, стр. 348–355.
^ Ide, Erjavec & Tufis 2002, стр. 54–60.
^ Chan & Ng 2005, стр. 1037–1042.
^ Shieber, Stuart M. (1992). Constraint-based Grammar Formalisms: Parsing and Type Inference for Natural and Computer Languages (на језику: енглески). Massachusetts: MIT Press. ISBN 978-0-262-19324-5. Архивирано из оригинала 2023-07-15. г. Приступљено 2018-12-23.
^ Bhattacharya, Indrajit, Lise Getoor, and Yoshua Bengio. Unsupervised sense disambiguation using bilingual probabilistic models Архивирано 2016-01-09 на сајту Wayback Machine. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004.
^ Diab, Mona, and Philip Resnik. An unsupervised method for word sense tagging using parallel corpora Архивирано 2016-03-04 на сајту Wayback Machine. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002.
^ Hindi WordNet
^ Manish Sinha, Mahesh Kumar, Prabhakar Pande, Laxmi Kashyap, and Pushpak Bhattacharyya. Hindi word sense disambiguation Архивирано 2016-03-04 на сајту Wayback Machine. In International Symposium on Machine Translation, Natural Language Processing and Translation Support Systems, Delhi, India, 2004.
^ „Babelfy”. Babelfy. Архивирано из оригинала 2014-08-08. г. Приступљено 2018-03-22.
^ „BabelNet API”. Babelnet.org. Архивирано из оригинала 2018-03-22. г. Приступљено 2018-03-22.
^ „WordNet::SenseRelate”. Senserelate.sourceforge.net. Архивирано из оригинала 2018-03-21. г. Приступљено 2018-03-22.
^ „UKB: Graph Base WSD”. Ixa2.si.ehu.es. Архивирано из оригинала 2018-03-12. г. Приступљено 2018-03-22.
^ „Lexical Knowledge Base (LKB)”. Moin.delph-in.net. 2018-02-05. Архивирано из оригинала 2018-03-09. г. Приступљено 2018-03-22.
^ alvations. „pyWSD”. Github.com. Архивирано из оригинала 2018-06-11. г. Приступљено 2018-03-22.

Literatura[уреди | уреди извор]

Agirre, E.; Lopez de Lacalle, A.; Soroa, A. (2009). „Knowledge-based WSD on Specific Domains: Performing better than Generic Supervised WSD” (PDF). Proc. of IJCAI.
Agirre, E.; Stevenson, M. (2007). „Knowledge sources for WSD”. Ур.: Agirre, E.; Edmonds, P. Word Sense Disambiguation: Algorithms and Applications. New York: Springer. ISBN 978-1402068706.
Bar-Hillel, Y. (1964). Language and information. Reading, MA: Addison-Wesley.
Buitelaar, P.; Magnini, B.; Strapparava, C.; Vossen, P. (2006). „Domain-specific WSD”. Ур.: Agirre, E.; Edmonds, P. Word Sense Disambiguation: Algorithms and Applications. New York: Springer.
Chan, Y. S.; Ng, H. T. (2005). Scaling up word sense disambiguation via parallel texts. Proceedings of the 20th National Conference on Artificial Intelligence. Pittsburgh: AAAI.
Di Marco, A.; Navigli, R. (2013). „Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction”. Computational Linguistics. MIT Press. 39 (3): 709—754. S2CID 1775181. doi:10.1162/COLI_a_00148.
Edmonds, P. (2000). „Designing a task for SENSEVAL-2” (Tech. note). Brighton, UK: University of Brighton.
Fellbaum, Christiane (1997). „Analysis of a handwriting task”. Proc. of ANLP-97 Workshop on Tagging Text with Lexical Semantics: Why, What, and How?. Washington D.C.
Gliozzo, A.; Magnini, B.; Strapparava, C. (2004). Unsupervised domain relevance estimation for word sense disambiguation (PDF). Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain: EMNLP.
Ide, N.; Erjavec, T.; Tufis, D. (2002). Sense discrimination with parallel corpora (PDF). Proceedings of ACL Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. Philadelphia.
Lapata, M.; Keller, F. (2007). An information retrieval approach to sense ranking (PDF). Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. Rochester, New York: HLT-NAACL.
Lenat, D.; Guha, R. V. (1989). Building Large Knowledge-Based Systems. Addison-Wesley.
Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone (PDF). Proc. of SIGDOC-86: 5th International Conference on Systems Documentation. Toronto, Canada.
Litkowski, K. C. (2005). „Computational lexicons and dictionaries”. Ур.: Brown, K. R. Encyclopaedia of Language and Linguistics (2nd изд.). Oxford: Elsevier Publishers.
Magnini, B.; Cavaglià, G. (2000). Integrating subject field codes into WordNet. Proceedings of the 2nd Conference on Language Resources and Evaluation. Athens, Greece: LREC.
McCarthy, D.; Koeling, R.; Weeds, J.; Carroll, J. (2007). „Unsupervised acquisition of predominant word senses” (PDF). Computational Linguistics. 33 (4): 553—590. doi:10.1162/coli.2007.33.4.553.
McCarthy, D.; Navigli, R. (2009). „The English Lexical Substitution Task” (PDF). Language Resources and Evaluation. Springer. 43 (2): 139—159. S2CID 16888516. doi:10.1007/s10579-009-9084-1.
Mihalcea, R. (април 2007). Using Wikipedia for Automatic Word Sense Disambiguation (PDF). Proc. of the North American Chapter of the Association for Computational Linguistics. Rochester, New York: NAACL. Архивирано из оригинала (PDF) 2008-07-24. г.
Mohammad, S.; Hirst, G. (2006). Determining word sense dominance using a thesaurus (PDF). Proceedings of the 11th Conference on European chapter of the Association for Computational Linguistics. Trento, Italy: EACL.
Navigli, R. (2006). Meaningful Clustering of Senses Helps Boost Word Sense Disambiguation Performance (PDF). Proc. of the 44th Annual Meeting of the Association for Computational Linguistics joint with the 21st International Conference on Computational Linguistics. Sydney, Australia: COLING-ACL. Архивирано из оригинала (PDF) 2011-06-29. г.
Navigli, R.; Crisafulli, G. (2010). Inducing Word Senses to Improve Web Search Result Clustering (PDF). Proc. of the 2010 Conference on Empirical Methods in Natural Language Processing. MIT Stata Center, Massachusetts, US: EMNLP.
Navigli, R.; Lapata, M. (2010). „An Experimental Study of Graph Connectivity for Unsupervised Word Sense Disambiguation” (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE Press. 32 (4): 678—692. PMID 20224123. S2CID 1454904. doi:10.1109/TPAMI.2009.36.
Navigli, R.; Litkowski, K.; Hargraves, O. (2007). SemEval-2007 Task 07: Coarse-Grained English All-Words Task (PDF). Proc. of Semeval-2007 Workshop (SemEval), in the 45th Annual Meeting of the Association for Computational Linguistics. Prague, Czech Republic: ACL.
Navigli, R.; Velardi, P. (2005). „Structural Semantic Interconnections: a Knowledge-Based Approach to Word Sense Disambiguation” (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 27 (7): 1075—1086. PMID 16013755. S2CID 12898695. doi:10.1109/TPAMI.2005.149.
Palmer, M.; Babko-Malaya, O.; Dang, H. T. (2004). Different sense granularities for different applications (PDF). Proceedings of the 2nd Workshop on Scalable Natural Language Understanding Systems in HLT/NAACL. Boston.
Ponzetto, S. P.; Navigli, R. (2010). Knowledge-rich Word Sense Disambiguation rivaling supervised systems (PDF). Proc. of the 48th Annual Meeting of the Association for Computational Linguistics. ACL. Архивирано из оригинала (PDF) 2011-09-30. г.
Pradhan, S.; Loper, E.; Dligach, D.; Palmer, M. (2007). SemEval-2007 Task 17: English lexical sample, SRL and all words (PDF). Proc. of Semeval-2007 Workshop (SEMEVAL), in the 45th Annual Meeting of the Association for Computational Linguistics. Prague, Czech Republic: ACL.
Schütze, H. (1998). „Automatic word sense discrimination” (PDF). Computational Linguistics. 24 (1): 97—123.
Snow, R.; Prakash, S.; Jurafsky, D.; Ng, A. Y. (2007). Learning to Merge Word Senses (PDF). Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. EMNLP-CoNLL.
Snyder, B.; Palmer, M. (2004). The English all-words task. Proc. of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3). Barcelona, Spain. Архивирано из оригинала 2011-06-29. г.
Weaver, Warren (1949). „Translation” (PDF). Ур.: Locke, W.N.; Booth, A.D. Machine Translation of Languages: Fourteen Essays. Cambridge, MA: MIT Press. Архивирано из оригинала (PDF) 24. 07. 2011. г. Приступљено 20. 03. 2024.
Wilks, Y.; Slator, B.; Guthrie, L. (1996). Electric Words: dictionaries, computers and meanings. Cambridge, Massachusetts: MIT Press.
Yarowsky, D. (1992). Word-sense disambiguation using statistical models of Roget's categories trained on large corpora. Proc. of the 14th conference on Computational linguistics. COLING.
Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. Proc. of the 33rd Annual Meeting of the Association for Computational Linguistics.
Agirre, Eneko; Edmonds, Philip, ур. (2007). Word Sense Disambiguation: Algorithms and Applications. Springer. ISBN 978-1402068706.
Edmonds, Philip; Kilgarriff, Adam (2002). „Introduction to the special issue on evaluating word sense disambiguation systems”. Journal of Natural Language Engineering. 8 (4): 279—291. S2CID 17866880. doi:10.1017/S1351324902002966.
Ide, Nancy; Véronis, Jean (1998). „Word sense disambiguation: The state of the art” (PDF). Computational Linguistics. 24 (1): 1—40.
Jurafsky, Daniel; Martin, James H. (2000). Speech and Language Processing. New Jersey, US: Prentice Hall.
Kilgarriff, A. (1997). „I don't believe in word senses” (PDF). Comput. Human. 31 (2): 91—113. S2CID 3265361. doi:10.1023/A:1000583911091.
Kilgarriff, A.; Grefenstette, G. (2003). „Introduction to the special issue on the Web as corpus” (PDF). Computational Linguistics. 29 (3): 333—347. S2CID 2649448. doi:10.1162/089120103322711569.
Manning, Christopher D.; Schütze, Hinrich (1999). Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts: MIT Press.
Navigli, Roberto (2009). „Word Sense Disambiguation: A Survey” (PDF). ACM Computing Surveys. 41 (2): 1—69. S2CID 461624. doi:10.1145/1459352.1459355.
Resnik, Philip; Yarowsky, David (2000). „Distinguishing systems and distinguishing senses: New evaluation methods for word sense disambiguation”. Natural Language Engineering. 5 (2): 113—133. S2CID 19915022. doi:10.1017/S1351324999002211.
Yarowsky, David (2001). „Word sense disambiguation”. Ур.: Dale; et al. Handbook of Natural Language Processing. New York: Marcel Dekker. стр. 629—654.

Spoljašnje veze[уреди | уреди извор]

Computational Linguistics Special Issue on Word Sense Disambiguation (1998)
Word Sense Disambiguation Tutorial by Rada Mihalcea and Ted Pedersen (2005).

[FOOTNOTELenatGuha1989-1] Lenat & Guha 1989.

[FOOTNOTEWilksSlatorGuthrie1996-2] Wilks, Slator & Guthrie 1996.

[FOOTNOTELesk198624–26-3] Lesk 1986, стр. 24–26.

[4] Diamantini, C.; Mircoli, A.; Potena, D.; Storti, E. (2015-06-01). „Semantic disambiguation in a social information discovery system”. 2015 International Conference on Collaboration Technologies and Systems (CTS). стр. 326—333. ISBN 978-1-4673-7647-1. S2CID 13260353. doi:10.1109/CTS.2015.7210442.

[FOOTNOTENavigliVelardi20051063–1074-5] Navigli & Velardi 2005, стр. 1063–1074.

[FOOTNOTENavigliLitkowskiHargraves200730–35-6] Navigli, Litkowski & Hargraves 2007, стр. 30–35.

[FOOTNOTEAgirreLopez_de_LacalleSoroa20091501–1506-7] Agirre, Lopez de Lacalle & Soroa 2009, стр. 1501–1506.

[FOOTNOTENavigliLapata2010678–692-8] Navigli & Lapata 2010, стр. 678–692.

[FOOTNOTEPonzettoNavigli20101522–1531-9] Ponzetto & Navigli 2010, стр. 1522–1531.

[FOOTNOTEYarowsky1995189–196-10] Yarowsky 1995, стр. 189–196.

[11] Mitkov, Ruslan (2004). „13.5.3 Two claims about senses”. The Oxford Handbook of Computational Linguistics (на језику: енглески). OUP. стр. 257. ISBN 978-0-19-927634-9. Архивирано из оригинала 2022-02-22. г. Приступљено 2022-02-22.

[FOOTNOTESchütze199897–123-12] Schütze 1998, стр. 97–123.

[FOOTNOTENavigliCrisafulli2010-13] Navigli & Crisafulli 2010.

[FOOTNOTEDi_MarcoNavigli2013-14] Di Marco & Navigli 2013.

[:0-15] а ^б Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-01-16). „Efficient Estimation of Word Representations in Vector Space”. arXiv:1301.3781  [cs.CL].

[16] Pennington, Jeffrey; Socher, Richard; Manning, Christopher (2014). „Glove: Global Vectors for Word Representation”. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics. стр. 1532—1543. S2CID 1957433. doi:10.3115/v1/d14-1162 .

[17] Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas (децембар 2017). „Enriching Word Vectors with Subword Information”. Transactions of the Association for Computational Linguistics. 5: 135—146. ISSN 2307-387X. arXiv:1607.04606 . doi:10.1162/tacl_a_00051 .

[18] Iacobacci, Ignacio; Pilehvar, Mohammad Taher; Navigli, Roberto (2016). „Embeddings for Word Sense Disambiguation: An Evaluation Study”. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany: Association for Computational Linguistics: 897—907. doi:10.18653/v1/P16-1085 . hdl:11573/936571 . Архивирано из оригинала 2019-10-28. г. Приступљено 2019-10-28.

[19] Bhingardive, Sudha; Singh, Dhirendra; V, Rudramurthy; Redkar, Hanumant; Bhattacharyya, Pushpak (2015). „Unsupervised Most Frequent Sense Detection using Word Embeddings”. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics. стр. 1238—1243. S2CID 10778029. doi:10.3115/v1/N15-1132. Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21.

[20] Butnaru, Andrei; Ionescu, Radu Tudor; Hristea, Florentina (2017). „ShotgunWSD: An unsupervised algorithm for global word sense disambiguation inspired by DNA sequencing”. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (на језику: енглески): 916—926. arXiv:1707.08084 . Архивирано из оригинала 2023-01-21. г. Приступљено 2023-01-21.

[21] Rothe, Sascha; Schütze, Hinrich (2015). „AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes”. Volume 1: Long Papers. Association for Computational Linguistics and the International Joint Conference on Natural Language Processing. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, Pennsylvania, USA: Association for Computational Linguistics. стр. 1793—1803. Bibcode:2015arXiv150701127R. S2CID 15687295. arXiv:1507.01127 . doi:10.3115/v1/p15-1173.

[:1-22] а ^б Rothe, Sascha; Schütze, Hinrich (септембар 2017). „AutoExtend: Combining Word Embeddings with Semantic Resources”. Computational Linguistics. 43 (3): 593—617. ISSN 0891-2017. doi:10.1162/coli_a_00294 .

[:2-23] а ^б Ruas, Terry; Grosky, William; Aizawa, Akiko (децембар 2019). „Multi-sense embeddings through a word sense disambiguation process”. Expert Systems with Applications. 136: 288—303. S2CID 52225306. arXiv:2101.08700 . doi:10.1016/j.eswa.2019.06.026. hdl:2027.42/145475 .

[FOOTNOTEGliozzoMagniniStrapparava2004380–387-24] Gliozzo, Magnini & Strapparava 2004, стр. 380–387.

[FOOTNOTEBuitelaarMagniniStrapparavaVossen2006275–298-25] Buitelaar et al. 2006, стр. 275–298.

[FOOTNOTEMcCarthyKoelingWeedsCarroll2007553–590-26] McCarthy et al. 2007, стр. 553–590.

[FOOTNOTEMohammadHirst2006121–128-27] Mohammad & Hirst 2006, стр. 121–128.

[FOOTNOTELapataKeller2007348–355-28] Lapata & Keller 2007, стр. 348–355.

[FOOTNOTEIdeErjavecTufis200254–60-29] Ide, Erjavec & Tufis 2002, стр. 54–60.

[FOOTNOTEChanNg20051037–1042-30] Chan & Ng 2005, стр. 1037–1042.

[Shieber1992-31] Shieber, Stuart M. (1992). Constraint-based Grammar Formalisms: Parsing and Type Inference for Natural and Computer Languages (на језику: енглески). Massachusetts: MIT Press. ISBN 978-0-262-19324-5. Архивирано из оригинала 2023-07-15. г. Приступљено 2018-12-23.

[32] Bhattacharya, Indrajit, Lise Getoor, and Yoshua Bengio. Unsupervised sense disambiguation using bilingual probabilistic models Архивирано 2016-01-09 на сајту Wayback Machine. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004.

[33] Diab, Mona, and Philip Resnik. An unsupervised method for word sense tagging using parallel corpora Архивирано 2016-03-04 на сајту Wayback Machine. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002.

[34] Hindi WordNet

[35] Manish Sinha, Mahesh Kumar, Prabhakar Pande, Laxmi Kashyap, and Pushpak Bhattacharyya. Hindi word sense disambiguation Архивирано 2016-03-04 на сајту Wayback Machine. In International Symposium on Machine Translation, Natural Language Processing and Translation Support Systems, Delhi, India, 2004.

[36] „Babelfy”. Babelfy. Архивирано из оригинала 2014-08-08. г. Приступљено 2018-03-22.

[37] „BabelNet API”. Babelnet.org. Архивирано из оригинала 2018-03-22. г. Приступљено 2018-03-22.

[38] „WordNet::SenseRelate”. Senserelate.sourceforge.net. Архивирано из оригинала 2018-03-21. г. Приступљено 2018-03-22.

[39] „UKB: Graph Base WSD”. Ixa2.si.ehu.es. Архивирано из оригинала 2018-03-12. г. Приступљено 2018-03-22.

[40] „Lexical Knowledge Base (LKB)”. Moin.delph-in.net. 2018-02-05. Архивирано из оригинала 2018-03-09. г. Приступљено 2018-03-22.

[41] vations. „pyWSD”. Github.com. Архивирано из оригинала 2018-06-11. г. Приступљено 2018-03-22.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]