Pređi na sadržaj

Lingvistički povezani otvoreni podaci

S Vikipedije, slobodne enciklopedije

U procesu obrade prirodnih jezika, lingvistike i srodnih polja, Lingvistički povezani otvoreni podaci (LLOD) opisuju metodu i interdisciplinarnu zajednicu koja se bavi kreiranjem, deljenjem i (ponovnom) upotrebom jezičkih resursa u skladu sa principima povezanih podataka. Oblak lingvističkih povezanih otvorenih podataka kreirala je i održava ga Radna grupa za otvorenu lingvistiku (OWLG) Fondacije za otvoreno znanje. Oblak lingvističkih povezanih otvorenih podataka je takođe fokus aktivnosti više grupa W3C zajednice, potom istraživačkih projekata i infrastrukturnih napora.

Lingvistički povezani otvoreni podaci[uredi | uredi izvor]

LLOD Cloud (2016-05-24)

Lingvistički povezani otvoreni podaci objavljuju podatke iz oblasti lingvistike i obrade prirodnih jezika koristeći sledeće principe: [1]

  • Podaci bi trebalo da budu licencirani korišćenjem otvorenih licenci kao što su Creative Commons licence.
  • Elementi u skupu podataka trebalo bi da budu jedinstveno identifikovani pomoću jediinstvenih identifikatora resursa - URI.
  • URI bi trebalo da bude razrešen, tako da korisnici mogu da pristupe dodatnim informacijama putem veb pregledača.
  • Razrešavanje resursa LLOD trebalo bi da vrati rezultate koristeći veb standarde kao što su Okvir za opis resursa (RDF).
  • Veze do drugih resursa treba da budu uključene kako bi pomogle korisnicima da otkriju nove resurse i obezbede semantiku.

Glavne prednosti LLOD-a su: [2]

  • Reprezentacija: Povezani grafovi su fleksibilniji format reprezentacije jezičkih podataka.
  • Interoperabilnost: Zajednički RDF modeli se mogu lako integrisati.
  • Federacija: Podaci iz više izvora mogu se jednostavno kombinovati.
  • Ekosistem: Alati za RDF i povezane podatke su široko dostupni pod licencama otvorenog koda.
  • Izražajnost: Postojeći rečnici pomažu u izražavanju jezičkih resursa.
  • Semantika: Zajedničke veze izražavaju šta se misli.
  • Dinamičnost: Veb podaci se mogu kontinuirano poboljšavati.

Osnovna veb strana dijagrama oblaka LLOD je pod linguistic-lod.org[3]

Upotreba LLOD[uredi | uredi izvor]

Lingvistički povezani otvoreni podaci su primenjeni u rešavanju više istraživačkih problema u različitim naučnim oblastima:

  • U svim oblastima empirijske lingvistike, računarske lingvistike i obrade prirodnih jezika lingvistička anotacija i obeležavanje predstavljaju centralni element analize. Napredak u oblasti je ometen problemima interoperabilnosti. Među ovim problemima su najistaknutiji problemi razlike u rečnicima i razlike u shemama za anotaciju koji se koriste za različite resurse i alate. Upotrebom povezanih podatka za povezivanje jezičkih resursa i ontologija ili terminoloških repozitorijuma olakšava ponovno korišćenje zajedničkih rečnika i njihovo tumačenje na zajedničkoj osnovi.
  • U korpusnoj lingvistici preklapanje oznaka predstavlja vrlo dobro poznat problem za format XML. Otuda su od kasnih 90-ih predloženi modeli podataka zasnovani na grafovima.[4] Oni su predstavljeni pomoću više međusobno povezanih XML datoteka[5] koji su slabo podržani gotovom (nepromenjivom) XML tehnologijom.[6]
  • Višejezična pitanja koja uključuju povezivanje leksičkih resursa poput Vordneta, što je izvršeno putem međujezičkog indeksa Globalne Vordnet asocijacije, i povezivanje više heterogenih resursa poput Vordneta i Vikipedije, što je učinjeno uz pomoć Babelneta.

Odabrani LLOD resursi[uredi | uredi izvor]

Prema podacima iz oktobra 2018. godine, 10 najčešće povezanih resursa u LLOD dijagramu (prema broju povezanih skupova podataka) su:

  • Ontologija za lingvističku anotaciju (The Ontologies of Linguistic Annotation - OLiA, povezana sa 74 skupa podataka) obezbeđuje referentnu terminologiju za lingvističku anotaciju i gramatičke metapodatke;
  • Vordnet (WordNet, povezan sa 51 skupom podataka), leksička baza podataka za engleski jezik i pivot za razvoj sličnih baza podataka za druge jezike sa nekoliko izdanja (Prinstonsko izdanje povezano sa 36 skupova podataka; izdanje W3C povezano sa 8 skupova podataka; izdanje VU povezano sa 7 skupova podataka);
  • Dbpedija (DBpedia, povezana sa 50 skupova podataka) zasnovana na generalnom znanju o rečima, počiva na Vikipediji;
  • lexinfo.net (povezan sa 36 skupova podataka) obezbeđuje referentnu terminologiju za leksičke resurse;
  • Babelnet (BabelNet, povezan sa 33 skupa podataka) višejezično leksikalizovana semantička mreža zasnovana na agregaciji više drugih resursa, većinom na Vordnetu i Vikipediji;
  • lexvo.org (povezan sa 26 skupova podataka) obezbeđuje jezičke identifikatore i druge podatke vezane za jezik. Najbitnije, lexvo obezbeđuje RDF reprezentaciju troslovnih oznaka i onformacija za jezike iz standarda ISO 639-3;
  • Registar kategorija podataka (The ISO 12620 Data Category Registry, ISOcat; RDF izdanje, povezan sa 10 skupova podataka) predstavlja polustruktuiran repozitorijum terminologije povezane sa jezikom.
  • UBY (RDF izdanjelemon-Uby, povezan sa 9 skupova podataka) leksička mreža za engleski jezik, agregirana iz više leksičkih resursa;
  • Glottolog (povezan sa 7 skupova podataka) obezbeđuje sitnozne jezičke identifikatore za jezike sa malim brojem resursa (one koji nisu pokreiveni projektom lexvo.org);
  • Wiktionary-DBpedia povezuju (wiktionary.dbpedia.org, povezan sa 7 skupova podataka), leksikalizacija koncepata Dbpedije zasnovana na Viki rečniku.


Razvoj oblaka LLOD i aktivnosti zajednice[uredi | uredi izvor]

Dijagram oblaka lingvističkih povezanih otvorenih podataka održava Radna grupa za otvorenu lingvistiku (OWLG) Fondacije za otvoreno znanje koja predstavlja otvorenu i interdisciplinarnu grupu stručnjaka za jezičke resurse. Radna grupa za otvorenu lingvistiku organizuje događaje zajednice i koordinira razvoj LLOD i omogućava interdisciplinarnu komunikaciju između saradnika i korisnika LLOD.

Upotreba i razvoj lingvističkih povezanih otvorenih podataka su tema nekoliko velikih istraživačkih projekata:

  • LOD2. Creating Knowledge out of Interlinked Data (11 zemalja EU + Koreja, 2010–2014)[7]
  • MONNET. Multilingual Ontologies for Networked Knowledge (5 zemalja EU, 2010–2013)[8]
  • LiODi. Linked Open Dictionaries (BMBF Istraživačka grupa mladih e-humanista, Geteov univerzitet u Frankfurtu, Nemačka, 2015-2020)[9]
  • NexusLinguarum. European network for Web-centred linguistic data science (COST akcija, 2019-2023) [10]

Reference[uredi | uredi izvor]

  1. ^ Open Linguistics Working Group. „Linguistic LOD”. linguistic-lod.org. LIDER project. Pristupljeno 24. 5. 2016. 
  2. ^ Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Towards open data for linguistics: Lexical Linked Data (PDF). Heidelberg: In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer. Arhivirano iz originala (PDF) 15. 02. 2016. g. Pristupljeno 24. 5. 2016. 
  3. ^ „Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data.”. Pristupljeno 10. 12. 2019. 
  4. ^ Bird, Steven; Liberman, Mark. „Towards a formal framework for linguistic annotations” (PDF). In: Proceedings of the International Conference on Spoken Language Processing, Sydney, 1998. Pristupljeno 25. 5. 2016. [mrtva veza]
  5. ^ ISO 24612:2012. „Language resource management -- Linguistic annotation framework (LAF)”. ISO. Pristupljeno 25. 5. 2016. 
  6. ^ Eckart, Richard (2008). Choosing an XML database for linguistically annotated corpora. SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, Sep 2008. str. 7—22. 
  7. ^ „lod2.okfn.org (archived version)”. Arhivirano iz originala 07. 03. 2014. g. Pristupljeno 9. 12. 2019. 
  8. ^ „Multilingual Ontologies for Networked Knowledge (Monnet)”. European Commission, CORDIS EU research results. Arhivirano iz originala 10. 02. 2023. g. Pristupljeno 10. 12. 2019. 
  9. ^ „Linked Open Dictionaries (LiODi)”. Arhivirano iz originala 17. 01. 2020. g. Pristupljeno 10. 12. 2019. 
  10. ^ „CA18209 - European network for Web-centred linguistic data science”. cost. European Cooperation in Science and Technology. Pristupljeno 10. 12. 2019.