Википедија:Vikiprojekat WikiELTeC 2023.

S Vikipedije, slobodne enciklopedije

WikiELTeC 2023. je projekat Vikimedije Srbije i Društva za jezičke resurse i tehnologije JeRTeh zamišljen da se u 2023. godini srpski romani iz kolekcije tekstova Korpusa savremenog srpskog jezika SrpKor predstave Vikipodacima. Projekat obuhvata unos, povezivanje imenovanih entiteta, vizuelizaciju i analizu unetih Vikipodataka.

Cilj projekta[uredi | uredi izvor]

Cilj projekta "Vikipodaci o srpskim romanima (unos, vizuelizacija i analiza)" je da se tokom 2023. godine unesu vikipodaci o značajnim srpskim romanima koji se nalaze u korpusu srpskog savremenog jezika SrpKor prema tehnikama i iskustvu koje je stečeno prethodnim projektom “wikiELTeC - Vikipodaci o starim srpskim romanima iz kolekcije ELTeC”. Projekat će postaviti smernice, svakako neće biti moguć unos svih podataka sa svim detaljima, ali će se svakako doprineti vidljivosti i boljoj analizi ovih dragocenih resursa.

Unos osnovnih vikipodataka o romanima naših značajnih pisaca je značajno dopunio bazu znanja Vikipodaci. Selekcija romana je uključila niz kriterijuma: dobijene nagrade, prevođenje na druge jezike, da li se nalaze u korpusima srpskog jezika SrpKor2013 ili SrpKor2021. Gde je moguće, puni tekstovi bi bili postavljeni na Ostavu. Imajući u vidu popularnost Vikimedijinih projekata verujemo da se ovim projektom široj populaciji dodatno približavaju informacije o značajnim delima srpske književnosti.

Prethodnim projektom su uspešno osvetljena do sada nepoznata dela srpske književnosti prvi put objavljena u periodu 1840-1920, dok se u ovom projektu ne ograničavamo na konkretan vremenski period, već su kriterijumi nagrađivanost romana i autora, da li su dela uključena u školsku lektiru i sl.

Ostali zadaci projekta:

  • Povećanje broja vikipedijanaca
  • Proširenje vrsta aktivnisti vikipedijanaca
  • Unos novih zapisa u Vikipodatke
  • Unos novih zapisa u Ostavu
  • Unapređenje postojećih resursa dinamičkim

Ciljna grupa[uredi | uredi izvor]

Ciljna grupa dakle jesu istoričari književnosti, đaci, studenti, i svi ostali koje zanima srpska književnost. Razvijeni resursi omogućavaju raznovrsna lingvistička, filološka i informatička istraživanja. Vikipodaci se sprežu sa prikazom podataka o romanima pripremljenih u vidu viki strane ali i posebne veb aplikacije za širi krug korisnika.

Razvijeni resursi[uredi | uredi izvor]

Kao rezultat projekta dodaju se stranice koje koriste Wikidata Query Service i SPARQL upite i prikazuju na različite načine unete Vikipodatke, kao što je urađeno u prethodnom projektu wikiELTeC.

U vikipodatke je dodato novih 206 romana, gde su za svaki uneto podaci o autoru, naslov, godina izdanja, izdavač, broj strana, broj reči, pripadnost kolekcijama, jezik, DOI, putanja ka punom tekstu i sl., dok je 130 romana je već postojalo u vikipodacima i oni su dopunjeni. Tako sada kolekcija ima 336 romana što pokazuje sledeći upit Query

Dopuna postojećih romana se odnosila na dodavanje 660 izdanja (330 digitalnih i 333 štampanih izdanja povezanih sa romanima)

Vizuelizacija vikipodataka o srpskim romanima:

slika url opis
Prikaz autora i dela autora po kolekcijama
https://w.wiki/866x Prikaz autora i dela autora po kolekcijama.
Mapa mesta izdavanja romana SrpKor kolekcije.
https://w.wiki/8677 Mapa mesta izdanja romana SrpKor kolekcije.
Prikaz mesta koja pominju autori kroz SPARQL upite u kolekcijama.
https://w.wiki/867J Prikaz mesta koja pominju autori kroz u kolekcijama srpELTeC i SrpKOR.
Interaktivni grafik supružnika u romanima.
https://w.wiki/867P Interaktivni grafik supružnika u romanima u kolekcijama srpELTeC i SrpKOR.
Graf prikaza načina smrti likova u romanima.
https://w.wiki/867p Uzrok smrti likova u romanima kolekcija srpELTeC i SrpKOR.
Zanimanja likova u romanima.
https://w.wiki/867z Zanimanja likova u romanima kolekcija srpELTeC i SrpKOR.


Statistika nad svim srpskim romanima kolekcija srpELTeC i SrpKOR:

grafikon upit opis
Statistika broja likova po romanima.
https://w.wiki/868B Statistika broja likova po romanima u kolekcijama srpELTeC i SrpKOR.
Statistika mesta radnje po romanima u kolekcijama srpELTeC i SrpKOR.
https://w.wiki/7vtD Statistika broja mesta radnje po romanima u kolekcijama srpELTeC i SrpKOR.
Statistika broja romana po kolekcijama.
https://w.wiki/868P Broj romana po kolekcijama srpELTeC osnovni i prošireni i SrpKOR.

Kreirane su kategorije: https://commons.wikimedia.org/wiki/Category:SrpKor , https://commons.wikimedia.org/wiki/Category:SrpKor_-_title_pages u koju će se postavljati slike naslovnih strana i skenirana izdanja za dostupne romane koji nisu pod zaštićenim kopirajtom.


Sistematizacija svih stavki u Vikipodacima

Da bi se lako pristupilo svakom romanu, kao i izdanju svakog romana (elektronskom, digitalnom ili štampanom) sistematizovan je pregled svih romana na stranici WikiProject_ELTeC/srpKor .   

Pregled romana SrpKor2013 kolekcije.

wikiELTeC radionicu u okviru projekta „Vikipodaci o srpskim romanima (unos, vizuelizacija i analiza)”[uredi | uredi izvor]

Lokacija: Univerzitet u Beogradu, Rudarsko - geološki fakultet, Đušina 7

Datum: 18.11.2023. godine od 10 do 15 časova

Satnica radionice:

10:00 – Otvaranje i pozdravna reč, Vikimedija Srbije

10:10 – 10:45 Prof. dr Ranka Stanković: Prikaz metodologije projekta “Vikipodaci o srpskim romanima (unos, vizuelizacija i analiza)”

10:45 – 11:00 Pauza za kafu

11:15 – 12:15 dr Biljana Rujević, Milica Ikonić Nešić: Praktične vežbe: unos vikipodataka i osnovni SPARQL upiti

12:15 – 12.30 Pauza za kafu

12:30 – 14:00 Prof. dr Ranka Stanković, Nikola Gudžić: Napredni SPARQL upiti i njihova integracija u viki strane i u HTML

14:00 – 15:00 Koktel

Ostale aktivnosti i promocije[uredi | uredi izvor]

Period su obeležile promocije u zemlji i inostranstvu na kojima se uz ostale teme govorilo o vikipodacima o srpskim romanima, strukturi i načinu unosa, kao i same eksploatacije. Navodimo relevantne događaje:

  • Milano, 7-8 septembar 2023, sastanak rukovodstva akcije NexusLInguarum   https://nexuslinguarum.eu/project/fifth-plenary-2/ čiji je cilj promovisanje sinergije između lingvista, informatičara, terminologa i drugih zainteresovanih strana u industriji i društvu, kako bi se istražila i proširila oblast nauke o otvorenim (lingvističkim) podacima, u koje spadaju i vikipodaci. Specifičnosti lingvističkih podataka su aspekt koji je do sada u velikoj meri neistražen u kontekstu velikih podataka. Vikipodaci o srpski romanima su jedna od studija slučaja koja se koristi u okviru ove akcije, a koja je predstavljena na sastanku.
  • Beč, LDK 2023 – 4th Conference on Language, Data and Knowledge http://2023.ldk-conf.org/
    • na sastanku W3c grupe za linvističke povezane podatke, održanom u okviru konferencije 12.9.2023. godine: “W3c community day @ LDK2023” https://www.w3.org/community/ontolex/wiki/W3c_community_day_@_LDK2023 Ranka Stanković izlagala o koverziji celih romana u okviru kojih se metapodaci povezuju sa vikipodacimi, ali takođe i obeleđeni imenovani entiteti sa odgovarajućim klasama u vikipodacima (osobe - likovi iz romana, lokacije - mesta rade u romanu i slično)
    • na glavnoj konferenciji 15.9.2023, izložen rad: Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data, zajednički rad autora: Ranka Stanković, Christian Chiarcos, Miloš Utvić, Olivera Kitanović, http://2023.ldk-conf.org/programme/
  • Srpska Akademija nauka i umetnosti: 3.10.2023. u okviru ciklusa Veštačka inteligencija Ranka Stanković je održala predavanje “Jezičke tehnologije kao ključni faktor veštačke inteligencije: prošlost, sadašnjost i budućnost” u okviru kog je bilo reči i rezultatima ovog projekta, pri čemu je akcentovana uspešna saradnja sa Vikimedijom Srbija. Predavanje je dostupno online na: https://www.sanu.ac.rs/snimci-predavanja-iz-ciklusa-vestacka-inteligencija/
  • Gostovanje na RTS-u povodom izlaganja u SANU, gde je u okviru  izlaganja slikan i promotivni liflet kreiran o srpskim romanima i vikipodacima https://www.youtube.com/watch?v=YRh6meAlPCo&t=302s
  • Na konfeenciji o veštačkoj inteligenciji održanoj 26 i 27.12.2023 u SANU, u okviru izlaganja “Digitalni put srpskog jezika: resursi, modeli i tehnologije” kao jedan od projekata je naveden ovaj i Vikipodaci navedeni kao jedan od putokaza za integraciju baza znanja i velikih jezičkih modela koji će pomoći da se “halucinacije” jezičkih modela eliminišu ili bar smanje.
Radionica i promocija projekta WikiELTeC

Dodatna radionica, koja inače nije bila ranije planirana je održana u skolu radionice za implementaciju „udaljenog čitanja“ u istraživačkoj praksi UVOD U DIGITALNU HUMANISTIKU  u Tršiću u Naučno-obrazovnom kulturnom centru „Vuk Karadžić“ 4-8. decembra 2023. (više na https://jerteh.rs/index.php/1011/) gde su polaznici bili uglavno doktoranti humanističkih nauka su predstavljeni rezultati projekta, a onda su polaznici unosili likove u Vikipodatke na osnovu pripremljenih skupova podataka. Imajući u vidu da je u Tršiću radionica bila petodnevna, skoro ceo jedan dan je bio posvećen Vikipodacima i predavanja su bila čak i šira od radionice održane u novembru, a i broj polaznika je bio veći (30). Polazni su bili iz Beograda, Niša, Kosovske Mitrovice, Novog Sada, Kragujevca, sa Pala, tako da možemo reći da je ova diseminacija više nego uspela.

Rezultati projekta[uredi | uredi izvor]

Projektom je realizovan unos od 337 izdanja romana objavljenih u SrpKor korpusu, pri čemu je uneto više od 75% romana kao osnovih stavki sa kojima su izdanja povezana. Neki od romana poput ‘’Na Drini ćuprija’’ i ‘’Pinokijeve avanture’’, kao i romani koji su sastavni deo ELTeC kolekcije, postojali su u Vikipodacima. Za 65 romana kreirano je  ukupno 539 stavke za likove, za koje su uneta po 5 osnovnih svojstva (‘’je’’, ‘’pol ili rod’’, ‘’ime’’, ‘’tvorac’’, ‘’pojavljuje se u delu’’), dok su neki od likova dopunjeni sa rodbinskim odnosima, zanimanjima, pa čak i načinom smrti.

Po uzoru na Wikidata:WikiProject ELTeC/srpELTeC — Wikidata napravljen je projekat Wikidata:WikiProject_SrpKor koji ukazuje na stranicu Collections gde su predstavljene sve do sad unete kolekcije srpskih romana kojih ukupno ima 652 https://w.wiki/8qiE. Broj fotografija na Vikimedijinoj ostavi je 100 naslovnih strana. Kreirani upiti se nalaze na stranici Wikidata:WikiProject_SrpKor/Queries.

Osim srpskih romana neka od dela su povezana i sa prevodima na italijanski jezik.

Rezultati projekta i aktivnosti radionica biće uključeni u buduća istraživanja u okviru projekta TESLA (akronim za Text Embeddings – Serbian Language Applications) istraživanja koje se sprovodi uz podršku Fonda za nauku Republike Srbije, broj projekta: 7276.

Spoljne veze[uredi | uredi izvor]