Википедија:Википројекат WikiELTeC 2023.

С Википедије, слободне енциклопедије

WikiELTeC 2023. је пројекат Викимедије Србије и Друштва за језичке ресурсе и технологије ЈеРТех замишљен да се у 2023. години српски романи из колекције текстова Корпуса савременог српског језика СрпКор представе Википодацима. Пројекат обухвата унос, повезивање именованих ентитета, визуелизацију и анализу унетих Википодатака.

Циљ пројекта[уреди | уреди извор]

Циљ пројекта "Википодаци о српским романима (унос, визуелизација и анализа)" је да се током 2023. године унесу википодаци о значајним српским романима који се налазе у корпусу српског савременог језика СрпКор према техникама и искуству које је стечено претходним пројектом “wikiELTeC - Википодаци о старим српским романима из колекције ELTeC”. Пројекат ће поставити смернице, свакако неће бити могућ унос свих података са свим детаљима, али ће се свакако допринети видљивости и бољој анализи ових драгоцених ресурса.

Унос основних википодатака о романима наших значајних писаца је значајно допунио базу знања Википодаци. Селекција романа је укључила низ критеријума: добијене награде, превођење на друге језике, да ли се налазе у корпусима српског језика СрпКор2013 или СрпКор2021. Где је могуће, пуни текстови би били постављени на Оставу. Имајући у виду популарност Викимедијиних пројеката верујемо да се овим пројектом широј популацији додатно приближавају информације о значајним делима српске књижевности.

Претходним пројектом су успешно осветљена до сада непозната дела српске књижевности први пут објављена у периоду 1840-1920, док се у овом пројекту не ограничавамо на конкретан временски период, већ су критеријуми награђиваност романа и аутора, да ли су дела укључена у школску лектиру и сл.

Остали задаци пројекта:

  • Повећање броја википедијанаца
  • Проширење врста активнисти википедијанаца
  • Унос нових записа у Википодатке
  • Унос нових записа у Оставу
  • Унапређење постојећих ресурса динамичким

Циљна група[уреди | уреди извор]

Циљна група дакле јесу историчари књижевности, ђаци, студенти, и сви остали које занима српска књижевност. Развијени ресурси омогућавају разноврсна лингвистичка, филолошка и информатичка истраживања. Википодаци се спрежу са приказом података о романима припремљених у виду вики стране али и посебне веб апликације за шири круг корисника.

Развијени ресурси[уреди | уреди извор]

Као резултат пројекта додају се странице које користе Wikidata Query Service и SPARQL упите и приказују на различите начине унете Википодатке, као што је урађено у претходном пројекту wikiELTeC.

У википодатке је додато нових 206 романа, где су за сваки унето подаци о аутору, наслов, година издања, издавач, број страна, број речи, припадност колекцијама, језик, ДОИ, путања ка пуном тексту и сл., док је 130 романа је већ постојало у википодацима и они су допуњени. Тако сада колекција има 336 романа што показује следећи упит Query

Допуна постојећих романа се односила на додавање 660 издања (330 дигиталних и 333 штампаних издања повезаних са романима)

Визуелизација википодатака о српским романима:

слика урл опис
Приказ аутора и дела аутора по колекцијама
https://w.wiki/866x Приказ аутора и дела аутора по колекцијама.
Мапа места издавања романа СрпКор колекције.
https://w.wiki/8677 Мапа места издања романа СрпКор колекције.
Приказ места која помињу аутори кроз SPARQL упите у колекцијама.
https://w.wiki/867J Приказ места која помињу аутори кроз у колекцијама srpELTeC и SrpKOR.
Интерактивни график супружника у романима.
https://w.wiki/867P Интерактивни график супружника у романима у колекцијама srpELTeC и SrpKOR.
Граф приказа начина смрти ликова у романима.
https://w.wiki/867p Узрок смрти ликова у романима колекција srpELTeC и SrpKOR.
Занимања ликова у романима.
https://w.wiki/867z Занимања ликова у романима колекција srpELTeC и SrpKOR.


Статистика над свим српским романима колекција srpELTeC и SrpKOR:

графикон упит опис
Статистика броја ликова по романима.
https://w.wiki/868B Статистика броја ликова по романима у колекцијама srpELTeC и SrpKOR.
Статистика места радње по романима у колекцијама srpELTeC и SrpKOR.
https://w.wiki/7vtD Статистика броја места радње по романима у колекцијама srpELTeC и SrpKOR.
Статистика броја романа по колекцијама.
https://w.wiki/868P Број романа по колекцијама srpELTeC основни и проширени и SrpKOR.

Креиране су категорије: https://commons.wikimedia.org/wiki/Category:SrpKor , https://commons.wikimedia.org/wiki/Category:SrpKor_-_title_pages у коју ће се постављати слике насловних страна и скенирана издања за доступне романе који нису под заштићеним копирајтом.


Систематизација свих ставки у Википодацима

Да би се лако приступило сваком роману, као и издању сваког романа (електронском, дигиталном или штампаном) систематизован је преглед свих романа на страници WikiProject_ELTeC/srpKor .   

Pregled romana SrpKor2013 kolekcije.

wikiELTeC радионицу у оквиру пројекта „Википодаци о српским романима (унос, визуелизација и анализа)”[уреди | уреди извор]

Локација: Универзитет у Београду, Рударско - геолошки факултет, Ђушина 7

Датум: 18.11.2023. године од 10 до 15 часова

Сатница радионице:

10:00 – Отварање и поздравна реч, Викимедија Србије

10:10 – 10:45 Проф. др Ранка Станковић: Приказ методологије пројекта “Википодаци о српским романима (унос, визуелизација и анализа)”

10:45 – 11:00 Пауза за кафу

11:15 – 12:15 др Биљана Рујевић, Милица Иконић Нешић: Практичне вежбе: унос википодатака и основни SPARQL упити

12:15 – 12.30 Пауза за кафу

12:30 – 14:00 Проф. др Ранка Станковић, Никола Гуџић: Напредни SPARQL упити и њихова интеграција у вики стране и у HTML

14:00 – 15:00 Коктел

Остале активности и промоције[уреди | уреди извор]

Период су обележиле промоције у земљи и иностранству на којима се уз остале теме говорило о википодацима о српским романима, структури и начину уноса, као и саме експлоатације. Наводимо релевантне догађаје:

  • Милано, 7-8 септембар 2023, састанак руководства акције NexusLInguarum   https://nexuslinguarum.eu/project/fifth-plenary-2/ чији је циљ промовисање синергије између лингвиста, информатичара, терминолога и других заинтересованих страна у индустрији и друштву, како би се истражила и проширила област науке о отвореним (лингвистичким) подацима, у које спадају и википодаци. Специфичности лингвистичких података су аспект који је до сада у великој мери неистражен у контексту великих података. Википодаци о српски романима су једна од студија случаја која се користи у оквиру ове акције, а која је представљена на састанку.
  • Беч, LDK 2023 – 4th Conference on Language, Data and Knowledge http://2023.ldk-conf.org/
    • на састанку W3c групе за линвистичке повезане податке, одржаном у оквиру конференције 12.9.2023. године: “W3c community day @ LDK2023” https://www.w3.org/community/ontolex/wiki/W3c_community_day_@_LDK2023 Ранка Станковић излагала о коверзији целих романа у оквиру којих се метаподаци повезују са википодацими, али такође и обелеђени именовани ентитети са одговарајућим класама у википодацима (особе - ликови из романа, локације - места раде у роману и слично)
    • на главној конференцији 15.9.2023, изложен рад: Towards ELTeC-LLOD: European Literary Text Collection Linguistic Linked Open Data, заједнички рад аутора: Ranka Stanković, Christian Chiarcos, Miloš Utvić, Olivera Kitanović, http://2023.ldk-conf.org/programme/
  • Српска Академија наука и уметности: 3.10.2023. у оквиру циклуса Вештачка интелигенција Ранка Станковић је одржала предавање “Језичке технологије као кључни фактор вештачке интелигенције: прошлост, садашњост и будућност” у оквиру ког је било речи и резултатима овог пројекта, при чему је акцентована успешна сарадња са Викимедијом Србија. Предавање је доступно онлине на: https://www.sanu.ac.rs/snimci-predavanja-iz-ciklusa-vestacka-inteligencija/
  • Гостовање на РТС-у поводом излагања у САНУ, где је у оквиру  излагања сликан и промотивни лифлет креиран о српским романима и википодацима https://www.youtube.com/watch?v=YRh6meAlPCo&t=302s
  • На конфеенцији о вештачкој интелигенцији одржаној 26 и 27.12.2023 у САНУ, у оквиру излагања “Дигитални пут српског језика: ресурси, модели и технологије” као један од пројеката је наведен овај и Википодаци наведени као један од путоказа за интеграцију база знања и великих језичких модела који ће помоћи да се “халуцинације” језичких модела елиминишу или бар смање.
Radionica i promocija projekta WikiELTeC

Додатна радионица, која иначе није била раније планирана је одржана у сколу радионице за имплементацију „удаљеног читања“ у истраживачкој пракси УВОД У ДИГИТАЛНУ ХУМАНИСТИКУ  у Тршићу у Научно-образовном културном центру „Вук Kараџић“ 4-8. децембра 2023. (више на https://jerteh.rs/index.php/1011/) где су полазници били углавно докторанти хуманистичких наука су представљени резултати пројекта, а онда су полазници уносили ликове у Википодатке на основу припремљених скупова података. Имајући у виду да је у Тршићу радионица била петодневна, скоро цео један дан је био посвећен Википодацима и предавања су била чак и шира од радионице одржане у новембру, а и број полазника је био већи (30). Полазни су били из Београда, Ниша, Косовске Митровице, Новог Сада, Крагујевца, са Пала, тако да можемо рећи да је ова дисеминација више него успела.

Резултати пројекта[уреди | уреди извор]

Пројектом је реализован унос од 337 издања романа објављених у СрпКор корпусу, при чему је унето више од 75% романа као основих ставки са којима су издања повезана. Неки од романа попут ‘’На Дрини ћуприја’’ и ‘’Пинокијеве авантуре’’, као и романи који су саставни део ЕLTeC колекције, постојали су у Википодацима. За 65 романа креирано је  укупно 539 ставке за ликове, за које су унета по 5 основних својства (‘’је’’, ‘’пол или род’’, ‘’име’’, ‘’творац’’, ‘’појављује се у делу’’), док су неки од ликова допуњени са родбинским односима, занимањима, па чак и начином смрти.

По узору на Wikidata:WikiProject ELTeC/srpELTeC — Wikidata направљен је пројекат Wikidata:WikiProject_SrpKor који указује на страницу Collections где су представљене све до сад унете колекције српских романа којих укупно има 652 https://w.wiki/8qiE. Број фотографија на Викимедијиној остави је 100 насловних страна. Креирани упити се налазе на страници Wikidata:WikiProject_SrpKor/Queries.

Осим српских романа нека од дела су повезана и са преводима на италијански језик.

Резултати пројекта и активности радионица биће укључени у будућа истраживања у оквиру пројекта ТЕСЛА (акроним за Text Embeddings – Serbian Language Applications) истраживања које се спроводи уз подршку Фонда за науку Републике Србије, број пројекта: 7276.

Спољне везе[уреди | уреди извор]