Пређи на садржај

Википедија:Википројекат WikiELTeC

С Википедије, слободне енциклопедије

WikiELTeC је пројекат Викимедије Србије и Друштва за језичке ресурсе и технологије ЈеРТех замишљен да се у 2022. години стари српски романи из колекције ELTeC представе Википодацима. Пројекат обухвата унос, повезивање именованих ентитета, визуелизацију и анализа унетих Википодатака.

Циљ пројекта[уреди | уреди извор]

Циљ пројекта је да се унесу вики подаци о старим српским романима који су сканирани, ручно кориговани, опремљени метаподацима, обележени именованим ентитетима у оквиру Cost D-reading акције CA16204 (2017-2021) „Удаљено читање за европску историју књижевности“ (D-reading). Један од најважнијих циљева ове акције је припрема вишејезичног корпуса (названог European Literary Text Collection - ELTeC) који ће, када буде потпуно завршен, садржати по 100 романа први пут објављених у периоду 1840-1920 за сваки језик из акције. Тим предвођен проф. Цветаном Крстев је публиковао 100 романа у основној и 20 у проширеној подколекцији, што представља основни ресурс за wikiELTeC пројекат. Активности пројекта су усмерене на:

  • Повећање броја википедијанаца
  • Проширење врста активнисти википедијанаца
  • Унос нових записа у Википодатке
  • Унос нових записа у Викизворник
  • Унапређење постојећих ресурса динамичким садржајима (семантичким и картографским)

Мотиви за израду пројекта[уреди | уреди извор]

Романи први пут публиковани у периоду 1840-1920. године су слабо познати јавности, неки од њих нису имали обновљена издања и сматрамо да је свака промоција овог ресурса и сваки различити облик публиковања важан и да доприноси видљивости српског језика и књижевности.

Треба напоменути да су романи припремљени у писму у ком су публиковани и то је углавном била ћирилица, што је додатно у сагласности са државним активностима за очување ћириличног писма.

Свест о могућностима коришћења структурираних података на вебу је мала и сматрамо да ће овај пројекат да допринесе не само изградњи викиресурса већ и унапређењу коришћења похрањених википодатака.

Реализација пројекта[уреди | уреди извор]

Унос основних вики података о овим романима је овим пројектом допуњен за све романе.

Проширење скупа података је укључило и локације где се одвија радња романа, главне ликове, а потом и повезивање у самом тексту романа са вики подацима.[1]

Викизворник је плану, где би он био допуњен романима из ELTeC колекције.

Циљна група[уреди | уреди извор]

Имајући у виду популарност Викимедијиних пројеката верујемо да би се широј популацији ова драгоцена колекција, каква до сада није постојала за српски, додатно приближити и да ће се осветлити до сада непозната дела српске књижевности први пут објављена у периоду 1840-1920.

Циљна група дакле могу бити историчари, историчари књижевности, ђаци, студенти, и сви остали који нису имали прилике да виде и прочитају ове ретке књиге, сакупљене по нашим највећим библиотекама и приватним колекцијама.

Развијени ресурси[уреди | уреди извор]

Развијени ресурси ће омогућити разноврсна лингвистичка, филолошка и информатичка истраживања. Садржаће материјал који није обухваћен ниједним постојећим корпусом. Сви текстови корпуса ELTeC ће постати део дигиталне библиотеке Аурора коју развија Јертех и Википодаци ће бити спрегнути са приказом података о романима. Као резултат пројекта биће додате странице које ће користећи Wikidata Query Service и SPARQL упите приказивати на различите начине унете Википодатке, као на пример места на којима се дешава радња романа. [2] Вики страна са детаљним приказом упита је доступна на Wikidata:WikiProject ELTeC/Queries.

Визуелизација википодатака о старим српским романима:

слика УРЛ опис
Aутори - шта знамо!? Интерактивни графикони и приказ стабла аутора и ELTeC издања.
Величина романа мерена бројем страница.

Величина романа мерена бројем речи.

Интерактивни балон графикон са романима у колекцији ELTeC који имају VIAF ID, где је величина круга број страница или број речи.
Путујемо у место издања романа! Meста првог издања романа SrpELTeC колекције.
Која места аутори помињу у романима? Интерактивни балон графикон са местима која су аутори помињали у колекцији SrpELTeC. Величина круга сразмерна је броју помињања места у роману по ауторима.
Места која се највише помињу у романима? Графички приказ броја места која се помињу у колекцији.
Славимо лепа времена! Визуелизација временске линије романа, сортирана по години њиховог првог објављивања.
Ко је моја жена? Интерактивни график супружника у романима.
Сви смо овде! Интерактивни графикон свих ликова у романима.
Interaktivni grafikon odnosa majka-dete
Погледај ко је мајка, а ко је њено дете! Интерактивни графикон свих ликова у роману који су у односу мајка-дете.
Интерактивни графикон свих ликова у роману који су у односу отац-дете
Погледај ко је отац, а ко је дете! Интерактивни графикон свих ликова у роману који су у односу отац-дете.

Веб страна на енглеском са упитима је доступна на овој адреси.

Статистика подколекције ELTeC српских романа:

графикон упит опис
https://w.wiki/5mQ6 Графикон зависности броја ликова у односу на романе.
https://w.wiki/5mPu Графикон броја појављивања градова у целој колекцији.
https://w.wiki/5mPY Приказ места која се помињу у сваком роману.
https://w.wiki/5mPZ Приказ ликова који се помињу у сваком роману.

Систематизација свих ставки у Википодацима

Да би се лако приступило сваком роману, као и издању сваког романа (електронском, дигиталном или штампаном) систематизован је преглед свих романа на страници WikiProject_ELTeC/srpELTeC .

Pregled romana srpELTeC kolekcije
394x394пискел


Очекивани утицај

Расположивост предложених ресурса ће свакако приближити читаоцима Вики ресурса овај књижевни период о ком нема много широко доступних информација, али ће кроз романе моћи и да се упозна начин живота у граду и селу у то време, обичаји, јела, … Спрезање текстуалних података са Википодацима ће допринети машинској разумљивости поменутих романа и допринети другачијем, „удаљеном“ погледу на српску књижевност у периоду 1840-1920.

Расположивост предложених ресурса ће свакако приближити читаоцима Вики ресурса овај књижевни период о ком нема много широко доступних информација, али ће кроз романе моћи и да се упозна начин живота у граду и селу у то време, обичаји, јела, … Спрезање текстуалних података са Википодацима ће допринети машинској разумљивости поменутих романа и допринети другачијем, „удаљеном“ погледу на српску књижевност у периоду 1840-1920.

Предложени тим је укључен у COST акцију CA18209 NexusLinguarum – European network for Web-centred linguistic data science која траје 2019-2023 те ће моћи да пренесу актуелне технологије и знања у вики заједницу Србије и даље, али и да користе и промовишу резултате овог пројекта у другим стручним и научним активностима.

wikiELTeC радионицa и промоцијa[уреди | уреди извор]

Локација: Универзитет у Београду, Рударско - геолошки факултет, Ђушина 7

Датум: 17.11.2022. године у 16 часова

Сатница радионице:

16:00 – Отварање и поздравна рече, Ивана Маџаревић, Викимедија Србије

16.15 – 16.30 Проф. др Ранка Станковић: Википодаци корпуса SrpELTeC: упознавање са својствима романа

16.30 – 17:00  Милица Иконић Нешић, Биљана Рујевић: Практичан рад на уношењу података о романима.

17.00 – 17:20 Проф. др Ранка Станковић: Основе SPARQL упитног језика са примерима претраге SrpELTeC Википодатака

17.20 – 17:40 Милица Иконић Нешић: Практичан рад на модификовању постојећих и креирању нових SPARQL упита о романима

17:40 – 18.00 Пауза за кафу

Сатница промоције:

18:00 – 18:15 Проф. др Цветана Крстев: О корпусу старих српских романа SrpELTeC

18:15 – 18:30 Проф. др Ранка Станковић: Корпус SrpELTeC и Википодаци

18:30 – 18:45 Проф. др Душко Витас: Слике из приватног живота у корпусу  SrpELTeC

18:45 – 19:15 Питања

19:15 -21:00 Коктел и непосредна дискусија

Радионица и промоција пројекта WikiELTeC 2022.


Полазници радионице имали су прилику да упознају SrpELTeC кроз оквир Википодатака и упитног језика SPARQL, да науче начин уношења података о роману у Википодатке, поставе упите над базом знања и генеришу занимљиве динамичке визуелизације података и романа. Други део програма био је одвојен за промоцију, приликом које су укратко били представљени главни резултати пројекта SrpELTeC из ког су проистекли мотиви и идеје за пројекат wikiELTeC, након чега је уследила демонстрација карактеристичних претрага и визуелизација.

Остале активности и радионице[уреди | уреди извор]

Ранка Станковић, заменик председника Друштва за језичке ресурсе и технологије JeRTeh је одржала у недељу, 29.05.2022. радионицу под насловом "wikiELTeC - Википодаци о старим српским романима из колекције ELTeC" у оквиру догађаја Викилајв 2022, о ком више информација се може видети на

https://sr.wikipedia.org/wiki/Википедија:Викилајв_2022 .  

Презентација је доступна на вики страни пројекта и на https://commons.wikimedia.org/wiki/File:Vikilajv_srpELTeC_@_Wikidata_-_Ranka_Stankovi%C4%87.pdf

Рад “Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection” са референцирањем на овај пројекат је изложен у на престижној конференцији “13th Conference on Language Resources and Evaluation (LREC 2022)” која је одржана у Марсељу 20-25 јуна 2022 у организацији European Language Resources Association (ELRA). Рад је одштампан у зборнику радова  на странама 3337–3345 који је публикован и онлајн под лиценцом CC-BY-NC-4.0 доступан на адреси

http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.356.pdf .

Одржана је радионица на којој је договорен начин повезивања википодатака pомана и података на Oстави и унети су први записи. Резултати пројекта су том приликом представљени и др Ољи Перишић која је предавач на Универзитету у Торину на Департману за стране језике и културе. Осим активности на самој радионици, договорено да она преведе наслове романа на италијански језик.

Резултати пројекта[уреди | уреди извор]

Повезивање старих српских романа из периода од 1840-1920 године повећало је интересовање студената за заборављену књижевност, заробљену у папирним ретким верзијама. Овакав пројекат је допринео визуелизацији романа и био је инспирација  инстраживачкoj групи за уношење још 600 романа у Википодатке писаних на 6 различитих језика (енглески, мађарски, словеначки, португалски, немачки. француски).

Један од најинтересантнијих сегмената пројекта био је ручни унос ликова романа и повезивање романа са местима радње. Број романа у којима се појављује нека локација: најфреквентнија Србија, потом Београд. На слици нису приказани сви градови само они који се појављују у више романа и само понеки који се појављују у само једном роману.

Унето је 120 романа основне srpELTeC и srpELTeC-ext колекције (link). Преглед свих романа и издања која се налазе у Википодацима WikiProject_ELTeC/srpELTeC . За 70 романа унето је 965 ликова, као и више од 5 основних својстава за сваки лик, при чему се тежило и допуњавању родбинских односа, љубавних односа, начина смрти, занимања, надимака, https://w.wiki/5mPZ. Такође, унето је 136 различитих места радње https://w.wiki/5nhK, рачунајући појављивање по романима укупнос 249 https://w.wiki/5mPY.

Пројекат је награђен као најуспешнији у 2022. години. 

Похвалница за најбољи пројекат у 2022. години

Пројекат је био мотивација за пројекат реализован у 2023. години Википедија:Википројекат WikiELTeC 2023.

Уредници[уреди | уреди извор]

wikiELTeC: Википодаци о старим српским романима из колекције ELTeC

Спољне везе[уреди | уреди извор]

Референце[уреди | уреди извор]

  1. ^ http://jerteh.rs/wp-content/uploads/2021/12/Named-Entity-Journey-from-Unitex-to-Wikidata-.pdf
  2. ^ IKONIĆ NEŠIĆ, Milica; STANKOVIĆ, Ranka; RUJEVIĆ, Biljana. Serbian ELTeC Sub-Collection in Wikidata. Infotheca - Journal for Digital Humanities, [S.l.], v. 21, n. 2, p. 60-87, feb. 2022. ISSN 2217-9461. https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/2021.21.2.4_en