Pređi na sadržaj

Otvoreni povezani podaci

S Vikipedije, slobodne enciklopedije

Otvoreni povezani podaci, njihov najvidljiviji primer usvajanja i primene principa povezanih podataka su Projekat Povezanih Javnih Podataka. Projekat, osnovan u januaru 2007. i podržan od strane V3C semantičke veb edukacije i spoljne grupe. Originalni cilj projekta je da se butuju veb podaci identifikovanjem postojećih skupova podataka koji su dostupni u okviru otvorene licence, pretvaranje ove u RDF prema povezanim načelima podataka, i objavljivanje istih na vebu.

Projekat povezanih javnih podataka[uredi | uredi izvor]

Učesnici u ranim fazama projekta bili su prvenstveno istraživači i programeri iz univerzitetske istraživačke laboratorije i mala preduzeća. Od tada projekat je porastao značajno, toliko da uključi značajan angažman velikih organizacija kao što je BBC[1], Tomson Rojters i Kongresna biblioteka. Ovaj rast je omogućen otvorenom prirodom projekta, gde svako može jednostavno učestvovati objavljivanjem seta podataka prema povezanim principima podataka i povezivanja sa postojećim setovima podataka. Indikacija opsega i obim veb podataka koji potiču iz projekta povezivanja Otvorenih podataka je prikazan na slici.

Svaki čvor u ovom oblaku dijagrama predstavlja poseban skup podataka objavljenih kao Povezani podaci. Povezivanje otvorenih podataka oblak dijagrama daje pregled objavljenih skupova podataka i njihovu međupovezanost. Lukovi na slici 1 pokazuju da postoje veze između stavki u dva seta povezanih podataka. Teži lukovi grubo odgovaraju veći broj veza između dva seta podataka, dok dvosmerni lukovi pokazuju spoljašnje linkove na druge već postojeće u svakom skupu podataka. Sadržaj oblaka je raznolik u prirodi i sadrži podatke o geografskim lokacijama, ljudi, preduzeća, knjiga (Bizer & Cyganiak & Gauss, 2007), naučnih radova ((Van de Sompel et al., 2009), filmova (Hassanzadeh & Consens, 2009), muzike, televizije i radio programa, gena, proteina, droga i klinička ispitivanja, online zajednice, statističkih podataka, rezultate popisa stanovništva, i kritike.

Izračunavanje tačne veličine veb podataka predstavlja izazov zbog činjenice da se veliki deo podataka generiše oko omotača postojećih relacionih baza podataka ili API. Zato prvo treba da se popiše pre nego što se može računati ili analizirati. Alternativno, veličina veb podataka može se proceniti na osnovu skupa podataka statistike koji su prikupljeni od strane zajednice u ESV viki. Prema ovim statistikama, veb podataka trenutno se sastoji od 4,7 milijardi RDF trojki, koji su međusobno povezani oko 142 miliona RDF linkova (maj 2009). Kako Slika 1 pokazuje, pojedini skupovi podataka služe kao povezivanje čvorišta u vebu podataka. Na primer, skup podataka sastoji se od RDF trojki vadi iz „informacionih blokova“ što se obično vidi na desnoj strani Vikipedija članaka, dok GeoImena[2] obezbeđuje RDF opise miliona geografskih lokacija širom sveta. Kako ova dva skupa podataka pružaju URI i RDF opise za mnoge uobičajene entitete ili koncepte, oni su često pominjani u drugim više specijalizovanim skupovima podataka i stoga su se razvili u čvorištima u kojima je sve veći broj na drugih skupova podataka koji su povezani.

Objava povezanih podataka na Internetu[uredi | uredi izvor]

Objavljivanjem podataka na veb-u u skladu sa principima povezanih podataka, provajderi dodaju njihove podatke na globalnom prostoru podataka, koji omogućava da se podaci otkriju i koriste razne aplikacije. Objavljivanje podatka, postavljeno kao povezani podaci na Vebu uključuje sledeća tri osnovna koraka:

  • Dodeli URI na entitete koji su opisani od strane skupa podataka i obezbediti ove URI preko HTTP protokola u RDF reprezentacijama.
  • Postavite RDF linkove ka drugim izvorima podataka na Veb-u, tako da klijenti mogu da se kreću vebom podataka u celini od sledećih linkova RDF.
  • Obezbedite metapodatke o objavljenim podacima, tako da klijenti mogu da procene kvalitet objavljenih podataka i biraju između različitih pristupa sredstvima.

Izbor URI-ja i RDF-a rečnika[uredi | uredi izvor]

Provajderi podatke mogu da biraju između dva URI načina korišćenja HTTP identifikovati entitete: 303 URI i hash URI. Oba obrasca obezbeđuju da klijenti mogu da prave razliku između URI identifikovanja realnog sveta entiteta i URI koji identifikuju veb dokumenata koji opisuju ove stvarne subjekte. U otvorenom okruženju kao što je veb, različiti davaoci informacija objavljuju podatke o istom stvarnom svetu entiteta, na primer geografska lokacija ili slavna ličnost. Pošto oni ne mogu da znaju jedni o drugima, oni uvode različita URI da identifikuju iste entitete. Na primer, GeoImena koristi URI http://svs.geonames.org/2950159/ Berlin. Kako se oba URI odnose na isti entitet stvarnog sveta, oni se zovu URI pseudonimi. URI pseudonimi su uobičajeni na veb podacima, kao što se ne može realno očekivati da se svi davaoci informacija slažu o istim URI do identifikovanju entiteta. URI pseudonimi takođe pružaju važnu društvenu funkciju veb podataka kao što su različiti opisi istog stvarnog sveta entiteta i time omogućavaju različite poglede i mišljenja da se izrazi na vebu. Da bi dalje mogli da pratimo da različiti davaoci informacija govore o istom entitetu, bila je uobičajena praksa da se informacije pružaju uz određen opis: isti kao linkovi do URI pseudonimima koji su već poznati. Različite zajednice imaju posebne preferencije na rečnicima koji oni više vole da koriste za objavljivanje podataka na Internetu. Veb podaci je stoga stvoren za proizvoljne rečnike koji se mogu koristi paralelno.

Rečnici[uredi | uredi izvor]

Uprkos ovoj mogućnosti, smatra se da je dobra praksa da se ponovo koriste uslovi iz poznatih RDF rečnika kao što su FOAF, SIOC, SKOS, DOAP, vCard, Dublin Core[3], OAI-ORE- ili dobro poznate relacije kad god je to moguće kako bi bile lakše za klijenta aplikacije za obradu povezanih podataka. Jedino ako ovi rečnici ne pružaju potrebne uslove, izdavači podataka treba da definišu novi, izvor specifične terminologije podataka. Ako je definisana nova terminologija, to treba da se samoopisuje tako što je URI koji identifikuju pojmove veb upućivanja. Ovo omogućava klijentima da preuzmu RDF šeme ili definicije termina, kao i termin mapiranja drugim rečnicima. Serija formata koja je uobičajena za povezane podatke je RDF/XML. U situacijama gde je potrebna ljudska inspekcija RDF podataka Notacija3[4], često pod uslovom kao alternativa, interkonvertibilnih serija, zbog većeg doživljavanja čitljivosti ovih formata. Alternativno, povezani podaci mogu takođe biti serije RDFa koje obezbeđuju ugrađivanje RDF trojke u HTML. U drugom slučaju, izdavači podataka treba da koriste RDFa kao atribut na dodeli URI do subjekta u cilju da omogući drugim provajderima podataka da podese da se RDF povezuje sa njima.

Pretraživači otvorenih podataka[uredi | uredi izvor]

Baš kao tradicionalni veb pretraživači omogućavaju korisnicima da se kreću između HTML stranice prateći hiperlinkove, pregledači otvorenih podataka omogućavaju korisnicima da se kreću između izvora podataka, sledeći linkove izražene kao RDF trojke. Razlika između njihovih indeksa otvorenih podataka nekima je nevidljiva, ali ipak postoji.

Metapodaci[uredi | uredi izvor]

Povezani podaci bi trebalo da budu objavljeni uz nekoliko tipova metapodataka, u cilju povećanja njegove korisnosti za potrošače podataka. Da bi se omogućilo klijentima da procene kvalitet objavljenog podatka i da se utvrdi da li oni žele da veruju u te podatke, oni bi trebalo da budu praćeni meta-informacijama o svom tvorcu, datumu kreiranja, kao i metodi stvaranja. Osnovno poreklo meta-informacije može se obezbediti korišćenjem Dublin Core. U cilju podrške klijentima u izboru, najefikasniji način za pristup veb podacima za specifičan zadatak koji moraju da obavljaju, izdavači podataka mogu da obezbediti dodatnu tehničku metapodataka o njihovom skupu podataka i njenim odnosima sa drugim.

Primeri alata za objavu[uredi | uredi izvor]

Primeri otvorene platforme podataka[uredi | uredi izvor]

Slobodno obeležavanje uslovima licenciranja je ključna komponenta otvorenih podataka, a ikone poput onih na slici ovde se koriste za tu svrhu.

Reference[uredi | uredi izvor]