Ekstrakcija informacija

U obradi prirodnog jezika, ekstrakcija informacija (Information Extraction – IE) je tip pronalaženja informacija čiji je cilj da automatski dođe do strukturiranih informacija, odnosno kategorisanih i kontekstualno i semantički dobro definisanih podataka iz određene oblasti, od nestrukturiranih mašinskih čitljivih dokumenata. Primer ovoga je ekstrakcija slučajeva spajanja korporacija, formalnije MergerBetween(company1,company2,date), iz vesti postavljene na net i to iz rečenice kao što je: „Juče, Foo Inc., koji je baziran u Njujorku, najavio je da će preuzeti Bar Corp.“ Širi cilj IE je da dopusti da izračunavanje bude izvršeno na prethodno nestrukturiranim podacima. Specifični cilj bi bio dopuštanj logičkom razmišljanju da izvuče zaključke zasnovane na logičkom sadržaju podataka.

Pronalaženje informacija je nauka o traženju informacija u dokumentima, traženju dokumenata, meta-podataka o dokumentima i sl.. Automatizovani sistemi za pronalaženje informacija se koriste za smanjenje preopterećenosti informacijama.

Značaj IE određen je rastućim količinama informacija dostupnih u nestrukturiranoj formi, na primer na Internetu. Ovo znanje može biti napravljeno dostupnijim u smislu transformisanja u odnosnu formu ili uparivanjem sa XML etiketama. Inteligentan radnik koji prati dolazeće podatke zahteva da pretvori nestrukturirane podatke u nešto što se može razumeti. Tipična primena IE je skeniranje dokumenata pisanih prirodnim jezikom i popunjavanje baze izvađenim informacijama. Trenutni pristupi ekstrakciji informacija koriste tehnike obrade prirodnog jezika koje se fokusiraju ne veoma ograničene oblasti. Na primer, Konferencija za razumevanje poruka (Message Understanding Conference – MUC) je konferencija zasnovana na nadmetanju koja se u prošlosti fokusitala na sledeće oblasti:

- MUC-1 (1987), MUC-2 (1989): Poruke mornaričkih operacija

- MUC-3 (1991), MUC-4 (1992): Terorizam u latino-američkim zemljama

- MUC-5 (1993): Udruženi rizični poduhvati i mikroelektronski domeni

- MUC-6 (1995): Vesti o promenama u upravi

- MUC-7 (1998): Izveštaji o lansiranju satelita

Tekstovi na prirodnom jeziku mogu zahtevati upotrebu neke forme uprošćavanja teksta kako bi stvorili lakši tekst za mašinsko čitanje iz kojeg bi rečenice bile izvađene. Operacija uprošćavanja teksta podrazumeva preradu teksta koja kao krajnji rezultat ima tekst sa veoma uprošćenom gramatikom i strukturom, s tim što značenje i suština teksta ostaju nepromenjeni. Tipični (pod)zadaci IE su: - Prepoznavanje imenskih entiteta: prepoznavanje imena ljudi i organizacija, naziva mesta, vremenskih izraza i određenih tipova numeričkih izraza. Ovi sistemi su kreirani da koriste, kako lingvističke gramatički bazirane tehnike (koje zahtevaju mesece rada iskusnih lingvista), tako i statističke modele.

- Ko-referencija: identifikovanje lanaca imeničkih fraza koje se odnose na isti predmet. Na primer, anafora je tip ko-referencije.

- Terminološka ekstrakcija: pronalaženje relevantnih termina za dati korpus.