Ekstrakcija rečenice

Из Википедије, слободне енциклопедије

Ekstrakcija rečenice je tehnika korišćena za automatsko sažimanje teksta. U ovom površnom postupku statičke heuristike (grčki veština pronalaženja istine,ili novih činjenica) su korišćene da se prepoznaju najistaknutije rečenice teksta. Izvlačenje rečenica je nezahtevan pristup u poređenju sa intenzivnijim I dubljim pristupima koji zahtevaju dodatno znanje kao sto su ontološko ili lingvističko značenje. Ukratko, izvlačenje teksta radi kao filter koji dozvoljava samo važnim rečenicama da prođu. Glavna loša strana koriščenja ove tehnike da sažima tekst je gubitak koherencije u dobijenom tekstu. Ipak, izvlačenje teksta može dati korisne informacije o poenti dokumenta I često su dovoljno razumljive čitaocima.

Procedura[уреди]

Obično, kombinacija heuristike se koristi da se odrede najvažnije rečenice dokumenta. Svaka heuristika dodaje (pozitivne ili negativne) bodove rečenici. Kada se ceo process završi u rešenje su rečenice koje su zavrsile sa najvećim brojem bodova. Vrednost individualnh vaganja heuristika su određena po važnosti.

Rani pristupi i neki prosti načini pronalaženja[уреди]

Prvobitni radovi koji su postavili temelje za mnoge tehnike koje se koriste danas su objavljeni od strane H.P. Luna[1] i H.P Edmundsona[2] 1969. godine. Lun je predložio da se doda veća vrednost rečenicama na početku dokumenta ili pasusa. Edmundsona je istakao značaj naslova za sažimanje teksta I bio je prvi koji koristi “stop-liste” u cilju filtriranja rečenica koje daju malo informacija u nisko semantičnom tekstu (kao na primer “of”,”the”,”a”…) . Takođe je okarakterisao razliku između dodatnih reči I markiranih reči, reči koje se verovatno pojavljuju zajedno sa važnim ili nevažnim informacijama. Njegova ideja o korištenju ključnih riječi, tj. riječi koje se javljaju znatno češće u dokumentu, još uvijek je jedna od najvažnijih heuristika današnjih sažimanja tekstova. Sa velikim lingvistističkim korpusom dostupnim danas,TF-IDF vrijednost koja potiče iz metode preuzimanja informacija, moze se uspešno primijeniti u identifikovanju ključnih riječi u tekstu: Na primer ako se reč “mačka ” pojavljuje znatno često u tekstu I uđe u sažet tekst (TF="term frequency"=frekventsnost pojma) onda “mačka” ima velike šanse da bude važna reč teksa. Zapravo tekst može biti upravo o mačkama.

Reference[уреди]