Sažimanje više dokumenata

Из Википедије, слободне енциклопедије

Sažimanje više dokumenata je zapravo automatska procedura koja ima za cilj vađenja infomacija iz više tekstova o istoj temi. Dobijani izveštaj omogućava pojedinim korisnicima kao što su profesionalni informatori za potrošače. Na ovaj način,sistemi za sažimanje više dokumenata dopunjuju agregator vesti praveči jos jedan korak unapred u borbi sa preopterećivanjem informacijama.

Ključne prednosti[уреди]

Ova tehnika pravi izveštaje o informacijama koji su i sveobuhvatni i konačni. Uz različita mišljenja koja su sastavljena i navedena, svaka tema je opisana iz viče perspektiva u jednom dokumentu. Dok je cilj kratkog sažetka pojednostaviti pretrađivanje informacija i smanjiti vrijeme koje upućuje na najrelevantnijie izvorne dokumenate, konačan sažetak više dokumenata sam mora da sadrži tražene informacije, dakle da ograničava potrebu za pristupanjem originalnim dokumentima na slučaj kada je apsolutna preciznost informacija potrebna. Automatsko sažimanje predstavlja podatke preuzete iz više izvora algoritamski, bez ikakvog daljeg uređivanja ili subjektivne ljudske intervencije, što ga čini kompletno nepristrasno.

Tehnološki izazovi[уреди]

Ispostavilo se da je ova metoda mnogo složenija nego sažimanje jednog dokumenta, čak i jako velikog. Ova teškoća proizlazi iz neizbežne tematske raznolikosti u velikom skupu dokumenata. Dobaro sažimanje ima za cilj da objedini glavne teme sa celovitošću, čitljivošću i konciznošću. Konferencije za razumevanje dokumenata, sproveđene godisnje od strane NIST, su razvile sofisticirane evaluacione kriterijume za tehnike sažimanja više različitih dokumenata. Idealan sistem sažimanja više dokumenata ne samo da skraćuje tekstove izvora, već i pruža informacija organizovane oko ključnog aspekta radi veće raznolikosti pogleda na tu temu. Kada se takav kvalitet postigne, sažimanje više dokumenata liči više na pregled date teme. Ovo poslednje podrazumeva da je tekst zadovoljio druge osnovne uslove za pregled teksta sastavljenog od strane čoveka. Kriterijumi za sažimanje više dokumenata glase:

  • jasna struktura, uključujući i izlaganje glavnih sadržaja, iz koje je laka navigacija za cieli deo teksta.
  • tekst unutar sekcija je podeljen u smislene paragrafe
  • postupni prelazak sa opstih na specificne tematske aspekte
  • dobra čitljivost

Ovo drugo zaslužuje posebnu naznaku- posebna pažnja se vodi da bi se osiguralo da automatski pregled prikazuje:

  • nema "informacione" buke oko dotičnih dokumenata koji nisu povezani sa papirom (WEB stranice).
  • nema apsolutnih referenci n ono što nije pomenuto ili objašnjeno u pregledu.
  • nema prekida teksta preko rečenice
  • nema semantičke suvišnosti

Sistemi i stvarnom životu[уреди]

Tehnologija sažimanja više dokumenata sada već sazreva u pogled koji je podrzan od strane izabranih naprednih web-baziranih sistema koji su trenutno dostupni.

  • Ultimate Research Assistant "hvata" tekst sa rezultata internet pretraživanja u cilju lakše online pretrage. Tehnike koje se koriste su: vađenje koncepta, sažimanje teksta, grupisanje hejerarhijskih koncepata, i različite vizualne tehnike, uključujući citate i mape uma. DA bi koristio ovaj alat, korisnik ukuca ime teme, i alat će tražiti na internetu najvažnije resurse, i organizovati rezultate pretrage u bogat, lako razumljiv izveštaj.
  • iResearch Reporter Commercial Text Extraction and Text Summarization sistem, besplatan demo sajt koji prihvata upite korisnika, prosleđuje ih na Google pretragu, dobija više relevantnih dokumentata, proizvodi kategorisane, lako čitljive i prirodno sažete izveštaje koji pokriva dobijene dokumente. Svi izvodi su povezani sa originalnim dokumentima WEB-u, post-obradom, izvađenim entitetima, događajima i izvađenim relacijama, vađenjem teksta, vađenjem grupacija, lingvističkim analizama, grupisanim dokumentima, celim tekstom, obradom prirodnog jezika i zakonima kategorizacije.
  • Newsblaster je sistem koji pomaže korisnicima da nađu vesti koje su im najinteresantnije. Sistem automatski skuplja, grupiše, kategoriše i sažima vesti sa više sajtova na WEB-u na dnevnoj bazi.
  • NewsInEssence može biti korišćen da se povrati ili sažme grupa članaka sa interneta. Može početi od URL-a i vraća dokumente koji su slični, ili ože povratiti dokumente koji se poklapaju sa datim ključnim rečima.NewsInEssence takođe skida stotine članaka dnevno

i proizvodi "grupne" novine od njih.

  • NewsFeed Researcher je portal novina koji vrši konstantno automatsko sažimanje dokumenata inicijalno grupisanih od strane novinskih agregatora. NewsFeed Researcher je potpomognut od strane besplatnog online engine-a koji pokriva većinu događaja povezanih sa biznisom, tehnologijama,i nacionalnim, kao internacionalnim vestima. Ovaj alat je takođe dostupan na zahtev korisnika da napravi kratku verziju ciljane teme.
  • Scrape This radi kao pretraga, ali umesto da daje linkove na najodgovarajuće sajtove bazirane na upitu, on skuplja važne informacije sa odgovarajućih sajtova,i pruža korisniku dobar izveštaj.

Literatura[уреди]

  • Günes Erkan and Dragomir R. Radev. Lexrank: Graph-based centrality as salience in text summarization. Journal of Artificial Intelligence Research (JAIR), 2004. [1]
  • Dragomir R. Radev, Hongyan Jing, Malgorzata Styś, and Daniel Tam. Centroid-based summarization of multiple documents. Information Processing and Management, 40:919–938, December 2004. [2]
  • Kathleen R. McKeown and Dragomir R. Radev. Generating summaries of multiple news articles. In Proceedings, ACM Conference on Research and Development in Information Retrieval SIGIR'95, pages 74–82, Seattle, Washington, July 1995. [3]
  • C.-Y. Lin, E. Hovy, "From single to multi-document summarization: A prototype system and its evaluation", In "Proceedings of the ACL", pp. 457–464, 2002
  • Kathleen McKeown, Rebecca J. Passonneau, David K. Elson, Ani Nenkova, Julia Hirschberg, "Do Summaries Help? A Task-Based Evaluation of Multi-Document Summarization", SIGIR’05, Salvador, Brazil, August 15–19, 2005 [4]
  • R. Barzilay, N. Elhadad, K. R. McKeown, "Inferring strategies for sentence ordering in multidocument news summarization", Journal of Artificial Intelligence Research, v. 17, pp. 35–55, 2002
  • M. Soubbotin, S. Soubbotin, "Trade-Off Between Factors Influencing Quality of the Summary", Document Understanding Workshop (DUC), Vancouver, B.C., Canada, October 9–10, 2005 [5]
  • C Ravindranath Chowdary, and P. Sreenivasa Kumar. "Esum: an efficient system for query-specific multi-document summarization." In ECIR (Advances in Information Retrieval), pp. 724-728. Springer Berlin Heidelberg, 2009.