Сажимање више докумената

С Википедије, слободне енциклопедије

Сажимање више докумената је заправо аутоматска процедура која има за циљ вађења инфомација из више текстова о истој теми. Добијани извештај омогућава појединим корисницима као што су професионални информатори за потрошаче. На овај начин,системи за сажимање више докумената допуњују агрегатор вести правечи јос један корак унапред у борби са преоптерећивањем информацијама.

Кључне предности[уреди | уреди извор]

Ова техника прави извештаје о информацијама који су и свеобухватни и коначни. Уз различита мишљења која су састављена и наведена, свака тема је описана из виче перспектива у једном документу. Док је циљ кратког сажетка поједноставити претрађивање информација и смањити вријеме које упућује на најрелевантнијие изворне докуменате, коначан сажетак више докумената сам мора да садржи тражене информације, дакле да ограничава потребу за приступањем оригиналним документима на случај када је апсолутна прецизност информација потребна. Аутоматско сажимање представља податке преузете из више извора алгоритамски, без икаквог даљег уређивања или субјективне људске интервенције, што га чини комплетно непристрасно.

Технолошки изазови[уреди | уреди извор]

Испоставило се да је ова метода много сложенија него сажимање једног документа, чак и јако великог. Ова тешкоћа произлази из неизбежне тематске разноликости у великом скупу докумената. Добаро сажимање има за циљ да обједини главне теме са целовитошћу, читљивошћу и концизношћу. Конференције за разумевање докумената, спровеђене годисње од стране НИСТ, су развиле софистициране евалуационе критеријуме за технике сажимања више различитих докумената. Идеалан систем сажимања више докумената не само да скраћује текстове извора, већ и пружа информација организоване око кључног аспекта ради веће разноликости погледа на ту тему. Када се такав квалитет постигне, сажимање више докумената личи више на преглед дате теме. Ово последње подразумева да је текст задовољио друге основне услове за преглед текста састављеног од стране човека. Критеријуми за сажимање више докумената гласе:

  • јасна структура, укључујући и излагање главних садржаја, из које је лака навигација за циели део текста.
  • текст унутар секција је подељен у смислене параграфе
  • поступни прелазак са опстих на специфицне тематске аспекте
  • добра читљивост

Ово друго заслужује посебну назнаку- посебна пажња се води да би се осигурало да аутоматски преглед приказује:

  • нема "информационе" буке око дотичних докумената који нису повезани са папиром (WЕБ странице).
  • нема апсолутних референци н оно што није поменуто или објашњено у прегледу.
  • нема прекида текста преко реченице
  • нема семантичке сувишности

Системи и стварном животу[уреди | уреди извор]

Технологија сажимања више докумената сада већ сазрева у поглед који је подрзан од стране изабраних напредних wеб-базираних система који су тренутно доступни.

  • Ултимате Ресеарцх Ассистант "хвата" текст са резултата интернет претраживања у циљу лакше онлине претраге. Технике које се користе су: вађење концепта, сажимање текста, груписање хејерархијских концепата, и различите визуалне технике, укључујући цитате и мапе ума. ДА би користио овај алат, корисник укуца име теме, и алат ће тражити на интернету најважније ресурсе, и организовати резултате претраге у богат, лако разумљив извештај.
  • иРесеарцх Репортер Цоммерциал Теxт Еxтрацтион анд Теxт Суммаризатион систем, бесплатан демо сајт који прихвата упите корисника, прослеђује их на Гоогле претрагу, добија више релевантних документата, производи категорисане, лако читљиве и природно сажете извештаје који покрива добијене документе. Сви изводи су повезани са оригиналним документима WЕБ-у, пост-обрадом, извађеним ентитетима, догађајима и извађеним релацијама, вађењем текста, вађењем групација, лингвистичким анализама, груписаним документима, целим текстом, обрадом природног језика и законима категоризације.
  • Неwсбластер Архивирано на сајту Wayback Machine (16. април 2013) је систем који помаже корисницима да нађу вести које су им најинтересантније. Систем аутоматски скупља, групише, категорише и сажима вести са више сајтова на WЕБ-у на дневној бази.
  • НеwсИнЕссенце може бити коришћен да се поврати или сажме група чланака са интернета. Може почети од УРЛ-а и враћа документе који су слични, или оже повратити документе који се поклапају са датим кључним речима.НеwсИнЕссенце такође скида стотине чланака дневно

и производи "групне" новине од њих.

  • НеwсФеед Ресеарцхер је портал новина који врши константно аутоматско сажимање докумената иницијално груписаних од стране новинских агрегатора. НеwсФеед Ресеарцхер је потпомогнут од стране бесплатног онлине енгине-а који покрива већину догађаја повезаних са бизнисом, технологијама,и националним, као интернационалним вестима. Овај алат је такође доступан на захтев корисника да направи кратку верзију циљане теме.
  • Сцрапе Тхис ради као претрага, али уместо да даје линкове на најодговарајуће сајтове базиране на упиту, он скупља важне информације са одговарајућих сајтова,и пружа кориснику добар извештај.

Литература[уреди | уреди извор]

  • Günes Erkan and Dragomir R. Radev. Lexrank: Graph-based centrality as salience in text summarization. Journal of Artificial Intelligence Research (JAIR), 2004. [1]
  • Dragomir R. Radev, Hongyan Jing, Malgorzata Styś, and Daniel Tam. Centroid-based summarization of multiple documents. Information Processing and Management, 40:919–938, December 2004. [2]
  • Kathleen R. McKeown and Dragomir R. Radev. Generating summaries of multiple news articles. In Proceedings, ACM Conference on Research and Development in Information Retrieval SIGIR'95, pages 74–82, Seattle, Washington, July 1995. [3]
  • C.-Y. Lin, E. Hovy, "From single to multi-document summarization: A prototype system and its evaluation", In "Proceedings of the ACL", ppp. 457–464, 2002
  • Kathleen McKeown, Rebecca J. Passonneau, David K. Elson, Ani Nenkova, Julia Hirschberg, "Do Summaries Help? A Task-Based Evaluation of Multi-Document Summarization", SIGIR’05, Salvador, Brazil, August 15–19, 2005 [4]
  • R. Barzilay, N. Elhadad, K. R. McKeown, "Inferring strategies for sentence ordering in multidocument news summarization", Journal of Artificial Intelligence Research, v. 17, ppp. 35–55, 2002
  • M. Soubbotin, S. Soubbotin, "Trade-Off Between Factors Influencing Quality of the Summary", Document Understanding Workshop (DUC), Vancouver, B.C., Canada, October 9–10, 2005 [5]
  • C Ravindranath Chowdary, and P. Sreenivasa Kumar. "Esum: an efficient system for query-specific multi-document summarization." In ECIR (Advances in Information Retrieval). стр. 724-728. Springer Berlin Heidelberg, 2009.