Претраживање информација

С Википедије, слободне енциклопедије

Pretraživanje informacija (skraćeno PI; eng. information retrievalIR) nauka je o potrazi za informacijama u dokumentima, koja pretražuje same dokumente, tražeći metapodatke (eng. metadata) koji opisuju te dokumente ili koja pretražuje unutar baza podataka, bilo relacionih samostalnih baza podataka (eng. relational stand-alone databases) или хипертекстуалних база података са мреже (енг. hypertextually-networked databases) као што је глобална рачунарска мрежа (енг. world wide web).

Међутим, постоји општа забуна у вези са претраживањем података, претраживањем докумената, претраживањем информација и претраживањем текста, јер свако од ових претраживања има своју засебну литературу, теорију, праксу и технологије. Претраживање информација је интердисциплинарна област, попут већине области које су у развоју, заснована на рачунарској науци, математици, библиотекарству и науци о информацијама, когнитивној психологији, лингвистици, статистици и физици.

Аутоматизовани системи за претраживање информација се користе да би се смањила преоптерећеност информацијама. Многи универзитети и јавне библиотеке користе системе за претраживање информација да би обезбедиле приступ књигама, часописима и другим документима. Системи за претраживање информација се често односе на објекат (енг. објецт) и упит (енг. qуерy). Упити су формални захтеви за потребним информацијама које корисник убацује у систем за претраживање информација. Објекат је ентитет који чува или складишти информације у бази података. Упити корисника се упарују са објектима ускладиштеним у бази података. Документ је, стога, објектни податак (енг. објецт дата). Често се сами документи не чувају или складиште директно у систему претраживања информација, већ су, уместо тога, представљени у том систему њиховим сурогатима.

Године 1992, Министарство одбране Сједињених Америчких Држава, заједно са националним институтом за стандарде и технологију (енг. National Institute of Standards and Technology) кофинансирало је конференцију о претраживању информација (енг. TREC-Text Retrieval Conference) као део текстуалног програма ТИПСТЕР. Циљ овога био је да се зађе у групу за претраживање информација тако што би се обезбедила инфраструктура која је потребна за тако широку процену методологија претраживања информација. Претраживачи мреже, попут Гугла, live.com-a или Јахуа, представљају најочигледније апликације за претрагу информација.

Мере рада[уреди | уреди извор]

Постоји неколико мера за рад система за претраживање информација. Мере се заснивају на збирци докумената и упитима којима је позната релевантност датих докумената. Све уобичајене мере које су описане овде претпостављају бинарну релевантност: документ је или релевантан или ирелевантан. У пракси, упити могу бити лоше постављени и могу да постоје различите нијансе релевантности. Формуле за прецизност, опозив и испад су преведене из чланка немачке википедије ‘рецалл унд прецисион’. Обратите пажњу и на овај леп интуитиван графички опис.

Прецизност[уреди | уреди извор]

Пропорција претражених и релевантних докумената у односу на сва документа у претраживању.

                             {RELEVANTNA  DOKUMENTA} ∩ {PRETRAŽENA DOKUMENTA}

Прецизност=

                                      {SVA DOKUMENTA U PRETRAZI}

У бинарној класификацији, прецизност је аналогна позитивној процени вероватноће. Прецизност узима у обзир сва документа у претрази. Такође се може вршити процена на основу датог засебног ранга, узимајући у обзир само прве резултате које је дао систем. Ова мера се назива прецизност на н или П@н (енг. прецисион ат н).

Треба обратити пажњу да се значење и употреба речи прецизност у области претраживања информација разликује од дефиниције тачности и одређености у оквиру других грана науке и технологије.

Пример позитивне процене вероватноће код тестова за откривање болести — ту треба разликовати оне који имају дотичну болест и који су позитивни на тесту (стварно позитивни). Затим, оне који су здрави, али су позитивни на тесту (лажно позитивни). Они који су здрави, али негативни на тесту (стварно негативни) и они који су болесни, а негативни на тесту (лажно негативни), па стога формула изгледа:

                                       BROJ PRAVO POZITIVNIH

ППВ=

        BROJ STVARNO POZITIVNIH + BROJ LAŽNO POZITIVNIH

Опозив[уреди | уреди извор]

Пропорција релевантних докумената која су претражена у односу на сва релевантна документа која су на располагању.

                            {RELEVANTNA DOKUMENTA} ∩ {PRETRAŽENA DOKUMENTA}

Опозив=

                        {SVA RELEVANTNA DOKUMENTA KOJA SU NA RASPOLAGANJU}

У бинарној класификацији, опозив се назива сензитивност.

Тривијално је постићи стопостотни опозив тако што се дају сва документа као одговор на било који упит, стога сам опозив није довољан већ мора да се измери и број ирелевантних докумената, на пример израчунавајући прецизност.

                                     BROJ STVARNO POZITIVNIH

Сензитивност=

                               BROJ STVARNO POZITIVNIH + BROJ LAŽNO NEGATIVNIH

Испад[уреди | уреди извор]

Пропорција ирелевантних докумената који су претражени у односу на сва ирелевантна документа која су на располагању:

                        {IRELEVANTNA DOKUMENTA} ∩ {PRETRAŽENA DOKUMENTA}

Испад=

                            {SVA IRELEVANTNA DOKUMENTA NA RASPOLAGANJU}

Ф-мера, или усклађен Ф-резултат, је пондерисана, хармонијска средина прецизности и опозива и гласи:

 F = 2x(PRECIZNOST x OPOZIV)/(PRECIZNOST + OPOZIV)

Још се назива и Ф1-мера, јер се прецизност и опозив једнако вреднују.

Општа формула, за ненегативну стварну α, је:

Фα = (1 + α ) x (ПРЕЦИЗНОСТ x ОПОЗИВ ) / (α x ПРЕЦИЗНОСТ + ОПОЗИВ )

Друге две обично коришћене Ф-мере су: Ф2-мера, која вреднује опозив двоструко у односу на прецизност, и Ф0,5-мера која вреднује прецизност двоструко у односу на опозив.

Просечна прецизност[уреди | уреди извор]

Прецизност и опозив се заснивају на целокупној листи докумената које систем даје као одговор. Просечна прецизност придаје значај првенствено давању релевантнијих докумената као одговор. То је просек прецизности израчунатих после скраћивања листе која се врши после сваког од релевантних докумената наизменично:

             ∑N (P(r ) x rel (r ))

Проп = р=1

            BROJ RELEVANTNIH DOKUMENATA

Где је р - ранг, Н - број претражених докуимената, рел (р ) - бинарна функција релевантности датог ранга, а П (р ) – прецизност датог засебног ранга.

Ако постоји неколико упита са познатим релевантностима на располагању, средња вредност просечне прецизности је средина просечних прецизности израчунатих за сваки упит посебно.

Типови модела[уреди | уреди извор]

Категоризација модела за претраживање информација

Особине модела

Математичка основа без међузависности термина са међузависностима термина Иманентне међузависности термина трансцедентне међузависности термина Скуп-теоретски Модели Алгебарски модели Пробабилистички модели

За успешно претраживање информација неопходно је да се документи представе на неки начин. Постоји више модела који се користе у ову сврху. Они се могу категоризовати на основу две димензије као што је приказано у табели: на основу математичке основе и на основу особина модела.

ПРВА ДИМЕНЗИЈА:МАТЕМАТИЧКА ОСНОВА[уреди | уреди извор]

  • Сет-теоретски модели представљају документе у скуповима. Сличности се обично изводе из сет-теоретских операција на тим скуповима. Уобичајени модели су
  1. Стандардни Булов (Боолеан) модел
  2. Просирен Булов модел
  3. Нејасно претраживање
  • Алгебарски модели обично представљају документа и упите као векторе, матрице или записе. Ти вектори, матрице или записи се претварају помоћу коначног броја алгебарских операција у једнодимензионалну меру сличности. То су:
  1. Векторско-просторни модел
  2. Универзални векторско-просторни модел
  3. Тематски векторско-просторни модел
  4. Проширени Булов модел
  5. Побољшан тематски векторско-просторни модел
  6. Латентно семантичко индексирање такође познато као латентна семантичка анализа

Пробабилистички модели третирају процес претраживања документа као насумични експеримент у више етапа. Сличности су према томе представљене као могућности. Пробабилистичке теореме попут Бајесове (Баyес) се често користе у овим моделима.

  1. Бинарно независно претраживање
  2. Пробабилистички модел релевантности (БМ25)
  3. Спорна интерференција
  4. Језички модели
  5. Модели одступања од насумичности

Друга димензија: особине модела

  • Модели без међузависности термина третирају различите термине/речи као да нису међузависни. Ова чињеница је обично представљена у векторско-просторним моделима претпоставком ортогоналности терминских вектора или у пробабилистичким моделима претпоставком независности терминских варијабли.
  • Модели са иманентним међузависностима термина дозвољавају приказивање међузависности између термина. Међутим, степен међузависности између два термина је дефинисан самим моделом. Обично је директно или индиректно изведен из учесталости појављивања тих термина један уз други у читавом скупу докумената (нпр. уз помоћ димензионалне редукције).
  • Модели са трансцедентним међузависностима термина дозвољавају приказивање међузависности између термина, али не исказују како је та међузависност између 2 термина дефинисана. Они замењују отворени извор са степеном међузависности између 2 термина (нпр. људски или софистицирани алгоритми).

ГЛАВНИ ДОГАЂАЈИ У ИСТОРИЈИ ПРЕТРАЖИВАЊА ИНФОРМАЦИЈА У САД-У[уреди | уреди извор]

1890.-Холеритове (Херман Холлеритх) табеларне машине су се користиле за анализу цензуса САД-а

1945.- “ Као што мислимо” Веневара Буша (Ванневар Бусх) се појавио у Атлантик месечнику

Касне 40-те.- Војска САД-а се сусрела са проблемима индексирања и претраживања докумената ратних научних истраживања која су запленили од Немаца.

1947.- Ханс Петер Лан (Ханс Петер Лухн) (инжењер истражитељ у ИБМ-у од 1941.) је започео рад на механизованом систему за тражење хемијског састава заснованог на бушеним картицама.

1950.- Претпоставља се да је Калвин Муерс (Цалвин Мооерс) сковао термин „ претраживање информација “.

1950-те- Растућа брига у САД-у због „научног јаза“ заједно са мотивисућим, подстицајним финансирањем од стране Совјета, чинило је тле на коме су се развили механизовани системи за тражење литературе Алена Кента (Аллен Кент) и проналазак индексирања службених похвала Јуџина Гарфилда (Еугене Гарфиелд)

1955.- Ален Кент се придружио Универзитету “Цасе Wестерн Ресерве”, и коначно постаје директор сарадник центра за истраживање документације и комуникације (Центер фор Доцументатион анд Цоммуницатион Ресеарцх).

1958.- Међународна конференција о научним информацијама (Интернатионал Цонференце он Сциентифиц Информатион ) у Вашингтону обухватала је и узимање у обзир система за претраживање информација као решење за препознате проблеме. Погледати: Извештаји са међународне конференције о научним информацијама, 1958. (Национална Академија Наука,Вашингтон, 1959.)

1959.- Ханс Петер Лан је објавио „ ауто-кодирање докумената за претраживање информација “.

1960.- Мелвин Ерл (Бил) Марон (Мелвин Еарл (Билл) Марон) I Ј. L. Кан (Ј.L. Кухн ) су објавили „ О релеванцији, пробабилистичким моделима и претраживању информација “ у часопису АЦМ-а (Рачунарско друштво) 7 (3):216-244

Ране 1960-те- Џерард Салтон (Герард Салтон) је започео рад на претраживању информација на Харварду, а касније је прешао на Корнел.

1962.- Сирил V. Клевердон (Цyрил W. Цлевердон) је објавио рана открића Кренфилдових (Цранфиелд) истраживања, развијајући модел за процену система за претраживање информација.

1962.- Кент је објавио Анализу и Претраживање информација.

1963.- Вејнбергов известај „ наука, влада и информације“ дао је потпуно разјашњење идеје о „кризи научних информација „. Известај је добио назив по Др. Алвину Вејнбергу (Др. Алвин Wеинберг).

1963.- Џозеф Бекер (Јосепх Бецкер) и Роберт Хејз (Роберт Хаyес) су објавили текст о претраживању информација „ Чување и претраживање информација: средства, елементи, теорије „ Њујорк, Вајли (1963)

1964.- Карен Спарк Џоунс (Карен Спарцк Јонес) је завршила своју тезу на Кембриџу, Синонимија и Семантичка Класификација, и наставила са радом на примени рачунарске лингвистике у претраживању информација.

1964.- Национални Биро стандарда (Натионал Буреау оф Стандардс) је спонзорисао симпозијум под називом „ Статистичке заједничке методе за механизовање документацију „. Неколико изузетно значајних радова, укључујући и први објављени известај о „ СМАРТ “ систему Г. Салтона.

Средина 1960-их- Национална библиотека медицине је развила Систем за анализу и претраживање медицинске литературе „ МЕДЛАРС “- Прву значајну базу података коју чита машина и систем за претраживање серијски груписаних докумената..

Средина 1960-их- Интреx пројекат на Технолошком институту у Масачусетсу

1965.- Ј.C.Р. Ликлидер (Ј.C.Р. Лицклидер) је објавио Библиотеке Будућности

1966.- Дон Свонсон (Дон Сwансон) је био укључен у истраживања о Техничким захтевима за будуће каталоге на чикашком универзитету.

1968.- Џерард Салтон је објавио Аутоматску организацију и претраживање информација

1968.- „ РАДЦ Тецх “ известај Ј. V. Самона (Ј.W. Саммон) „ Мало математике чувања и претраживања информација „ који је дао нацрт векторског модела.

1969.- „ Нелинеарна подела меморије по садржају за анализу структуре података „ Самона (ИЕЕЕ (Институт елекричних и електронских инзињера) Трансакције на рачунарима ) је био први предлог визуелизације интерфејса за систем претраживања информација.

Касне 1960-те- Ф. V. Ланкастер (Ф. W. Ланцастер) је завршио истраживања процене система МЕДЛАРС и објавио прво издање свог текста о претраживању информација.

Ране 1970-те- Први он-лине системи- НЛМ, АИМ-ТWX, МЕДЛИНЕ; Локхидов (Лоцкхеед) Дијалог; СДЦ-ов ОРБИТ

Ране 1970-те - Теодор Нелсон (Тхеодор Нелсон) заступајући концепт хипертекста, објављује рачунарске Либ/Дрим (Либ/Дреам) машине

1971.- Н. Зардин (Н. Јардин) I C.Ј. Ван Ридзсберген (C. Ј. Ван Ријсберген) су објавили „Употребу Хијерархијског Груписања у Претраживању Информација”, која је разјаснила хипотезу о групама.

1975.- Три веома утицајне Салтонове публикације су у потпуности разјасниле систем векторског поступка и модела дискриминације тремина:

  • Теорија Индексирања (Друштво за идустријску и примењену математику)
  • Теорија о значају термина у аутоматској анализи текста (ЈАСИС в.26)
  • Векторско-просторни модел за аутоматско индексирање (ЦАЦМ)

1978.- Прва АЦМ СИГИР конференција

1979.- C.Ј. Ван Ријсберген је објавио Претраживање информација (Батерwортс). Велики акценат на пробабилистичким моделима.

1980.- Прва међународна АЦМ СИГИР конференција, заједно са групом британског рачунарског друштва за претраживање информација у Кембриџу.

1982- Белкин (Белкин), Оди (Оддy) и Брукс (Броокс) су предложили АСЗ (Аномално Стање Знања) гледиште за претраживање информација. Ово је био битан концепт, мада се њихово средство за аутоматску анализу показало потпуно разочаравајућим.

1983.- Салтон (I M. Макгил (M. МцГилл)) су објавили Увод у савремено претраживање информација (Мекгро-Хил (МцГраw-Хилл)) са великим акцентом на векторске моделе.

Средина 1980-их- Покушаји да се развије верзија крајњег корисника комерцијалног система за претраживање информација.

1985—1993.- Кључни радови и експериментални системи за визуелизацију интерфејса. Радови D. Б. Крауца (D.Б. Цроуцх), Р.Р. Корфедза (Р.Р. Корфхаге), M. Цалмерса (M. Цхалмерс), А. Сперија (А. Споерри) и других.

1989.- Први предлози Тима Бернерса-Лија (Тим Бернерс-Лее) за глобалну рачунарску мрежу у европској организацији за нуклеарна истраживања (ЦЕРН)

1992.- Прва ТРЕЦ конференција

1997.-Корфедзова публикација Претраживање информација са акцентом на поенти визуелизације и постојању више референци у системима.

Касне 1990-те- Примена претраживаца мреже са бројним карактеристикама које су се раније могле наћи само у експериметалним системима за претраживање.

СИСТЕМИ ЗА ПРЕТРАЖИВАЊЕ ОТВОРЕНОГ ИЗВОРА ИНФОРМАЦИЈА[уреди | уреди извор]

  • „ Датапарк сеарцх“, претраживач писан у C-у, ГПЛ-у
  • Еготхор, претраживач текста са свим карактеристикама, високих преформанси писан потпуно у Јави
  • Глимпсе и Wебглимпсе- напредни софтвер за претраживање сајтова
  • Смарт, први претраживач информација са Корнел Универзитета