Екстракција информација

У обради природног језика, екстракција информација (Information Extraction – IE) је тип проналажења информација чији је циљ да аутоматски дође до структурираних информација, односно категорисаних и контекстуално и семантички добро дефинисаних података из одређене области, од неструктурираних машинских читљивих докумената. Пример овога је екстракција случајева спајања корпорација, формалније MergerBetween(company1,company2,date), из вести постављене на нет и то из реченице као што је: „Јуче, Foo Inc., који је базиран у Њујорку, најавио је да ће преузети Bar Corp.“ Шири циљ ИЕ је да допусти да израчунавање буде извршено на претходно неструктурираним подацима. Специфични циљ би био допуштањ логичком размишљању да извуче закључке засноване на логичком садржају података.

Проналажење информација је наука о тражењу информација у документима, тражењу докумената, мета-података о документима и сл.. Аутоматизовани системи за проналажење информација се користе за смањење преоптерећености информацијама.

Значај ИЕ одређен је растућим количинама информација доступних у неструктурираној форми, на пример на Интернету. Ово знање може бити направљено доступнијим у смислу трансформисања у односну форму или упаривањем са XML етикетама. Интелигентан радник који прати долазеће податке захтева да претвори неструктуриране податке у нешто што се може разумети. Типична примена ИЕ је скенирање докумената писаних природним језиком и попуњавање базе извађеним информацијама. Тренутни приступи екстракцији информација користе технике обраде природног језика које се фокусирају не веома ограничене области. На пример, Конференција за разумевање порука (Message Understanding Conference – МУЦ) је конференција заснована на надметању која се у прошлости фокуситала на следеће области:

- МУЦ-1 (1987), МУЦ-2 (1989): Поруке морнаричких операција

- МУЦ-3 (1991), МУЦ-4 (1992): Тероризам у латино-америчким земљама

- МУЦ-5 (1993): Удружени ризични подухвати и микроелектронски домени

- МУЦ-6 (1995): Вести о променама у управи

- МУЦ-7 (1998): Извештаји о лансирању сателита

Текстови на природном језику могу захтевати употребу неке форме упрошћавања текста како би створили лакши текст за машинско читање из којег би реченице биле извађене. Операција упрошћавања текста подразумева прераду текста која као крајњи резултат има текст са веома упрошћеном граматиком и структуром, с тим што значење и суштина текста остају непромењени. Типични (под)задаци ИЕ су: - Препознавање именских ентитета: препознавање имена људи и организација, назива места, временских израза и одређених типова нумеричких израза. Ови системи су креирани да користе, како лингвистичке граматички базиране технике (које захтевају месеце рада искусних лингвиста), тако и статистичке моделе.

- Ко-референција: идентификовање ланаца именичких фраза које се односе на исти предмет. На пример, анафора је тип ко-референције.

- Терминолошка екстракција: проналажење релевантних термина за дати корпус.