Генерисање природног језика

С Википедије, слободне енциклопедије
(преусмерено са Natural language generation)

Генерисање природног језика (НЛГ – Natural Language Generation) је задатак обраде природног језика који подразумева стварање природног језика од машинских репрезентативних система као што су база знања или логичка форма.

Обрада[уреди | уреди извор]

Обрада природног језика је подручје у оквиру области вештачке интелигенције и лингвистике и бави се проблемима аутоматизованог генерисања и разумевања природних људских језика. Системи за генерисање природних језика претварају информације из рачунарских база у нормалан људски језик, док системи за разумевање природних језика претварају узорке људског језика у формалније облике који олакшавају рад рачунарским програмима.

Неки људи сматрају НЛГ супротним од разумевања природног језика. Разлика може бити објашњена на следећи начин: док у разумевању природног језика систем треба да разреши двосмислености дату реченицу како би произвео језик машинске репрезентације, у НЛГ, систем треба да донесе одлуке како да концепт представи речима.

Фазе[уреди | уреди извор]

Процес генерисања може бити једноставан као вођење листе конзервираног текста који се копира и можда је повезан са још неким текстом. Резултати могу бити задовољавајући у неким једноставнијим областима као што су хороскопске машине или машине за производњу персонализованих пословних писама. Префињен НЛГ систем захтева укључивање фаза планирања и спајање информација како би се омогућило генерисање такста који изгледа природно и не понавља се. Типичне фазе су:

Одређивање садржаја: одређивање најзначајнијих карактеристика које су вредне помена. Методи коришћени у овој фази се везују за истраживање података (data mining).

Планирање дискурса: свеобухватни преглед информација које треба обрадити.

Слагање реченица: спајање сличних реченица како би се побољшала читљивост и природност. На пример, реченице „Следећи воз је „Caledonian Express“.“ и „Следећи воз креће у 10.“ могу се спојити у реченицу „Следећи воз, који креће у 10 је „Caledonian Express“.“

Лексикализација: стављање речи у концепт.

Стварање односних израза: повезивање речи у реченицама увођењем заменица и других типова односних јединица.

Синтаксичка и морфолошка реализација: ова фаза је инверзна синтаксичкој анализи: узевши у обзир све претходно дате информације, синтаксичка и морфолошка правила се примењују како би произвела површински стринг.

Ортографска реализација: Решава питања интерпункције и форматирања.