Обрада природних језика

С Википедије, слободне енциклопедије

Обрада природног језика (ОПЈ) је област вештачке интелигенције и лингвистике која се бави проучавањем проблема аутоматског произвођења и разумевања природних људских језика. Системи за произвођење природног језика претварају информације из рачунарске базе података у људски језик који природно звучи а системи за разумевање природног језика претварају примере људског језика у више формалне представе са којима рачунарски програми лакше манипулишу.

Задаци и ограничења[уреди | уреди извор]

У теорији, обрада природног језика је веома привлачан метод интеракције човека и рачунара. Први системи попут [SHRDLU-а, један од првих програма који је направио Тери Вајнград (енгл. Terry Winograd) и који је радио у ограниченим ‘световима блокова’, програм у оквиру кога се командама померају блокови, са ограниченим богатством речника, функционисали су прилично добро, доводећи истраживаче до претераног оптимизма који се убрзо изгубио када су се системи проширили на много реалније ситуације са свим сложеностима и двосмисленостима стварног света.

Разумевање природног језика се неки пут назива проблемом целокупне вештачке интелигенције, зато што изгледа да препознавање природног језика захтева широко знање о спољашњем свету и способност да се њиме манипулише. Дефиниција разумевања је један од главних проблема у обради природног језика.

Конкретни проблеми[уреди | уреди извор]

Следе неки примери са којима су се сусрели системи за разумевање природног језика:

  • We gave the monkeys the bananas because they were hungry.
    (Ми смо дали мајмунима банане зато што су они били гладни.)
  • We gave the monkeys the bananas because they were over-ripe.
    (Ми смо дали мајмунима банане зато што су оне биле презреле.)

Ове две реченице на енглеском имају исту граматичку површинску структуру. Међутим, у првој реченици на енглеском језику реч they се односи на мајмуне, а у другој на банане па стога можемо да закључимо да реченице не могу да се исправно разумеју без познавања својстава и понашања мајмуна и банана.

Низ речи може да се протумачи на безброј начина. На пример, низ речи на енглеском: Time flies like an arrow може да се тумачи на разне начине:

  • Да се време креће брзо попут стреле (у српском, време лети)
  • Да реч flies има значење муве па да треба да меримо брзину летећих инсеката исто онако како бисмо мерили брзину кретања стреле.
    • (You should) time flies like you would an arrow.
  • Да треба да меримо брзину летећих инсеката исто онако како би је стрела мерила.
    • (Time flies in the same way that an arrow would time them.)
  • Да треба да меримо брзину оних летећих инсеката који су као стреле.
    • (Time those flies that are like arrows)
  • Да су time-flies врста муве и да оне воле неку стрелу.
    • (time-flies like an arrow)

Енглески језик представља прави изазов у овом погледу јер има мало флективне морфологије уз помоћ које би се разликовале врсте речи.

Енглески језик и неколико других језика не специфицирају на коју се реч дати придев односи. На пример, у низу pretty little girls’ school не знамо :

  1. Да ли је школа мала (little school).
  2. Да ли су девојчице мале (little girls).
  3. Да ли су девојчице лепе (pretty girls).
  4. Да ли је школа лепа (pretty school).

Остали проблеми[уреди | уреди извор]

Сегментација говора[уреди | уреди извор]

У већини говорних језика, звуци који представљају слова у низу стапају се, стога претварање аналогног сигнала у засебне карактере може бити веома тежак процес. Такође, у природном говору готово и да нема пауза између речи у низу; при одређивању ових граница обично треба да се узму у обзир семантичка и граматичка ограничења, као и контекст.

Сегментација текста[уреди | уреди извор]

Неки писани језици попут јапанског, кинеског и тајландског немају јасно издвојене засебне речи, па зато било која значајна анализа реченице обично захтева одређивање граница између речи, што није нимало тривијалан задатак.

Разлучивање двосмислености значења речи[уреди | уреди извор]

Многе речи имају више од једног значења; ми треба да изаберемо оно значење које има највише смисла у датом контексту.

Синтактичка двосмисленост[уреди | уреди извор]

Граматика природних језика је двосмислена, то јест често постоји више могућих дијаграма анализе за дату реченицу. Да би се изабрао онај који највише одговара обично је неопходна семантичка и контекстуална информација. Специфичне проблематичне компоненте синтактичне двосмислености укључују разлучивање нејасних граница између реченица.

Несавршен или нерегуларан улаз[уреди | уреди извор]

Страни или регионални акценат и сметње у говору; штампарске или граматичке грешке, грешке оптичког препознавања карактера у текстовима.

Остваривање и планови у говору[уреди | уреди извор]

Реченице често не значе оно што се буквално каже у њима; на пример добар одговор на питање ‘да ли би могао да ми додаш со?’ био би да додаш со; у већини контекста ‘да’ није добар одговор, мада ‘не’ је бољи , а ‘бојим се да је не видим.’ је још бољи.

Статистичка обрада природног језика[уреди | уреди извор]

Статистичка обрада природног језика користи стохастичке, пробабилистичке и статистичке методе да би решиле неке од горе поменутих тешкоћа, нарочито оне које произилазе из тога што су дуже реченице веома двосмислене када се обрађују са реалистичним граматикама, пружајуци хиљаде или милионе могућих анализа. Методе разлучивања двосмислености често укључују употребу корпуса и ‘Марковљеве моделе’. Технологија за статистичку обраду природног језика долази углавном из машинског учења и сакупљања података,а обе су области вештачке интелигенције које укључују учење из података.

Главни задаци у обради природног језика[уреди | уреди извор]

  • Аутоматско резимирање
  • Помоћ при читању страног језика
  • Помоћ при писању на страном језику
  • Вађење информација
  • Прикупљање информација
  • Машински превод
  • Произвођење природног језика
  • Оптичко препознавање карактера
  • Одговарање на питања
  • Препознавање говора
  • Менаџмент дијалога у говору
  • Поједностављивање текста
  • Текст у говору
  • Импрегнирање текста

Процена обраде природног језика[уреди | уреди извор]

Циљ процене обраде природног језика је да се измери један или више квалитета једног алгоритма или система како би се одредило да ли (или до које мере) систем одговара циљевима његових дизајнера, или потребама његових корисника. Много пажње се обраћало на истраживање у области процене обраде природног језика, зато што дефиниција критеријума за исправну процену представља један начин да се тачно одреди проблем обраде природног језика, тако да се превазилази нејасноћа задатака који су дефинисани само као разумевање језика или произвођење језика. Прецизан скуп критеријума за процену, који укључује превасходно податке и метрику процене, омогућава да неколико тимова упореде своја решења за дати проблем обраде природног језика.

Историјат процене у обради природног језика[уреди | уреди извор]

У зависности од процедура процене, традиционално се прави неколико разлика у процени обраде природног језика.

Унутрашња-спољашња процена[уреди | уреди извор]

Унутрашња процена узима у обзир систем обраде природног језика изоловано и карактерише њен рад углавном у складу са резултатом ‘златног стандарда’, претходно дефинисаног од стране процењивача. Спољашња процена, која се такође назива процена у пракси узима у обзир систем обраде природног језика у много сложенијем окружењу, или као уметнут систем или да обавља тачно одређену функцију за људског корисника. Спољашњи рад система се тада карактерише, у погледу своје примене, у складу са целокупним задатком комплетног система или људског корисника.

Процена црне кутије-стаклене кутије[уреди | уреди извор]

Процена црне кутије тражи да се покрене систем обраде природног језика на скупу датих података и да се измере неки параметри који су у вези са квалитетом поступка (брзина, поузданост, потрошња средстава) и, најважније, они који су у вези са квалитетом резултата (на пример: тачност објашњења података или верност превода). Процена стаклене кутије проматра дизајн система, алгоритме који се примењују, лингвистичка средства која се користе (нпр. величина вокабулара) итд. С обзиром на сложеност проблема обраде природног језика, често је тешко да се предвиди рад само на основу процене стаклене кутије,али овај тип процене даје више информација у вези са грешкама приликом анализе или у вези са будућим напретком система.

Аутоматска-мануелна процена[уреди | уреди извор]

У многим случајевима, аутоматске се процедуре могу дефинисати да процењују систем обраде природног језика тако што упоређују његов излаз са златним или другим жељеним стандардом. Мада цена стварања златног стандарда може бити веома висока, аутоматска процена може да се понавља колико год је потребно без неких посебних додатних трошкова (на исте улазне податке). Међутим, за многе проблеме обраде природног језика, дефиниција златног стандарда је комплексан задатак, и може бити немогућа када је сагласност унутрашњег бележника недовољна. Мануелну процену изводе људи судије, којима је наложено да процене квалитет система, или најчешће узорка његовог излаза, на основу извесног броја критеријума. Мада можемо да се обратимо људима судијама, захваљујући њиховој компетентности у области лингвистике, за неке задатке језичке обраде, такође постоји поприлична варијација у њиховим оценама. Зато се аутоматска процена понекад сматра објективном, а људска се чини више субјективном.