Машинско превођење

Из Википедије, слободне енциклопедије

Машинско превођење, (у даљем тексту МП) је потпоље рачунарске лингвистике које истражује употребу рачунарског софтвера за превођење текста или говора са једног природног језика на други. На ниском нивоу, МП врши замену речи једног природног језика речима другог. Користећи технике корпуса, могуће је покушати сложеније преводе, што дозвољава боље руковање разликама у лигвистичкој типологији, препознавање фраза, превођење идиома, као и изоловање аномалија.

Тренутни софтвери за машинско превођење дозвољавају подешавање за одређени домен или професију (као што је временска прогноза), побољшавајући излаз ограничавањем опсега дозвољених замена. Ова техника је нарочито ефикасна у доменима где се користи формални или формулични језик. Одатле следи да машинско превођење правних или управних аката даје далеко употребљивии излаз него превод мање стандардизованог текста или свакодневне конверзације.

Боље резултате превода могуће је постићи уз човекову помоћ. Наиме, неки системи преводе много прецизније уколико корисник недвосмислено може да одреди које речи у тексту су имена. Уз помоћ ових техника, МП се показало као велика испомоћ преводиоцима, у појединим случајевима су тако преведени текстови коришћени као готов производ. Ипак, актуелни системи још увек не могу произвести превод који је истог квалитета као мануални превод, посебно уколико је реч о неформалном језику

Увод[уреди]

Процес превођења могуће је започети:

  1. декодирањем значења изворног текста
  2. инкодирањем текста у текст језика на који преводимо

Иза овог, на први поглед, једноставног процеса, крије се врло сложена когнитивна операција. Да би дешифровао значење изворног текста у целини, преводилац мора да анализира све појединости оригиналног текста, а то је процес који захтева најподробније познавање граматике, синтаксе, идиома изворног језика, као и културу његових говорника. Преводилац је такође нужан да поседује исто овакво познавање и језика на који преводи.

Управо ту лежи изазов: како програмирати рачунар који ће разумети текст као човек, и који ће створити нови текст на другом језику који ће изгледати као да га је писао човек?

Овом проблему може се приступити на неколико начина.

Приступи[уреди]

МП може се користити методом базираном на примени лингвистичких правила, што значи да се речи преводе лингвистички, речи језика извора биће замењене најприкладнијим речима језика на који преводимо.

Да би МП било успешно неопходно је најпре решити проблем природног разумевања језика.

Углавном, методе анализе текста засноване на правилима, обично стварају посредан симболички приказ између два језика. Према природи симболичког приказа, приступ је описан као међујезичко машинско превођење или машинско превођење базирано на трансферу. Ове методе захтевају отворен лексикон који укључује морфолошке, синтаксичке и семантичке податке, и велики број уређених правила.

Под условом да располажу са довољно података, програми за МП често раде довољно добро тако да природни говорник једног језика може да дође до оквирног значења текста преведеног са неког језика. Међутим, то није чест случај. Са друге стране велики међујезички корпус није неопходан за методу базирану на граматици, али је зато за ову методу неопходан лингвиста који ће пажљиво утврдити граматичка правила по којима ова метода функционише.

У преводима блиских језика може се користити метода плитког трансфера машинског превођења.

Метода базирана на речнику или директна замена[уреди]

Најједноставнији системи раде врло мало анализе улазног текста и углавном само замењују улазне речи језика извора са излазним речима језика превода. Када су језик извор и језик превода, слични у граматичкој структури и по коришћењу речи, као на примјер, шпански, италијански и француски, овим приступом се добијају изненађујуће добри резултати. Али када распоред речи значајно варира, нпр., глагол се налази на крају реченице као у јапанском језику, онда је неопходна одређена синтаксна анализа. Савремена истраживања овог приступа се центрирају на полуатоматским конструкцијама табела речи и реченица, користећи за пример преводе стварних преводилаца, или употребом статистичких метода.

Статистичка метода[уреди]

Статистичко МП генерише преводе користећи статистичке методе билингвалних текстова, као што је Canadian Nansard корпус, енглеско-француски транскрипти канадског парламента, затим EUROPARL , транскрипти европског парламента. Први софтвер за статистичко МП превођење био је IBM -ов CANDIDE . Google тренутно користи SYSTRAN . Недавно су побољшали своје капацитете убацивањем 200 милијарди речи из материјала преузетих од Уједињених нација.

Метода базирана на примерима[уреди]

МП базирано на примерима (енгл. EBMT), користи билингвални корпус као свој основни извор. У суштини то је превођење аналогијом.

Интерлингвално машинско превођење[уреди]

Интерлингвално превођење има јединствен приступ проблему. Ова метода изворни текст преводи на интерлингвал, језик сличан есперанту, па тек онда на језик на који тражимо.

Главне теме[уреди]

Вишезначност[уреди]

Тражи најприкладнију реч када она има више од једног значења. Проблем се први пут појавио '50-их година прошлог века када је Yehoshua Bar-Hillel истакао да без универзалне енциклопедије машина никада неће моћи да уочи разлику у значењима исте речи. Данас постоји неколико приступа за превазилажење поменутог проблема. Речи могу бити подељене на плитке и дубоке приступе. Плитки приступи не показују познавање текста, већ једноставно убацују двосмислену реч у контекст статистичком методом.. Дубоки приступ подразумева потпуно разумевање речи. До сада, плитки приступ се показао као много успешнија метода.

Историја[уреди]

Машинско превођење је претеча области рачунарске лингвистике. Такође се пресеца са вештачком интелигенцијом, лингвистиком и у неким случајевима антропологијом. Прве кораке у овој области направио је Ворен Вивер, 1955. године, када је сугерисао да се концепти из криптографије, која се користила за време Другог светског рата, као и информационе теорије за коју је 1947. године поставио основе Клод Шенон, могу искористити за процесовање језика. Први велики пројекат на овом пољу, почела је влада САД-а и његов циљ је био превођење приручника руског војног ваздухопловства. Деценију касније, Саветодавни комитет за аутоматско процесовање језика (ALPAC - Automatic Language Processing Advisory Committee), на захтев америчке владе, ради анализу достигнућа на пољу машинског превођења и незадовољан резултатима одлучује да обустави сва даља истраживања,[1]. У САД истраживања ће се поново обновити тек почетком осамдесетих. У међувремену, истраживања и израда комерцијалних апликације су се даље наставила у Европи, а послије 1970-их и у Јапану.

Примена машинског превођења[уреди]

Данас постоји неколико софтвера за превођење природних језика од којих су неки на интернету, као што је SYSTRAN, систем који користи и Google као и AltaVista’s Babelfish . Наравно, ниједан систем још увек не омогућава савршено машинско превођење.

Без обзира на велика ограничења, МП се користи широм света. Највећи институционални корисник свакако је Европска комисија, која користи високо прилагођену верзију комерцијалног SYSTRAN система за аутоматско превођење великог броја прелиминарних скица за интерну употребу.

Данска преводилачка агенција ( lingtech A/S) још од 1993. са енглеског на дански преводи упутства за употребу разних производа користећи систем машинског превођења по имену PaTrans који ради заједно са комерцијалном верзијом Trados CAT tool-a.

Каталонске дневне новине Periódico de Catalunya се свакодневно преводе са шпанског на каталонски системом машинског превођења.

Последњих година, услед високе стопе тероризма, војска САД издваја велика средства за унапређење машинског превођења. Авијација САД издвојила је милион долара за унапређење технологије превођења.

Оцена[уреди]

Постоји неколико средстава за утврђивање квалитета система машинског превођења. Најскорија, аутоматска средства за утврђивање квалитета превода су BLEU , NIST и METEOR .

Тренутно, готови преводи МП-а су доста сирови и далеко су од коначних превода, али свакако могу да помогну читачу који познаје оба језика (и језик са кога се преводи и на који се преводи).

Референце[уреди]

  1. ^ Pierce, J. R., J. B. Carroll, E. P. Hamp, D. G. Hays, C. F. Hockett, A. G. Dettinger, and A. Perlis (1966). Computers in Translation and Linguistics (ALPAC Report). National Academy of Sciences/National Research Council Publication 1416. Washington, DC: NAS Press.

Литература[уреди]

  • Brown, P. F., J. Cocke, S. A. Della Pietra, V. J. Della Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer, and P. S. Roossin (1990). A statistical approach to machine translation. Computational Linguistics
  • Brown, P. F., S. Della Pietra, V. Della Pietra, and R. Mercer (1993). The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics

Спољашње везе[уреди]