Prevodilačka memorija

S Vikipedije, slobodne enciklopedije

Prevodilačka memorija (engl. translation memory ili ТМ) je tip baze podataka koja se koristi u računarskim programima kreiranim da pomognu prevodiocima.

Neki softverski programi koji koriste prevodilačku memoriju poznati su kao programi za rad se bazom podataka prevodilačke memorije (translation memory managers или ТММ). Prevodilačke meorije se obično koriste zajedno sa računarski potpomognutim prevođenjem (computer assisted transalation или CAT alatkom)), programom za obradu podataka (word processing program), sistemom za upravljanje memorijom termina (terminology management systems), višejezičnim rečnicima ili čak sirovim rezultatom dobijenim mašinskim prevođenjem (raw machine translation output). Prevodilačka memorija sastoji se od segmenata teksta na izvornom jeziku i njihovog prevoda na jedan ili više ciljanih jezika. Ovi segmenti mogu biti odlomci, pasusi, rečenice ili fraze. Pojedinačne reči nisu u domenu prevodilačke memorije, već se njima bave terminološke baze. Istraživanja pokazuju da mnoge kompanije koje imaju višejezičku dokumentaciju koriste sisteme sa prevodilačkom memorijom.

Upotreba[uredi | uredi izvor]

Prevodilac prvo unosi izvorni tekst (tj. tekst koji treba prevesti) u prevodilačku memoriju. Program zatim skenira tekst kako bi pronašao segmente u svojoj bazi podataka koje će koristiti da oformi delimično preveden uneseni tekst. Takav tekst se prikazuje prevodiocu da ga pregleda. Prevodilac može prihvatiti ovaj predlog prevoda, odbiti ga ili ga modifikovati i koristiti tu modifikovanu verziju. U ovom slučaju modifikovana verzija se snima i čuva u bazi podataka.

Neki sistemi prevodilačke memorije pribegavaju samo bukvalnom poklapanju, tj. mogu prevesti samo one segmente teksta koji se tačno poklapaju sa onima postojećim u bazi podataka. Postoje i oni koji koriste fazi algoritamsko poklapanje (fuzzy matching algorithms) da uzvrate slične segmente koji se prikazuju prevodiocu drugačije obeleženi. Fleksibilnost i snaga algoritamsko poklapanja (matching algorithm) u velikoj meri određuje izvršenje prevodilačke memorije, iako za neka traženja povratna stopa potpunih poklapanja može biti dovoljno visoka da opravda pristup bukvalnog poklapanja.

Segmente kod kojih nema poklapanja prevodilac mora ručno prevesti. Ovi novi segmenti se sačuvaju u bazi podataka kako bi mogli biti korišćeni u drugim prevodima.

Prevodilačke memorije najbolje funkcionišu na tekstovima u kojima ima dosta ponavljanja, kao što su tehnička uputstva. Tradicionalno, prevodilačka memorija se ne smatra adekvatnom za književne tekstove zato što tu ima malo ponavljanja. Međutim, drugi ih smatraju korisnim i za tekstove u kojima nema ponavljanja zato što izvori kreirane baze podataka teže da poslože potrage da bi utvrdile adekvatnu upotrebu termina. Ako se sistem PM koristi dosledno na adekvatnim tekstovima tokom određenog perioda, može prevodiocima uštedeti puno posla.

Glavne prednosti[uredi | uredi izvor]

Programi za rad sa bazom podataka prevodilačke memorije su najpogodniji za prevođenje tehničke dokumentacije i dokumenata koji sadrže specijalizovan vokabular. Njihove prednosti uključuju:

  • Sigurnost da su prevedeni dokumenti dosledni, uključujući česte definicije, fraze i terminologiju. Ovo je važno kada različiti prevodioci rade na istom projektu.
  • Ubrzavanje ukupnog prevodilčkog procesa; kako PM „pamti“ prethodno preveden materijal, prevodioci treba da ga prevode samo jednom.
  • Smanjuje cenu dugoročnih prevodilačkih projekata; npr. tekst o uputstvima, poruke upozorenja ili serije dokumenata treba prevesti samo jednom, a mogu se koristiti više puta.
  • Za velike dokumentacione projekte, ušteda vremena i novca zahvaljujući korišćenju PM paketa je vidljiva čak i na prvom prevodu novog projekta, ali najčešće takva ušteda je očigledna tek kod sledeće verzije prevoda.

Glavne mane[uredi | uredi izvor]

Osnovni problemi koji otežavaju širu upotrebu programa za rad sa bazom podataka prevodilače memorije su:

  • koncept prevodilače memorije se zasniva na premisi da se rečenice koje su korišćene u prethodnim prevođenjima mogu „reciklirati“. Međutim, osnovni princip prevođenja je da prevodilac mora prevesti tačnu poruku teksta, a ne rečenice koje čine taj tekst.
  • Programi za rad sa bazom podataka prevodilače memorije se ne uklapaju lako u postojeće prevodilačke procese. Da bi se mogle iskoristiti prednosti PM tehnologije, proces prevođenja se mora redizajnirati.
  • Programi za rad sa bazom podataka prevodilačke memorije danas ne podržavaju sve formate u kojima se mogu naći dokumenti.
  • Programi moraju biti napravljeni tako da se postiže najveće efektivnost, tj. mora se pratiti razvoj novih tehnologija kod programa za rad sa bazom podataka prevodilačke memorije.
  • U slučajevima gde čitav proces prevođenja vrši prevodilac kod kuće, potrebne su specijalne alatke kako bi prevodilac mogao raditi sa tekstovima koji su obrađeni programom za rad sa bazom podataka prevodilačke memorije.
  • Cena unosa korisnikovih prethodnih prevoda u PM bazu podataka, trening, kao i bilo koje poboljšanje zahtevaju takođe velika ulaganja.
  • Održavanje PM baze podataka je i dalje proces koji se obavlja manualno, bar u većini slučajeva. Održavanje je neophodno, a svako zanemarivanje istog vodi do značajnog smanjenja upotrebe i kvaliteta MP poklapanja.
  • kao što je već ranije istaknuto, programa za rad sa bazom podataka prevodilačke memorije možda nisu pogodni za prevod tekstova kod kojih nema mnogo ponavljanja ili tekstova koji ne sadrže nepromenjene celine pri revizijama. Tehnički tekstovi su najpogodniji za PM, dok su književni tekstovi manje pogodni.
  • kvalitet prevoda putem PM nije garantovan. Ako je prevod nekog segmenta netačan, on će se kao takav ponoviti i sledećeg puta što dovodi do stalnog ponavljanja greške.
  • Problem se javlja i kod složenih rečenica jer različiti jezici imaju različite strukture rečenice,a prevod jednog dela rečenice najčešće nije praćen adekvatnim prevodom ostatka rečenice.
  • Razvoj PM uzrokuje lakše eksploatisanje prevodilaca.

Funkcije[uredi | uredi izvor]

Off-line funkcije[uredi | uredi izvor]

Uvoz (Import)[uredi | uredi izvor]

Ova funkcija se koristi za transfer teksta i njegovog prevoda iz tekst fajla (text file) u PM. Unos može biti urađen iz sirovog formata, u kom je spoljašnji izvor teksta dostupan za unos u PM zajedno sa svojim prevodom. Ponekad korisnik mora tekst ponovo obraditi. Postoji još jedan format koji se može koristiti za unos: matični format (the native format). Ovaj format PM koristi kako bi sačuvao prevedene fajlove u memoriju.

Analiza[uredi | uredi izvor]

Proces analize se razvija kroz sledeće korake: Tekstualno raščlanjivanje Veoma je važno da interpunkcija bude pravilno prepoznata, kako bi se napravila razlika između kraja rečenice i skraćenice. Zato je neophodno pre početka uraditi markiranje (mark-up), odnosno obeležavanje. Obično materijali koji su već bili obrađeni putem nekog pomoćnog prevodilačkog programa su markirani. Drugi specijalni elementi u tekstu mogu biti uočljiviji markiranjem. Neke specijalne elemente, kao što su tačni nazivi ili šifre, ne treba prevoditi, dok druge treba prebaciti u matični format.

Lingvističko raščlanjivanje Redukcija na osnovnu formu se koristi za pripremanje liste reči i teksta za automatsko dobijanje termina iz terminiloške baze. Sa druge strane, sintaksičko raščlanjivanje se koristi za dobijanje termina koji se sastoje od više reči ili frazeologizama, iz izvornog teksta. Tako se raščlanjivanje koristi da bi se utvrdilo koje reči mogu oformiti fraze.

Segmentacija Njena svrha je da izabere jedinice koje će biti najkorisnije za prevođenje. Segmentacija je slična raščlanjivanju. Radi se na jednom jeziku koristeći površnu analizu i poravnanje na bazi segmentiranja. Ako prevodilac ručno uradi segmentiranje, kasnije verzije dokumenta neće imati poklapanja sa PM koja se oslanjaju na to ispravljeno segmentiranje već će iznova praviti greške. Prevodioci obično obrađuju rečenicu po rečenicu, iako prevod jedne rečenice zavisi od prevoda onih rečenica oko nje.

Poravnanje Tu je zadatak pronalaženje odgovarajućeg prevoda između izvornog i ciljnog teksta. Trebalo bi da postoji povratna veza od poravnanja do segmentacije i dobar algoritam za poravnanje bi trebalo da može da ispravi početno segmentiranje.

Vađenje termina kao ulaz može poslužiti prethodni rečnik. kada je vađenje nepoznatih termina u pitanju može se koristiti raščlanjivanje bazirano na statistici teksta. Ona se koristi kako bi se procenilo koliko posla je potrebno da bi se izvršilo to prevođenje. Ovo je jako korisno pri planiranju i raspoređivanju vremena i posla. Statistika prevođenja obično broji reči i procenjuje broj ponavljanja u tekstu.

Izvoz (export)[uredi | uredi izvor]

Izvoz vrši prenos teksta iz PM u spoljašnji tekst fajl. Uvoz i izvoz bi trebalo da su inverzni.

Online funkcije[uredi | uredi izvor]

kada prevodimo jedna od glavnih svrha PM je to što može da vrati najkorisnije odgovore (correspondance) koja se nalaze u memoriji kako bi prevodilac mogao da izabere ono najbolje. PM mora prikazati i izvor i ciljni tekst kako bi istakao sličnosti i razlike.

Učitavanje[uredi | uredi izvor]

Moguće je iz PM dobiti jedan ili više ponuđenih odgovora. Potpuno poklapanje Potpuno poklapanje se javlja kada je poklapanje između segmenta sadašnjeg izvora i onog sačuvanog identična. Potpuno poklapanje je ono kad prevodimo rečenicu koju smo preveli ranije. Ovo poklapanje zovemo još i „100% poklapanje“. Potpuno poklapanje u kontekstu In Context Exact matching Ovo poklapanje se dešava u potpuno istom kontekstu, tj. na istoj lokaciji u pasusu. kontekst je često određen okolnim rečenicama i atributima kao što su naziv fajla, datum i dozvola. Fazi poklapanje kada poklapanje nije potpuno onda je „ fazi” fuzzy poklapanje. Neki sistemi pokazuju koji je procenat takvih poklapanja. Ti podaci se ne mogu upoređivati na nivou sistema ukoliko metod računanja nije specifikovan

Ažuriranje[uredi | uredi izvor]

PM se ažurira sa novim prevodom čim prevodilac prihvati taj prevod. kao i uvek kad je ažuriranje baze podataka u pitanju, postavlja se pitanje šta raditi sa prethodnim sadržajem u bazi podataka. PM se modifikuje tako što se unosi u njemu ili menjaju ili brišu.

Automatsko prevođenje[uredi | uredi izvor]

Memorija prevođenja može automatski izvršiti supstituciju i učitavanje, bez pomoći prevodioca. Automatsko učitavanje PM se odlikuje automatsko učitavanje procenom prevedenih odgovora na prevodiočevoj radnoj površini workbanch.

Automatska supstitucija Potpuna poklapanja se javljaju u prevodu novih verzija dokumenta. kada automatski prevodimo ne možemo uporediti prevod sa originalom, pa ako postoje neke greške u originalu one će se preneti.

Umrežavanje (Networking)[uredi | uredi izvor]

kada smo umreženi tokom prevođenja moguće je prevesti tekst efikasnije jer radimo zajedno sa grupom prevodilaca. Na ovaj način su prevodi koji su uneseni od strane jednog prevodioca dostupni i drugima. Ako je memorija prevođenja pre finalnog prevoda dostupna većem broju ljudi onda su i veće šanse da se isprave greške pojedinaca.

Memorija teksta (text memory)[uredi | uredi izvor]

Memorija teksta je radikalna inovacija na polju memorije prevođenja. Memorija teksta uključuje autorsku memoriju author memory i prevodilačku memoriju. Ovaj koncept je osnova Lisa Oscar xml:tm standard-a.

Autorska memorija[uredi | uredi izvor]

jedinstven identifikator je isti za svaku jedinicu teksta u okviru dokumenta tokom tog autorskog ciklusa. jedinica teksta predstavlja tekst podeljen na pojedinačne rečenice ili tekst sastavljen od elemenata dokumenta u slučajevima kad prethodna podela nije moguća.

Prevodilačka memorija[uredi | uredi izvor]

jedinstveni identifikatori tokom prevođenja pamte tako da dokument na ciljnom jeziku bude tačno poravnan na nivou jedinice teksta. Ako se izvorni dokument naknadno modifikuje, onda one jedinice teksta koje nisu izmenjene mogu se direktno preneti u novu ciljnu verziju dokumenta bez ikakve intervencije prevodioca. Ovo uvodi koncept preciznog ili savršenog poklapanja u memoriji prevođenja. Xml:tm se takođe mogu koristiti za mnogo preciznija poklapanja memorije prevođenja

Istorijski razvoj[uredi | uredi izvor]

koncept koji je osnova memorije prevođenja nije nov-istraživanja ovog koncepta na univerzitetima počela su krajem sedamdesetih, a najranija komercijalizacija je postala dostupna krajem osamdesetih- međutim na tržištu su zaživele tek krajem devedesetih. U početku su PM sistemi čuvali poravnane rečenice i iz izvornog i ciljnog teksta u bazu podataka, iz koje su se mogli pozvati u toku prevođenja. Problem sa ovim pristupom je to što nema garancije da se nova rečenica iz izvornog jezika nalazi u istom kontekstu kao i originalna rečenica iz baze podataka. Zato je neophodno kada dolazi do ovakvog poklapanja da prevodilac pregleda poklapanje u memoriji da bi to onda bilo relevantno u novom dokumentu. Iako jeftinije od potpunog prevoda, ovaj dodatni pregled povećava cenu.

Skorašnji trendovi[uredi | uredi izvor]

jedna od bitnijih skorašnjih inovacija je koncept memorije teksta. Ovo je osnova preporučenog LISA OSCAR xml:tm standarda. Text memory unutar xml:tm uključuje autorsku memoriju i prevodilačke memorije. Autorska memorija se koristi za praćenje promena u autorskom ciklusu. Memorija prevođenja koristi informaciju iz autorske memorije kako bi ostvarila više fokusiranijih i povoljnijih PM poklapanja. Iako su primarni cilj bili XML dokumenti, xml:tm se može koristiti na bilo kom dokumentu koji može biti konvertovan u XLIFF format.

Druga generacija memorija prevođenja[uredi | uredi izvor]

Mnogo snažnija od PM prve generacije, uključuju i mašinu za ligvističku analizu, koristi tehnološku jedinicu da razbije segmente na terminološke grupe i automatski generira specifične glosare.

Prevodilačka memorija i srodni standardi[uredi | uredi izvor]

TMX[uredi | uredi izvor]

Format razmene prevodilačke memorije (translation memory exchange format). Ovaj standard omogućava razmenu memorije prevođenja među snabdevačima prevoda. TMX je usvojen od strane prevodilačke zajednice kao najbolji način za unos i iznos prevodilačke memorije. Sadašnja verzija od 1.4b –dozvoljava ponovno stvaranje originalnog izvora i ciljanog dokumenta iz TMX baze.

TBX[uredi | uredi izvor]

Format razmene terminoločke baze (term base exchange format). Ovaj standard dozvoljava razmenu terminoloških podataka uključujući i detaljne informacije o reči. kostur TBX čine: ISO 12620, ISO 12200 i ISO Committee Draft 16642, poznat kao TMF (Terminological Markup Framework). ISO 12620 obezbeđuje inventar dobro definisanih „kategorija podataka“ sa standardizovanim nazivima koji funkcionišu kao elementarni tipovi podataka ili kao unapred definisane vrednosti. ISO 12200 (takođe poznat i kao MARTIF) obezbeđuje osnovu za strukturu jezgra TBX. TMF obuhvata strukturni metamodel za jezike za označavanje terminologije uopšte, bez obzira na to koji se XML stil reprezentacije koristi.

SRX[uredi | uredi izvor]

Format za razmenu pravila segmentacije (Segmentation Rules Exchange format). SRX je namenjen da poboljša TMX standard tako da se baza memorije prevođenja, koja se razmenjuje među korisnicima, može koristiti efektivnije. Mogućnost specifikacije pravila segmentiranja koja su bila korišćena u prethodnim prevođenjima, povećava leveraging koje se može dostići.

OLIF[uredi | uredi izvor]

(Open Lexicon Interchange Format). OLIF je otvoren standard za razmenu terminoloških i leksičkih podataka. Iako osmišljen kao sredstvo za razmenu leksičkih podataka između odgovarajućih mašina za prevošenje leksikona, prerastao je u opšti standard za terminološku razmenu.

xml:tm[uredi | uredi izvor]

xml:tm je novi radikalan pristup PM baziran na konceptu memorije teksta koji uključuje autorsku memoriju i prevodilačku memoriju. Jedna od prvih značajnijih prednosti u tehnologiji PM još od njenog nastanka. Xml:tm dodeljena je Lisa OSCAR by XML-INTL