Paralelni tekst

Iz Vikipedije, slobodne enciklopedije
Idi na navigaciju Idi na pretragu

Paralelni tekst je tekst postavljen uporedo sa (bar jednim) svojim prevodom. Poravnavanje paralelnog teksta je uspostavljanje korespondencije između odgovarajućih rečenica u dve polovine paralelnog teksta. Primeri zbirki dvojezičnih paralelnih tekstova su Lebova klasična biblioteka i Klejova Sanskrit biblioteka. Izdanja Biblije mogu da sadrže i originalni tekst i prevod (ili nekoliko prevoda), sa ciljem da se pojednostavi upoređivanje, odnosno proučavanje; Origenova Heksapla ("šestostruka“ na grčkom) sadrži jednu uz drugu šest verzija Starog zaveta. Najstariji poznati primer paralelnih tekstova je Kamen iz Rozete.

Paralelni korpus je velika kolekcija paralelnih tekstova (videti jezički korpus). Poravnavanje paralelnih korpusa na nivou rečenice preduslov je za istraživanja u mnogim oblastima lingvistike. U toku prevođenja prevodilac može da rastavlja, sastavlja, umeće ili premešta rečenice; zbog toga poravnavanje paralelnih tekstova nije jednostavno.

Bitekst[uredi]

U oblasti prevođenja bitekst je dokument koji sadrži uporedo original i prevod datog teksta.

Bitekstovi se dobijaju programom koji se zove генератор битекста, koji automatski poravnava (uparuje) original i prevod istog teksta. Program načelno uparuje dva teksta rečenicu po rečenicu. Kolekcija bitekstova zove se база битекстова, odnosno билингвални корпус, i obično se koristi uz pomoć pretraživača.

Istorija[uredi]

Ideja biteksta pripisuje se Brajanu Harisu, koji je napisao rad o ovom konceptu 1988. godine. Ideju je razradila grupa RALI (Recherche appliquée en linguistique informatique odnosno Applied Research in Computational Linguistics) , grupa istraživača iz oblasti računarstva i lingvistike, koji se bave obradom prirodnih jezika.

Bitekst i prevodilačka memorija[uredi]

Pojam biteksta ima sličnosti sa pojmom prevodilačke memorije. Najbitnija razlika između biteksta i prevodilačke memorije je u tome da je prevodilačka memorija baza podataka u kojoj su njeni delovi (uparene rečenice) smeštene potpuno nezavisno od originalnog konteksta; originalni redosled rečenica je izgubljen. Nasuprot tome, bitekst zadržava originalni redosled rečenica. Međutim, neke realizacije prevodilačke memorije, kao što je Translation Memory eXchange (TMX) (standardni XML format za razmenu prevodilačkih memorija između programa za mašinsko prevođenje) omogućuje očuvanje originalnog redosleda rečenica.

Namena bitekstova je da ih koriste prevodioci – ljudi, a ne računari. Zbog toga male greške u poravnavanju ili mala neslaganja koja bi bila problem za prevodilačku memoriju, ovde nisu bitne.

Vidi još[uredi]

Spoljašnje veze[uredi]

Paralelni korpusi[uredi]

  • JRC-Acquis, Višejezični paralelni korpus zakonodavstva Evropske unije: Acquis Communautaire sa 231 parom jezika
  • Opus projekat namenjen prikupljanju javno dostupnih paralelnih korpusa
  • LILABAR - englesko-ruski paralelni korpus
  • Nunavut Hansard – englesko – inuktitut paralelni korpus

Dokumentacija[uredi]