Pređi na sadržaj

Википедија:OCR

S Vikipedije, slobodne enciklopedije

Ovo je vodič za prepoznavanje grešaka u tekstu koji je skeniran i prebačen u elektronski tekst korišćenjem programa za optičko prepoznavanje karaktera (OCR). Takvi tekstovi skoro uvek predstavljaju kršenje autorskih prava.

OCR programi rade tako što prepoznaju oblik svakog slova pojedinačno, što dovodi do toga da se jedno slovo zameni drugim koje slično izgleda. Nasuprot tome, pri greškama u kucanju tipično se slovo zameni drugim koje je susedno na tastaturi. Prilikom kucanja se takođe dešava da se dvama slovima zamene mesta, što OCR u principu ne radi (naravno moguće je da npr. ni prepozna kao in i slično - vidi dole).

U ćiriličnim tekstovima, izuzetno često se dešava da se OCR zbuni između slova i, n, p ili o, e, s. U latiničnim, česte su zamene između I, l, 1 kao i o, e, c. Moguće su i zabune između više slova, na primer št može biti prepoznato kao ip. Izuzetno jasan znak OCR-a su tačke, zarezi, crtice, navodnici i slični sitni znaci tamo gde im mesto nije ili pak njihov nedostatak tamo gde treba da budu; u pitanju su mrljice na strani koje su prepoznate kao znaci odnosno neprepoznavanje znakova jer su oštećeni. Najzad, ukoliko je OCR bio loše podešen pa mu nije rečeno da ne prepoznaje latinična slova, u ćiriličnom tekstu sa može desiti da slova a, e, o budu zamenjena sa latiničnim a, e, o, bilo u sredini reči, bilo kad stoje samostalno.

Tipičan OCR-ovan tekst[uredi | uredi izvor]

Han Pogled, ključno neprijateljsko uporište u spoljnoj odbrani Vlasenice i veza između nje i Han Pijeska, nalazi se u sredini šume, ta.ko da je napadač mogao postići iznenađenje. dgsna kolona — 1 bataljon (Ro-maniski) i Brainački batalzon Birčanskog odreda — napadala .je na Han Pogled. Srednja kolona — 2. i 3. bataljon Grupe udarnih bataljona i ostatak Birčanskog odreda — napadala je na samo mjesto. 2 bataljon i četa Birčanskog odreda napadali su na Kik, „Visevac i Orlovaču, a ostale siage vršile su direktan napad na Vlasenicu. Leva kolona — četa 3. bataljona n Zalukovački dobrovoljački bataljon1 — napadala je na Miliće.

Pregled tipičnih grešaka OCR-a u tekstu[uredi | uredi izvor]

Хан Поглед, кључно непријатељско упориште у спољној одбрани Власенице и веза
између ње и Хан Пијеска, налази се у средини шуме, та.ко да је нападач
  • Tačka u sredini reči je mrljica na strani koju je OCR prepoznao kao tačku.
могао постићи изненађење. дгсна колона  1 батаљон (Ро-маниски) и
  • Veliko D prepoznato je kao malo. Mada se ovo može desiti pri kucanju, cela reč ispisana velikim slovima je već veoma sumnjiva, posebno ako se sastoji od slova koja imaju isti izgled i mala i velika (tj. reči koje ne sadrže a, e, b).
  • Slovo e prepoznato kao g. Nisu blizu na tastaturi...
  • Povlaka je napisana svojim karakterom, koji malo ko ima na tastaturi. Ovde doduše može biti u pitanju i tekst izvorno kucan u Vordu.
  • Crtica u sredini reči gde joj mesto nije izuzetno je jasan znak OCR-a. U pitanju je crtica koja je u originalnom tekstu prelamala reč na kraju reda.
Браиначки баталзон Бирчанског одреда — нападала .је на Хан Поглед. Средња
  • Pošto se OCR programi za ćirilicu prvenstveno treniraju na ruskom tekstu, često imaju problema sa lj i nj.
  • Tačka na početku reči je takođe mrljica. Pri brzom kucanju može se desiti da se tačka sa kraja rečenice prebaci na početak sledeće i slično, ali ovde inače ne bi trebalo da bude tačke.
колона — 2. и 3. батаљон Групе ударних батаљона и остатак Бирчанског одреда —
нападала је на само мјесто. 2 батаљон и чета Бирчанског одреда нападали су
  • Nedostaje tačka posle rednog broja. Ovo se doduše može desiti i kod brzog kucanja.
на Кик, Висевац и Орловачу, а остале сиаге вршиле су директан напад на
  • Navodnik gde mu mesto nije takođe je mrljica koju je OCR prepoznao.
  • Ćirilično n je prepoznato kao i.
Власеницу. Лева колона — чета 3. батаљона н Залуковачки добровољачки
  • Ovog puta je i prepoznato kao n.
батаљон1 — нападала је на Милиће.
  • Broj na kraju reči je najverovatnije fusnota u originalnom tekstu.