Prepoznavanje govora

S Vikipedije, slobodne enciklopedije

Prepoznavanje govora (u mnogim kontekstima takođe poznato i kao automatsko prepoznavanje govora, računarsko prepoznavanje govora, ili, kao što se pogrešno naziva, prepoznavanje glasova) je proces preobraćanja govornih signala u niz reči, uz pomoć algoritma implementiranog kao računarski program. Primena prepoznavanja govora koja se pojavila u poslednjih nekoliko godina uključuje glasovno biranje ili glasovno pozivanje (voice dialing, npr. Pozovi kuću), usmeravanje poziva (npr. Hteo bih da ostvarim poziv na račun sagovornika), unos jednostavnih podataka (npr. unos broja kreditne kartice), priprema strukturiranih dokumenata (npr. radiološki izveštaj) i govorna audio pretraga zasnovana na sadržaju (npr. naći podkast gde su izgovorene određene reči).[1]

Prepoznavanje glasa ili prepoznavanje govornika je srodan proces koji pokušava da identifikuje osobu koja govori naspram onoga što je izrečeno.

Tehnologija prepoznavanja govora[uredi | uredi izvor]

Kada govorimo o tehnologiji, većina tehničkih udžbenika danas ističe upotrebu skrivenog Markovljevog modela kao osnovnu tehnologiju. Pristup dinamičnog programiranja, pristup zasnovan na neuronskoj mreži i pristup učenja zasnovan na znanju, bili su intenzivno proučavani tokom 1980-ih i 1990-ih.

Performansa sistema prepoznavanja govora[uredi | uredi izvor]

Performansa sistema prepoznavanja govora je obično određena u pogledu preciznosti i brzine. Preciznost je merena stopom pogrešnih reči, dok je brzina merena faktorom realnog vremena.

Većina korisnika prepoznavanja govora bi se složila da mašine za diktiranje mogu postići veliki uspeh u kontrolisanim uslovima. Do zabune dolazi mešanjem upotrebe termina prepoznavanje govora i diktat.

Sistemi diktiranja koji su uslovljeni govornikom i koji zahtevaju kratak period obuke mogu sa veoma visokom tačnošću uhvatiti kontinuiran govor sa velikim vokabularom izrečen normalnim tempom. Većina komercijalnih kompanija tvrdi da softver za prepoznavanje može da dostigne između 98% i 99% tačnosti (pogreši jednu do dve reči od sto) ako radi pod optimalnim, odnosno najpovoljnijim uslovima. Pod optimalnim uslovima se obično podrazumeva da subjekti koji se testiraju imaju

  1. karakteristike koje se podudaraju sa podacima za obuku
  2. odgovarajuću adaptaciju govornika
  3. čisto, odnosno prazno okruženje (npr. kancelariju).

Ovo objašnjava zašto neki korisnici, pogotovu oni sa naglaskom, mogu smatrati da je stopa prepoznavanja mnogo niža od očekivanih 98% do 99%.

Drugi sistemi, ograničenog vokabulara, koji ne zahtevaju nikakvu obuku, mogu prepoznati mali broj reči (npr. deset cifara) kod većine govornika. Ovakvi sistemi su popularni za usmeravanje dolazećih telefonskih poziva na njihove destinacije u velikim organizacijama.

I akustičko modelovanje i jezičko modelovanje su važne studije u modernom statističkom prepoznavanju govora. U ovom pristupu, usredsredićemo se na objašnjenje upotrebe skrivenog Markovljevog modela jer je široko upotrebljavan u mnogim sistemima. (Jezičko modelovanje ima mnoge druge primene kao što je pametna tastatura i klasifikacija dokumenata; molimo pogledajte odgovarajuće odrednice)

Pristupi statističkog prepoznavanja govora[uredi | uredi izvor]

Prepoznavanje govora zasnovano na skrivenom Markovljevom modelu[uredi | uredi izvor]

Moderni sistemi prepoznavanja govora opšte namene obično su zasnovani na skrivenim Markovljevim modelima. Ovo je statistički model koji proizvodi niz simbola ili kvantiteta.

Jedan mogući razlog zbog kojeg se skriveni Markovljevi modeli upotrebljavaju u prepoznavanju govora jeste to što se govorni signal može posmatrati kao po delovima stacionarni signal ili kratkotrajan stacionarni signal. To jest, može se pretpostaviti da, u kratkom vremenskom periodu od 10 milisekundi, govor može biti shvaćen kao stacionaran proces. O govoru se, prema tome, može misliti kao o Markovljevom modelu za mnoge stohastičke procese (poznate kao pretpostavke).

Drugi razlog zbog kojeg su skriveni Markovljevi modeli popularni je zato što mogu biti obučeni automatski i zato što su jednostavni i praktični za računarsku upotrebu. U prepoznavanju govora, da bismo proizveli najjednostavniju moguću postavku, skriveni Markovljev model bi trebalo da proizvede niz n-dimenzionalnih vektora od prave vrednosti, pri čemu je n, recimo, oko 13, proizvodeći po jedan na svakih 10 milisekundi. Vektori, opet u najjednostavnijem slučaju, bi se sastojali od kepstralnih (cepstral) koeficijenta, koji se dobijaju korišćenjem Furijeove transformacije kratkotrajnog prozora govora i dekorelacije spektra korišćenjem kosinusne transformacije i onda uzimanjem prvih (najznačajnijih) koeficijenata. Skriveni Markovljev model će težiti da ima, u svakom stanju, statističku distribuciju koja predstavlja mešavinu Gausovskih raspodela verovatnoće koje imaju dijagonalne kovarijacione matrice i koje će dati verovatnoću za svaki posmatran vektor. Svaka reč, ili (za opštije sisteme prepoznavanja govora) svaka fonema, imaće različit proizvod distribucije; skriveni Markovljev model za niz reči ili fonema je napravljen spajanjem individualno obučenih skrivenih Markovljevih modela za odvojene reči i foneme.

Gore rečeno je veoma kratak uvod nekim značajnim aspektima prepoznavanja govora. Moderni sistemi prepoznavanja govora koriste veliki broj standardnih tehnika čije bi odgovarajuće objašnjenje zahtevalo mnogo vremena, ali, samo da naznačimo, tipični kontinuirani sistem sa velikim vokabularom bi verovatno imao sledeće delove. Bila bi mu potrebna zavisnost od konteksta za fonove, odnosno glasove (tako da fonovi sa različitim levim i desnim kontekstom imaju različite realizacije); da bismo rešili pitanje neviđenih konteksta bila bi potrebna tri grupisanja konteksta; koristila bi se naravno kepstralna normalizacija za normalizovanje u različitim uslovima snimanja i zaviseći od dužine vremena koje sistem mora da prilagodi različitim govornicima i uslovima, mogla bi se koristiti srednja kepstralna i disperzna normalizacija za razlike u kanalima, normalizacija dužine vokalnog trakta za muško-žensku normalizaciju i linearna regresija maksimalne verovatnoće za uopšteniju adaptaciju govorniku. Karakteristike bi imale delta i delta-delta koeficijente da bi se zabeležila dinamika govora, a dodatno bi se mogla koristiti heterosedaktična linearna diskriminantna analiza, odnosno linearna diskriminantna analiza skupa slučajnih promenljivih koje nemaju istu disperziju, tj. varijansu; ili bi se mogli preskočiti delta i delta-delta koeficijenti i koristiti linearna diskriminantna analiza praćena možda heterosedaktičnom linearnom diskriminantnom analizom ili globalnom kovarijansnom transformacijom, koja je takođe poznata i kao maksimalna verodostojnost linearnog transformisanja. Ozbiljna kompanija sa velikom količinom podataka za obučavanje bi verovatno želela da uzme u obzir diskriminativne tehnike treniranja kao što je najveća uzajamna informacija, MPE, ili MSE (za kratke iskaze), i ako bi bila na raspolaganju velika količina govorniku specifičnih upisanih podataka, veća adaptacija govorniku bi bila postignuta pomoću MAP, ili, makar, pomoću linearne regresije po metodi maksimalne verodostojnosti zasnovane na drvetu. Dekodiranje govora (termin koji se upotrebljava za ono što se dešava kada je sistemu prezentovan novi iskaz i kada se mora izračunati najverovatniji izvor rečenice) bi verovatno koristilo Viterbi algoritam da bi se našla najbolja putanja, ali postoji izbor između dinamično stvarajućih kombinacija skrivenih Markovljevih modela koja uključuje i akustičke i jezičke uzorne informacije, ili ih unapred statistički kombinuje (AT&T pristup, za koji njihov alat FSM može biti koristan).

Prepoznavanje govora zasnovano na neuronskoj mreži[uredi | uredi izvor]

Još jedan pristup u akustičkom modelovanju je upotreba neuronskih mreža. U stanju su da reše mnogo komplikovanije zadatke prepoznavanja, ali nisu dobre koliko skriveni Markovljevi modeli kada su u pitanju vokabulari. Ovakva prepoznavanja govora se pre upotrebljavaju kada su u pitanju loš kvalitet, bučni podaci ili nezavisnost govornika, nego što imaju opštu namenu. Ovakvi sistemi mogu postići veću tačnost nego sistemi zasnovani na skrivenom Markovljevom modelu, dokle god postoje podaci za obuku i dokle god je vokabular ograničen. Još opštiji pristup korišćenjem neuronskih mreža je prepoznavanje fonema. Ovo je aktivno polje istraživanja, ali rezultati su generalno bolji nego za skrivene Markovljeve modele. Takođe postoje i hibridni sistemi zasnovani i na neuronskoj mreži i na skrivenom Markovljevom modelu, koji koriste jedan deo za prepoznavanje govora, a drugi za jezičko modelovanje.

Prepoznavanje govora zasnovano na dinamičnoj vremenskoj krivi[uredi | uredi izvor]

Dinamična vremenska kriva je algoritam za merenje sličnosti između dva niza koje mogu varirati u vremenu i brzini. Npr, sličnosti u šablonima hoda bi trebalo da se detektuju čak i ako je na jednom snimku osoba hodala sporo, a na drugom mnogo brže, ili čak ako bi bilo ubrzanja i usporenja za vreme opservacije. Dinamična vremenska kriva je bila primenjena na video, audio i grafiku. Zaista, svaki podatak koji može biti pretvoren u linearnu reprezentaciju može biti analiziran pomoću dinamične vremenske krive.

Dobro poznata primena je automatsko prepoznavanje govora, gde se izlazi na kraj sa različitim brzinama govora. Uopšte, to je metod koji dozvoljava kompjuteru da nađe optimalno podudaranje između dva data niza sa određenim ograničenjima, odnosno nizovi su „iskrivljeni“ nelinearno da bi odgovarali jedan drugom. Ovaj metod regulisanja nizova je često korišćen u kontekstu skrivenih Markovljevih modela.

Prepoznavanje govora zasnovano na znanju[uredi | uredi izvor]

Ovaj metod koristi uskladištene baze podataka komandi koje porede proste reči sa onima u bazi podataka.

Patenti prepoznavanja govora i rasprava o patentima[uredi | uredi izvor]

Мicrosoft i Alcatel-Lucent su nosioci patenata za prepoznavanje govora i u sporu su od 2. marta 2007. godine.

АлфаНум[uredi | uredi izvor]

Svi uspesi u prepoznavanju i sintezi govora su skoncentrisani na velike jezike i bogata tržišta jer se radi o multidisciplinarnim problemima na čijem rešavanju u svetu već duži niz godina rade timovi od po više desetina ljudi. Međutim, razvoj ovakvih alata i za srpski jezik otpočeo je tim sa Fakulteta tehničkih nauka (FTN) u Novom Sadu predvođen dr Vladom Delićem u projektu Alfanum[2].

Vremenom je ovaj tim prerastao i u posebno preduzeće, AlfaNum d. o. o., koje se bavi razvojem i plasmanom govornih tehnologija. Rezultati rada tima za sada su pretočeni u dva zaokružena sistema koja se ne zasnivaju ni na kakvim prethodnim gotovim rešenjima, već su razvijena od početka. Prodaju se u vidu softverskih komponenata koje se jednostavno mogu integrisati u razne aplikacije, kao i u okviru gotovih rešenja projektovanih prema zahtevima kupca.

  1. AlfaNumASR je sistem za prepoznavanje kontinualnog govora, dakle, može da prepozna i čitave rečenice, a ne samo pojedinačne reči. Sistem radi nezavisno od govornika, dakle, ne mora posebno da se obučava za prepoznavanje svakog novog govornika što ga čini idealnim za primene u, primera radi, govornim automatima za pružanje informacija korisnicima. U rečniku od 50 reči sistem prepoznaje reči prenete preko telefonske linije sa preko 98% tačnosti (preko 99% na snimku studijskog kvaliteta), dok je kod rečnika sa većim brojem reči tačnost manja. Pošto sistem vrši fonetsko prepoznavanje, vrlo lako se može naučiti da prepoznaje i nove reči. Osmišljena je i posebna tehnika prepoznavanja niza cifara sa tačnošću većom od tačnosti prepoznavanja svake od njih pojedinačno, čime se dostiže tačnost uporediva sa ljudskom. Pritom, sistem vodi računa i o izrazima kao što su npr. „molim vas” ili „hmmm”, koje korisnici često izgovaraju, a koji nisu od značaja za tok aplikacije. Na Pentium 4 konfiguraciji na 2GHz ovaj automat može istovremeno da opslužuje 50 linija, što ga čini neuporedivo jeftinijim od ljudskih operatera. AlfaNumASR već koriste „Telebank” sistem Poštanske štedionice, Republička uprava javnih prihoda u Novom Sadu, kao i Generalštab Vojske Srbije i Crne Gore.
  2. AlfaNumTTS je sistem zadužen za sintezu govora. U odnosu na druge jezike, sintezu govora na srpskom jeziku donekle olakšava to što se reči izgovaraju onako kako se i pišu, ali se, nažalost, na osnovu zapisa ne može predvideti kako se koja reč akcentuje, a bez akcenata bi sintetizovan govor bio neprirodan i neprijatan za slušanje. Dodatno, većina reči u našem jeziku je promenljiva, tako da je u okviru projekta AlfaNum morao biti razvijen kompletan elektronski akcenatsko-morfološki rečnik srpskog jezika u kojem je sve to evidentirano. Sama sinteza govora se vrši povezivanjem zgodno odabranih segmenata iz već postojećeg snimljenog materijala, primenom raznih tehnika čiji je cilj da se prelazi između segmenata učine što neprimetnijim. Sistem može da čita i ćirilične i latinične tekstove, ispravno čita brojeve (ne cifru po cifru, već kao reči), čak i redne. Pored toga, snalazi se i sa latiničnim tekstovima u kojima nema naših slova, što je česta pojava npr. kod e-mailova. Sistem je razvijen do te mere da čita potpuno tečno, tako da je potpuno upotrebljiv za slepe i slabovide osobe, ali, naravno, nije nepogrešiv. Primena u telefoniji mu je za sada ograničena na estetski manje zahtevne potrebe, kao što su pomenuti govorni automati. Naravno, ASR se može, ali i ne mora, spregnuti sa TTS-om, tako da može raditi i sa prethodno snimljenim i sa sintetizovanim i sa obe vrste poruka. Trenutno se radi na smanjenju hardverske zahtevnosti ovih programa.

Dodatna literatura[uredi | uredi izvor]

Popularne konferencije o prepoznavanju govora održavale su se svake ili svake druge godine uključujući i ICASSP, Eurospeech/ICSLP i IEEE ASRU. Konferencije na polju Obrade prirodnog jezika, kao što su ACL, NAACL, EMNLP, i HLT počinju da uključuju referate o obradi govora. Važni novinari uključuju IEEE transakcije u govornu i audio obradu, Kompjuterski govor i jezik, i Govornu komunikaciju. Knjige kao što je "Fundamentals of Speech Recognition" Lorensa Rabinera (Lawrence Rabiner) mogu biti korisne da bi se steklo osnovno znanje, ali možda nisu u potpunosti aktuelne, odnosno u toku (1993). Drugi dobar izvor može biti "Statistical Methods for Speech Recognition" Frederika Jelineka (Frederick Jelinek) koja je modernija knjiga (1998).

Kada govorimo o slobodno dostupnim izvorima, HTK knjiga (i prateći HTK alat) je jedno mesto za početak obe stvari, učenja o prepoznavanju govora i eksperimentisanja. Takođe možete potražiti SPHINX alat Karnegi Melon univerziteta.

Primena prepoznavanja govora[uredi | uredi izvor]

Vidi još[uredi | uredi izvor]

Reference[uredi | uredi izvor]

  1. ^ Tanja Schultz and Katrin Kirchhoff, ur. (april 2006). Multilingual Speech Processing. Arhivirano iz originala 3. 3. 2007. g. Pristupljeno 20. 5. 2007. 
  2. ^ „Alfanum”. 

Literatura[uredi | uredi izvor]

Spoljašnje veze[uredi | uredi izvor]