Синтеза говора

Синтеза говора је вештачко произвођење људског говора. Рачунарски систем који се користи за ову сврху зове се синтисајзер говора и може бити уграђен у софтвер или у хардвер. Текст-у-говор систем (TGS) конвертује писани текст у говор; остали системи пребацују симболичке лингвистичке репрезентације, као што су фонетска транскрипција, у говор.

Синтезован говор може бити креиран и спајањем делова снимљеног говора који је смештен у бази података. Системи се разликују у величини складиштених говорних јединица; систем који складишти гласове или двогласе омогућава најшири спектар излазних података али јасноћа може бити нешто лошија. За специфичне домене употребе складиштење целих речи или реченица омогућава излазне податке високог квалитета. Алтернативно, синтисајзер може укључити и модел вокалног тракта и друге карактеристике људског гласа да би креирао у потпуности „вестачке“ излазне податке гласа.

Квалитет синтисајзера говора одређује се по његовој сличности са људским говором и по његовој разумљивости. Разумљивост текст-у-говор програма омогућава људима са оштећеним видом и проблемима са читањем да слушају написана дела на кућном рачунару. Од раних осамдесетих година двадесетог века многи рачунарски оперативни системи у себи садрже синтисајзер говора.

Општи преглед обраде текста[уреди | уреди извор]

Текст-у-говор систем (или „машина“) је састављена из два дела: front-end-а и back-end-а. Front-end има два основна задатка. Прво, он конвертује сиров текст који садржи бројеве и скраћенице у њихове еквиваленте написаних речи. Овај процес се обично назива нормализација, пред-обрада или токенизација текста. Фронт-енд тада додељује фонетску транскрипцију свакој речи, дели и обележава текст у прозодијске јединице, попут фраза, клауза и реченица. Процес додељивања фонетске транскрипције речима зове се конверзија текст-у-фонему или графема-у-фонему. Фонетска транскрипција и информација о прозодији заједно чине симболичку лингвистичку репрезентацију која постаје излазни податак путем front-end-а. Back-end, о којем се обично говори као о синтисајзеру, онда конвертује симболичку лингвистичку репрезентацију у говор.

Историја[уреди | уреди извор]

Механички уређаји[уреди | уреди извор]

Много пре него што је измишљена обрада електронских сигнала постојали су људи који су покушавали да направе машине које ће произвести људски говор. Ране примере „глава које говоре“ направили су Герберт од Аурилака, Алберт Велики и Роџер Бејкон.

Године 1779. дански научник Кристијан Кратенстајн, радећи за Руску академију наука, направио је моделе људског вокалног тракта који је могао да произведе пет дугих вокала ([aː], [eː], [iː], [oː] and [uː]). Након тога направљена је „акустичко-механичка говорна машина“ која је радила на принципу мехова, коју је направио Волфганг фон Кемпелен из Беча. Описао ју је у свом раду из 1791. године. Овој машини додати су модели језика и усана, омогућивши јој да производи како консонанте тако и вокале. Чарлс Витстоун направио је 1837. „говорну машину“ засновану на вон Кемпеленовом дизајну, а 1857. M. Faber је направио „Еуфонију“. Витстоунов дизајн је поново уведен 1923. од стране Паџета.

Тридесетих година двадесетог века, у Бел Лабораторијама направљен је VOKODER, електронски анализатор и синтисајзер говора којим се управља путем тастатуре, који је био врло разумљив. Хомер Дадли је усавршио овај уређај у VODER, који је изложио на Њујоршком Светском Сајму 1939.

Поновљени модел су направили др Френклин С. Купер и његови сарадници у Хаскинс Лабораторијама касних 1940-их, а завршили су га 1950. године. Било је неколико разних верзија овог хардверског уређаја али само један је опстао и до данас. Ова машина конвертује слике акустичких узорака говора у форми спектограма у звук. Користећи овај уређај Алвин Либерман и његове колеге успели су да открију акустичке сигнале за перцепцију фонетских сегмената (консонаната и вокала).

Рани електронски синтисајзери говора су звучали попут робота и често су били једва разумљиви. Како било, квалитет синтетизованог говора временом се побољшао и излазне податке савремених система синтезе говора је понекад тешко разликовати од правог људског говора.

Електронски уређаји[уреди | уреди извор]

Први систем синтезе говора заснован на раду рачунара направљен је касних 1950-их година, а први комплетан текст-у-говор систем је завршен 1968. године. 1961. године, физичар Џон Лари Кели Јуниор и његов колега Луис Грестман користили су рачунар IBM 704 за синтезу говора, што је био један од значајнијих догађаја у историји Бел Лабораторија. Келијев синтисајзер снимања гласа (vokoder) репродуковао је песму Daisy Bell уз музичку пратњу Макса Метјуза. Случајно, Артур Кларк био је у посети код свог пријатеља и колеге Џона Пирса у Муреј Хил установи при Белл Лабораторијама. Кларк је био толико импресиониран демонстрацијом да ју је искористио у узбудљивој сцени свог сценарија за своју новелу 2001:Одисеја у свемиру, где рачунар HAL 9000 пева исту песму док га астронаут Дејв Бовман успављује. Упркос успеху потпуне електронске синтезе говора и даље се врше истраживања о механичким синтисајзерима говора за употребу за човеколике роботе.

Технологије синтисајзера[уреди | уреди извор]

Најважнији квалитети система синтезе говора су природност и јасноћа. Природност описује колико излазни подаци звуче као људски говор, док јасноћа представља ниво разумљивости излазних података. Идеални говорни синтисајзер је комбинација природности и јасноће тако да систем синтезе говора обично покушава да заступи обе карактеристике у што већој мери.

Две основне технологије за генерисање таласних форми синтетичког говора су повезивачка синтеза и формантска синтеза. Свака од ове две синтезе има своје добре и лоше стране, а која од синтеза ће се употребити зависи од употребне намере.

Повезивачка синтеза[уреди | уреди извор]

Повезивачка синтеза се заснива на повезивању сегмената снимљеног говора. У суштини, повезивачка синтеза производи синтетични говор који звучи најприродније. Како било, разлике између природних варијација у говору и природе аутоматизованих техника за сегментирање таласних форми понекад могу резултовати видним грешкама у излазним подацима. Постоје три главна подтипа повезивачке синтезе.

Синтеза селекције јединица[уреди | уреди извор]

Синтеза селекције јединица користи велике базе података за снимање говора. Током прављења базе података свака снимљена реченица се сегментује у неке или све од следећих: појединачне гласове, слогове, морфеме, речи, фразе и реченице. Дељење на сегменте се изводи коришћењем специјално модификованог препознавача говора подешеног на мод „присиљеног сврставања“ после чега се ручно врше корекције користећи визуелне репрезентације као што су таласне форме и спектограм. Индекс јединица у бази података говора се онда креира на основу сегментације и акустичких параметара у које спадају основна фреквенција (пич), трајање, позиција у слогу и суседни гласови. За време извршења, жељна циљана реченица се креира детерминисањем најбољег ланца кандидатских јединица из базе података (селекција јединица). Овај процес се углавном постиже посебно значајним стаблом одлуке.

Селекција јединица омогућава највећу природност зато што прикључује само малу количину дигиталне обраде сигнала (ДОС) у снимљен говор. ДОС обично чини снимљени говор мање природним иако неки системи користе мале количине процесуирања говора у тачки концентрације да би ублажили таласне форме. Излазни подаци формирани најбољом селекцијом јединица система се углавном не разликују од правог људског говора, посебно у контекстима у којима је укључен TTS систем. У принципу, максимална природност захтева да базе података селекције јединица говора буду врло велике, а које се у неким системима мере гигабајтима снимљених података, представљајући тако десетине сати говора.

Синтеза двогласа[уреди | уреди извор]

Синтеза двогласа користи минималну базу података говора која садржи све двогласе (прелазе из гласа у глас) који се јављају у језику. Број двогласа зависи од фонотактике језика: нпр. шпански језик има око 800 двогласа, а немачки око 2500. У синтези двогласа, само један пример сваког двогласа је садржан у бази података говора. За време извршења, циљана прозодија реченице је додата овим минималним јединицама путем техника процесуирања дигиталних сигнала као што су предвидиво линеарно кодирање, PSOLA и MRBOLA. Квалитет крајњег говора је углавном лошији од говора система селекције јединица, али звучност је природнија од излазних јединица сиснтисајзера форманата. Мане синтезе двогласа су то што имају акустичке сметње при повезивачкој синтези, као и то што звуче попут робота у формантској синтези и имају само неколико предности било ког приступа и поред мале величине. Као таква, употреба синтезе двогласа у комерцијалне сврхе опада, али се и даље користи у истраживањима јер садржи бројне бесплатно доступне софтверске алатке.

Синтеза специфичних домена[уреди | уреди извор]

Синтеза специфичних домена сакупља претходно снимљене речи и фразе да би саставила целе реченице. Користи се у апликацијама где је разноврсност текстова које ће систем извршити ограничен на одређени домен, као што је прелазни план најављивања временске прогнозе. Технологију је веома једноставно спровести и користи се у комерцијалне сврхе веома дуго у уређајима попут сата који говори и калкулаторима. Ниво природности ових система може бити веома висок јер је разноликост типова реченица ограничена и јер се оне у великој мери подударају са прозодијом и интонацијом оригиналних снимака.

Због ограничености ових система речима и фразама из њихових база података, они се не користе у широке сврхе и могу синтензовати само комбинације речи и фраза које су програмиране. Спајање речи у природном изговорном језику може и даље задавати проблеме осим ако су многе варијације узете у обзир. На пример, у неротичким дијалектима енглеског језика <р> у речима попут <цлеар> /ˈkliːə/ се изговара углавном само када следећа реч за своје прво слово има вокал (нпр. <цлеар оут> се изговара /ˌkliːəɹˈɑʊt/). Ова алтернација не може бити репродукована једноставним системом повезивања речи, који би захтевао додатну комплексност да буде контекстно осетљива.

Синтеза форманата[уреди | уреди извор]

Синтеза форманата не користи узорке људског говора током извршења. Уместо њих, излазни подаци синтезованог говора креирају се коришћењем акустичког модела. Параметри попут нивоа основне фреквенције, звучности и гласноће се мењају током времена да би створили таласну форму вештачког говора. Овај метод се понекад назива синтеза на бази правила; како било, многе повезивачке синтезе такође имају компоненте засноване на правилима.

Многи системи засновани на технологији синтезе говора генеришу вештачки говор који звучи попут говора робота који се никако не би могао помешати са људским говором. Максимална природност није увек циљ система синтезе говора и системи синтезе форманата имају предност у односу на повезивачке системе. Формантски синтезован говор може бити поуздано разумљив чак и при веома великој брзини, избегавајући акустичке сметње које обично спајају повезивачке системе. Синтензован говор велике брзине користе особе са оштећеним видом да би лакше управљале рачунаром користећи читач екрана. Синтисајзери форманата су чешће мањи програми него повезивачки системи јер немају базу података са узорцима говора. Због тога могу бити коришћени у уграђеним системима, где су меморија и снага микропроцесора посебно ограничени. Зато што системи базирани на обради форманата имају потпуну контролу над свим аспектима излазних јединица говора, велика разноврсност прозодије и интонација може се чути у излазним јединицама преносећи тако не само питања и ставове, већ и разне емоције и тонове гласа.

Примери не кратког времена већ високо прецизне контроле интонације у синтези форманата сачињени су у раду из касних '70-их за играчку Говори и Читај која је рађена у фабрици Texas Instruments и раду рађеном раних 80-их, Sega машине. Креирање одговарајуће интонације за ове пројекте било је марљиво, а резултати ће тек бити подешени кратковременским текст-у-говор интерфејсовима.

Алтикулаторна синтеза[уреди | уреди извор]

Артикулаторна синтеза се односи на рачунарске технике за синтетизовање говора засновано на моделима људског вокалног тракта и артикулаторним процесима који се тамо дешавају. Први артикулаторни синтисајзер који је редовно коришћен у лабораторијским експериментима направио је Филип Рубин у Хаскинс лабораторијама средином 1970-их година. Овај синтисајзер, познат као ASY, био је заснован на моделима вокалног тракта направљеног у Бел Лабораторијама од стране Пола Мелмерстајна, Сесила Купера и њихових колега.

До скоро, модели артикулаторне синтезе нису били уграђивани у комерцијалне системе синтезе говора. Једини изузетак је систем базиран на NeXT систему који је првобитно направио и избацио на тржиште Trillium Sound Research компанија у оквиру Универзитета у Калгарију, где је и обављен највећи део истраживања. Пратећи неуспехе разних инкарнација NeXT-а (које је започео Стив Џобс касних 1980-их година, а спојио се са Apple Computer-има 1997. год.) Trillium софтвер је објављен од стране GNU General Public Licence, а рад се наставио као gnugovor (енгл. gnuspeech). Систем, првобитно пуштен у маркетинг 1994, омогућава потпуну текст-у-говор конверзију засновану на артикулацији помоћу таласа или линијског преношења аналогног људској усној или носној дупљи коју контролише Кареов „модел карактеристичног региона“.

Синтеза на основу SMM-а[уреди | уреди извор]

Синтеза на основу SMM-а је метод синтезе заснован на скривеним Марковљевим моделима. У овом систему, фреквенцијски спектар (вокални тракт), основна фреквенција (вокални извор), и трајање (прозодија) говора су истовремено моделовани од стане SMM-а. Таласне форме говора генерисане су из SMM-а засноване на критеријуму максималне вероватноће.

Синеwаве синтеза[уреди | уреди извор]

Синеwаве синтеза је техника синтетизовања говора заменом форманата чистим тонским звиждуцима.

Изазови[уреди | уреди извор]

Изазови нормализације текста[уреди | уреди извор]

Процес нормализације текста је ретко јасан. Текстови су пуни хетеронима, бројева и скраћеница, које захтевају проширење у фонетску репрезентацију. У енглеском језику постоје речи које се у зависности од контекста различито изговарају, а исто се пишу. На пример, у реченици „My latest project is to learn how to better project my voice“ реч „project“ се појављује два пута али се не изговара исто.

Већина текст-у-говор система не генерише семантичке информације свог текста, јер процеси који ово раде нису поуздани, довољно разумљиви или рачунарски ефикасни. Као резултат, разне хеуристичке технике користе се као подесан начин за разликовање хомографа, попут испитивања околних речи и коришћења статистике о томе колико често се нека реч појављује у тексту.

Решавање како ће се конвертовати бројеви је други проблем који TUG системи треба да реше. То се решава једноставним програмом који пребацује бројеве у речи, нпр. „1325“ постаје „једна хиљада три стотине и двадесетпет“. Како било, бројеви се појављују у доста различитих контекста; када су у склопу адресе „1325“ би требало прочитати „тринаест двадесетпет“, или, у броју социјалног осигурања „један три два пет“. TUG систем углавном може да закључи како да развије број на основу околних речи, бројева и изговора, а некада систем може да предвиди како да спецификује контекст ако постоји више могућности.

Слично, скраћенице могу бити вишезначне. На пример, „in“ које означава „инч“ мора бити разликовано од речи „in“ (предлог „у“). TUG систем са богатим фронт енд-овима може направити изузетне претпоставке у вези са вишезначним скраћеницама, док други дају исте резултате у свим случајевима, тако дајући бесмислене (и понекад смешне) излазне податке.

Текст-у-фонему изазови[уреди | уреди извор]

Систем синтезе говора користи два основна приступа да одреди изговор речи заснован на писаној форми, процес који се обично назива текст-у-фонему или графема-у-фонему конверзија (фонема је термин који користе лингвисти за описивање дистинктивних гласова у језику). Најједноставнији приступ за текст-у-говор конверзију је приступ на бази речника, где је велики речник који садржи све речи језика и њиховим тачним изговором садржан у програму. Одређивање тачног изговора сваке речи врши се тражењем сваке речи у речнику и замењивањем писане форме изговором који је спецификован у речнику. Други приступ је заснован на правилима, где су правила изговора дата уз речи да одреде њихов изговор на основу њихове писане форме. Ово је слично као приступ „соундинг оут“ (енглески термин) или синтетичке акустике учења изговора.

Сваки приступ има своје предности и недостатке. Приступ на бази речника је брз и прецизан, али у потпуности греши у случају да се дата реч не налази у речнику. Како величина речника расте, тако расту и захтеви простора меморије система синтезе. С друге стране, приступ на бази правила ради са свим улазним подацима, али комплексност правила константно расте како систем узима у обзир и неправилне изговоре писаних форми. (Узмите у обзир реч „of“ која је врло честа у енглеском језику, а једина је у којој се „f“ изговара [в].) Као резултат свега овога, скоро сваки систем синтезе говора користи комбинацију оба ова приступа.

Неки језици, попут шпанског, имају веома правилан систем писања, па је предвидивост изговора речи базирана на њиховој писаној форми доста успешна. Систем синтезе говора у таквим језицима често користи методу базирану на правилима, прибегавајући коришћењу речника само за онај мали број речи, попут страних имена и позајмљеница, чији изговор није очигледан из њихове писане форме. Са друге стране, систем синтезе говора у језицима као што је енглески, који има крајње неправилан систем писања, вероватније ће се ослањати на речнике и на методе на бази правила само за необичне речи или речи које се не налазе у њиховим речницима.

Рачунарски оперативни системи или производи за синтезом говора[уреди | уреди извор]

Apple[уреди | уреди извор]

Први говорни систем интегрисан у оперативни систем био је Apple Computer’s MacInTalk 1984. године. Током већине година почетка 1990-их, Apple гласови су били синтетички. У скорије време, Аппле је додао гласове на бази узорака. Почевши као радозналост, систем говора Apple-овог Macintosh-а на крају се развио у потпуно подржан програм, PlainTalk, за људе са отежаним видом. VoiceOver, који је сад у склопу Mac OS 10.4 Tiger је укључен са свим инсталацијама Tiger-а.

AmigaOS[уреди | уреди извор]

Други оперативни систем са напредним могућностима синтезе говора био је АмигаОС, који је представљен 1985. Синтезу гласа је лиценцирала софтверска кућа треће стане (Don’t ask Software, sada Softvoice, Inc.) Commodore International-а направивши комплетан систем гласовне једнакости (emulation), за женски и мушки глас и маркера за индикацију нагласка, тако омогућену напредним особинама аудио чипсета Amiga хардвера. Синтеза гласа била је подељена на уређај за причање и на библиотеку превођења. AmigaOS је сматрала синтезу говора виртуелним хардверским уређајем, тако да је корисник могао да преусмери конзолу са излазним подацима ка њему. Неки Амига програми, као што је процесор речи, користили су широку примену система говора.

Microsoft Windows[уреди | уреди извор]

Модерни Windows користи систем говора базиран на SAPI4- и SAPI5- који садржи машину препознавања говора (SRE). SAPI4.0 је био доступан у оперативним системима Microsoft-а попут Windows 95 и Windows 98. Windows 2000 и Windows XP одликују се програмом синтезе говора који се зове Narrator који је директно доступан корисницима. Сви Windows-коматибилни програми могу да користе производе синтезе говора доступне кроз меније кад се инсталирају у систем. Microsoft Speech Server је комплетан пакет за гласовну синтезу и препознавање намењен комерцијалној употреби попут call-центара.

Веб сајтови[уреди | уреди извор]

Веб сајтови као што је Bluemountain.com, дају могућност е-честитке које кориснику омогућују да направе приватне гласовне честитке реализоване помоћу рачунарски генерисаног гласа. Ове е-честитке обично садрже претходно убачене слике, али неке омогућавају кориснику да убаци било коју слику коју жели. Свака е-честитка дозвољава кориснику да изабере вокабулар који ће рачунар користити.

Друго[уреди | уреди извор]

1979. и 1981. Теxас Инструментс ТИ-99/4 и ТУ-94/4А кућни рачунари омогућавали су синтезу текст-у фонему или рецитовање целих речи и фраза (текст-у-речник) користећи врло популарни периферни синтисајзер говора. ТИ је користио законом заштићен кодек за уграђивање комплетних изговорених фраза у апликације, првенствено видео игрице.
Системи који раде у GNU-Linux системима су различити, и користе програме отвореног кода као што је Фестивал Спеецх Сyнтхесис Сyстем који користи синтезу на бази двогласа (и може да користи само ограничен број MBROLA гласова) и гнуговора (енг. гнуспеецх) који користи артикулаторну синтезу из Free Software Foundation. Други продавац комерцијалних софтвера такође ради у GNU/Linux-у.
Систем за синтезу говора на српском, хрватском и македонском језику је произведен у Новосадској компанији AlfaNum која је поникла из пројекта Катедре за телекомуникације на Факултету техничких наука у Новом Саду. AlfaNum призводи неколико варијанти синтетизатора од којих је најпознатији anReader SAPI 4 и SAPI 5.1 компатибилан модул.
Неколико других комерцијалних система за синтезу говора су креирани, укључујући ту и сада застарели Леарноут & Хауспие који се зове TTS 3000. Acapela Group, AT&T, Cepstral, DECtalk, IBM ViaVoice, NeoSpeech, Nuance Communications такође имају овакве комерцијалне производе.
Sharp Zaurus SL-C3200 долази у пакету са текст-у-говор програмом који потиче од Nuance Communications.

Синтеза говора језика за обележавање[уреди | уреди извор]

Број језика за обележавање установљен је за израду текста као говора у XML-подржаном формату. Најскорији је језик за обележавање синтезе говора (SSML), који је прерастао у W3C препоруку 2004. Остали SSML укључују јава језик за обележавање говора (JSML) и SABLE. Иако је сваки од ових предложен за стандард, ниједан није широко прихваћен.

Језици за обележавање синтезе говора се разликују од језика за обележавање дијалога. VoiceXML, на пример, садржи информације везане за препознавање говора и менаџмент дијалога као додатак обележавању текста-у-говор.

Апликације за људе са недостацима[уреди | уреди извор]

Синтеза говора већ је дуго витална алатка помоћне технологије и његова употреба у овој области је значајна и широко распрострањена. Она омогућава да баријере које нас окружују буду премошћене за људе са великим бројем надостатака. Апликација која је највећој употреби је она за читање са екрана за људе са оштећеним видом, али текст-у-говор системи су сада у честој употреби од стране људи са дислексијом и другим проблемима при читању у истој мери као и од стране деце која уче да читају. Такође су и у учесталој употреби за помоћ онима са ретким говорним проблемима, углавном кроз комуникациону помаћ гласовних излазних података.