Duboko učenje

Duboko učenje (poznato kao duboko strukturno učenje ili hijerarhijsko učenje) deo je šire porodice metoda mašinskog učenja bazirane na učenju reprezentacije podataka, nasuprot algoritmima koji se baziraju na listama naredbi. Učenje može biti nadgledano, polu-nadgledano ili nenadgledano.^[1]^[2]^[3]

Neke reprezentacije podsećaju na interpretaciju obrade informacija i na šablone komunikacije u biološkom nervnom sistemu, kao što je nervno kodiranje koje definiše vezu između različitih draži i odgovarajućeg nervnog odgovora u mozgu.

Arhitekture dubokog učenja, kao što su duboka nervna mreža ili rekurentna nervna mreža primenjena su na poljima računarskog vida, prepoznavanja govora, obrade prirodnih jezika, prepoznavanja zvuka, filtriranja društvenih mreža, bioinformatike i dizajna lekova^[4] i postigli rezultate jednake, ako ne i bolje od rezultata stručnjaka.^[5]^[6]

Definicije[uredi | uredi izvor]

Duboko učenje je klasa algoritama mašinskog učenja koji:^[7]

koriste višeslojne nelinearne procesorske jedinice za ekstrakciju i transformaciju odlika. Svaki sledeći sloj uzima kao ulaz izlazne elemente prethodnog sloja.
uče na nadgledan i/ili nenadgledan način.
uče veći broj nivoa reprezentacije koji odgovaraju različitim stepenima apstrakcije.
koriste nekakav oblik algoritma s opadajućim gradijentom za trening kroz povratno propagiranje greške.

Slojevi korišćeni u dubokom programiranju uključuju skrivene slojeve veštačke nervne mreže i mnoštvo iskaznih formula.^[8] Mogu uključiti i slojevito organizovane skrivene promenljive u duboko generisanim modelima nalik onima kod Dubokih Bolcanovih mašina.

Poverljivi zadatak[uredi | uredi izvor]

Putanja poverljivog zadatka (CAP)^[2] – Lanac transformacija od ulaza do izlaza. CAP opisuje potencijalno uzročne veze između ulaza i izlaza.
Dubina CAP-a – za feedforward neuronske mreže, dubina CAP-a je dubina mreže i broj sakrivenih slojeva plus jedan (izlazni sloj je takođe parametrizovan), ali za rekurentne neuronske mreže, u kojima se signal može propagirati preko sloja više puta, dubina CAP-a je potencijalno neograničena.
Duboko / plitko – Ne postoji univerzalan prag dubine koji deli plitko učenje od dubokog, ali se većina istraživača slaže da se podrazumeva da je kod dubokog učenja dubina CAP-a veća od 2.

Koncepti[uredi | uredi izvor]

Pretpostavka u osnovi distribuiranih reprezentacija je da se posmatrani podaci generišu interakcijama slojevitih faktora.

Duboko učenje dodaje pretpostavku da ovi slojevi faktora odgovaraju nivoima apstrakcije ili sastava. Različit broj slojeva i veličina sloja mogu da obezbede različite stepene apstrakcije.^[1]

Arhitektura dubokog učenja se često konstruiše pomoću pohlepne sloj-po-sloj metode. Duboko učenje pomaže u razdvajanju ovih apstrakcija i odabiru karakteristika koje poboljšavaju performanse.^[1]

Za zadatke nadgledanog učenja, metode dubokog učenja izbegavaju karakterističan inženjering, prevođenjem podataka u kompaktne posredovane reprezentacije slične glavnoj komponenti, i izvode slojevite strukture koje uklanjaju redudantost u reprezentaciji.

Algoritmi dubokog učenja se mogu primeniti za zadatke nenadgledanog učenja. Ovo je važna prednost jer su neobeleženi podaci obimniji od obeleženih podataka. Primeri dubokih struktura koje mogu biti izučavane na nenadgledan način su kompresor neuralne mreže^[9] i duboke mreže verovanja.^[1]^[10]

Interpretacije[uredi | uredi izvor]

Duboke neuralne mreže se obično tumače u smislu teorija univerzalne aproksimacije^[11]^[12]^[13]^[14]^[15]ili probabilističkog zaključivanja.^[7]^[8]^[1]^[2]^[10]^[16]^[17]

Univerzalna teorema aproksimacije se odnosi na kapacitet feedforward neuronskih mreža sa jednim skrivenom slojem konačne veličine za proksimaciju kontinuirane funkcije.^[11]^[12]^[13]^[14]^[15] 1989. je Cibenko objavio prvi dokaz za funkcije sigmuidne aktivacije^[12] i generalizovan je za distribuciju višeslojnih arhitektura 1991. godine od strane Hornika.^[13] Probabilističke interpretacije^[16] potiču iz oblasti mašinskog učenja. One nelinearne aktivacije razmatraju kao kumulativnu funkciju raspodele.^[16] Uvedene su od strane istraživača, uključujući Hopfilda, Vidrova i Narenda i populrizovane u ankatema kao što je jedna od strane Bišopa.^[18]

Istorija[uredi | uredi izvor]

Pojam duboko učenje uveden je u zajednicu mašinskog učenja 1986 od strane Rine Dehter,^[19]^[9]a veštačke neuronske mreže od strane Igora Ajzenberga i kolega 2000. godine u kontekstu Bulovih neuronskih pragova.^[20]^[21] U 2006. godini publikacija Hintona, Osindera i Teha^[22]^[23] pokazala je kako bi kod višeslojne feedforward neuronske mreže sloj mogao biti unapred efikasno obučen tretirajući svaki sloj kao nenadgledanu ograničenu Bolcmanovu mašinu, lepo naštimovanu korišćenjem nadgledane povratne prpopagacije.^[24] Rad se odnosi na učenje za duboke mreže verovanja.

Prvi opšti agoritam rada za nadgledane, dupoke, prenosne perceptrone objavili su Alexey Grigorevich Ivakhnenko i Lapa 1965. godine.^[25] Dokument iz 1971. opisao je duboku mrežu sa osam slojeva obučenih grupnom metodom algoritma za obradu podataka.^[26]

Druge radne arhitekture dubokog učenja, posebno one koje su izgrađene za računarski vid počele su sa Neokognitronom koji je 1980. godine predstavio Fukušima.^[27] 1989. LiCun primenio je algoritam za povratnu propagaciju, koji je od 1970. godine bio okrenut rezervnom režimu automatskog diferenciranja,^[28]^[29]^[30]^[31] do duboke neuronske mreže s ciljem prepoznavanja rukopisnih ZIP kodova u pošti. Dok je algoritam fnkcionisao, obučavanje je trajalo tri dana.^[32]

Do 1991. godine takvi sistemi su korišćeni za prepoznavanje 2D ručno ispisanih cifara, dok je prepoznavanje 3D objekata učinjeno odgovarajućim 2D slikama sa ručno izgrađenim 3D objektnim modulom. Veng i drugi su pretpostavili da ljudski mozak ne koristi monolitni 3D objektni model i 1992. godine objavili su Kreseptron,^[33]^[34]^[35] metod za prepoznavanje 3D objekata u skrivenim scenama. Kresepton je slap slojeva sličnih Neokognitronu. Međutim dok Neokognitron očekuje od programera da ga ručno spoji sa karakteristikama, Kresepton je bez nadzora naučio otvoren broj karakteristika na svakom nivou, gde je svaka karakteristika predstavljena rekonstrukcijskim algoritmom. Kresepton je učvrstio svaki naučeni objekat iz nereda kroz analizu unazad kroz mrežu. Maksimalno udruživanje, sada često usvojeno od dubokih neuronskih mreža (npr. ImageNet testovi) je prvi put korišćeno u Kreseptonu da smanji rezoluciju pozicije za faktor (2x2) do 1 kroz prenos radi boljeg generalizovanja.

Godine 1994. Karvaljo je zajedno sa Fejrurstom i Bisetom objavio eksperimentalne rezultate višeslojne Bulove neuralne mreže, takođe poznate kao bestežinske neuralne mreže, koja se sastoji od samorganizujuće karakteristike ekstrakcije modula neuralne mreže praćene klasifikacijom neuronske mreže, koje su nezavisno obučene.^[36]

Frej je 1995. godine pokazao da je moguće obučiti (tokom dva dana) mrežu koja sadrži šest potpuno povezanih slojeva i nekoliko stotina sakrivenih jedinica koristeći vejk-slip algoritam, razvojen zajedno sa Dajenom i Hintonom.^[37] Mnogi faktori doprinose sporosti, uključujući i problem sa gradijentom, analiziran 1991. od strane Hohrajtera.^[38]^[39]

Jednostavni modeli koji koriste ručno napravljene karakteristike kao što su Gabor filteri i mašine za podršku vektorima (SVM) beli su popularni tokom devedesetih i dvehiljaditih zbog računskih troškova veštačke neuronske mreže i nedostatka razumevanja o tome kako mozak prolazi kroz svoje biološke mreže.

I plitko i duboko učenje kod veštačkih neuronskih mreža istraživano je već dugi niz godina.^[40]^[41]^[42] Ovi metodi nikad nisu prevazišli tehnologiju neuniformnog unutrašnjeg Gausovog mešovitog modela/sakrivenog Markovog modela(GMM-HMM) baziranu na generativnim modelima govora obučavanih diskriminativno.^[43] Ključne poteškoće su analizirane, uključujući gradijent smanjenja^[38] i slabu temporalnu korelacionu stukturu u neuronskim prediktivnim modelima.^[44]^[45] Dodatni problem bili su nedostatak podataka za obuku i ograničena računarska snaga.

Većina istraživača za prepoznavanje govora preselila se iz neuronskih mreža u traženje generativnog modeliranja. Izuzetak je bio SRI International krajem devedesetih. Finansiran od strane Američke vlade, NSA-a i DARPA-e, SRI je proučavao duboke neuronske mreže u prepoznavanju govora i zvučnika. Hekov tim za prepoznavanje zvučnika došao je do prvog značajnog uspeha sa dubokim neuronskim mrežama u procesiranju govora u Nacionalnom institutu za standarde i tehnologiju za prepoznavanje zvučnika 1998. godine.^[46] Dok je SRI doživljavao uspehe sa dubokim neuronskim mrežama u prepoznavanju zvučnika, bili su neuspešni u demonstraciji sličnog uspeha u prepoznavanju govora. Deceniju kasnije, Hinton i Deng su zajedno sarađivali, a zatim sa kolegama iz različitih grupa na Univerzitetu u Torinu, Majkrosoftu, Guglu i IBM-u pokrenuli renesansu dubokih neuronskih mreža u prepoznavanju govora.^[47]^[48]^[49]^[50]

Princip prepoznavanja „sirovih” funkcija nad ručno izgrađenom optimizacijom je prvi put uspešno istražen u arhitekturi dubokog autoenkodera na „sirovom” spektrogramu ili u funkcijama linearne filter-banke krajem 1990. godine,^[46] pokazujući svoju superiornost nad funkcijama Mel-Kepstrala koje sadrže faze fiksne transformacije iz spektrograma. Sirove osobine govora, talasnih oblika, kasnije su proizvele odlične rezultate većeg obima.^[51]

Mnogi asšekti prepoznavanja govora su bili preuzeti od strane metoda dubokog učenja zvanog duga kratkotrajna memorija (LSTM), rekurentna neuronska mreža objavljena od strane Hohrajtera i Šmidhubera 1997.^[52] LSTM RNN izbegavaju probleme nestajućeg gradijenta i mogu da nauče zadatke „veoma dubokog učenja”^[2] koji zahtevaju sećanje događaja koji su se dogodili pre hiljadu odvojenih vremenskih koraka, što je važno za govor. 2003. godine LSTM je počeo da bude konkurentan tradicionalnom prepoznavanju govora u određenim zadacima.^[53] Kasnije je kombinovan sa vezivnom vremenskom klasifikacijom (CTC)^[54] u stekovima LSTM RNN-a.^[55] 2015. godine, Guglovo prepoznavanje govora je navodno postiglo dramatični skok performansi od 49% kroz CTC - obučeni LSTM, koji su postali dostupni kroz Guglovu pretragu glasom.^[56]

Godine 2006, su Hinton i Salakhutidov su pokazali kako višeslojna feedforward neuronska mreža može efikasno biti obučiti trenirajući sloj istovremeno, tretirajući svaki sloj kao nenadgledanu Bolcmanovu mašinu, a zatim je fino podesiti pomoću nadgledane povratne propagacije.^[57]

Duboko učenje je deo najsavremenijih sistema u različitim disciplinama, posebno u računarskom vidu i automatskom prepoznavanju govora (ASR). Rezultati o najčeščće korišćenim setovima evaluacije, kao što su TIMIT(ASR) i MINIST(klasifikacija slika), kao i niz zadataka prepoznavanja govora velikih reči, postepeno se poboljšavaju.^[47]^[58]^[59] Konvolucionalne neuronske mreže (CNN) su zamenjene sa ASR od strane CTC^[54] za LSTM,^[52]^[56]^[60]^[61]^[62]^[63]^[64] ali su uspešnije u računarskom vidu.

Uticaj dubokog učenja u industriji počeo je početkom 2000. h, kada su CNN već obradile 10% do 20% svih proverki napisanih u SAD.^[65] Industrijske aplikacije dubokog učenja za prepoznavanje govora velikih dimenzija počele su oko 2010.

Krajem 2009. godine, Li Deng je pozvao Hintona da sarađuje sa njim i kolegama kako bi primenio duboko učenje za prepoznavanje govora. Oni su zajedno 2009. organizovali NIPS radionicu o dubokom učenju za prepoznavanje govora.^[66] Radionica je motivisana ograničenjima dubokih generativnih modela govora, kao i mogućnošću da se dobije sposobniji hardver i velike količine podataka da bi duboke neuronske mreže (DNN) mogle postati praktične. Verovalo se da će pre-trening DNN-ovi koristeći generativne modele dubokih verovatnih mreža (DBN) prevladati glavne poteškoće neuronskih mreža.^[49] Međutim, otkrili su da zamenjuju predobuku sa velikim količinama podataka o obuci za jednostavnu povratnu propagaciju kada koriste DNN sa velikim, konteksno zavisnim izlaznima, proizvedenim značajno manjim stepenom greške od tada najsavremenijeg Gausovog modela smeše (GMM)/skrivenog Markovog modela (HMM) kao i sa naprednim generativnim sistemima zasnovanim na modelu.^[47]^[67] Priroda grešaka u prepoznavanju proizvedena od strane dva tipa sistema bila je karakteristično različita,^[48]^[66] pružajući tehničke uvide u kako integrisati duboko učenje u postojeći visoko efikasni sistem za dekodiranje govora za vreme rada, koji koriste svi glavni sistemi za prepoznavanje govora.^[7]^[68]^[69] Analiza oko 2009—2010. godine suprotstavila je model GMM (i drugim generativnim modelima govora) protiv DNN modela, podstaćući rana industrijska ulaganja u duboko učenje za prepoznavanje govora,^[48]^[66] što je dovelo do prodorne i dominantne upotrebe u toj industriji. Ta analiza je obavljena upoređivanjem performansi između diskriminativnih DNN-a i generativnog modela.

Istraživači su 2010. godine proširili duboko učenje od TIMIT-a do prepoznavanja govora velikog rečnika, usvajanjem velikih izlaznih slojeva DNN-a zasnovanih na konteksno zavisnim HMM stanjima konstriušući drvo odlučivanja.^[70]^[71]^[72]^[68]

Poboljšanje hardvera omogućio je ponovno interesovanje. 2009. godine Nvidia je bila uključena u ono što se naziva „big bang” dubokog učenja „jer su neuronske mreže dubokog učenja obučavane sa Nvidia grafičkim procesorskim jedinicama (GPU)”.^[73] Te godine, Gugl Brejn je koristio Nvidia GPU kako bi kreirao sposobne DNN-ove. Ng je utvrdio da GPU može povećati brzinu sistema dubokog učenja oko 100 puta.^[74] GPU je posebno pogodan za matrično/vektorsku matematiku koja se koristi u mašinskom učenju.^[75]^[76] GPU ubrzavaju algoritme treninga po redosledu magnitude, smanjivanju vremena vožnje od nekoliko nedelja do nekoliko dana.^[77]^[78] Za efikasnu obradu se mogu koristiti specijalizovane hardverske i algoritamske optimizacije.^[79]

Godine 2012, tim vođen Dalom osvojio je „Merck Molecular Activity Challenge” koristeći globalne multi-task neuronske mreže kako bi predvideli biomolekularni cilj jedne droge.^[80]^[81] 2014. godine Hohrajterova grupa je koristila duboko učenje da detektuje toksičke efekte hemikalija u životnoj sredini u hranljivim materijama, kućnim proizvodima i lekovima i osvojila je „Tox21 Data Challenge”.^[82]^[83]^[84]

Značajni dodatni uticaji na sliku ili objekat osetili su se od 2011. do 2012. godine. Iako su CNN-ovi bili obučavani povratnom propagacijom već decenijama, GPU impelementirani NN-ovima godinama, uključujući CNN-ove, brze implementacije CNN-a sa maksimalnim učinkom GPU-a u stilu Ciresana i kolega potrebne su za napredak u računarskom vidu.^[75]^[76]^[32]^[85]^[2] 2011. godine je ovaj sistem prvi put postigao performanse nadčoveka u takmičenju prepoznavanja vizuelnih uzoraka. Iste godine je osvojio takmičenje ICDAR kineskog rukopisa, a u maju 2012. godine osvojio je ISBI takmičenje za segmentaciju slika.^[86] Do 2011. godine CNN-ovi nisu igrali glavnu ulogu na konferencijama o računarskom vidu, ali u junu 2012. članak Ciresana i ostalih na vodećoj konferenciji CVPR^[5] je pokazao kako maksimalno udruživanje CNN-ova na GPU-u mogu dramatično poboljšati brojne zapise o merenju vidljivosti. U oktobru 2012. godine, sličan sistem Križevskog i Hintona^[6] pobedio je na takmičenju „ImageNet” zbog značajne margine nad metodama plitkog mašinskog učenja. U novembru 2012. godine, sistem Ciresana i ostalih osvojio je ICDAR za analizu velikih medicinskih slika za otkrivanje raka, a naredne godine i MICCAI Grand Challenge na istu temu.^[87] 2013. i 2014. godine stepen greške na zadatku „ImageNet” korišćenjem dubokog učenja dodatno je smanjena, sledi sličan trend prepoznavanja govora velikih razmera. Projekat The Wolfram Image Identification objavio je ova poboljšanja.^[88]

Klasifikacija slika je zatim proširena na izazovniji zadatak generisanja opisa za slike, često kao kombinacija CNN-a i LSTM-a.^[89]^[90]^[91]^[92]

Veštačke neuronske mreže[uredi | uredi izvor]

Veštačke neuronske mreže ili vezani sistemi su kompjuterski sistemi inspirisanim biološkim neuronskim mrežama koje čine životinjski mozak. Takvi sistemi uče (progresivno poboljšavaju svoju sposobnost) da rade zadatke uzimajući u obzir primere uglavnom bez specifičnog programiranja. Na primer, u prepoznavanju slike, oni mogu da nauče da identifikuju slike koje sadrže mačke analizom primera slika koje su ručno označene kao „mačka” ili „bez mačke” i koriste analitičke rezultate za identifikaciju mačaka na drugim slikama. Najviše se koriste u aplikacijama koje se teško izražavaju tradicionalnim kompjuterskim algoritmom koristeći programiranje zasnovano na pravilima.

Veštačka neuronska mreža zasniva se na skupu povezanih jedinica zvanih veštački neuroni (analogno aksonima u biološkom mozgu). Svaka veza (sinapsa) između neurona može preneti signal drugom neuronu. Prijemni (postsinaptički) neuron može obraditi signal(e) i potom singalizirati nizvodne neurone koji su povezani sa njim. Neuroni mogu imati stanje, uglavnom predstavljeno realnim brojem između 0 i 1.

Neuroni i sinapse mogu imati i težinu koja varira kao prinos učenja, što može pojačati ili smanjiti jačinu signala koju šalje nizvodno.

Tipično, neuroni su organizovani po slojevima. Različiti nivoi mogu vršiti različite vrste transformacija na svojim ulazima. Signali putuju od prvog (ulaznog) do poslednjeg (izlaznog) sloja, eventualno nakon što više puta obiđu slojeve.

Prvobitni cilj pristupa neuronske mreže bio je da reši probleme na isti način kao i ljudski mozak. Tokom vremena, pažnja se fokusirala na usklađivanje specifičnih mentalnih sposobnosti, što je dovelo do odstupanja od biologije kao što je povratna propagacija ili prenošenje informacija u obratnom smeru i prilagođavanje mreže kako bi se te informacije odrazile.

Neuronske mreže su korišćene za razne zadatke, uključujući kompjuterski vid, prepoznavanje govora, mašinski prevod, filtriranje društvenih mreža, video igre i uspostavljanje medicinske dijagnoze.

Od 2017. godine neuronske mreže obično imaju nekoliko hiljada do nekoliko miliona jedinica i milione konekcija. Uprkos tome što je ovaj broj nekoliko reda veličine manji od broja neurona u ljudskom mozgu, ove mreže mogu obavljati neke zadatke bolje od ljudi (npr. prepoznavalje lica^[93]).

Duboka neuronska mreža[uredi | uredi izvor]

Duboka neuronska mreža (DNN) je veštačka neuronska mreža (ANN) sa više sakrivenih slojeva između ulaznih i izlaznih slojeva.^[8]^[2] Duboke neuronske mreže mogu modulirati kompleksne nelinearne veze. Arhitekture duboke neuronske mreže generišu kompozicione modele u kojima je objekat izražen kao slojevita kompozicija primitivnih tipova podataka.^[94] Viši slojevi dozvoljavaju kompoziciju karakteristika iz nižih slojeva, potencijalno modelirajući složene podatke sa manje jedinica koje je slično izvođenju plitke mreže.^[8]

Duboke arhitekture uključuju mnoge varijante nekoliko osnovnih pristupa. Svaka arhitektura je našla primenu u određenim domenima. Nije uvek moguće upoređivati performanse više arhitektura, osim ako se ne procenjuje nad istim skupom podataka.

Duboke neuronske mreže su tipične prenosne mreže u kojima podaci prolaze od ulaznog do izlaznog sloja bez povratne petlje.

Rekurentne neuronske mreže u kojima podaci mogu proticati u bilo kom smeru se koriste za aplikacije kao što su modeliranje jezika.^[95]^[96]^[97]^[98] Duga kratkotrajna memorija je naročito efikasna za ovu upotrebu.^[99]

Konvolucijske duboke neuronske mreže se koriste u računaraskom vidu.^[100] One se takođe koriste kod akustičkog modeliranja za automatsko prepoznavanje govora (ASR).

Izazovi[uredi | uredi izvor]

Kao i sa ANN-ovima, mnogi problemi mogu da se jave loše obučavanim DNN-ovima. Dva najčešća problema su overfitting i vreme obavljanja operacija.

DNN su skloni overfitting-gu zbog dodatnih slojeva apstrakcije, koji im dozvoljavaju da modeliraju retke zavisnosti u podacima za obradu. Metode regularizacije kao što su Ivahnenko-va odsecanje jedinica ili smanjivanje težine(l₂-regularizacija) ili proređenost (l₁-regularizacija) mogu biti primenjene tokom obučavanja da bi se prevazišao overfitting. Alternativno nasumično prekidanje regularizacije isključuje jedinice mere iz skrivenih slojeva tokom obučavanja. Ovo pomaže da se zaobiđu retke zavisnosti. Konačno, podaci mogu biti izmenjeni metodama kao što su sečenje i rotiranje tako da manji setovi u obučavanju mogu biti povećani na veličinu dovoljnu da se smanji rizik od overfitting-a.

DNN moraju da razmotre mnoge parametre obučavanja kao što je veličina (broj slojeva i broj jedinica po sloju), raspon učenja i početne težine. Za optimalne parametre može prolaženje kroz prostor parametara može biti neostvarivo zbog vremenskih troškova i resursa proračuna. RAzni trikovi kao što su serije (izračunavanje gradijenta nekoliko primera obučavanja odjednom umesto pojedinačnih) ubrzavaju proračun. Velika optimuѕacija obrade koristeći GPU proizvela je značajna urzavanja u obučavanju zato što je zahtevani matrični i vektorski proračun odgovarajući za GPU.

Alternativno, inžinjeri mogu tražiti druge tipove neuronskih mreža sa jasnijim i konvergentnijim algoritmima obučavanja. CMAC (cerebellar model articulation controller) je jedna od tih neuronskih mreža. Ne zahteva raspone učenja ni nasumične početne težine. Proces obučavanja garantuje ukrštanje u nekom koraku sa nekom serijom podataka, kompleksnost proračuna algoritma obučavanja je linearna uzimajući u obzir broj uključenih neurona.

Aplikacije[uredi | uredi izvor]

Automatsko prepoznavanje govora[uredi | uredi izvor]

Automatsko prepoznavanje govora velikih razmera je prvi i najuspešniji slučaj dubokog učenja. LSTM RNN mogu da nauče zadatke „veoma dubokog učenja”^[2] koji uključuju intervale od više sekundi koje sadrže govorne događaje razdvojene hiljadama diskretnih vremenskih koraka, pri čemu jednom vremenskom koraku odgovara oko 10ms. LSTM sa zaboravljenim gejtovima^[99] je konkurentan tradicionalnom prepoznavateljima govora na određenim zadacima.^[53]

Početni uspeh u prepoznavanju govora baziran je na zadacima male razmere zasnovanih na TIMIT-u. Skup podataka sadrži 630 govornika iz osam glavnih dijalekata američkog engleskog, gde svaki govornik čita 10 rečenica.^[101] Njegova mala veličina dozvoljava da se probaju mnoge konfiguracije. Još važnije, zadatak TIMIT-a se odnosi na prepoznavanje redosleda glasovnih sekvenci, što za razliku od prepoznavanja redosleda reči dozvoljava slabe jezičke konstrukcije (bez jake gramatike). Ovim se slabosti u akustičnom modeliranju aspekata prepoznavanja govora lakše analiziraju. U nastavku su navedene stope greške, uključujući ranije rezultate merene kao procenat greške u glasu sumiranih u poslednjih 20 godina:

Metod	%
Randomly Initialized RNN	26.1
Bayesian Triphone GMM-HMM	25.6
Hidden Trajectory (Generative) Model	24.8
Monophone Randomly Initialized DNN	23.4
Monophone DBN-DNN	22.4
Triphone GMM-HMM with BMMI Training	21.7
Monophone DBN-DNN on fbank	20.7
Convolutional DNN^[102]	20.0
Convolutional DNN w. Heterogeneous Pooling	18.7
Ensemble DNN/CNN/RNN^[103]	18.2
Bidirectional LSTM	17.9

Početak duboke neuronske mreže za prepoznavanje govornika krajem 1990-ih i prepoznavanje govora 2009-2010 i LTSM 2003-2007 ubrzao je napredak u osam glavnih oblasti:^[7]^[50]^[68]

Poboljšavanje i ubrzavanje obučavanja i dekodiranja DNN
Obučavanje koje razdvaja sekvence
Obrada funkcije pomoću dubokih modela sa solidnim razumevanjem osnovnih mehanizama
Adaptacija DNN-a i srodnih dubinskih modela
Multitasking i transfer učenja od DNN-a i srodnih dubinskih modela
CNN i kako ih dizajnirati kako bi najbolje iskoristili domen znanja o govoru
RNN i njegove bogate LSTM varijante
Druge vrste dubokih modela, uključujući modele zasnovane na tenzoru i integrisane duboke generativne/diskriminativne modele

Svi glavni komercijalni sistemi za prepoznavanje govora (na primer: Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri itd.) zasnivaju se na dubokom učenju.^[7]^[104]^[105]^[106]

Prepoznavanje slike[uredi | uredi izvor]

Za klasifikaciju slika postavljen je zajednički procenat podataka koji su podaci MNIST baze podataka. MNIST se sastoji od cifara pisanih rukom i obuhvata oko 60000 primera obuke, kao i 10000 test primera. Kao i kod TIMIT-a, mala veličina omogućava korisnicima da testiraju više konfiguracija. Dostupna je sveobuhvatna lista rezultata ove baze.^[107]

Vizuelna obrada umetnosti[uredi | uredi izvor]

Napredak koji je postignut u prepoznavanju slika je doprineo tome da se tehnika dubokog učenja primeni i na različite vizuelne umetničke zadatke. DNN su korisni za:

identifikovanje perioda stila date slike
„hvatanje” stila date slike i primenjujući ga na vizuelno prijatan način na proizvoljnu fotografiju
generisanje upečatljivih slika zasnovanih na slučajnim vizuelnim ulaznim poljima^[108]^[109]

Obrada prirodnog jezika[uredi | uredi izvor]

Neuronske mreže su korišćene za implementaciju jezičkih modela odd početka 2000-ih.^[95]^[110] LSTM je pomogao u poboljšanju mašinskog prevođenja i jezičkog modeliranja.^[111]^[96]^[97] Ostale ključne tehnike u ovoj oblasti su negativno uzimanje uzoraka^[112] i unošenje reči. Unošenje reči kao što je word2vec, može se smatrati kao reprezentacijski sloj u arhitekturi dubokog učenja koji transformiše atomsku reč u poziciono predstavljanje reči u odnosu na druge reči u skupu podataka, pozicija je predtavljena kao tačka u vektorskom prostoru. Korišćenje unosa teksta kao RNN ulaznnog sloja omogućava mreži da razdvaja rečenice i fraze koristeći efektivnu kompozicionu vektorsku gramatiku. Kompoziciona vektorska gramatika se može smatrati kao verovatno konteksna slobodna gramatika(PCFG) koju implementira RNN.^[113] Rekurzivni auto-enkoderi napravljeni iznad unosa reči mogu proceniti sličnost i detektovati parafraziranje.^[113] Duboke neuronske arhitekture pružaju najbolje rezultate za analiziranje izbornih grupa,^[114] sentimentalna analiza,^[115] povraćaj informacija,^[116]^[117] razumevanje govornog jezika,^[118] mašinski prevod,^[111]^[119] povezivanje konteksta,^[119] prepoznavanje stila pisanja^[120] i drugo.

Google Translate (GT) koristi veliku end-to-end kratkoročnu memorijsku mrežu.^[121]^[122]^[123]^[124]^[125]^[126] GNMT koristi metod mašinskog prevođenja zasnovan na primeru u kojem sistem „uči od milion primera”.^[122] On prevodi "cele rečenice u isto vreme, a ne u delovima. Google Translate podržava više od sto jezika.^[122] Mreža enkodira semantiku rečenice; umesto memorisanja prevedenih rečenica.^[122]^[127] Google Translate koristi engleski jezik kao posrednika u većini jezičkih parova.^[127]

Otkrivanje lekova i toksikologija[uredi | uredi izvor]

Veliki procenat novih lekova ne uspeva da dobije regulatorno odobrenje. Ovi neuspesi su uzrokovani nedovoljnom efikasnošću (on-target effect), neželjenim interakcijama (off-target effect) ili neočekivanim toksičnim efektima.^[128]^[129] Istraživalo se korišćenje dubokog učenja za predviđanje biomolekularnih meta,^[80]^[81] ne-ciljane i toksične efekte hemikalija u životnoj sredini, u hranjivim sastojcima, kućnim proizvodima i lekovima.^[82]^[83]^[84]

AtomNet je sistem dubokog učenja zasnovanog na strukturi dizajna lekova.^[130] AtomNet je korišćen za predviđanje novih biomolekula za ciljeve bolesti kao što su Ebola virus^[131] i multiple sclerosis.^[132]^[133]

Menadžment za odnose sa potrošača[uredi | uredi izvor]

Duboko učenje korišćeno je za približavanje vrednosti mogućih direktnih marketinških akcija, definisanih u smislu RFM varijabli. Pokazalo se da funkcija procenjene vrednosti ima prirodnu interpretaciju kao doživotna vrednost potrošača.^[134]

Sistem preporuka[uredi | uredi izvor]

Sistemi preporuka koriste duboko učenje da iskoriste značajne karakteristike modela latentnog faktora za preporuke za muziku zasnovane na sadržaju.^[135]

Bioinformatika[uredi | uredi izvor]

U bioinformatici je korišćen auto-enkoder ANN, da bi se predvidele anotacije genetske ontologije i odnosi između genetskih funkcija.^[136]

U medicinskoj informatici, duboko učenje se koristilo za predviđanje kvaliteta sna zasnovanog na podacima^[137]^[138] i predviđanja zdravstvenih komplikacija iz podataka elektronskog zdravstvenog zapisa.^[139]

Mobilno oglašavanje[uredi | uredi izvor]

Pronalaženje odgovarajuće mobilne publike za mobilno oglašavanje^[140] uvek je izazovno, pošto se mnoge tačke podataka moraju uzeti u obzir i asimilirati pre nego što se ciljni segment može kreirati i koristiti u oglasima koji serviraju bilo koji oglasni server. Duboko učenje korišćeno je za tumačenje velikih, mnogodimenzionalnih podataka o oglašavanju. Mnoge tačke podataka prikupljaju se tokom ciklusa traženja/serviranja/kliktanja internet oglašavanja. Ove informacije mogu biti osnova za mašinsko učenje kako bi se poboljšala izbor oglasa.

Obnova slike[uredi | uredi izvor]

Duboko učenje je uspešno primenjivano na inverzne probleme kao što su uklanjanje buke, super-rezolucija restauracija fotografija. Ova primena uključuje metode učenja kao štp je „Polja smanjivanja za efektivnu restauraciju slika” koja se obučava na skupu podataka slike.

Odnos prema ljudskom kognitivnom razvoju i razvoju mozga[uredi | uredi izvor]

Duboko učenje je usko povezano sa klasom teorije razvoja mozga (konkretno, razvoj neokorteksa) koje su predložili kognitivni neuronaučnici početkom devedesetih.^[141]^[142]^[143]^[144] Ove razvojne teorije su instancirane u računskim modelima, što ih čini prethodnicima sistema dubokog učenja. Ovi razvojni modeli imaju osobinu kao i različite dinamike učenja u mozgu koje podržavaju samoorganizaciju donekle analognu neuronskim mrežama koje se koriste u modelima dubokog učenja. Kao i neokorteks, neuronske mreže primenjuju hijerarhiju slojevitih filtera u kojim svaki sloj razmatra informacije sa prethodnog sloja, onda prenosi njihove izlazne podatke (a nekad i ulazne) ostalim slojevima. Ovaj proces omogućava samoorganizujući stek transduktora dobro prilagođenih okolini u kojoj rade. Opis iz 1995 kaže: „Mozak deteta se organizuje sam pod uticajem talasa trofičnih faktora... različite regije u mozgu se uzastopno povezuju, tako što jedan sloj tkiva sazreva pre sledećeg itd. dok ceo mozak ne sazri”.

Različiti pristupi su korišćeni da bi se ispitala verodostojnost modela dubokog učenja iz neurobiološke perspektive. S jedne strane, nekoliko varijanti backpropagation algoritma su predložene kako bi se povećala realnost obrade. Drugi istraživači tvrde da forme dubokog učenja koje nisu nadgledane, kao što su one bazirane na hijerarhijskim generativnim modelima mogu biti bliže biološkoj stvarnosti. Poštovanjem ovog, modeli generativnih neuronskih mreža su povezani sa neurobiološkim dokazima o obradi podataka na osnovu uzimanja uzoraka u cerebralnom korteksu.

Iako sistematsko poređenje organizacije ljudskog mozgo i neuronskog kodiranja u dubokim mrežama još uvek nije ustanovljeno, predloženo je nekoliko analogija. Na primer proračuni izvršeni jedinicama dubokog učenja mogu biti slični onima u neuronima. Slično, prikazi razvijeni modelima dubokog učenja su slični onima merenim u primarnom vizuelnom sistemu kako na pojedinačnom nivou tako i na nivou populacije.

Kritike i komentari[uredi | uredi izvor]

Duboko učenje privuklo je i kritike i komentare, u nekim slučajevima i u oblastima van kompjuterskih nauka.

Teorija[uredi | uredi izvor]

Glavna kritika se odnosi na nedostatak teorije metode. Učenje u dubokoj arhitekturi se najčešće sprovodi korišćenjem poznatog gradijenta. Međutim, teorija koja opisuje druge algoritme, kao što je kontrastna divergencija, je manje jasna. Metodi dubokog učenja su uglavnom potvrđeni empirijski, a ne teorijski.^[145]

Drugi ističu da duboko učenje treba posmatrati kao korak ka ostvarenju veštačke iteligencije (AI), a ne kao sveobuhvatno rešenje. Uprkos moći metoda dubokog učenja, i dalje nedostaje veliki deo funkcionalnosti potrebnog za realizaciju ovog cilja u potpunosti. Psiholog Gary Marcus je primetio:

„Duboko učenje je samo deo većeg izazova izgradnje inteligentnih mašina. Ovakve tehnike nemaju način za predstavljanje uzročnih odnosa (...) nemaju očigledne načine obavljanja logičkih zaključaka, a i dalje su daleko od integracije apstraktnog znanja, kao što su informacije o tome šta su objekti, za šta su, i kako se obično koriste. Najsnažniji AI sistem, kao Votson (...) koriste tehnike poput dubokog učenja kao samo jedan element u vrlo složenom sastavu tehnika, u rasponu od Bajesovog zaključka do deduktivnog obrazloženja”.^[146]

Kao alternativu ovim ograničenjima dubokog učenja, jedan autor navodi kako bi bilo moguće obučiti mašinsku viziju da izvrši sofisticiran zadatak koji razlikuje „stare majstore” od amaterskog crtanja i pretpostavljao da takva senzitivnost može predstavljati početak netrivijalne empatije mašine.^[147] Isti autor je predložio da to bude u skladu sa antropologijom, koja identifikuje zabrinutost sa estetikom kao ključnim elementom ponašanja moderne.^[148]

Ideja da se umetnička osetljivost može naći unutar relativno niskih nivoa kognitivne hijerarhije, dovela je do objave serija grafičkih prikaza unutrašnjih stanja dubokih (20-30 slojeva) neuronskih mreža koje pokušavaju da prepoznaju unutar suštinski slučajnih podataka slike na kojima su obučavane^[149] i demonstriraju vizuelnu izgled: prvobitno istraživanje je imalo preko 1.000 komentara i bilo je predmet onoga što je jedno vreme bio najčitaniji članak na veb stranici The Guardian.^[150]

Greške[uredi | uredi izvor]

Neke arhitekture dubokog učenja prikazuju problematično ponašanje,^[151] kao što je razvrstanje neprepoznatljivih slika kao pripadnika poznatih kategorija običnih slika^[152] i pogrešno razvrstanje manjih krugova ispravno klasifikovanih slika.^[153] Goertzel je pretpostavio da su ova ponašanja posledica ograničenja u njihovim unutrašnjim predstavama i da bi ova ograničenja inhibirala integraciju u heterogene multi-komponentne AGI arhitekture.^[151] Ovim pitanjima se mogu rešavati arhitekture dubokog učenja koje interno formiraju homologne slike-gramatike^[154] razlaganja posmatranih entiteta i događaja.^[151] Učenje gramatike (vizuelno ili jezički) iz podataka za obuku bi bilo ekvivalentno ograničavanju sistema na šablonsko razjašnjenje koje funkcioniše na konceptima gramatičkih pravila proizvodnje i predstavlja osnovni cilj i prirodnog jezika^[155] i AI.^[156]

Sajber pretnja[uredi | uredi izvor]

Kako se duboko učenje pomera iz laboratorije u svet, istraživanje i iskustvo pokazuju da su veštačke neuronske mreže podložne hakovanjima i prevarama. Identifikujući obrasce koje ovi sistemi koriste za funkcionisanje, napadači mogu da modifikuju ulaze u ANN-u na takav način da ANN pronalazi poklapanja koja ljudi neće prepoznati. Na primer, napadač može napraviti male promene na slici takve da ANN pronađe poklapanje, a da čoveku slika ne izgleda kao predmet pretrage. Takva manipulacija se naziva „kontradiktorni napad”. U 2016. istraživači su koristili jedan ANN da poprave slike na probni način i sa greškama, da identifikuju žižne tečke i generišu slike koje su ih obmanule. Ove izmenjene slike su izgledale potpuno isto ljudskom oku. Još jedna grupa je pokazala da su odštampane modifikovane slike uspešno prevarile sistem klasifikacije slika. Jedna od odbrana je obrnuta pretraga slika pri kojoj je potencijalno lažna slika prosleđena sajtu kao što je TinEye, koji onda može da pronađe druge slične primere. Sužavanje pretrage se postiže korišćenjem samo delova slike kako bi se identifikovale slike sa kojih je taj deo potencijalno uzet.

Još jedna grupa je pokazala da psihodelične cestice mogu da prevare sistem prepoznavanja lica tako da obične ljude prepoznaje kao poznate, potencijalno dozvoljavajući nekoj osobi da imitira neku drugu. U 2017. ovi istraživači su dodali stikere stop znacima što je prouzorkovalo da ih ANN pogrešno klasifikuje.

ANN mogu da budu dalje obučavani da detektuju pokušaje prevare potencijalno kreirajući sistem odbrane sličan industriji odbrane od malvera.

Još jedna grupa je demonstrirala da određeni zvukovi mogu da nateraju Google Now glasovni komadni sistem da otvori određeni sajt koji bi skinuo malver.

U „trovanju podataka” lažni podaci se kontinualno uvlače u set za obučavanje sistema mašinskog učenja da ga spreče da ostvari cilj.

Reference[uredi | uredi izvor]

^ ^a ^b ^v ^g ^d Bengio, Y.; Courville, A.; Vincent, P. (2013). „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538 . doi:10.1109/tpami.2013.50.
^ ^a ^b ^v ^g ^d ^đ ^e Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks. 61: 85—117. PMID 25462637. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003.
^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). „Deep Learning”. Nature. 521: 436—444. PMID 26017442. doi:10.1038/nature14539.
^ Ghasemi, F.; Mehridehnavi, AR.; Fassihi, A.; Perez-Sanchez, H. (2017). „Deep Neural Network in Biological Activity Prediction using Deep Belief Network”. Applied Soft Computing.
^ ^a ^b Ciresan, Dan; Meier, U.; Schmidhuber, J. (1. 6. 2012). „Multi-column deep neural networks for image classification”. 2012 IEEE Conference on Computer Vision and Pattern Recognition: 3642—3649. doi:10.1109/cvpr.2012.6248110.
^ ^a ^b Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). „ImageNet Classification with Deep Convolutional Neural Networks” (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.
^ ^a ^b ^v ^g ^d Deng, L.; Yu, D. (2014). „Deep Learning: Methods and Applications” (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1—199. doi:10.1561/2000000039.
^ ^a ^b ^v ^g Bengio, Yoshua (2009). „Learning Deep Architectures for AI” (PDF). Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006. Arhivirano iz originala (PDF) 4. 3. 2016. g. Pristupljeno 29. 12. 2017.
^ ^a ^b Jürgen Schmidhuber (2015). Deep Learning. Scholarpedia, 10(11):32832. Online
^ ^a ^b Hinton, G.E. (2009). „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947.
^ ^a ^b Balázs Csanád Csáji (2001). Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary
^ ^a ^b ^v Cybenko (1989). „Approximations by superpositions of sigmoidal functions” (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303—314. doi:10.1007/bf02551274. Arhivirano iz originala (PDF) 10. 10. 2015. g.
^ ^a ^b ^v Hornik, Kurt (1991). „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks. 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t.
^ ^a ^b Haykin 1999
^ ^a ^b Hassoun 1995, str. 48
^ ^a ^b ^v Murphy 2012
^ Patel, Ankit; Nguyen, Tan; Baraniuk, Richard (2016). „A Probabilistic Framework for Deep Learning” (PDF). Advances in Neural Information Processing Systems.
^ Bishop 2006
^ Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online
^ Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media.
^ Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C. pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
^ Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). „A Fast Learning Algorithm for Deep Belief Nets” (PDF). Neural Computation. 18 (7): 1527—1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527.
^ Bengio, Yoshua (2012). „Practical recommendations for gradient-based training of deep architectures”. arXiv:1206.5533  [cs.LG].
^ G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11. (2007). pp. 428-434.
^ Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation.
^ Ivakhnenko, Alexey (1971). „Polynomial theory of complex systems”. IEEE Transactions on Systems, Man and Cybernetics (4). 1: 364—378. doi:10.1109/TSMC.1971.4308320.
^ Fukushima, K. (1980). „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”. Biol. Cybern. 36: 193—202. PMID 7370364. doi:10.1007/bf00344251.
^ Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), University Helsinki, 6-7.
^ Griewank, Andreas (2012). „Who Invented the Reverse Mode of Differentiation?” (PDF). Documenta Matematica, Extra Volume ISMP: 389—400. Arhivirano iz originala (PDF) 21. 7. 2017. g. Pristupljeno 30. 1. 2018.
^ Werbos, P. (1974). „Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences”. Harvard University. Pristupljeno 12. 6. 2017.
^ Werbos 1982, str. 762–770
^ ^a ^b LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1. (1989). pp. 541-551.
^ J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I. pp. 576–581, June, 1992.
^ J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany. pp. 121–128, May, 1993.
^ J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2. pp. 105–139, Nov. 1997.
^ de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (8. 8. 1994). „An integrated Boolean neural network for pattern classification”. Pattern Recognition Letters. 15 (8): 807—813. doi:10.1016/0167-8655(94)90009-4.
^ Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26. 5. 1995). „The wake-sleep algorithm for unsupervised neural networks”. Science. 268 (5214): 1158—1161. doi:10.1126/science.7761831.
^ ^a ^b S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische University Munich. Advisor: J. Schmidhuber, 1991.
^ Hochreiter, S.; et al. (2001). „Gradient flow in recurrent nets: the difficulty of learning long-term dependencies”. Ур.: Kolen, John F.; Kremer, Stefan C. A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5.
^ Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1. 8. 1993). „Hybrid neural network/hidden markov model systems for continuous speech recognition”. International Journal of Pattern Recognition and Artificial Intelligence. 07 (04): 899—916. ISSN 0218-0014. doi:10.1142/s0218001493000455.
^ Robinson, T. (1992). „A real-time recurrent error propagation network word recognition system”. ICASSP.
^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (март 1989). „Phoneme recognition using time-delay neural networks”. IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328—339. ISSN 0096-3518. doi:10.1109/29.21701.
^ Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). „Research Developments and Directions in Speech Recognition and Understanding, Part 1”. IEEE Signal Processing Magazine. 26 (3): 75—80. doi:10.1109/msp.2009.932166.
^ Bengio, Y. (1991). „Artificial Neural Networks and their Application to Speech/Sequence Recognition”. McGill University Ph.D. thesis.
^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). „Analysis of correlation structure for a neural predictive model with applications to speech recognition”. Neural Networks. 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2.
^ ^а ^б Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). „Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design”. Speech Communication. 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1.
^ ^а ^б ^в Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). „Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups”. IEEE Signal Processing Magazine. 29 (6): 82—97. doi:10.1109/msp.2012.2205597.
^ ^а ^б ^в Deng, L.; Hinton, G.; Kingsbury, B. (2013). „New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)” (PDF).
^ ^а ^б Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).
^ ^а ^б Li, Deng (септембар 2014). „Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'”. Interspeech.
^ „Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available)”. ResearchGate. Приступљено 14. 6. 2017.
^ ^а ^б Hochreiter, Sepp; Schmidhuber, Jürgen (1. 11. 1997). „Long Short-Term Memory”. Neural Computation. 9 (8): 1735—1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735.
^ ^а ^б Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). „Biologically Plausible Speech Recognition with LSTM Neural Nets” (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. стр. 175—184. Архивирано из оригинала (PDF) 09. 05. 2021. г.
^ ^а ^б Graves, Alex; Fernández, Santiago; Gomez, Faustino (2006). „Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks”. In Proceedings of the International Conference on Machine Learning, ICML 2006: 369—376.
^ Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting. Proceedings of ICANN (2). pp. 220–229.
^ ^а ^б Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (септембар 2015). „Google voice search: faster and more accurate”.
^ Hinton, Geoffrey E. (1. 10. 2007). „Learning multiple layers of representation”. Trends in Cognitive Sciences. 11 (10): 428—434. ISSN 1364-6613. PMID 17921042. doi:10.1016/j.tics.2007.09.004.
^ Deng, Li; Hinton, Geoffrey; Kingsbury, Brian (1. 5. 2013). „New types of deep neural network learning for speech recognition and related applications: An overview” — преко research.microsoft.com.
^ Deng, L.; Li, J.; Huang, J. T.; Yao, K.; Yu, D.; Seide, F.; Seltzer, M.; Zweig, G.; He, X. (мај 2013). „Recent advances in deep learning for speech research at Microsoft”. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. стр. 8604—8608. ISBN 978-1-4799-0356-6. S2CID 13412186. doi:10.1109/icassp.2013.6639345.
^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). „Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling” (PDF). Архивирано из оригинала (PDF) 24. 04. 2018. г.
^ Xiangang Li, Xihong Wu (2015). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition Li, Xiangang; Wu, Xihong (2014). „Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition”. arXiv:1410.4281 .
^ Zen, Heiga; Sak, Hasim (2015). „Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis” (PDF). Google.com. ICASSP. стр. 4470—4474.
^ Deng, L.; Abdel-Hamid, O.; Yu, D. (2013). „A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion” (PDF). Google.com. ICASSP.
^ Sainath, T. N.; Mohamed, A. r; Kingsbury, B.; Ramabhadran, B. (мај 2013). „Deep convolutional neural networks for LVCSR”. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. стр. 8614—8618. ISBN 978-1-4799-0356-6. S2CID 13816461. doi:10.1109/icassp.2013.6639347.
^ Yann LeCun (2016). Slides on Deep Learning Online
^ ^а ^б ^в NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
^ D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep neural networks," U.S. Patent Filing.
^ ^а ^б ^в Yu, D.; Deng, L. (2014). „Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)”. ISBN 978-1-4471-5779-3.
^ „IEEE (2015)”. Архивирано из оригинала 02. 03. 2016. г. Приступљено 06. 02. 2018.
^ Yu, D.; Deng, L. (2010). „Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition”. NIPS Workshop on Deep Learning and Unsupervised Feature Learning.
^ Seide, F.; Li, G.; Yu, D. (2011). „Conversational speech transcription using context-dependent deep neural networks”. Interspeech.
^ Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1. 5. 2013). „Recent Advances in Deep Learning for Speech Research at Microsoft”. Microsoft Research.
^ „Nvidia CEO bets big on deep learning and VR”. Venture Beat. 5. 4. 2016.
^ „From not working to neural networking”. The Economist.
^ ^а ^б Greška kod citiranja: Nevažeća oznaka <ref>; nema teksta za reference pod imenom jung2004.
^ ^а ^б Chellapilla, K., Puri, S., and Simard, P. (2006). High performance convolutional neural networks for document processing. International Workshop on Frontiers in Handwriting Recognition.
^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21. 9. 2010). „Deep, Big, Simple Neural Nets for Handwritten Digit Recognition”. Neural Computation. 22 (12): 3207—3220. ISSN 0899-7667. doi:10.1162/neco_a_00052.
^ Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (2009). „Large-scale Deep Unsupervised Learning Using Graphics Processors”. Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09. New York, NY, USA: ACM: 873—880. CiteSeerX 10.1.1.154.372 . ISBN 9781605585161. doi:10.1145/1553374.1553486.
^ Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). „Efficient Processing of Deep Neural Networks: A Tutorial and Survey”. arXiv:1703.09039 .
^ ^а ^б „Announcement of the winners of the Merck Molecular Activity Challenge”.
^ ^а ^б „Multi-task Neural Networks for QSAR Predictions | Data Science Association”. www.datascienceassn.org. Приступљено 14. 6. 2017.
^ ^а ^б "Toxicology in the 21st century Data Challenge] Oh, K.-S.; Jung, K. (2004). „GPU implementation of neural networks”. Pattern Recognition. 37 (6): 1311—1314. doi:10.1016/j.patcog.2004.01.013.
^ ^а ^б „NCATS Announces Tox21 Data Challenge Winners”.
^ ^а ^б „Archived copy”. Архивирано из оригинала 28. 2. 2015. г. Приступљено 5. 3. 2015.
^ Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L. M.; Schmidhuber, J. (2011). „Flexible, High Performance Convolutional Neural Networks for Image Classification” (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210.
^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q., ур. Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. стр. 2843—2851.
^ Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). „Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks” (PDF). Proceedings MICCAI.
^ „The Wolfram Language Image Identification Project”. www.imageidentify.com. Приступљено 22. 3. 2017.
^ Vinyals et al. (2014)."Show and Tell: A Neural Image Caption Generator," Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). „Show and Tell: A Neural Image Caption Generator”. arXiv:1411.4555 .
^ Fang et al. (2014)."From Captions to Visual Concepts and Back," Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C.; Lawrence Zitnick, C.; Zweig, Geoffrey (2014). „From Captions to Visual Concepts and Back”. arXiv:1411.4952 .
^ Kiros et al. (2014). "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models," Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S. (2014). „Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models”. arXiv:1411.2539 .
^ Zhong, Sheng-hua; Liu, Yan; Liu, Yang (2011). „Bilinear deep learning for image classification”. Proceedings of the 19th ACM international conference on Multimedia. MM '11. New York, NY, USA: ACM. стр. 343—352. ISBN 9781450306164. S2CID 11922007. doi:10.1145/2072298.2072344.
^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (2016/01). „Mastering the game of Go with deep neural networks and tree search”. Nature (на језику: енглески). 529 (7587): 484—489. ISSN 1476-4687. doi:10.1038/nature16961. Проверите вредност парамет(а)ра за датум: |date= (помоћ)
^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). „Deep neural networks for object detection”. Advances in Neural Information Processing Systems. 26.
^ ^а ^б Gers, Felix A.; Schmidhuber, Jürgen (2001). „LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages”. IEEE TNN. 12 (6): 1333—1340. PMID 18249962. S2CID 10192330. doi:10.1109/72.963769.
^ ^а ^б Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). „Exploring the Limits of Language Modeling”. arXiv:1602.02410 .
^ ^а ^б Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). „Multilingual Language Processing From Bytes”. arXiv:1512.00103 .
^ Mikolov, T.; et al. (2010). „Recurrent neural network based language model” (PDF). Interspeech: 1045—1048. S2CID 17048224. doi:10.21437/Interspeech.2010-343.
^ ^a ^b „Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)”. ResearchGate. Pristupljeno 13. 6. 2017.
^ LeCun, Y.; et al. (1998). „Gradient-based learning applied to document recognition”. Proceedings of the IEEE. 86 (11): 2278—2324. S2CID 14542261. doi:10.1109/5.726791.
^ TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia.
^ Abdel-Hamid, O.; et al. (2014). „Convolutional Neural Networks for Speech Recognition”. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533—1545. S2CID 206602362. doi:10.1109/taslp.2014.2339736.
^ Deng, L.; Platt, J. (2014). „Ensemble Deep Learning for Speech Recognition” (PDF). Proc. Interspeech: 1915—1919. S2CID 15641618. doi:10.21437/Interspeech.2014-433. Архивирано из оригинала (PDF) 20. 10. 2017. г. Приступљено 16. 02. 2018.
^ McMillan, Robert. „How Skype Used AI to Build Its Amazing New Language Translator | WIRED”. Wired. Приступљено 14. 6. 2017.
^ Hannun et al. (2014) "Deep Speech: Scaling up end-to-end speech recognition", Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y. (2014). „Deep Speech: Scaling up end-to-end speech recognition”. arXiv:1412.5567 .
^ „Plenary presentation at ICASSP-2016” (PDF).
^ „MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges”. yann.lecun.com.
^ Smith, G. W.; Leymarie, Frederic Fol (10. 4. 2017). „The Machine as Artist: An Introduction”. Arts. Приступљено 4. 10. 2017.
^ Blaise Agüera y Arcas (29. 9. 2017). „Art in the Age of Machine Intelligence”. Arts. Приступљено 4. 10. 2017.
^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (март 2003). „A Neural Probabilistic Language Model”. J. Mach. Learn. Res. 3: 1137—1155. ISSN 1532-4435.
^ ^а ^б Sutskever, L.; Vinyals, O.; Le, Q. (2014). „Sequence to Sequence Learning with Neural Networks” (PDF). Proc. NIPS. arXiv:1409.3215 .
^ Goldberg, Yoav; Levy, Omar (2014). „word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method”. arXiv:1402.3722  [cs.CL].
^ ^а ^б Socher, Richard; Manning, Christopher. „Deep Learning for NLP” (PDF). Приступљено 26. 10. 2014.
^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). „Parsing With Compositional Vector Grammars” (PDF). Proceedings of the ACL 2013 Conference. Приступљено 1. 7. 2018.
^ Socher, Richard (2013). „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). Emnlp 2013. Приступљено 1. 7. 2018.
^ Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1. 11. 2014). „A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval”. Microsoft Research.
^ Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1. 10. 2013). „Learning Deep Structured Semantic Models for Web Search using Clickthrough Data”. Microsoft Research.
^ Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D.; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). „Using recurrent neural networks for slot filling in spoken language understanding”. IEEE Transactions on Audio, Speech, and Language Processing. 23 (3): 530—539. S2CID 1317136. doi:10.1109/taslp.2014.2383614.
^ ^а ^б Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1. 6. 2014). „Learning Continuous Phrase Representations for Translation Modeling”. Microsoft Research.
^ Brocardo ML, Traore I, Woungang I, Obaidat MS. " Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). „Authorship verification using deep belief network systems”. International Journal of Communication Systems. 30 (12): e3259. S2CID 40745740. doi:10.1002/dac.3259. . Authorship verification using deep belief network systems". Int J Commun Syst. 2017. Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). „Authorship verification using deep belief network systems”. International Journal of Communication Systems. 30 (12): e3259. S2CID 40745740. doi:10.1002/dac.3259.
^ Turovsky, Barak (15. 11. 2016). „Found in translation: More accurate, fluent sentences in Google Translate”. The Keyword Google Blog. Google. Приступљено 23. 3. 2017.
^ ^а ^б ^в ^г Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22. 11. 2016). „Zero-Shot Translation with Google's Multilingual Neural Machine Translation System”. Google Research Blog. Google. Приступљено 23. 3. 2017.
^ Hochreiter, Sepp; Schmidhuber, Jürgen (1997). „Long short-term memory”. Neural Computation. 9 (8): 1735—1780. PMID 9377276. S2CID 1915014. doi:10.1162/neco.1997.9.8.1735.
^ Gers, Felix A.; Schmidhuber, Jürgen; Cummins, Fred (2000). „Learning to Forget: Continual Prediction with LSTM”. Neural Computation. 12 (10): 2451—2471. CiteSeerX 10.1.1.55.5709 . PMID 11032042. S2CID 11598600. doi:10.1162/089976600300015015.
^ Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (26 Sep 2016): Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Łukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Wu, Yonghui; et al. (2016). „Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”. arXiv:1609.08144 .
^ "An Infusion of AI Makes Google Translate More Powerful Than Ever." Cade Metz, WIRED, Date of Publication: 09.27.16. https://www.wired.com/2016/09/google-claims-ai-breakthrough-machine-translation/
^ ^а ^б Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). „MT on and for the Web” (PDF). Архивирано из оригинала (PDF) 29. 03. 2017. г. Приступљено 1. 12. 2016.
^ Arrowsmith, J; Miller, P (2013). „Trial watch: Phase II and phase III attrition rates 2011-2012”. Nature Reviews Drug Discovery. 12 (8): 569. PMID 23903212. doi:10.1038/nrd4090.
^ Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). „Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project”. Drug Discovery Today. 20: 505—513. PMID 25582842. doi:10.1016/j.drudis.2014.12.014.
^ Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9. 10. 2015). „AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery”. arXiv:1510.02855 .
^ „Toronto startup has a faster way to discover effective medicines”. The Globe and Mail. Приступљено 9. 11. 2015.
^ „Startup Harnesses Supercomputers to Seek Cures”. KQED Future of You. Приступљено 9. 11. 2015.
^ „Toronto startup has a faster way to discover effective medicines”.
^ Tkachenko, Yegor (8. 4. 2015). „Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space”.
^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q., ур. Advances in Neural Information Processing Systems 26 (PDF). Curran Associates, Inc. стр. 2643—2651.
^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1. 1. 2014). „Deep Autoencoder Neural Networks for Gene Ontology Annotation Predictions”. Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics - BCB '14. ACM: 533—540. doi:10.1145/2649387.2649442 — преко ACM Digital Library.
^ Sathyanarayana, Aarti (1. 1. 2016). „Sleep Quality Prediction From Wearable Data Using Deep Learning”. JMIR mHealth and uHealth. 4 (4): e125. doi:10.2196/mhealth.6562.
^ Movahedi, F.; Coyle, J. L.; Sejdić, E. (2017). „Deep belief networks for electroencephalography: A review of recent contributions and future outlooks”. IEEE Journal of Biomedical and Health Informatics. PP (99): 1—1. ISSN 2168-2194. doi:10.1109/JBHI.2017.2727218.
^ Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13. 8. 2016). „Using recurrent neural network models for early detection of heart failure onset”. Journal of the American Medical Informatics Association: ocw112. ISSN 1067-5027. PMID 27521897. doi:10.1093/jamia/ocw112.
^ IJSTR (PDF). 5 (04) http://www.ijstr.org/final-print/apr2016/Using-Deep-Learning-Neural-Networks-To-Find-Best-Performing-Audience-Segments.pdf. Nedostaje ili je prazan parametar |title= (pomoć)
^ Utgoff, P. E.; Stracuzzi, D. J. (2002). „Many-layered learning”. Neural Computation. 14: 2497—2529. doi:10.1162/08997660260293319.
^ Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development. MIT Press. ISBN 978-0-262-55030-7.
^ Shrager, J.; Johnson, MH (1996). „Dynamic plasticity influences the emergence of function in a simple cortical array”. Neural Networks. 9 (7): 1119—1129. doi:10.1016/0893-6080(96)00033-0.
^ Quartz, SR; Sejnowski, TJ (1997). „The neural basis of cognitive development: A constructivist manifesto”. Behavioral and Brain Sciences. 20 (4): 537—556. CiteSeerX 10.1.1.41.7854 . doi:10.1017/s0140525x97001581.
^ Knight, Will (14. 3. 2017). „DARPA is funding projects that will try to open up AI’s black boxes”. MIT Technology Review. Pristupljeno 2. 11. 2017.
^ Marcus, Gary (25. 11. 2012). „Is "Deep Learning" a Revolution in Artificial Intelligence?”. The New Yorker. Pristupljeno 14. 6. 2017.
^ Smith, G. W. (27. 3. 2015). „Art and Artificial Intelligence”. ArtEnt. Arhivirano iz originala 25. 6. 2017. g. Pristupljeno 27. 3. 2015.
^ Mellars, Paul (1. 2. 2005). „The Impossible Coincidence: A Single-Species Model for the Origins of Modern Human Behavior in Europe” (PDF). Evolutionary Anthropology: Issues, News, and Reviews. Pristupljeno 5. 4. 2017.
^ Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (17. 6. 2015). „Inceptionism: Going Deeper into Neural Networks”. Google Research Blog. Pristupljeno 20. 6. 2015.
^ Hern, Alex (18. 6. 2015). „Yes, androids do dream of electric sheep”. The Guardian. Pristupljeno 20. 6. 2015.
^ ^a ^b ^v Goertzel, Ben (2015). „Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms?” (PDF).
^ Nguyen, Anh, Jason Yosinski, and Jeff Clune. "Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images." Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). „Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images”. arXiv:1412.1897 . (2014).
^ Szegedy, Christian, et al. "Intriguing properties of neural networks." Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). „Intriguing properties of neural networks”. arXiv:1312.6199 . (2013).
^ Zhu, S.C.; Mumford, D. (2006). „A stochastic grammar of images”. Found. Trends Comput. Graph. Vis. 2 (4): 259—362. doi:10.1561/0600000018.
^ Miller, G. A., and N. Chomsky. "Pattern conception." Paper for Conference on pattern detection, University of Michigan. 1957.
^ Eisner, Jason. „Deep Learning of Recursive Structure: Grammar Induction”. Arhivirano iz originala 30. 12. 2017. g. Pristupljeno 17. 02. 2018.

Literatura[uredi | uredi izvor]

Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development. MIT Press. ISBN 978-0-262-55030-7.
Hochreiter, S.; et al. (2001). „Gradient flow in recurrent nets: the difficulty of learning long-term dependencies”. Ur.: Kolen, John F.; Kremer, Stefan C. A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5.
Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation.
Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press. ISBN 978-0-262-01802-9.
Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). Springer. ISBN 978-0-387-31073-2.
Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks. MIT Press. str. 48. ISBN 978-0-262-08239-6.
Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall. ISBN 978-0-13-273350-2.
Werbos, Paul (1982). „Applications of advances in nonlinear sensitivity analysis”. System modeling and optimization. Springer. str. 762—770.

Spoljašnje veze[uredi | uredi izvor]

Deep Decision Tree

[BENGIO2012-1] v ^g ^d Bengio, Y.; Courville, A.; Vincent, P. (2013). „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538 . doi:10.1109/tpami.2013.50.

[SCHIDHUB-2] v ^g ^d ^đ ^e Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks. 61: 85—117. PMID 25462637. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003.

[NatureBengio-3] Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). „Deep Learning”. Nature. 521: 436—444. PMID 26017442. doi:10.1038/nature14539.

[4] Ghasemi, F.; Mehridehnavi, AR.; Fassihi, A.; Perez-Sanchez, H. (2017). „Deep Neural Network in Biological Activity Prediction using Deep Belief Network”. Applied Soft Computing.

[:9-5] Ciresan, Dan; Meier, U.; Schmidhuber, J. (1. 6. 2012). „Multi-column deep neural networks for image classification”. 2012 IEEE Conference on Computer Vision and Pattern Recognition: 3642—3649. doi:10.1109/cvpr.2012.6248110.

[krizhevsky2012-6] Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). „ImageNet Classification with Deep Convolutional Neural Networks” (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.

[BOOK2014-7] v ^g ^d Deng, L.; Yu, D. (2014). „Deep Learning: Methods and Applications” (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1—199. doi:10.1561/2000000039.

[BENGIODEEP-8] v ^g Bengio, Yoshua (2009). „Learning Deep Architectures for AI” (PDF). Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006. Arhivirano iz originala (PDF) 4. 3. 2016. g. Pristupljeno 29. 12. 2017.

[scholarpedia-9] Jürgen Schmidhuber (2015). Deep Learning. Scholarpedia, 10(11):32832. Online

[SCHOLARDBNS-10] Hinton, G.E. (2009). „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947.

[ReferenceB-11] Balázs Csanád Csáji (2001). Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary

[cyb-12] v Cybenko (1989). „Approximations by superpositions of sigmoidal functions” (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303—314. doi:10.1007/bf02551274. Arhivirano iz originala (PDF) 10. 10. 2015. g.

[horn-13] v Hornik, Kurt (1991). „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks. 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t.

[Haykin,_Simon_1998-14] Haykin 1999

[Hassoun,_M._1995_pp._48-15] Hassoun 1995, str. 48

[MURPHY-16] v Murphy 2012

[Patel_NIPS_2016-17] Patel, Ankit; Nguyen, Tan; Baraniuk, Richard (2016). „A Probabilistic Framework for Deep Learning” (PDF). Advances in Neural Information Processing Systems.

[prml-18] Bishop 2006

[dechter1986-19] Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online

[aizenberg2000-20] Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media.

[21] Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C. pp. 1795–1802, ACM Press, New York, NY, USA, 2005.

[hinton06-22] Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). „A Fast Learning Algorithm for Deep Belief Nets” (PDF). Neural Computation. 18 (7): 1527—1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527.

[bengio2012-23] Bengio, Yoshua (2012). „Practical recommendations for gradient-based training of deep architectures”. arXiv:1206.5533  [cs.LG].

[HINTON2007-24] G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11. (2007). pp. 428-434.

[ivak1965-25] Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation.

[ivak1971-26] Ivakhnenko, Alexey (1971). „Polynomial theory of complex systems”. IEEE Transactions on Systems, Man and Cybernetics (4). 1: 364—378. doi:10.1109/TSMC.1971.4308320.

[FUKU1980-27] Fukushima, K. (1980). „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”. Biol. Cybern. 36: 193—202. PMID 7370364. doi:10.1007/bf00344251.

[lin1970-28] Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), University Helsinki, 6-7.

[grie2012-29] Griewank, Andreas (2012). „Who Invented the Reverse Mode of Differentiation?” (PDF). Documenta Matematica, Extra Volume ISMP: 389—400. Arhivirano iz originala (PDF) 21. 7. 2017. g. Pristupljeno 30. 1. 2018.

[WERBOS1974-30] Werbos, P. (1974). „Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences”. Harvard University. Pristupljeno 12. 6. 2017.

[werbos1982-31] Werbos 1982, str. 762–770

[LECUN1989-32] LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1. (1989). pp. 541-551.

[Weng1992-33] J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I. pp. 576–581, June, 1992.

[Weng1993-34] J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany. pp. 121–128, May, 1993.

[Weng1997-35] J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2. pp. 105–139, Nov. 1997.

[36] Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (8. 8. 1994). „An integrated Boolean neural network for pattern classification”. Pattern Recognition Letters. 15 (8): 807—813. doi:10.1016/0167-8655(94)90009-4.

[37] Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26. 5. 1995). „The wake-sleep algorithm for unsupervised neural networks”. Science. 268 (5214): 1158—1161. doi:10.1126/science.7761831.

[HOCH1991-38] S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische University Munich. Advisor: J. Schmidhuber, 1991.

[HOCH2001-39] Hochreiter, S.; et al. (2001). „Gradient flow in recurrent nets: the difficulty of learning long-term dependencies”. Ур.: Kolen, John F.; Kremer, Stefan C. A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5.

[40] Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1. 8. 1993). „Hybrid neural network/hidden markov model systems for continuous speech recognition”. International Journal of Pattern Recognition and Artificial Intelligence. 07 (04): 899—916. ISSN 0218-0014. doi:10.1142/s0218001493000455.

[Robinson1992-41] Robinson, T. (1992). „A real-time recurrent error propagation network word recognition system”. ICASSP.

[42] Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (март 1989). „Phoneme recognition using time-delay neural networks”. IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328—339. ISSN 0096-3518. doi:10.1109/29.21701.

[Baker2009-43] Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). „Research Developments and Directions in Speech Recognition and Understanding, Part 1”. IEEE Signal Processing Magazine. 26 (3): 75—80. doi:10.1109/msp.2009.932166.

[Bengio1991-44] Bengio, Y. (1991). „Artificial Neural Networks and their Application to Speech/Sequence Recognition”. McGill University Ph.D. thesis.

[Deng1994-45] Deng, L.; Hassanein, K.; Elmasry, M. (1994). „Analysis of correlation structure for a neural predictive model with applications to speech recognition”. Neural Networks. 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2.

[Heck2000-46] а ^б Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). „Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design”. Speech Communication. 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1.

[HintonDengYu2012-47] а ^б ^в Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). „Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups”. IEEE Signal Processing Magazine. 29 (6): 82—97. doi:10.1109/msp.2012.2205597.

[ReferenceICASSP2013-48] а ^б ^в Deng, L.; Hinton, G.; Kingsbury, B. (2013). „New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)” (PDF).

[HintonKeynoteICASSP2013-49] а ^б Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).

[interspeech2014Keynote-50] а ^б Li, Deng (септембар 2014). „Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'”. Interspeech.

[51] „Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available)”. ResearchGate. Приступљено 14. 6. 2017.

[:0-52] а ^б Hochreiter, Sepp; Schmidhuber, Jürgen (1. 11. 1997). „Long Short-Term Memory”. Neural Computation. 9 (8): 1735—1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735.

[graves2003-53] а ^б Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). „Biologically Plausible Speech Recognition with LSTM Neural Nets” (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. стр. 175—184. Архивирано из оригинала (PDF) 09. 05. 2021. г.

[:1-54] а ^б Graves, Alex; Fernández, Santiago; Gomez, Faustino (2006). „Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks”. In Proceedings of the International Conference on Machine Learning, ICML 2006: 369—376.

[fernandez2007keyword-55] Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting. Proceedings of ICANN (2). pp. 220–229.

[sak2015-56] а ^б Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (септембар 2015). „Google voice search: faster and more accurate”.

[57] Hinton, Geoffrey E. (1. 10. 2007). „Learning multiple layers of representation”. Trends in Cognitive Sciences. 11 (10): 428—434. ISSN 1364-6613. PMID 17921042. doi:10.1016/j.tics.2007.09.004.

[58] Deng, Li; Hinton, Geoffrey; Kingsbury, Brian (1. 5. 2013). „New types of deep neural network learning for speech recognition and related applications: An overview” — преко research.microsoft.com.

[59] Deng, L.; Li, J.; Huang, J. T.; Yao, K.; Yu, D.; Seide, F.; Seltzer, M.; Zweig, G.; He, X. (мај 2013). „Recent advances in deep learning for speech research at Microsoft”. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. стр. 8604—8608. ISBN 978-1-4799-0356-6. S2CID 13412186. doi:10.1109/icassp.2013.6639345.

[sak2014-60] Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). „Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling” (PDF). Архивирано из оригинала (PDF) 24. 04. 2018. г.

[liwu2015-61] Xiangang Li, Xihong Wu (2015). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition Li, Xiangang; Wu, Xihong (2014). „Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition”. arXiv:1410.4281 .

[zen2015-62] Zen, Heiga; Sak, Hasim (2015). „Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis” (PDF). Google.com. ICASSP. стр. 4470—4474.

[CNNspeech2013-63] Deng, L.; Abdel-Hamid, O.; Yu, D. (2013). „A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion” (PDF). Google.com. ICASSP.

[:2-64] Sainath, T. N.; Mohamed, A. r; Kingsbury, B.; Ramabhadran, B. (мај 2013). „Deep convolutional neural networks for LVCSR”. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. стр. 8614—8618. ISBN 978-1-4799-0356-6. S2CID 13816461. doi:10.1109/icassp.2013.6639347.

[lecun2016slides-65] Yann LeCun (2016). Slides on Deep Learning Online

[NIPS2009-66] а ^б ^в NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).

[patent2011-67] D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep neural networks," U.S. Patent Filing.

[ReferenceA-68] а ^б ^в Yu, D.; Deng, L. (2014). „Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)”. ISBN 978-1-4471-5779-3.

[69] „IEEE (2015)”. Архивирано из оригинала 02. 03. 2016. г. Приступљено 06. 02. 2018.

[Roles2010-70] Yu, D.; Deng, L. (2010). „Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition”. NIPS Workshop on Deep Learning and Unsupervised Feature Learning.

[71] Seide, F.; Li, G.; Yu, D. (2011). „Conversational speech transcription using context-dependent deep neural networks”. Interspeech.

[72] Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1. 5. 2013). „Recent Advances in Deep Learning for Speech Research at Microsoft”. Microsoft Research.

[73] „Nvidia CEO bets big on deep learning and VR”. Venture Beat. 5. 4. 2016.

[74] „From not working to neural networking”. The Economist.

[jung2004-75] а ^б Greška kod citiranja: Nevažeća oznaka <ref>; nema teksta za reference pod imenom jung2004.

[chellapilla2006-76] а ^б Chellapilla, K., Puri, S., and Simard, P. (2006). High performance convolutional neural networks for document processing. International Workshop on Frontiers in Handwriting Recognition.

[:3-77] Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21. 9. 2010). „Deep, Big, Simple Neural Nets for Handwritten Digit Recognition”. Neural Computation. 22 (12): 3207—3220. ISSN 0899-7667. doi:10.1162/neco_a_00052.

[78] Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (2009). „Large-scale Deep Unsupervised Learning Using Graphics Processors”. Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09. New York, NY, USA: ACM: 873—880. CiteSeerX 10.1.1.154.372 . ISBN 9781605585161. doi:10.1145/1553374.1553486.

[sze2017-79] Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). „Efficient Processing of Deep Neural Networks: A Tutorial and Survey”. arXiv:1703.09039 .

[MERCK2012-80] а ^б „Announcement of the winners of the Merck Molecular Activity Challenge”.

[:5-81] а ^б „Multi-task Neural Networks for QSAR Predictions | Data Science Association”. www.datascienceassn.org. Приступљено 14. 6. 2017.

[TOX21-82] а ^б "Toxicology in the 21st century Data Challenge] Oh, K.-S.; Jung, K. (2004). „GPU implementation of neural networks”. Pattern Recognition. 37 (6): 1311—1314. doi:10.1016/j.patcog.2004.01.013.

[TOX21Data-83] а ^б „NCATS Announces Tox21 Data Challenge Winners”.

[:11-84] а ^б „Archived copy”. Архивирано из оригинала 28. 2. 2015. г. Приступљено 5. 3. 2015.

[:6-85] Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L. M.; Schmidhuber, J. (2011). „Flexible, High Performance Convolutional Neural Networks for Image Classification” (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210.

[:8-86] Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q., ур. Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. стр. 2843—2851.

[ciresan2013miccai-87] Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). „Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks” (PDF). Proceedings MICCAI.

[88] „The Wolfram Language Image Identification Project”. www.imageidentify.com. Приступљено 22. 3. 2017.

[1411.4555-89] Vinyals et al. (2014)."Show and Tell: A Neural Image Caption Generator," Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). „Show and Tell: A Neural Image Caption Generator”. arXiv:1411.4555 .

[1411.4952-90] Fang et al. (2014)."From Captions to Visual Concepts and Back," Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C.; Lawrence Zitnick, C.; Zweig, Geoffrey (2014). „From Captions to Visual Concepts and Back”. arXiv:1411.4952 .

[1411.2539-91] Kiros et al. (2014). "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models," Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S. (2014). „Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models”. arXiv:1411.2539 .

[92] Zhong, Sheng-hua; Liu, Yan; Liu, Yang (2011). „Bilinear deep learning for image classification”. Proceedings of the 19th ACM international conference on Multimedia. MM '11. New York, NY, USA: ACM. стр. 343—352. ISBN 9781450306164. S2CID 11922007. doi:10.1145/2072298.2072344.

[93] Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (2016/01). „Mastering the game of Go with deep neural networks and tree search”. Nature (на језику: енглески). 529 (7587): 484—489. ISSN 1476-4687. doi:10.1038/nature16961. Проверите вредност парамет(а)ра за датум: |date= (помоћ)

[94] Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). „Deep neural networks for object detection”. Advances in Neural Information Processing Systems. 26.

[gers2001-95] а ^б Gers, Felix A.; Schmidhuber, Jürgen (2001). „LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages”. IEEE TNN. 12 (6): 1333—1340. PMID 18249962. S2CID 10192330. doi:10.1109/72.963769.

[vinyals2016-96] а ^б Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). „Exploring the Limits of Language Modeling”. arXiv:1602.02410 .

[gillick2015-97] а ^б Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). „Multilingual Language Processing From Bytes”. arXiv:1512.00103 .

[MIKO2010-98] Mikolov, T.; et al. (2010). „Recurrent neural network based language model” (PDF). Interspeech: 1045—1048. S2CID 17048224. doi:10.21437/Interspeech.2010-343.

[:10-99] „Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)”. ResearchGate. Pristupljeno 13. 6. 2017.

[LECUN86-100] LeCun, Y.; et al. (1998). „Gradient-based learning applied to document recognition”. Proceedings of the IEEE. 86 (11): 2278—2324. S2CID 14542261. doi:10.1109/5.726791.

[LDCTIMIT-101] TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia.

[CNN-2014-102] Abdel-Hamid, O.; et al. (2014). „Convolutional Neural Networks for Speech Recognition”. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533—1545. S2CID 206602362. doi:10.1109/taslp.2014.2339736.

[EnsembleDL-103] Deng, L.; Platt, J. (2014). „Ensemble Deep Learning for Speech Recognition” (PDF). Proc. Interspeech: 1915—1919. S2CID 15641618. doi:10.21437/Interspeech.2014-433. Архивирано из оригинала (PDF) 20. 10. 2017. г. Приступљено 16. 02. 2018.

[104] McMillan, Robert. „How Skype Used AI to Build Its Amazing New Language Translator | WIRED”. Wired. Приступљено 14. 6. 2017.

[Baidu-105] Hannun et al. (2014) "Deep Speech: Scaling up end-to-end speech recognition", Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y. (2014). „Deep Speech: Scaling up end-to-end speech recognition”. arXiv:1412.5567 .

[106] „Plenary presentation at ICASSP-2016” (PDF).

[YANNMNIST-107] „MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges”. yann.lecun.com.

[108] Smith, G. W.; Leymarie, Frederic Fol (10. 4. 2017). „The Machine as Artist: An Introduction”. Arts. Приступљено 4. 10. 2017.

[109] Blaise Agüera y Arcas (29. 9. 2017). „Art in the Age of Machine Intelligence”. Arts. Приступљено 4. 10. 2017.

[110] Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (март 2003). „A Neural Probabilistic Language Model”. J. Mach. Learn. Res. 3: 1137—1155. ISSN 1532-4435.

[NIPS2014-111] а ^б Sutskever, L.; Vinyals, O.; Le, Q. (2014). „Sequence to Sequence Learning with Neural Networks” (PDF). Proc. NIPS. arXiv:1409.3215 .

[GoldbergLevy2014-112] Goldberg, Yoav; Levy, Omar (2014). „word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method”. arXiv:1402.3722  [cs.CL].

[SocherManning2014-113] а ^б Socher, Richard; Manning, Christopher. „Deep Learning for NLP” (PDF). Приступљено 26. 10. 2014.

[114] Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). „Parsing With Compositional Vector Grammars” (PDF). Proceedings of the ACL 2013 Conference. Приступљено 1. 7. 2018.

[115] Socher, Richard (2013). „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). Emnlp 2013. Приступљено 1. 7. 2018.

[116] Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1. 11. 2014). „A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval”. Microsoft Research.

[117] Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1. 10. 2013). „Learning Deep Structured Semantic Models for Web Search using Clickthrough Data”. Microsoft Research.

[IEEE-TASL2015-118] Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D.; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). „Using recurrent neural networks for slot filling in spoken language understanding”. IEEE Transactions on Audio, Speech, and Language Processing. 23 (3): 530—539. S2CID 1317136. doi:10.1109/taslp.2014.2383614.

[auto-119] а ^б Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1. 6. 2014). „Learning Continuous Phrase Representations for Translation Modeling”. Microsoft Research.

[BROC2017-120] Brocardo ML, Traore I, Woungang I, Obaidat MS. " Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). „Authorship verification using deep belief network systems”. International Journal of Communication Systems. 30 (12): e3259. S2CID 40745740. doi:10.1002/dac.3259. . Authorship verification using deep belief network systems". Int J Commun Syst. 2017. Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). „Authorship verification using deep belief network systems”. International Journal of Communication Systems. 30 (12): e3259. S2CID 40745740. doi:10.1002/dac.3259.

[GT_Turovsky_2016-121] Turovsky, Barak (15. 11. 2016). „Found in translation: More accurate, fluent sentences in Google Translate”. The Keyword Google Blog. Google. Приступљено 23. 3. 2017.

[googleblog_GNMT_2016-122] а ^б ^в ^г Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22. 11. 2016). „Zero-Shot Translation with Google's Multilingual Neural Machine Translation System”. Google Research Blog. Google. Приступљено 23. 3. 2017.

[lstm1997-123] Hochreiter, Sepp; Schmidhuber, Jürgen (1997). „Long short-term memory”. Neural Computation. 9 (8): 1735—1780. PMID 9377276. S2CID 1915014. doi:10.1162/neco.1997.9.8.1735.

[lstm2000-124] Gers, Felix A.; Schmidhuber, Jürgen; Cummins, Fred (2000). „Learning to Forget: Continual Prediction with LSTM”. Neural Computation. 12 (10): 2451—2471. CiteSeerX 10.1.1.55.5709 . PMID 11032042. S2CID 11598600. doi:10.1162/089976600300015015.

[GoogleTranslate-125] Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (26 Sep 2016): Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Łukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Wu, Yonghui; et al. (2016). „Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”. arXiv:1609.08144 .

[WiredGoogleTranslate-126] "An Infusion of AI Makes Google Translate More Powerful Than Ever." Cade Metz, WIRED, Date of Publication: 09.27.16. https://www.wired.com/2016/09/google-claims-ai-breakthrough-machine-translation/

[Biotet-127] а ^б Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). „MT on and for the Web” (PDF). Архивирано из оригинала (PDF) 29. 03. 2017. г. Приступљено 1. 12. 2016.

[ARROWSMITH2013-128] Arrowsmith, J; Miller, P (2013). „Trial watch: Phase II and phase III attrition rates 2011-2012”. Nature Reviews Drug Discovery. 12 (8): 569. PMID 23903212. doi:10.1038/nrd4090.

[VERBIEST2015-129] Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). „Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project”. Drug Discovery Today. 20: 505—513. PMID 25582842. doi:10.1016/j.drudis.2014.12.014.

[130] Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9. 10. 2015). „AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery”. arXiv:1510.02855 .

[131] „Toronto startup has a faster way to discover effective medicines”. The Globe and Mail. Приступљено 9. 11. 2015.

[132] „Startup Harnesses Supercomputers to Seek Cures”. KQED Future of You. Приступљено 9. 11. 2015.

[133] „Toronto startup has a faster way to discover effective medicines”.

[134] Tkachenko, Yegor (8. 4. 2015). „Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space”.

[135] van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q., ур. Advances in Neural Information Processing Systems 26 (PDF). Curran Associates, Inc. стр. 2643—2651.

[136] Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1. 1. 2014). „Deep Autoencoder Neural Networks for Gene Ontology Annotation Predictions”. Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics - BCB '14. ACM: 533—540. doi:10.1145/2649387.2649442 — преко ACM Digital Library.

[137] Sathyanarayana, Aarti (1. 1. 2016). „Sleep Quality Prediction From Wearable Data Using Deep Learning”. JMIR mHealth and uHealth. 4 (4): e125. doi:10.2196/mhealth.6562.

[138] Movahedi, F.; Coyle, J. L.; Sejdić, E. (2017). „Deep belief networks for electroencephalography: A review of recent contributions and future outlooks”. IEEE Journal of Biomedical and Health Informatics. PP (99): 1—1. ISSN 2168-2194. doi:10.1109/JBHI.2017.2727218.

[139] Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13. 8. 2016). „Using recurrent neural network models for early detection of heart failure onset”. Journal of the American Medical Informatics Association: ocw112. ISSN 1067-5027. PMID 27521897. doi:10.1093/jamia/ocw112.

[140] IJSTR (PDF). 5 (04) http://www.ijstr.org/final-print/apr2016/Using-Deep-Learning-Neural-Networks-To-Find-Best-Performing-Audience-Segments.pdf. Nedostaje ili je prazan parametar |title= (pomoć)

[UTGOFF-141] Utgoff, P. E.; Stracuzzi, D. J. (2002). „Many-layered learning”. Neural Computation. 14: 2497—2529. doi:10.1162/08997660260293319.

[ELMAN-142] Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development. MIT Press. ISBN 978-0-262-55030-7.

[SHRAGER-143] Shrager, J.; Johnson, MH (1996). „Dynamic plasticity influences the emergence of function in a simple cortical array”. Neural Networks. 9 (7): 1119—1129. doi:10.1016/0893-6080(96)00033-0.

[QUARTZ-144] Quartz, SR; Sejnowski, TJ (1997). „The neural basis of cognitive development: A constructivist manifesto”. Behavioral and Brain Sciences. 20 (4): 537—556. CiteSeerX 10.1.1.41.7854 . doi:10.1017/s0140525x97001581.

[Knight_2017-145] Knight, Will (14. 3. 2017). „DARPA is funding projects that will try to open up AI’s black boxes”. MIT Technology Review. Pristupljeno 2. 11. 2017.

[146] Marcus, Gary (25. 11. 2012). „Is "Deep Learning" a Revolution in Artificial Intelligence?”. The New Yorker. Pristupljeno 14. 6. 2017.

[147] Smith, G. W. (27. 3. 2015). „Art and Artificial Intelligence”. ArtEnt. Arhivirano iz originala 25. 6. 2017. g. Pristupljeno 27. 3. 2015.

[148] Mellars, Paul (1. 2. 2005). „The Impossible Coincidence: A Single-Species Model for the Origins of Modern Human Behavior in Europe” (PDF). Evolutionary Anthropology: Issues, News, and Reviews. Pristupljeno 5. 4. 2017.

[149] Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (17. 6. 2015). „Inceptionism: Going Deeper into Neural Networks”. Google Research Blog. Pristupljeno 20. 6. 2015.

[150] Hern, Alex (18. 6. 2015). „Yes, androids do dream of electric sheep”. The Guardian. Pristupljeno 20. 6. 2015.

[goertzel-151] v Goertzel, Ben (2015). „Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms?” (PDF).

[152] Nguyen, Anh, Jason Yosinski, and Jeff Clune. "Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images." Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). „Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images”. arXiv:1412.1897 . (2014).

[153] Szegedy, Christian, et al. "Intriguing properties of neural networks." Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). „Intriguing properties of neural networks”. arXiv:1312.6199 . (2013).

[154] Zhu, S.C.; Mumford, D. (2006). „A stochastic grammar of images”. Found. Trends Comput. Graph. Vis. 2 (4): 259—362. doi:10.1561/0600000018.

[155] Miller, G. A., and N. Chomsky. "Pattern conception." Paper for Conference on pattern detection, University of Michigan. 1957.

[156] Eisner, Jason. „Deep Learning of Recursive Structure: Grammar Induction”. Arhivirano iz originala 30. 12. 2017. g. Pristupljeno 17. 02. 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]