Korisnik:VidoMladenovic/pesak

Duboko učenje (takođe poznat kao duboko strukturisano učenje, hijerarhijsko učenje ili duboko mašinsko učenje)- odeljak mašinskog učenja na osnovu skupa algoritama koji pokušavaju da obrade podatke apstrakcije na visokom nivou korišćenjem slojevitih naslaga, sa složenim strukturama ili na drugi način, sastavljenim od više ne-linearnih prenoslikavanja.^[1]^[2]^[3]^[4]^[5]^[6]^[7]^[8]

Duboko učenje je deo široke porodice metoda mašinskog učenja zasnovanog na učenju prema datim podacima. Zapažanje (npr. slike) može biti predstavljeno na mnogo načina kao što je vektor vrednosti intenziteta po pikselu, ili na više apstraktan način kao skup ivica, oblasti određenog oblika. Neka prestavljanja su bolja od drugih u pojednostavljivanju zadataka (npr. prepoznavanje lica ili izraza lica^[9])iz primera. Jedno od obećanja dubokog učenja je zamena ručnih funkcija sa efikasnim algoritmima za učenje sa ili bez nadzora i hijerarhijsko poreklo osobina^[10]

Istraživanja u ovoj oblasti pokušavaju da naprave bolja prikazivanja podataka i da naprave model koji će obuhvatiti sva istraživanja napretkom u neuronauci i ona su slabo zasnovana na tumačenju procesnih informacija i komunikacijskih obrazaca u nervnom sistemu, kao što je neuronsko kodiranje koje pokušava da odredi vezu između različitih stimulusa i povezanih neuronskih odgovora u mozgu..^[11]

Različite arhitekture dubokog učenja kao što su duboke neuronske mreže, mreže dubokog uverenja i povratne neuronske mreže su primenjene u oblastima kao što su računarska vizija, automatsko prepoznavanje govora, obrada prirodnog jezika, prepoznavanje glasa i bioinformatike gde su prikazani proizvodi rezultata state-of-the-art na različitim zadacima.

Duboko učenje je označeno kao krilatica ili redefinisanje neuronskih mreža.^[12]^[13]

Uvod[uredi | uredi izvor]

Definicije[uredi | uredi izvor]

Postoje više načina koji određuju polje dubokog uččenja. Na primer, u 1986. godini, Rina Dekster je predstavila koncept prvog i drugog reda dubokog učenja u smislu prinudnog zadovoljstva.^[14] Kasnije, duboko učenje je bilo određeno kao vrsta mašinskog učenja algoritama.^[1]

Koristiti niz (cascade) slojevitih nelinearnih jedinica za osobine izdvajanja i promenna. Svaki sledeći sloj koristi izlaz iz prethodnog sloja kao ulaz. Algoritmi mogu biti pod nadzorom ili bez nadzora i aplikacije sadrže analizu uzorka (bez nadzora) i klasifikaciju (nadzirane).
Zasnivaju se na (bez nadzora) učenje više nivoa osobina ili predstavljanje podataka. Viši nivoi osobina su izvedeni iz nižih kako bi obrazovali hijerarhijsko predstavljanje
Su deo šireg polja (oblasti) mašinskog učenja predstavljanja podataka.
Naučiti više nivoe predstavljanja koji odgovaraju različitim nivoima apstrakcije; nivoi obrazuju hijerarhiju pojmova.

Ove definicije imaju zajedničko (1) višeslojne obrađene jedinice i (2) učenje osobina predstavljene u svakom sloju-nadgledane ili bez nadzora, koje sa slojevima obrazuju hijerarhiju sa niskog do visokog nivoa osobina.^[1] Sastav sloja nelinearnih procesnih jedinica korišćenih u algoritmu dubokog učenja zavisi od problema koji mora biti rešen. Slojevi koji su korišćeni u dubokom učenju uključuju skrivene slojeve veštačke nervne mreže i kompleta komplikovanih propozicijskih formula.^[2] Ona takođe mogu da sadrže sakrivene promenljive slojeve u dubokim generativnim modelima kao što su čvorovi u Mreži dubokog verovanja i Dubokim Boltmazovim mašinama.

Duboki algoritmi za učenje menjaju njihovo dovođenje kroz više slojeva nego plitki algoritmi učenja. Na svakom sloju, signal se prenosi pomoću procesne (razvojne) jedinice, kao veštački neuron, čiji parametri su „naučeni“ kroz obuku.^[4] Lanac prenosa od ulaza do izlaza je put kreditnog zadatka (SAR). SAR opisuje potencijalno uzročno-posledične veze između ulaza i izlaza i mogu biti različite u dužini. Za naprednu neuronsku mrežu, dubina SAR i takođe dubina mreže je broj skrivenih slojeva plus jedan (izlazni sloj je takođe parametarizovan). Za povratnu nervnu mrežu, u kojoj se signal može pojaviti kroz sloj više nego jednom, SAR je potencijalno neograničen u dužini. Ne postoji univerzalno dogovoreni prag dubine između podeljenog plitkog i dubokog učenja, ali većina istraživanja u ovoj oblasti slaže se da duboko učenje ima više nelinearnih slojeva (SAR>2) i Šmidhuber smatra SAR>10 veoma dubokim učenjem.^[4]

Osnovni pojmovi[uredi | uredi izvor]

Duboki algoritmi za učenje su zasnovani na ravnomernom predstavljanju. Osnovna pretpostavka iza ravnomernih predstavljanja je da su posmatrani podaci dobijeni (nastali) od interakcije faktora koji se nalaze u slojevima.^[3]

Duboko učenje koristi ovu ideju hijerarhijskog objašnjenja faktora gde viši nivo sa više apstraktnih pojmova uči od onih na nižem nivou. Ove strukture su često nastale sa pohlepnom metodom sloj-po-sloj. Duboko učenje pomaže da se razdvoje ove apstrakcije i da se odabere koje osobine su korisne za učenje.^[3]

Za nadgledane zadatke učenja, metode dubokog učenja izbegavaju osobine inženjeringa, prevođenjem podataka u zbijeno srednje predstavljanje slično glavnim komponentama, i izvodi slojevite strukture koje uklanjaju višak snage u predstavljanju.^[1]

Mnogi algoritmi dubokog učenja se primenjuju na učenje zadatka bez nadzora. Ovo je važno jer neobeleženi podaci su obično brojniji od obeleženih. Primeri dubokih struktura koji mogu biti korišćeni u rad bez nadzora su istorija nervnog kompresora^[15] i duboko uverenje mreža.^[3]^[16]

Tumačenja[uredi | uredi izvor]

Duboke neuronske mreže se uopšteno koriste u terminima: Teorema univerzalne aprosksimacije^[17]^[18]^[19]^[20]^[21] ili Probabilistički zaključak.^[1]^[2]^[3]^[4]^[16]^[22]

Tumačenje teoreme univerzalne aproksimacije[uredi | uredi izvor]

Teorema univerzalne aprosksimacije obuhvata sposobnost napredne mreže neurona sa jednim skrivenim slojem konačne veličine do približnih neprekidnih funkcija.^[17]^[18]^[19]^[20]^[21]

Prvi dokaz objavio je 1989.god. Džordž Kjubenko za sigmoidne funkcije aktivacije^[18] a 1991.god. Kurt Hornik je to uopštio za napredne višeslojne arhitekture^[19]

Probalističko tumačenje[uredi | uredi izvor]

U probalističko tumačenje^[22] proizilazi iz oblasti mašinskog učenja. Osobine su izvedene^[1]^[2]^[3]^[4]^[16]^[22] , isto kao i optimizacija konceptne obuke i testiranja, povezanih respektivno sa podešavanjima i generalizacijom. Tačnije, probabilističko tumačenje podrazumeva ne-linearnu aktivnost kao funkciju kumulativne raspodele.^[22] Vidi mrežu dubokog uverenja.Probabilističko tumačenje vodi do uvođenja ispada kao uređivača neuronske mreže.^[23]

Giof Hinton, Jošua Bengio, Jan LeCun i Jurgen Šmidhuber su uveli i predstavili pojam probabilističkog tumačenja.

Istorija[uredi | uredi izvor]

Ukrajinski matematičari Ivanenko i Lap prvi su objavili uopšten rad učenja algoritma za nadgledanje napredne višeslojne (perceptrons).^[24] Rad iz 1971.god. je već opisao duboku mrežu sa 8 slojeva obučenih po modulu grupe za obradu podataka algoritama koja je i dalje popularna.^[25] Ove ideje su izvršene u sistemu računarske identifikacije „Alfa“, koji je pokazao proces učenja. Drugi procesi dubokog učenja, posebno oni izgrađeni iz veštačke neuronske mreže (ANN) potiču iz "Neokongrinton" koji je uveo Kunikiho Fukušima 1980.godine.^[26] Samo ANN datira još dalje. Izazov je bio kako ga pripremiti za mreže sa više slojeva. Jan LeCun i drugi 1989. su bili u mogućnosti da primene standardni bekpropagejšn algoritam, koji se primenjivao kao suprotan model automatske diferencijecije od 1970,^[27]^[28]^[29]^[30] do duboke neuronske mreže sa ciljem prepoznavanja šifre pisane rukom na mejl. Pored uspeha primene algoritma, vreme pripreme mreže sa ovim podacima bilo je otprilike 3 dana, čineći ga nepraktičnim za opštu upotrebu.^[31] Jurgen Šmidhuberova istorija neuronskog kompresora^[15] implementirala je gomilu tekućih mreža neurona (RNN), rešen zadatak "Veoma dubokog učenja"^[4]koji zahteva više od 1000 slojeva u jednom RNN.^[32] Bernard Frej je 1995. god. pokazao da je moguće trenirati mrežu koja sadrži šest potpuno povezanih slojeva i nekoliko stotina skrivenih jedinica koristeći algoritam za buđenje koji je razvio zajedno sa Peter Daiana i Džefri Hinton.^[33] Međutim, obuka je trajala dva dana.

Sep Hohrajter je 1991.god. analizirao problem nestajanja gradijenta. ^[34]^[35]

Do 1991.god takve neuronske mreže su korišćene za prepoznavanje izolovanih 2-D ručno pisanih brojeva, prepoznavanje 3-D predmeta je rađeno podudaranjem 2-D slika sa ručno-rađenim 3-D modelom. Jujang Veng i ostali su predložili da ljudski mozak ne koristi monolitički 3-D model i 1992. oni su objavili Kresceptron,^[36]^[37]^[38] metodu za izvođenje 3-D prepoznavanja predmeta direktno iz prenatrpanih scena. Kresceptron je kaskada slojeva slična Neokongrinton. Ali dok Neokongrinton zahteva čoveka za ručno spajanje osobina, Kresceptron automatski uči otvoreni broj osobina bez nadzora u svakom sloju, gde je svaka osobina predstavljena od strane sazivnog jezgra. Kresceptron takođe deli svaki objekat iz prenatrpanih scena kroz povratne-analize kroz mrežu.Max pooling, sada često prihvaćen od dubokih neuronskih mreža (na pr. testovi slika), je prvi put korišćen u Kresceptron-u da smanji rezoluciju faktorom(2h2) na 1 kroz kaskade do bolje generalizacije. Pored ovih prednosti, jednostavniji modeli koji koriste specifičan broj ručnih funkcija kao što su Gabor filteri i podržavajuće vektorske mašine (SVM) bili su dobar izbor 1990.-tih i 2000.-tih zbog računarskih troškova ANN-a u to vreme i veliki nedostatak razumevanja kako mozak samostalno plete svoje biološke mreže.

U dugoj istoriji prepoznavanja glasa, i plitko i duboko učenje veštačke neuronske mreže istraživano je dugi niz godina.^[39]^[40]^[41] Ali ove metode nikada nisu bile bolje od non-uniform internal-handcrafting Gaussian mixture model/Hidden Markov model (GMM-HMM)- tehnologija zasnovana na generativnim modelima govora diskriminativno.^[42] Jedan broj ključnih problema bio je metodološki analiziran, uključujući smanjenje nagiba^[34] i slabe vremenske strukture korelacije u predviđenim modelima neurona.^[43]^[44] Dodatne poteškoće bile su nedostatak podataka i slaba snaga računara u tim ranim danima. Većina istraživača koji su razumeli takve prepreke udaljili su se od neuronskih mreža da nastave generativno modeliranje. Izuzetak je bio SRI International kasnih 90-tih. Finansiran od strane vlade SAD NSA i DARPA, SRI je sproveo istraživanje na dubokim neuronskim mrežama u govoru i prepoznavanju govornika. Tim za prepoznavanje govornika, na čelu sa Lari Hek-om, postigao je prvi značajan uspeh sa dubokim mrežama neurona u obradi govora kao što je prikazano u 1998. godini NIST (Nacionalni institut za standarde i tehnologiju) a kasnije je objavljen u časopisu "Govorne komunikacije".^[45] Dok SRI razvija uspeh sa dubokim mrežama naurona u prepoznavanju govornika, bili su neuspešni u predstavljanju sličnog uspeha u prepoznavanju govora. Hinton i Deng su pregledali deo ove novije istorije o njihovoj međusobnoj saradnji, a onda sa kolegama kroz 4 grupe(University of Toronto, Microsoft, Google, i IBM) izazvali renesansu duboke proaktivne mreže neurona u prepoznavanju govora.^[46]^[47]^[48]^[49]

Danas, međutim, mnogi aspekti prepoznavanja govora su preuzeti od metode dubokog učenja zvane Dugo kratkrotajno pamćenje (LSTM), a povratne neuronske mreže objavili su Sep Hohrajter i Jurgen Šmidhuber u 1997.godini.^[50] LSTM RNN izbegava problem nestajanja gradijenta i možemo da ga naučimo zadatke "Veoma Dubokog učenja"^[4] , koji zahtevaju pamćenje događaja koji su se dogodili pre hiljada intervala, što je važno za govor. LSTM je 2003.godine postao konkurentan sa tradicionalnim prepoznavanjem glasa na određenim zadacima.^[51] Kasnije je kombinovan sa STS^[52] na steku sa LSTM RNN.^[53] Google prepoznavanje govora je doživelo dramatičan rast u 2015.godini od 49% kroz STS obučen LSTM koji je sada dostupan preko Google Voice ka svim korisnicima pametnih telefona.^[54] .

Prema istraživanju,^[8] izraz "dubinsko učenje" predstavlja zajednicu mašinskog učenja Rine Dekster iz 1986. godine^[14] i kasnije od Veštačke mreže neurona Igora Aizanberga i kolega u 2000.godini.^[55] Google Ngram - dijagram pokazuje da je korišćenje termina u upotrebi od 2000.godine.^[56] Publikacija Žofri Hinton i Ruslan S. privukla je dodatnu pažnju pokazujući koliko slojeva proaktivne-napredne mreže treba da budu efektivne pre obrade jednog sloja, istovremeno, tretirajući svaki sloj povremeno kao bez nadzora ograničena Boltzmann mašina, a onda fino podešavanje korišćenjem (nadgledanja suzbijanja širenja)^[57] Šmidhuber je 1992. godine već implementirao veoma sličnu ideju za nenadgledanu duboku hijerarhiju povratne neuronske mreže i takođe eksperimentalno pokazao njegove prednosti za ubrzavanje učenja(nadgledanog).^[15]^[58]

OOd ovog oživljavanja, duboko učenje je postalo deo mnogih state-of-the-art sistema u različitim disciplinama, naročito računarske vizije i automatsko prepoznavanje govora (ASR). Rezultati se obično koriste za ocenjivanje skupova kao što su TIMIT (ASR) i MNIST(obrađivanje slika), kao i širok opseg prepoznavanja reči i govora koji stalno napreduju sa novim aplikacijama dubokog učenja.^[46]^[59]^[60] nNedavno je pokazano da je arhitektura dubokog učenja u obliku CNN^[61]^[62] U svakom slučaju one se više koriste u računarskoj viziji nego u ASR, a moderna velika skala prepoznavanja govora se tipično odnosi na STS^[52] za LSTM.^[50]^[54]^[63]^[64]^[65]

Stvarni uticaj dubokog učenja u industriji počeo je ranih 2000tih. godina kada je CNN već počela da procenjuje 10% do 20% svih provera napisani u SAD ranih 2000tih. prema Jan Le Cun.^[66] Prepoznavanje govora u industriji počelo je oko 2010. godine. Krajem 2009. godine Li Deng je pozvao Žofrija Hintona da radi sa njim i kolegama u Microsoft Research i da primene duboko učenje za prepoznavanje govora. Oni su zajedno organizovali NIPS 2009.godine radionicu dubokog učenja za prepoznavanje govora. Radionica je bila motivisana ograničenim dubokim generativnim modelima govora i mogućnostima da su veliki računar kao i podaci zahtevali ozbiljnu neuronsku mrežu(DNN). Verovalo se da (DNN) koristi generativne modele mreže dubokog verovanja (DVN) i da bi mogli da prevazođu glavne poteškoće neuronske mreže sa kojima su se suočavali 1990tih. godina.^[48] U svakom slučaju, rano u ovom istraživanju u Microsoft, otkriveno je da bez obuke unapred, ali korivstivši veliku količinu podataka za obuku, a naročito (DNN), stvoren sa odgovarajućim velikim izlaznim slojevima, stvara grške znatno niže nego tada state-of-the-art GMM-HMM i takođe od naprednog generativnog zasnovanog modela sistema za prepoznavanje glasova. Ovo otrkiće je bilo potvrđeno od strane nekoliko grupa za prepoznavanje glasova.^[46]^[67] Dakle, sistem prepoznavanja grešaka stvoren od dva tipa sistema, bio je znatno drugačiji,^[47]^[68] nudeći tehnički uvid u to kako integrisati duboko učenje u već postojeći efikasan sistem brzog određivanja glasa, koji su razvili glavni igrači u industriji prepoznavanja glasova. Istorija ovog značajnog razvoja u dubokom učenju je opisana i analizirana u nekoliko knjiga i članaka.^[1]^[69]^[70]

Razvoj hardvera je takođe bio važan u onogućavanju obnavljanja interesovanja za duboko učenje. Posebno, moćne grafičke procesorske jedinice(CPU) su dobro prilagođene za obrade brojeva, matrica/vektora- matematike uključenih u mašinsko učenje.^[71]^[72] GPU su pokazali da treba ubrzati algoritme u smislu veličine i tako skratiti vreme za rad.(smanjiti od nedelje do nekoliko dana).^[73]^[74]

Veštačke neuronske mreže[uredi | uredi izvor]

Neke od najuspešnijih metoda dubokog učenja uključuju veštačke mreže neurona. Veštačke neuronske mreže su inspirisane biološkim modelom koji su predložili Nobelovi lauerati David H. Hubel i Torsten Vizel 1959. godne koje je pronašao dve vrste ćelija u osnovnom vizuelnom kontektu: jednostavne i složene ćelije. Mnoge veštačke neuronske mreže mogu biti posmatrane kao kaskadni modeli^[36]^[37]^[38]^[75] vrsta ćelija inspirisane ovim biološkim posmatranjem.

Fukušimin Neokongrington uveo je skup mreže neurona delimično obučenih za rad bez ljudskog nadzora u neuro-ravni. Jan Le Cun i drugi 1989. godine primenjuju suzbijanje širenja na takve arhitekture.^[76] Veng i drugi su 1992 objavili Kresceptron skup* neuronske mreže^[36]^[37]^[38] za 3-D predmete na slikama sa prenatrpanim scenama i izdvajanje takvih predmeta sa slika.

Očigledna potreba za prepoznavanje opštih 3-D predmeta je najmanje pomeranje nepromenljivosti i tolerancije do deformacije. Max-pooling je prvi predložio Kresceptronu^[36]^[37] da omogući mreži da toleriše od malih do velikih deformacija na hijerarhijski način, uz korišćenje skupa*. Max-pooling pomaže, ali ne garantuje pomeranje nepromenljivosti na nivou piksela.^[38]

Sa pojavom bekpropagejšn algoritma zasnovanog na automatskoj diferencijaciji,^[27]^[29]^[30]^[77]^[78]^[79]^[80]^[81]^[82]^[83] mnogi istraživači pokušavali su da obuče pod nadzorom duboku veštačku neuronsku mrežu od starta, u početku sa malo uspeha. Diplomski rad Sep Hohrajter iz 1991. godine formalno je pronašao razlog za ovaj neuspeh kao problem nedostatka pregiba, koji utiče na mnoge slojevite napredne mreže i periodične neuronske mreže. Periodične neuronske mreže su obučene tako da se odvijaju u veoma dubokim napredne mrežama, gde novi sloj nastaje za svaki vremenski interval od ulazne sekvence procesuirane u mreži. Greške nastaju od sloja do sloja, smanjuju se sa brojem slojeva i ometaju podešavanje težine neurona koja se zasniva na ovim greškama.

Nekoliko metoda je predloženo kako bi se prevazišao ovaj problem. Jedan je Jurgen Šmidhuber višeslojna hijerarhija mreža(1992) koja prethodno trenira jedan nivo u roku bez nadzornog učenja, fino podešavanje po bekpropagejšn algoritmu.^[15] Ovde svaki nivo uči kompresovano predstavljanje zapažanja koje se unosi u sledeći nivo.

Druga metoda je mreža duge-kratke memorije (LSTM) Hohrajter i Šmidhuber (1997).^[50] Duboke multidimenzionalne (LSTM) mreže osvojile su 2009. godine tri ICDAR takmičenja koja su povezana sa prepoznavanjem rukopisa, bez ikakvog prethodnog znanja o tri jezika.^[84]^[85]

Sven Benke se 2003.godine oslanjao samo na znak gradijenta koji je uočavao svoj Neural Abstraction Pyramid^[86] , da reši probleme kao što su rekonstrukcije slike i lokalizacija lica.

Druge metode takođe koriste bez nadzora pre-trening na strukturu neuronske mreže, čineći tako korisnim detektore funkcija. Onda je mreža dodatno obučena za nadzor bekpropagejšn za određivanje obeleženih podataka. Hintonov duboki model neuronske mreže(2006) uključuje učenje raspodele zastupljenosti na visokom nivou koristeći uzastopne slojeve binarnih ili stvarnih vrednosti latentnih varijabli. On koristi ograničeno Boltcmanove mašine^[87] za model za svaki novi sloj viših funkcija nivoa. Svaki novi sloj garantuje povećanje na niži log likelihood podataka, čime se poboljšava model, ako je ispravno obučen. Kada su slojevi jednom dovoljno naučeni, duboka arhitektura može se koristiti kao generativni model za reprodukovanje podataka kada se probaju probni podaci sa vrha aktivacije.^[88] Hintonovi modeli su efektivni preko visoko-dimenzionih, strukturnih podataka.^[89]

The Google Brain time vođen od Endrju Neg i Džef Din stvorili su mrežu neurona koja je nučila da prepoznaje koncepte na visokom nivou, kao što su mačke samo od slika preuzetih sa YouTube. ^[90]^[91]

Ostale metode se oslanjaju na potpune procesorne snage modernih računara, naročito GPU. Dan Kirešan i kolege^[73] u grupi Jurgen Šmidhuber u Swiss AI Lab IDISIA, pokazali su da uprkos gore pomenutom "nastaje problem gradijenata", pretpostavljena snaga GPU čini plan back-propagation izvodljivim za duboku naprednu neuronsku mrežu sa mnogo slojeva. Ovaj metod je nadmašio sve otale tehnike mašinskog učenja, poznati MNIST problem ručnog pisanja cifara Jan Le Cun i kolega.

Otprilike u isto vreme, krajem 2009, mreža dubokog učenja napreduje u prepoznavanju govora, u okviru NIPS radionice Dubokog učenja i prepoznavanja govora. Stalni zajednički rad istraživača, između Majkrsofta i Univerziteta u Torontu, pokazali su do sredine 2010.godine, u Redmond, da duboke neuronske mreže povezane sa skrivenim Markovim modelom zavise od konteksta države*, koje određuje neuronsku mrežu izlaznog sloja, mogu drastično da smanje greške u prepoznavanju govora bogatog rečnika kao što je glasovna poruka. Isti duboki model mreže neurona je bio pokazan na sakali Switchboard, godinu dana kasnije u Microsoft Research Asia. Čak i ranije, 2007.gododine LSTM^[50] obučeni za STS^[52] počeli su da dobijaju odlične rezultate u određenim aplikacijama.^[53] Ovaj metod se sada široko koristi, na primer u Google, na visoko naprednom prepoznavanju govora za sve korisnike pametnih telefona.^[54]

Od 2011.godine u mreži dubokog učenja uvijenih slojeva i max-pooling slojeva,^[92]^[93] prekriveni su potpuno povezanim ili delimično povezanim slojem praćeni završnim slojem klasifikacije. Obuka se obično obavljala bez ikakvog nadzora pre-obuke. Do 2011.god. GPU-osnovne implementacije ^[92] ovog pristupa, osvojio je mnoga takmičenja uključujući IJCNN 2011, takmičenje prepoznavanja saobraćajnih znakova,^[94] ISBI 2012 Segmentiranje strukture neurona,^[95] takmičenje Competition,^[96] i druga.

Ovakve metode nadgledanog dubokog učenja takođe su bile prvi veštački primer prepoznavanja određenih zadataka.^[97]

Kako bi se prevazišle preprke slabe AI predstavljene dubokim učenjem, neophodno je zći iza arhitekture dubokog učenja, jer biološki mozak koristi i plitko i duboko kruženje i predstavlja široki sprektar nepromenljivosti. ANN su bili u mogućnosti da rade sa malim prirodnim predmetima u velikim prenatrpanim scenama samo kada se nepromenljivost javlja iza stalnosti, ka svim ANN-naučenim konceptima, kao što su položaj, vrsta, skala, svetlo.^[98] ^[99] ^[100]^[101] ^[102]

Arhitektura dubokih neuronskih mreža[uredi | uredi izvor]

Postoji veliki broj drugih oblika duboke arhitekture. Mnogi od njih su ogranak neke arhitekture. Nije uvek moguće porediti ih sve zajedno, jer nisu ocenjene sa istim podacima. Oblast dubokog učenja brzo raste, i nove arhitekture drugih oblika ili algoritama pojavljuju se svakih nekoliko nedelja.

Kratko o mreži dubokih neurona[uredi | uredi izvor]

Mreža dubokih neurona (DNN) je veštačka neuronska mreža (ANN) sa više skrivenih slojevnih jedinica između ulaznih i izlaznih slojeva.^[2]^[4] Slično sa plitkim (ANN), (DNN) može imati složenu ne-lineranu vezu. (DNN) arhitektura, na pr. za otkrivanje predmeta i raščlanjivanje čine kompozicioni model gde je izražen objekat kao naslagana celina ranijih slika.^[103] Dodatni slojevi omogućavaju osobine kompozicije od nižih slojeva do viših, dodajući nekoliko složenih jedinica od sličnih koji su izvedeni u plitkoj mreži.^[2]

DNN su tipično stvorene kao feedforvard mreže, ali istraživanje je veoma uspešno primenilo periodične mreže neurona, naročito LSTM,^[50]^[104] za aplikacije kao što je jezičko modeliranje.^[105]^[106]^[107]^[108]^[109] Uvijene duboke neuronske mreže (CNN) se koriste kod računarskih vizija gde je njihov uspeh dokumentovan.^[110] CNN je takođe pokazao veliki uspeh u odnosu na prethodne modele kod automatskog prepoznavavanja glasova (ASR). Kako bi pojednostavili, prikaz obuke DNN je dat ovde.^[62]

Metod obrnuto širenje greške[uredi | uredi izvor]

DNN može biti neograničeno trenirana sa standardnim algoritmima propagejšn. Prema različitim izvorima,^[4]^[8]^[83]^[111]osnova trajne propagejšn je bila izvedena iz konteksta teorije kontrole Henry J. Kelley^[78] 1960.godine i Arthur E. Bryson 1961.godine^[79]^[112] koristeći osnove dinamičkog programiranja. 1962, Stjuart Drejfus objavio je jednostavno poreklo zasnovano samo na pravilu lanca.^[80] Artur E. Brajson i Ju-či Ho opisali su to kao viši stepen dinamičnog sistema metode optimizacije 1969.godine.^[113]^[114]1970, Sep Linaiman je konačno objavio opštu metodu za automatsku diferencijaciju (AD) posebno povezane mreže uvijenih diferencijabilnih funkcija.^[27] ^[115]Ovo odgovara modernoj verziji propagejšn koja je stvarna čak i kada su mreže retke.^[4]^[8]^[28]^[77] Stjuart Drejfus 1973.god. je koristio propagejšn da prilagodi parametre upravljanja u odnoasu na greške gradijenta..^[81] Pol Verbos je 1974.godine spomenuo mogućnost primene ovog načela na ANN,^[116] i 1982.godine on je primenio Linaiman AD metod na mreže neurona na način koji i danas ima široku upotrebu 1986, David E. Rumelhart, Žofri E. Hinton and Ronald J. Vilijams su pokazali kroz računarske eksperimene da ovaj metod može generisati korisne interne reprezentacije ulaznih podataka u skrivenim slojevima neuronske mreže.^[82] Erik A. Van je bio prvi^[4] koji je 1993. godine osvojio međunarodno priznanje na takmičenju prepoznavanja u okviru propagejšn.^[112]^[117]

Težina podataka propagejšn može biti urađena pomoću stochastic gradijenta spuštanja korišćenjem sledeće jednakosti:

w_{ij}(t+1)=w_{ij}(t)+\eta {\frac {\partial C}{\partial w_{ij}}}

Ovde, $\eta$ je stepen učenja, $C$ je vrednost. Izbor funkcije cena zavisi od faktora kao što su vrsta učenja(nadgledano, nenadgledano, pojačano...) i funkcije aktivacije. Na primer kada se izvodi nadlgedano učenje na problemu klasifikacije, zajednički izbori za funkcije aktivacije i učenja su: softmaks funkcije i cross entropy funkcije. Funkcije softmaks se određuje pomoću $p_{j}={\frac {\exp(x_{j})}{\sum _{k}\exp(x_{k})}}$ , gde $p_{j}$ predstavlja verovatnoću klase(izlaz jedinice $j$ ) a $x_{j}$ i $x_{k}$ predstavljaju potpuni ulaz do jedinica $j$ i $k$ istog nivoa. Kros entropi se određuje kao $C=-\sum _{j}d_{j}\log(p_{j})$ , gde $d_{j}$ predstavlja ciljanu verovatnoću za izlaznu jedinicu $j$ a $p_{j}$ je verovatnoća izlaza za $j$ posle primene funkcije aktivacije.^[118]

Ovo se može koristiti za izlazne objekte granične kutije u obliku maske. Oni se takođe koriste za multi-scale regresiju da povećaju preciznost lokalizacije. DNN može da nauči osobine za hvatanje geometrijskih informacije, pored toga što je dobar klasifikator. Oni pomeraju i njihove veze. Ovo nam pomaže da naučimo široku raznolikost predmeta. Model se sastoji od više slojeva, svaki od njih ima očišćenu linearnu jedinicu za ne linearnu transformaciju. Neki slojevi su uvijeni dok su ostali potpuno povezani. Svaki uvijeni sloj ima dodatni max pooling. Mreža je obučena da minimizira L2 grešku za predviđanje rangiranja maske preko celog trenutka sadržeći bounding boxes predstavljanje kao maske.

Problemi sa dubokim neuronskim mrežama[uredi | uredi izvor]

Kao i sa ANN mnoga pitanja se mogu pojaviti sa DNN ako su neiskusno tretirani. Dva zajednička pitanja su treniranje i računanje vremena.

DNN su skloni treniranju zbog dodatnih slojeva abstrakcije koji im dozvoljavaju model koji je manje zavistan u odluci. Metodi regulacije kao što je Ivanenkov^[25] ili poremećena težina ( $\ell _{2}$ regularizacija) ili raštrkanost( $\ell _{1}$ -regularizacija), mogu biti dodati tokom obuke kako bi pomogli pre-obuci.^[119]

Skorija metoda regularizacije dodata na DNN je regularizacija ispadanja. U ispadanju, neki broj jedinica su slučajno izostavljene iz skrivenih slojeva tokom trening. Ovo pomaže da se probije retka zavisnost koja se može pojaviti u treningu podataka. Dominantni metod za treniranje ovih struktura je trening ispravljanja grešaka tokom kojih se javlja implementacija i namera da se približe boljoj lokalnoj optimizaciji od drugih metoda. Ove metode mogu biti skupe, naročito za DNN. Ima mnogo parametara koji mogu biti razmatrani sa DNN, kao što su veličina(broj slojeva i broj jedinica po sloju), stopa učenja i početna težina. Čišćenje kroz prostor parametara za optimalne parametre možda neće biti moguće i odnosu na cenu i izvore. Razni trikovi kao što su korišćenje mini-batching(izračunavanje nagiba na nekoliko primera treninga i jednom ređe nego individualni primeri)^[120] pokazali su brzinu u prebrojavanju. Veliki propusna moć kroz GPU proizvela je značajnu brzinu u treningu, zbog izračunavanja matrice i vektora koji su potrebni je pogodna za GPU.^[4] ,^[121] ^[122] ^[123] ^[124]

Prva mreža dubokog učenja iz 1965: GMDH[uredi | uredi izvor]

Prema istorijskim istraživanjima,^[4] prva funkcionalna mreža dubokog učenja sa mnogo slojeva, objavljena je od Ivanenka i V. G. Lape, 1965. godine.^[24]^[125] Algoritam za učenje zvao se Grupni metod čuvanja podataka ili GDMH.^[126] GDMH opisuje potpuno automatsko struktuiranje i parametarsku optimizaciju modela. Funkcije aktiviranje mrežnih čvorova su Kolmogorov-Gabor polinoma koji dozvoljavaju dopune i množenja. Ivanenkov rad^[25] opisuje učenje duboke feedforvard višeslojne percepcije sa 8 slojeva, već mnogo dublje nego mnoge kasnije mreže. Mreža nadgledanog učenja raste sloj po sloj, gde je svaki sloj treniran analizom regresija. S vremena na vreme beskorisni neuroni su pogođeni setom za validaciju, i smanjeni su kroz regularizaciju. Veličina i dubina rezultata mreže zavise od problema. Varijacije ove metode se i dalje koriste.^[127]

Uvijene neuronske mreže[uredi | uredi izvor]

CNN je postao metoda izbora za procesiranje vizuelnog i druga dva dimenzionalna podatka.^[31]^[66] SNN je sastavljena od jednog ili više uvijenih slojeva sa potpuno povezanim slojevima na vrhu. Naročito max-pooling^[37] se često koristio u Fukušima uvijenoj arhitekturi.^[26] Ova arhitektura dozvoljava CNN da uzme prednosti 2D strukture ulaznih podataka. U poređenju sa ostalim dubokim arhitekturama, uvijene neuronske mreže pokazale su bolje rezultate u prepoznavanju slika kao i u aplikaciji prepoznavanja govora. SNN su lakše za obuku od ostalih redovnih, dubokih, naprednih neuronskih mreža i imaju manje parametara da procesuiraju, čineći ih pogodnim za upotrebu.^[128].^[129]

Istorija neuronskog kompresora[uredi | uredi izvor]

Problem nastajanja gradijenta automatske diferencijacije u neuronskim mrežama je delimično savladan 1992.godine pomoću ranog generativnog modela zvanog Kompresor istorije neurona, implementiranog kao nenadgledane gomile povratne neuronske mreže (RNN). RNN na dovodnom nivou uči da predvidi njegovu sledeću aproksimaciju od prethodnog dovođenja. Samo nepredljive transmisije nekih RNN u hijerarhiji postaju dovodljivi do sledćeg nivao RNN koji, prema tome, retko ponovo izračunava svoje unutrašnje stanje. Svaki viši nivo RNN uči sažeto predstavljanje informacija u RNN istog. To je urađeno tako da sekvenca dovođenja može biti precizno rekonstruisana od sekvence predstavljača na najvišem nivou. Sistem uspešno minimizira dužinu opisa ili negativan logaritam verovatnoće podataka. Ako ima dosta učljive predvidljivosti u sekvencama dolazećih podataka, onda najviši nivo RNN može koristiti nadgledano učenje i da lako podeli čak i duboke sekvence za veoma kratko vreme između važnih događaja. Ovakav sistem je 1993.god. već rešio zadatak "Veoma dubokog učenjaĆ koji je zahtevao više od 1000 sledećih slojeva u jednom RNN, raširen u vremenu. ^[32]

Takođe je moguće pročitati celu RNN hijerarhiju u samo dva RNN, zvanu "conscious" čunker (viši nivo) i "subconscious" automatizer(niži nivo). Jednom je čunker naučio da predvidi i da kompresuje dovođenje koje je i dalje nepredvidljivo pomoću automatizera; automatizer je prinuđen u fazi sledećeg učenja da predvidi ili imitira kroz posebne dodatke jedininice skrivene jedinice sporije promenljivog čunker-a. Ovo olakšava automatizeru da uči pravilno, metko menja memoriju za duže vremenske intervale. Ovo olakšava automatizeru da učini jednom nepredvidljivu transmisiju predvidljivom kao što čunker može da se fokusira na podsećanje i dalje napredvidljivih događaja, da kompresuje podatke još više.^[15]

Povratne neuronske mreže[uredi | uredi izvor]

Povratne neuronske mreže^[130] su stvorene dodavanjem istog seta težina rekurzivno , preko različitih graph-like stukrura, pomoću poprečne stukture, u topološkom redu. Ovakve mreže su takođe tipično obučene pomoću suprotnog modela automatske diferencijacije.^[27]^[77] Sam RNN je poseban slučaj rekurzivne neuronske mreže čija stuktura odgovara linearnom lancu. Rekurzivne neuronske mreže se koriste za obradu prirodnih jezika.^[131] RRekurzivne neuronske tensor mreže koriste tensor zasnovan na funkciji kompozicije za sve čvorove u stablu.^[132]

Dugotrajno pamćenje[uredi | uredi izvor]

Brojna istraživanja sada koriste druge oblike dubokog učenja RNN zvanog Dugotrajno pamćenje (LSTM), mrežu objavljenu od Hohrajter i Šmidhuber,1997.godine. To je sistem koji ne voli tradicionalni RNN i nema problema nastajanja gradijenta. LSTM je normalno povećan povratnim ulazima zvanim "zaboravljeni ulazi". LSTM RNN sprečava širenje backpropagation greške od nestajanja ili eksplodiranja. Umesto toga grške mogu da teku suprotno kroz neograničen broj virtualnih slojeva u LSTM RNN ne zadržavši se u prostoru. Tako da, LSTM može da nauči zadatke "Veoma dubokog učenja" koji zahtevaju pamćenje događaja koji su se dogodili hiljadama ili čak milionima godina pre. LSTM radi čak i kada ima dugih zadržavanja i može da zadrži signal koji ima pomenute niske i visoke komponente učestanosti.^[133]

Danas, mnoge aplikacije koriste gomilu LSTM RNN^[53]i treniraju ih pomoću CTC^[52] da pronađu RNN težinu matrice koja povećava verovatnoću određenih posledica u obučavanju, dajući odgovarajuće posledice dovođenja. CTC postiže i svrstavanje i prepoznavanje. 2009.godine CTC je obučavao LSTM i bio je prvi RNN koji je osvojio takmičenje u prepoznavanju obrasca, kada je osvojio nekoliko takmičenja u povezanom prepoznavanju rukopisa.^[4]^[84] Već 2003. godine LSTM je počeo da postaje kunkurentan sa tradicionalnim prepoznavanjem govora na određenim zadacima. Kombinacija sa STS je 2007.godine postigla prve dobre rezultate na povratinim podacima..^[53] Od tada, ovaj pristup je preokrenuo revoluciju prepoznavanja govora. Kineski istraživački gigant Bajdaj koristio je 2014.godine CTC-trenirani RNN da nadmaši Switchboard 5'00 prepoznavanje govora bez korišćenja ni jedne tradicionalne metode.^[134] LSTM je takođe poboljšavao prepoznavanje govora,^[63]^[64] pretvaranje teksta u govor sinteza,^[135] takođe Google Android,^[8]^[65] i photo-real talking heads.^[136] Google's speech je 2015.godine doživeo skok od 49% kroz CTC trenirani RNN, koje je sad moguće kroz Google Voice ka milionima korisnika pametnih telefona..^[54]

LSTM je takođe postao veoma popularan u oblasti obrade prirodnih jezika. Za razliku od prethodnih modela, LSTM može da nauči da prepoznaje kontekstualni jezik.^[105] LSTM je poboljšao mašinsko preođenje,^[106] Jezik za modeliranje^[107] i jezik obradu.^[108] LSTM kombinovan sa uvijenim neuronskim mrežama CNN takođe je unapredio automatksi naslov slike^[137] i mnoge druge aplikacije.

Mreže dubokih uverenja[uredi | uredi izvor]

Mreža dubokih uverenja (DBN) je probabilistički, generatorni model napravljen od višestrukih skrivenih jedinica. Može se smatrati da je to kompozicija modula jednostavnog učenja koje pravi svaki sloj.^[16]

DBN se može koristiti generativno pre treninga (DNN) korišćenjem DBN težina kao početnih DNN težina. Back-propagation ili drugi diskriminativni algoritami onda se mogu dodati finom podešavanju ovih težina. Ovo je naročito važno kada su ograničeni trenirani podaci mogući, jer oslabljena početna težina može značajno da omete preformanse naučenih modela. Ove pre-trening težine su u oblasti prostora tećine koji je bliži optimalnoj težini nego slučajnom odabiru početne težine. Ovo dozvoljava unapređenjenom modelingu kao i bržoj konvergenciji faze finog podešavanja.^[138]

DBN može biti efikasno treniran i u nenadgledanom treniranju, sloj po sloj načinu, gde su slojevi tipično napravljeni od ograničenih Bolcmanovih mašina (RBM). RBM je generativni model zasnovan na energiji sa "vidljivim" dolaznim slojem i skrivenim slojem i vezama između slojeva, ali ne bez slojeva. Ovaj metod za RBM predložio je Džordž Hiton za korišćenje treninga "Product of Expert", a modeli se nazivaju CD.^[139] CD omogućava aproksimaciju maksimuma sličnih metoda koje bi bile dodate za učenje težina RBM-a.^[120]^[140]U obuci jednog RBM, podaci tećine su izvedeni sa napredovanjem gradijenta u sledećoj jednakosti: $\Delta w_{ij}(t+1)=w_{ij}(t)+\eta {\frac {\partial \log(p(v))}{\partial w_{ij}}}$ . Ovde, $p(v)$ je verovatnoća vidljivog vektora, koji je dat pomoću $p(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}$ . $Z$ je podeljena funkcija korišćena za normalizaciju i $E(v,h)$ je funkcija energije namenjena stanju mreže. Pokazatelji niže energije mreže su u "poželjnoj" konfiguraciji. Gradijen ${\frac {\partial \log(p(v))}{\partial w_{ij}}}$ ima jednostavnu formu $\langle v_{i}h_{j}\rangle _{\text{data}}-\langle v_{i}h_{j}\rangle _{\text{model}}$ , gde $\langle \cdots \rangle _{p}$ predstavlja prosek u odnosu na distribuciju $p$ . Ishod raste u uzorcima $\langle v_{i}h_{j}\rangle _{\text{model}}$ jer ovo zahteva naizmenično proticanje Gibbs uzorka duže vreme. SD zamenjuje ovaj korak pomoću Gibbs uzorka proticanja za $n$ koraka (vrednosti $n=1$ bili su empirijski prikazani). Posle $n$ koraka, podacu su isprobani, a taj uzorak je korišćen na mestu $\langle v_{i}h_{j}\rangle _{\text{model}}$ .Procedura SD radi kai što sledi:^[120]

Inicijalizovati vidljive jedinice u vektor za obuku
Ažurirati skrivene jedinice paralelno sa vidljivim jedinicama $p(h_{j}=1\mid {\textbf {V}})=\sigma (b_{j}+\sum _{i}v_{i}w_{ij})$ . $\sigma$ je sigmoida i $b_{j}$ teži ka $h_{j}$ .
Ažurirati vidljive jedinice paralelno sa skrivenim jedinicama: $p(v_{i}=1\mid {\textbf {H}})=\sigma (a_{i}+\sum _{j}h_{j}w_{ij})$ . $a_{i}$ teži ka $v_{i}$ . To se zove "rekonstrukcijski" korak.
Ponovo Ažurirati skrivene jedinice paralelno sa obnovljenim vidljivim jedinicama korišćenjem iste jednakosti kao u koraku 2.
Izvesti ažurirane težine: $\Delta w_{ij}\propto \langle v_{i}h_{j}\rangle _{\text{data}}-\langle v_{i}h_{j}\rangle _{\text{reconstruction}}$ .

Kada je jedan RBM treniran, drugi RBM je na vrhu steka, uzimajući svoj dovod iz konačnog već treniranog polja. Novi vidljivi sloj je upućen na trenirani vektor, a vrednosti jedinice u već treniranim slojevima su oderđeni korišćenjem toka težina i gradijenta(dijagonala). Novi RBM je onda treniran sa procedurom iznad. Ovaj ceo proces je ponovljen dok se neki željeni kriterijum zaustavljanja ne ispuni.^[2]

Iako je aproksimacija SD do maksimuma verovatnoće veoma sirova(SD je pokazao da ne praki gradijent bilo koje funkcije), empirijski je dokazano da je efikasan u obuci duboke arhitekture.^[120]

Uvijene mreže dubokog uverenja[uredi | uredi izvor]

Nedavno dostignuće u dubokoj mreži učenja je korišćenje uvijenih mreža dubokog učenja (CDBN). (CDBN) ima strukturu veoma sličnu uvijenim neuronskim mrežama i one su trenirane slično sa mrežama dubokog verovanja. One koriste 2D strukture slika, kao CNN, i koriste pre trening kao mreže dubokih neurona. One obezbeđuju generičku strukturu koja može biti iskorišćena kod mnogis slika i pojedinih zadataka. Skorija, mnogi benchmark rezultati kod standardnih slika kao CIFAR^[141] su dobijeni uz korišćenjem CDBN.^[142]

Čuvanje velike memorije i uspostavljanje neurnoske mreže[uredi | uredi izvor]

Čuvanje velike memorije i uspostavljanje neurnoske mreže LAMSTAR^[143]^[144] su brze neuronske mreže od mnogo slojeva, koji mogu da koriste mnoge filtere istovremeno. Ovi filteri mogu da budu nelinearni, stohastički, logički, nepomični ili čak neanalitički. Oni su biološki motivisano i kontinuirano učenje.

Neurnoska mreža (LAMSTAR) može poslužiti kao dinamična neuronska mreža u prostoru ili vremenu ili oboje. Njegova brzina je obezbeđena pomoću Hebian link-weights (Chapter 9, 2013^[145]), koji služi da integriše različite i obično drugačije filtere u mnogo slojeva i da podignu važnost različitih slojeva i funkcija datih zadataka za duboko učenje. Ovo grubo imitira biološko učenje koje integrira učinak različitih CPU(cochlea, retina, etc.) i kora (auditory, visual, etc.) i njihove različite oblasti. Njegova sposobnost dubokog učenja je da ne povećava korišćenje indukcije, korelacije i pomoću svoje sposobnosti da izađe na kraj sa nekompetentnim podacima ili "izgubljenim" neuronima ili slojevima na sredini zadatka. Potpuno je transparentno u odnosu na link weights. link weights takođe dozvoljavaju dinamičku određenost inovacija i suvišnosti i olakšavaju rangiranje slojeva, filtera ili individualnih neurona koji se odnose na zadatak.

LAMSTAR je dodavan mnogim medicinskim^[146]^[147]^[148] i finansijskim predviđačima,^[149] prilagodljivom filtriranju bučnog govora u nepoznatoj buci,^[150] prepoznavanju slika i videa,^[151] ^[152]^[153] bezbednosti softvera,^[154] prolagodljivoj kontroli ne linearnog sistema^[155] i drugi. LAMSTAR ima mnogo veću računajuću brzinu i ponekad manje grešaka od uvijenih neuronskih mreža zasnovanim na ReLU funkciji i max pooling, u studiji prepoznavanja karaktera.^[156]

Ove applikacije pokazuju prodor u aspekte podataka koji su skriveni od plitkih mreža ili čak od ljudskih osećaja(oko, uho i dr.) kao i u slučajevima predviđanja sna, elektroradiograma fetusa dok se snima pomoću elektroda postavljenih na majčinom abdomenu rano u trudnoći,^[148] finasijskih predviđanja^[143] ili u slepom prečišćavanju bučnog govora.^[150]

LAMSTAR je bio predložen 1996.godine i dalje je razvijan od D Gruape i H Kordilevkog 1997-2002.^[157]^[158]^[159] Moderna verzija poznata kao LAMSTAR 2 razvijena je od N C Šnajdera i D. Gruape, 2008.godine.^[160]^[161]

Duboke Bolcmanove mašine[uredi | uredi izvor]

Duboka Bolcmanova mašina DBM je vrh binarnih parova Markovog slucajnog polja (neodređenog probabilitičkog grafičkog modela) sa višestrukim slojevima skrivenih slučajnih promenljivih. To je mreža simetrično uparenih stohastičkih binarnih jedinica. Ona sadrži set vidljivih jedinica ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ , i seriju slojeva skrivenih jedinica ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ . Nema veze između jedinica istog sloja(kao RBM). Za DBM verovatnoća odeređena vektorom ν je

p({\boldsymbol {\nu }})={\frac {1}{Z}}\sum _{h}e^{\sum _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{(1)}+\sum _{jl}W_{jl}^{(2)}h_{j}^{(1)}h_{l}^{(2)}+\sum _{lm}W_{lm}^{(3)}h_{l}^{(2)}h_{m}^{(3)}},

gde ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ su grupa skrivenih jedinica, a $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ su modeli parametara koji predstavljaju vidljivo-srivene i skriveno-skrivene interakcije. Ako. ${\boldsymbol {W}}^{(2)}=0$ i ${\boldsymbol {W}}^{(3)}=0$ mreža je dobro ograničena Bolcmanovom mašinom^[162] Interakcije su simetrične jer su linkovi neodređeni. U suprotnom, u mreži dubokog verovanja DBN samo dva glavna sloja obrazuju ograničenu Bolcmanovu mašinu (koja je neodređeni g rafički model),ali niži slojevi obrazuju direktni generativni model.

Kao DBN, DBM može nučiti složeno i apstraktno unutrašnje predstavljanje u zadatku kao što su objekti ili prepoznavanje glasa, korišćenjem ograničenih obeleženih podataka od fine-tune predstavljanja napravljenih korišćenjem velikih zaliha neobeleženih senzora ulaznih podataka. Za razliku od DBN i dubokih uvijenih neuronskih mreža, oni prihvataju zaključak i trening u oba pravca, od dna do vrha i od vrha do dna, što omogućava DBM da bolje predstavljanje dvosmislene i kompleksne strukture dovođenja.^[163]^[164]

U svakom slučaju brzina DBM ograničava njihovu funkcionalnost i izvođenje. Tačna maksimalna verovatnoća ulaza je neukrotiva za DBM, mi možemo izvesti maksimalnu verovatnoću udela otprilike. Druga mogućnost je koristiti prednje polje zaključka za istraživanje očekivanja korisnika zasnovanih na podacima, približno očekivani statistički model korišćenjem Markov chain Monte Carlo (MCMC).^[162] Ovaj približni zaključak, koji mora da bude uređen za svaki test dovođenja je oko 25 do 50 puta sporiji od jednog dno-vrh prolaza u DBM. Ovo čini vezu optimizacije neostvarljivom za velike podatke i ozbiljno ograničava korišćenje DBM za zadatke kao što su predstavljanje osobina.^[165]

Naslagani auto-enkoderi[uredi | uredi izvor]

Ideja auto enkodera je motivisana konceptom dobrog predstavljanja. Na primer, za klasifikatoe, dobro predstavljanje može biti definisano kao ono koje će proizvesti bolji klasifikator.

Enkoder je utvrđena kriptografija $f_{\theta }$ koja prenosi ulazni vektor x u skriveno predstavljanje y, gde $\theta =\{{\boldsymbol {W}},b\}$ , ${\boldsymbol {W}}$ je matrica težine, a b je offset vektor(dijagonala). Mape dekodera vraćaju skriveno predstavljanje y na rekonstruisano dovoženje z preko $g_{\theta }$ . Ceo proces auto enkodinga je da poredi ovo obnovljeno dovođenje sa orginalnim i da pokuša da smanji ovu grešku kao i da učini ovo obnavljanje vrednim što je više moguće bližim originalu.

U gomili napakovanih auto enkodera, delimično rastojanje učinka je očišćeno. Ovu ideju je predstavvio Vincent, 2010.god.^[166] sa posebnim pristupom dobrom predstavljanju. Dobro predstavljanje je ono koje se može postići snažno iz raspadnutog dovođenja i koje će biti korisno za oporavak odgovarajućeg čistog dovoda. Podrazumevaju se sledeće ideje:

Viši nivoi predstavljanja su relativno stabili i čvrsti prema raspadanju dovođenja;
Neophodno je pripremiti osobine koje su korisne za predstavljanje raspodele dovođenja.

Algoritam sadrži više koraka; počinju od stohističkog mapiranja ${\boldsymbol {x}}$ do ${\tilde {\boldsymbol {x}}}$ kroz $q_{D}({\tilde {\boldsymbol {x}}}|{\boldsymbol {x}})$ , ovo je korak raspadanja. Onda raspadnuti dovod ${\tilde {\boldsymbol {x}}}$ prolazi kroz osnovni proces auto enkodera i mapira je u skriveno predstavljanje ${\boldsymbol {y}}=f_{\theta }({\tilde {\boldsymbol {x}}})=s({\boldsymbol {W}}{\tilde {\boldsymbol {x}}}+b)$ .Iz ovog skrivenog prestavljanja, mi možemo rekonstruisati ${\boldsymbol {z}}=g_{\theta }({\boldsymbol {y}})$ . U poslednjoj fazi minimizirani algoritam protiče u cilju da dobije z što je moguće bliže do neprekidnosti dovoda ${\boldsymbol {x}}$ . Greška rekonstrukcije $L_{H}({\boldsymbol {x}},{\boldsymbol {z}})$ može biti i gubitak cross-entropy sa afinim-sigmoidnim dekoderom, ili gubitak squared grške afinim dekoderom.^[166]

U cilju da naprave duboku arhitekturu, auto enkoderi se slažu jedan na drugog.^[167] Kada se jednom nauči funkcija enkodiranja $f_{\theta }$ prvog napakovanog auto enkodera i koriščenjem za narastanje mi možemo trenirati drugi nivo.^[166]

Kada je jednom treniran naslagani auto enkoder, njegov učinak može se koristiti kao dovod do nadgledanih algoritama učenja kao što je klasifikator podrške vektorska mašina ili više klasna logistička regresija. ^[166]

Duboko složene mreže[uredi | uredi izvor]

Jedna duboka arhitektura zasnovana na hijerarhiji blokova pojednostavljenih modela neuronske mreže je duboko konveksna mreža predstavljena 2011.god.^[168] Ovde, problem učenja težine je formulisan kao konveksna optimizacija problema zatvorenim oblikom rešenja. Ova arhitektura se takođe zove duboka složena mreža DSN,^[169] koja naglašava mehanizam sličnosti od složene generalizacije.^[170] Svaki DSN blok je jednostavan modul kojeg je lako trenirati u nadgledanom obliku bez back-propagation za cene blokova.^[171]

Kako su dizajnirali Deng i Dong,^[168] svaki blok se sadrži od pojednsotavljenih višeslojnih percepcija (MPL) sa jednim skrivenim slojem. Skriveni sloj h ima logističke sigmoidne jedinice, i sloj učinka ima linearne jedinice. Veze između ovih slojeva su predstavljene pomoću matrica težine U; veze dovoda do skrivenog sloja imaju matricu težine W. Ciljani vektor t iz kolone matrice T, i podatak dovoda vektora x formira kolone matrice X. Matrica skrivenih jedinica je ${\boldsymbol {H}}=\sigma ({\boldsymbol {W}}^{T}{\boldsymbol {X}})$ . Moduli su trenirani po redu, pa je težina nižeg nivao W poznata na svakom stepenu. Funkcija izvodi elemente- mudere logističke sigmoidne operacije. Svaki blok procenjuje isti finalni label vrste y i njegova procena je povezana sa orginalnim dovodom X da obrazuje razvijeni dovod za sledeći blok. Dovod prvog bloka sadrži samo orginalne podatke dok silazni dovod blokova takože imaju učinak prethodnih blokova. Onda matrica težine gornjeg sloja U datih drugih težina u reži može biti formulisan kao konveksni problem optimizacije:

\min _{U^{T}}f=||{\boldsymbol {U}}^{T}{\boldsymbol {H}}-{\boldsymbol {T}}||_{F}^{2},

koji ima rešenje zatvorenog oblika.

Dok kod drugih dubokih arhitektura, kao što je DBN, cilj nije da se otkrije predstavljanje transformisanih osobina. sastav hirerahije ove vrste arhitekture pravi otvorene pralalele kao što je batch-mode problem optimizacije. U jasnim različitim zadacima DSN se izvodi bolje od opšte poznatog DBN.^[169]

Tenzor duboke složene mreže[uredi | uredi izvor]

Ova arhitektura je rastezanje dubokih složenih mreža (DSN). Ona poboljšava DSN na dva važna načina: koristi informacije višeg reda od kovarijante statistike, i pretvara ne-konveksni problem niskog sloja u konveksni pod-problem višeg sloja.^[172] TDSN koristi kovarijante statistike podataka korišćenjem bilinarne kartografije iz svakog od dve jasne grupe skrivenih jedinica u istom sloju do predviđanja, do trećeg reda tenzora.

Dok se paralelizuju i skalabilizuju ne smatraju se ozbiljnim u opšte poznatoj DNN,^[173]^[174]^[175] sva učenja za DSN i TDSN se rade u grupnom modelu da bi dozvolili paralelizaciju na grupu CPU ili GPU čvorova.^[168]^[169] Paralelizacija dozvoljava skaliranje do dubljih arihtektura i grupa podataka.

Osnovna arihtektura je podesna za razne zadate kao što su klasifikacija i regresija.

Spike-and-slab RBM[uredi | uredi izvor]

Potreba za dubokim učenjem sa realanim brojevima, kao što je Gaussian ograničio Bolumanovim mašinama, motivisao je Spike – and- slab RBM čiji modeli sadrže vredne dovode sa strogo binarnim skrivenim varijabilima.^[176] Slično osnovnim RBM i njegovim varijacijama, Spike – and- slab RBM je bipartitivni graf, dok kao GRBM, vidljive jednice(dovod) su stvario(približio) ocenjenje. Razlika je u skrivenom sloju, gde svaka skrivena jednica ima binarnu spice varijablu i stvarno( približno) ocenjenje slab varijable. Spike je odvojena verovatnoća mase na nuli, dok je slab gustina preko trajnog domena;^[177]^[177] njihova mešavina formira "priror". Naziv dolazi iz statičke literature.^[178]

Rastojanje ssRBM zvano µ-ssRBM obezbeđuje dodatno modelirnje sposobnosti korišćenjem dodatnih termina u funkciji energije. Jedan od svih termina omogućava modelu da obrazuje uslovnu raspodelu spike varijabla pomoću marginalizovanog odliva slab varijabla datih u posmatranju.

Složeni modeli duboke hijerarhije[uredi | uredi izvor]

Složeni hijerarhijski duboki modeli sadrže duboke mreže sa bez parametrim Bayesian modelima. Osobine mogu biti naučene korišćenjem dubokih arhitektura kao što su DBN,^[88] DBM,^[163] duboki auto enkoderi,^[179] savitljive varijante,^[180]^[181] ssRBM,^[177] duboke kodirane mreže,^[182] DBN sa oskudnim osobinama,^[183] rekurzivne neurokosne mreže,^[184] uslovi DBN,^[185] de-noising auto enkoderi.^[186] Oni obezbeđuju dome i predstavheace, omogućavaju brže učenje i tačniju podelu sa visoko-dimenzioniranim podacijma. Ove arhitekture su siromašne kod učenja novih razreda(klasa) sa nekoliko primera, jer su sve jednice mreže uključene u predosavljaje dovoda ( podljenja predstavljaja) i moraju biti zajedno regulisanim ( visoki stepen sloboda). Ograničenje stepena slobode smanjuje broj parametra za učenje, olakšavajući učenje novih razreda iz novih primera. Hierarchical Bayesian modeli dovoljavaju učenje novih razreda iz novih primera, na primer^[187]^[188]^[189]^[190]^[191] za kompjutersku viziju, statistiku i kongnitivne nauke.

Cilj složenih HD arhitektura je da razvije karakteristike i HB i dubokih mreža. Složena HDP-DBM arhitektura, hijerarhisjski HDP kao hijerarhijski model, generalizovani(određeni) od apstraktivnih( kratkih) pojmova koji protiču kroz slojeve modela, koji može da sintetiše( synthesize) nove primere u novim razredima da izgledaju razumno prirodni. Svi nivoi se uče zajedeno pomoću masimalnog voda- verovatnoće rezultata. ^[192]

U DBM sa tri skrivena slojeva, verovatnoća vidljivog dovoda ν je:

p({\boldsymbol {\nu }},\psi )={\frac {1}{Z}}\sum _{h}e^{\sum _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{1}+\sum _{jl}W_{jl}^{(2)}h_{j}^{1}h_{l}^{2}+\sum _{lm}W_{lm}^{(3)}h_{l}^{2}h_{m}^{3}},

gde ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ zbir(set) skrivenih jednica i $\psi =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ su modeli parametra, predstavljaju vidljivo-skrivene i skriveno simetrične interakcija termine.

Posle naučenog DBM modela, imamo jedan nedirektan model koji definiše zajednicu podeljenosti $P(\nu ,h^{1},h^{2},h^{3})$ . Jedan način da se izrazi šta se naučiloje uslovni model $P(\nu ,h^{1},h^{2}|h^{3})$ i prethodni naziv $P(h^{3})$ .

Ovde $P(\nu ,h^{1},h^{2}|h^{3})$ predstavlja uslovni DBM model koji može biti posmatran kao dvoslojni DBM ali sa dijagonalom datoj pomoću stava $h^{3}$ :

P(\nu ,h^{1},h^{2}|h^{3})={\frac {1}{Z(\psi ,h^{3})}}e^{\sum _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{1}+\sum _{jl}W_{jl}^{(2)}h_{j}^{1}h_{l}^{2}+\sum _{lm}W_{lm}^{(3)}h_{l}^{2}h_{m}^{3}}.

Mreže dubokog kodiranja[uredi | uredi izvor]

Postaje prednosti modela koji automotski mogu da ažuriraju iz objašnjenja u podatdku. Mreža dubokog kodiranja (DPCN) je šema predviđenog kodiranja gde je gore-dole informacija korišćena empirično za regulisanje prethodnih potreba sa dna- do vrha izvođenja procedure sa smislom duboke lokalne povećanosti generativnom modelu. Ovi redovi pomoću odlomka(dela) skudnih osobina iz ranijih posmatranja koriste linearni dinamični model. Onda, udruženja strategija je korišćena da se nauči invarijantno predstavohode osobinama. Ove jedinice žele da obrađuju duboku arhitektutu i trenianr su pomoću pohlepnih slojeva nenadgledanog učenja. Slojevi stvaraju vrstu lanca Markova isto kao što stanje na svakom sloju, samo zavisi od prehodnog i dolaznog sloja.

Duboko previđena kodiranja mreže (DPCN)^[193] Predviđena predstavljanje sloja, korišćenjem pristupa gore-dole i informacije u gornjem sloju i stalne zavisnosti iz prethodnih stanja.

DPCN može biti promirena da ibrazuje savitljivu mrežu. ^[193]

Duboke q-mreže[uredi | uredi izvor]

Ovo je vrsta (klasa) dubokih modela učenja korišćenjem Q- učenja, vrsta (oblik) pojačanog učenja, iz Google Deep Mind. Treliminarni rezultati su bili prikazani 2014. God, sa radom objavljenim u Februaru 2015 In Nature.^[194] Aplikacija o kojoj se razgovaralo u ovom radu je ograničena na AFARI 2600 gaming, implikacije(podrazumevanje) za druge aplikacije su duboke.

Mreže sa odvojenim strukturama memorije[uredi | uredi izvor]

Integrisati spoljašnju memoriju sa veštačkim neuronanm mrežama potiče iz ranih istraživanja u raspodeli predstavljanja^[195] Teiko Horenove samo-ograničavanje mape. Npr. , u oskudno podenjenoj memoriji ili hijerarhijski privremenoj memoriji, uzrok šifrovan pomoću neuronskih mreža su korišćenjeni kao adrese za sadržaj-adresirane memorije, sa neuronima poslužene kao adrese šifrovane u dešifrovane. Rani kontrolori ovakvih memorija nisu bili drugačiji.

LSTM-povezane raznolike strukture memorije[uredi | uredi izvor]

Osim oblika termina duge-kratke memorije (LSTM), drugi pristupi od 1990 i 2000-tih god su takođe dodani različitoj memoriji do povratnih funkcija . Na primer:

Različite push(guram) i pop akcije za mreže alternativne memorije zvane neuronske stack(složene) mašine
^[196]^[197]
Mreže memorije gde se spoljna kontrola mreže različita skladišnji je u brzoj težini druge mreže^[198]
LSTM "zaboravljene kutije"^[199]
Samo-referente povratne neuronske mreže(RNN) sa posebnim jedinicama učinka za adresiranje i brzo manipulisanje svake od RNN svoje težine je različitog oblika (unutrašnje skladištenje)
^[200]^[201]
Naučiti da redukuje sa neograničenom memorijom^[202]

Semantičko pretresanje[uredi | uredi izvor]

Pristupi koji direktno prikazuju predhodna iskustva i koriste stručna iskustva da obrađuju lokalni model se često zovu najbliži komisija ili k najbližih suseda.^[203] Skorije, duboko učenje je pokazalo da može da bude korisino u semantičkom pretresanju^[204] gde duboki grafički modeli vektori brojača reči^[205] dobijaju iz velikog broja dokumenata. Dokumenti slični sa dokumentima za žalbu, mogu se tada pronaći pomoću jedinstvenog pristupa ka svim adresama koje se razlikuju samo po nekoliko bita sa adresama dokumenata za žalbe (raspitivanje). Za razliku od raštrakane (retke) raspodele memorije koja radi sa 1000 – bit adresa, semantičko pretresanje – seckanje radi sa 32 ili 64 – bit adresa pronađenih u uobičajenoj kom. arhitekturi.

Neuronske Turing mašine[uredi | uredi izvor]

Neuronske Turing mašine,^[206] rarazvijene su od Google Deep , par LSTM mreža do spoljnoh izvora memorije koji mogu da utiču pomoću posebnih procesa. Kombinovani sistem je analogni do Turing mašine, ali je različit kraj–do-kraja; dozvoljavajući da bude efikasno precizan pomoću silaznog nagiba. Preliminarni rezultati pokazuju da Neuronske Turing mašine mogu dovesti do zaključka da jednostavni analogni kao isto su kopiranje, sortiranje i asocijalno povlačenje ( opoziv) iz primera ulaza i učinka.

Mreže pamćenja[uredi | uredi izvor]

Mreže pamćenja^[207]^[208] su drugi produžetak mreže neurona inkorporacije memorije long–term, koja je bila razvijena pomoću istraživačkog tima Fejsbuka. Memorija long–term može biti čitanje i pisanje sa ciljem korišćenja za predviđanje. Ovi modeli su dodati u upitnički sistem gde memorija long–term efektivno utiče kao (dinamička) baza a učinak je tekstualni odgovor.^[209]

Indikator(pokazivač) merža[uredi | uredi izvor]

Mreže dubokih neurona mogu biti poboljšane ( unapređenje ) ako dobiju dugme i imaju nekoliko parametara, dok održavaju ( čuvaju ) sposobnost pretraživača. Dok je drepčig naročito dubok(1 mil.–sloj–dubina) neuronske mreže možda neće biti izvodljive, SRU-kao arhitekturi kao što su uindukatori mreža^[210] i neuronski retki pristup mašinama^[211] razvijen od istraživača. Gugl Mozak da nadmaše ovo ograničene korišćenjem spolljašnjeg RAM-a(memorija) isti kao dodavanje drugih komponenti koji tipično pripadaju kompjuuterskoj arhitekturi kao što su registri ,ALU i pokazivači. Takvi sistemi rade na verovatnoći raspodele vektora sačuvanih u memorijskim ćelijama i registratorima. MOdel je potpuno različit i tretira kraj – do – kraja. Glavna karakteristika ovog modela je ta da njihova dubina, velikičina njihove katkotrajne memorije i broj parlametara mogu biti promenljive nezavisno – usprotno od modela kao što je LSM, čiji broj parlamenara raste četvorostruko sa velikim činom memorije.

Šifrovanje-dešifrovanje mreža[uredi | uredi izvor]

Okvir šifrovanja-dešifrovanja je okvir zasnovan na neuronskim mrežama koji želi da označi visoko struktuirani ulaz do visoko struktuiranog izlaza. To je skoro predloženo u objašnjenju mašinskog prevođenja^[212]^[213]^[214] gde su ulaz i izlaz napisane rečenice na dva prirodna jezika. U tom radu, LSTM povratne neuronske mreže (RNN) ili savitljiva neuronska mreža (CNN) su bile korišćene kao šifra za sumiranje izvora rečenice, a sumiranje je bilo dešifrovano korišćenjem uslovnog povratnog modela neuronske mreže jezika da proizvedu (omoguće) prevođenje.^[215] Svi ovi sistemi imaju iste izgrađene blokove: kapije (vratnice, ulazno kolo) RNN i CNN i treniranje mehaničke pažnje.

Ostale arhitekture[uredi | uredi izvor]

Višeslojna jezgrena mašina[uredi | uredi izvor]

Višeslojne jezgrene mašine ^[216] su način za učenje visoko nelinearnih funkcija pomoću ponovljene aplikacije slabih nelinearnih jezgra. Oni koriste osnovne komponente analize jezgra (KRSA)^[217] kao metodu za ne nadgledan pohlepni sloj, pre treninga koraka arhitekture dubokog učenja.

Sloj $l+1$ -vi uči predstavljanje prethodnog sloja $l$ izvlačenjem $n_{l}$ osnovne komponente (RS) projekcionog sloja $l$ izlaza u području podstaknutom od jezgra. Za cilj (korist) dimenzioniranja smanjena ažuriranja predstavljanja u svakom sloju, nadgledana strategija je predložena da bi se izabrale najbolje osobine među osobinama izvičenim od KRSA. Proces je:

Svrstati $n_{l}$ osobine prema njihovim uzajamnim(međusobnim) informacijama sa označenom grupom (klasom);
Za različite vrednosti K i $m_{l}\in \{1,\ldots ,n_{l}\}$ , izračunati stepen greške klasifikacije K-najbliži sused(K-NN) klasifikator korišćenjem samo m_l osobine najinformativnije u validnoj (potvrđenoj) grupi.
vrednopst $m_{l}$ sa kojom je klasifikator dostigao najniži stepen greške, određujem broj osobina koje ćemo zadržati.

Bilo je nekih nezgoda u korišćenju KRSA metoda kao ćelije izgradnje MKM.

Najispravniji račun za korišćenje jezgrenih mašina za duboko učenje razvio je Majkrosoft istraživački tim za razumevanje govornog jezika.^[218] Glavna ideja je koristiti jezgrene mašine otprilike u plitkoj neuronskoj mreži sa beskrajnim brojem skrivenih jedinica, onda koristiti naslagu (gomilu) spajanje izlaza jezgrene mašine i ulaz u praćenju sledećeg, višeg nivoa jezgrenih mašina. Broj nivoa u dubokoj ispupčenoj mreži je hiper-parametar sveobuhvatnog sistema, biće određen ukrštenim potvrđivanjem.

Aplikacije[uredi | uredi izvor]

Automatsko prepoznavanje govora[uredi | uredi izvor]

Prepoznavanje govora doživelo je preokret pomoću dubokog učenja, naročito pomoću kratke-duge memorije (LSTM), povratne neuronske mreže objavljene od Sep Hohrajter / J. Š. 1997. godine LSTM RNN, oko problema nestanka nagiba mi možemo naučiti zadatke ,,Veoma dubokog učenja" koje uključuje govorne događaje odvojene pomoću hiljadu godina gde jedan vremenski korak odgovara 10ms. 2003. god. LSTM sa zaboravljenim kapijama postaje takmičarska sa tradicionalnim prepoznavačima govora na određenim zadacima. 2007. god. LSTM prepisana pomoću (STS) postigla je odlične rezultate u određenim aplikacijama, iako su kom. bili mnogo sporiji nego danas. Google je 2015 iznenada skoro duplirao veliku skalu prepoznavanja govora, kroz STS- trenir. LSTM, sada dostupnim svim korisnicima pametnih telefona. ^[54]

Rezultati pokazani u tabeli ispod su za automatske prep. glasa na popularnim TIMIT podacima. Ovo je zajednički podatak korišćen za početno ocenjivanje arhitektura dubokog učenja. Ceo set sadrži 630 govornika iz 8 glavnih dijalekata Američkog Engleskog, gde svaki govornik čita 10 rečenica.^[219] Njegova mala veličina dozvoljava mnogim konfiguracijama da budu uspešno trenirane. Mnogo važnije je da TIMIT podrazumeva dosledno telefonsko prepoznavanje, koje u odnosu na prepoznavanje reči, dozvoljava veoma slabe „jezičke modele“ u slabost u aspektima akustičnog modeliranja prepoznavanja govora koji mogu biti lakše analizirani. Takve analize TIMIT – ja od Li Denga i kolega oko 2009. do 2010. Godine, razlikuju GMM (i ostale generativne modele govora) u odnosu na DNN modele, podstičući rana industrijska ulaganja u duboko učenje za prepoznavanje govora od malih do velikih skala,^[47]^[68] vodeći do prožetu i dominantnu upotrebu u toj industriji. Te analize su bile urađene sa poređenjem (manje od 1,5% stepena greške) između različitih DNN i generativnih modela. Lista grešaka ispod, uključuje ove rane rezultate i merenja kao procenat stepena tel. greške (PER), sumirana su u proteklih 20 god.

Metod	PER (%)
Nasumično inicijalizovan RNN	26.1
Bajesova Triphone GMM-HMM	25.6
Model skrivene putanje	24.8
Monophone nasumično inicijalizovan DNN	23.4
Monophone DBN-DNN	22.4
Triphone GMM-HMM sa BMMI obukom	21.7
Monophone DBN-DNN na fbank	20.7
Uvijeni DNN^[220]	20.0
Uvijeni DNN sa heterogenim udruživanjem	18.7
Ensemble DNN/SNN/RNN^[221]	18.2
Dvosmerni LSTM	17.9

Industrijska istraživanja proširila su duboko učenje iz TIMIT do velikih rečnika prepoznavanja govora pomoću prihvatanja velikih izlaznih slojeva DNN zasnovanim na dopuni – zavisnog HMM stanja konstruisanog pomoću drva odluke. Iscrpni pregledi ovog razvoja su od Oktobra 2014. dostupni u skoroj "SPRINGER" knjizi iz Majkrosofta.^[222]^[223] ^[224]

Jedan osnovni princip dubokog učenja je obaviti ga izvan odluka ručnih – zanatskih osobina inženjeringa i koristiti druge osobine. Ovaj princip je prvi put uspešno istražen u arhitekturi dubokog autodešifrovana „row“ tektogramu linearnih osobina,^[225] pokazujući superiornost u odnosu na Mel – Cepstral osobine koje sadrže nekoliko stepena fiksirane transformacije iz spektograma. Istinite „row“ osobine (izgledi) govora, talasa, su skorije pokazane da proizvedu odlične rezultate u većoj skali prepoznavanja govora. :^[226]

Napredak (i dalja uputstva) mogu biti sumirani u 8 pravnih oblasti:^[1]^[49]^[69]

scaling up/out – skala gore/izvan i brzina treniranja DNN i dešifrovanja;
Doslednost (logičnost) diskriminativnog treniranja DNN;
Osobine (odluke) izvedene pomoću dubokih modela sa solidnim razumevanjem nepodvučenih mehanizma;
Prihvatanje DNN i povezanih dubokih modela;
Višestruki zadatak i prenos učenja pomoću DNN, povezanih dubokih modela;
Uvijene neuronske mreže i kako ih napraviti (dizajnirati) da najbolje iskoriste područje znanja govora;
Povratne neuronske mreže i njihove bogate LSTM varijacije;
Ostale vrste dubokih modela uključujući tensor – based modele i integrisani duboki generativni modeli.

Velika skala prepoznavanja govora je prvi i najpogodniji način dubokog učenja u skorijoj istoriji, koja obuhvata i industriju i nauku. Između 2010. i 2014. održane su dve velike konferencije IEE – ICASSP i Inetrspič, gde je viđeno veliko povećanje u broju prihvaćenih radova na temu dubokog učenja i prepoznavanja govora.^[1]^[227]^[228] .^[229]

Prepoznavanje slika[uredi | uredi izvor]

Zajedničko ocenivanje za klasifikaciu slika je MINST baza podatka. MINST je sastavljen od ručno pisanih cifara i sadrži 60.000 prepisanih/ obučenih primera i 10.000 tekapualnih primera. Kao i kod TIMIT, njegova mala veličina dozvoljava testiranje višestrukih konfiguracija. Isujrpla lista rezultata ove grupe (set) može biti pronađena.^[230] Trenutni najbolji rezultat MINST je stopa prepiske od 0,23 % postignuta od Kiresana 2012. godine.^[231]

Prema Le Cunu, rabe 2000-te god, u ind.aplikaciji CNN, već je obrađivao procenu svih od 10% do 20%, čekova napisanih u US ranih god (2000). Značajni dodarni udar dubokom urezu u prepoznavanju slika ili predmeta dogodio se 2011-2012 god. Iako je SNN obuhvata pomoću bekpropagejšn već decenijama, GPUS, na način Dan Kiresan i Kolega, bilo je potrebno napraviti ulegnuće udubljenje u komi i uterskoj viziji. Ovaj prilaput je 2011. god potpisao prvi put ljudsku izvedbu u vizuelnom obliku prepoznavanja, Takođe je 2011 osvojio ICDAR. Kinesko takmičenje u rukopisu; a u Maju 2012, osvojio je ISBI- takmičenje. Do 2011 god. CNN nije imao glavnu ulogu u konferenciji kompjuterske vizije, ali u Junu 2012. Rad Dena Cirecana i ostalih na vodećoj konferenciji CVPR pokazali su kako max-pooling CNNS na GPU može dramastično da poboljšaju mnoge oblike benchmark snimanja. Oktobra 2012.god slični sistem od Aleksa Križevski u stilu Ž.H. osvojio je takmičenje pomoću značajne margine preko plitkog metoda mašinskog učenja..^[232]

Kako se ambicija kreće od automatetog pret.govora prema automatskom prevodu i razumevanju, podela (klasifikacija) slika je skoro bila promirena na izazovniji zadatak-automatskog naslova slike, u kome je duboko učenje često kao kombinacija CNN i LSTM) bitna je osnovna tehnologija^[233]^[234]^[235]^[236]

Jedan primer aplikacije je kompijuter u automobilu koji je obučen sa dubokim urezom, koji može da onemogući automobile da tumače 360 stepeni izgleda.^[237] Drugi primer je tehnologija poznata kao Facial Ana (FDNA) korišćenje da analizira slučajeve ljudske naka znoapi povezane do velikih baza genteskog sindroma.

Proces prirodnog jezika[uredi | uredi izvor]

Neuronske mreže su korišćene za imprementaciju jezičkih modela od ranih 2000-tih god.^[105]^[238] Povratne neuronske mreže, naročito LSTM su više svojstveni za dosredne podatke kao što je jezik. LSTM je pomogao u poboljšanju mašinskog prevoda i jezičkog modelinta. LSTM kombinovan sa CNNS takođe je poboljšao (unapredio) automatski naslov slike i mnogo druge aplikacije..^[4]

Ostale ključne tehnike u ovom polju su negativni uzorci^[239] i umetanje (urezanje) reči. Umetanje reči, može biti posmatrano kao reprezentativni sloj u arhitekturi dubokog učenja koji pretvara jednu atomsku reč u poziciono predstavljanje reči, relativne u odnosu na ostale reči, položaj je predstavljen kao tačka u prostoru vektora. Korišćenjem umetanja reči kao ulazni sloj ka resursivnoj neuronskoj mreži, dozvoljavaju trening mreže ka delovima rečenicama u frazama koje koriste, efekat kompozicione vektorske gramatičke; ona može biti smatrana kao probabilistička dopuna slobodnoj gramatici (PCFG) implementiranoj pomoću rekurzivne neuronske mreže.^[240] Duboke neuronske arhitekture su postigle state-of-the-art- rezultate u mnogim zadacima prirodnog jezika kao što su uređenje delova rečenica,.^[240]^[241] analize mišljenja,^[242] poprvljanje informacija,^[243]^[244] razumevanje govornog jezika,^[245] mašinsko prevođenje,^[106]^[246] označavanje bitnog,^[247] i drugih.^[248]

Otkrivanje droge i toksikologija[uredi | uredi izvor]

Farmaceutska industrija suočava se sa problemom da veliki procenat kandidata koristi drogu kako bi stigli do tržišta. Ovaj nedostatak hemijskih sredstava je izazvan nedovoljnim delovanjem na biomolekularnom zadatku(efekat on target); neodređene i neželjene veze sa ostalim biomolekulima (off-target uticaj) ili nepredvidljiv toksični uticaj.^[249]^[250] Tim koji je vodio Džordž Dal je 2012. god. osvojio "Marek Molekural, čelendž" korišćenjem više zadataka duboke neuronske mreže da predvidi biomolekularnu metu od složenih.^[251]^[252] Grupa S.H. je 2014. god. koristila Duboko učenje da otkrije off-target u toksičan uticaj hemikalija na okolinu u hranljivim, domaćim proizvodima i lekovima, osvojio je Data Challenge NIH, FDA i CNAST.^[253]^[254]Ovaj impresivni uspeh pokazao je da duboko ičenje može biti superiorno u odnosu na ostale virtuelne screening metode.^[255]^[256] Istraživanja Gugla u Stanfordu pojačali su 48 duboko učenje za otkrivanje droge pomoću kombinacije podataka iz različitih izvora.^[257] Atomvajs je predstavio AtomNet 2015. god. Prvu neuronskui mrežu dubokog ureza, za strukture koje se odnose na drogu.^[258] AtomNet je mogao da predvidi kandidate za Nobelovu nagradu u oblasti biomolekula za nekoliko bolesti, najviše su isticali lečenje virusa ebole^[259] i multile skrerozu.^[260]^[261]

Odnos sa kupcima[uredi | uredi izvor]

Skoriji uspeh je bio prikazan sa aplikacijom dubokog pojačanog učenja u okviru direktnog marketinga, predstavljajući odgovarajućumetodu za CRM. Neuronska mreža je bila korišćena da približi vrednost mogućih akcija direktnog marketinga preko kupca, određenog u nazivu RFM varijabila. Procenjena vrednost dunkcije bila je prikazana, videli smo da ima prirodno objašnjene kao i na vrednost dužine života kupca.^[262]

Sistemi preporuke[uredi | uredi izvor]

Sistemi preporuke koristili su duboko učenje da izvuku značenje dubokih osobina za skrivene faktore preporuke zadovoljnog kupca za muziku.^[263] Skorije, uopšteno prvi put za učenje prednosti za više područja korišćenjem multivju – duboko učenje je bilo predstavljeno.^[264] Ovaj model koristi hibridne collaborative i pristaju zasnovani na sadržini i pojačanu preporuku u složenim zadacima.

Bioinformatika[uredi | uredi izvor]

Skoro je pristup dubokog učenja na auto enkoderima veštačke neuronske mreže, bio je korišćen u bioinformatici, da predvidi ontologiju gena i odnose genetskih funkcija ^[265]

Teorije o ljudskom mozgu[uredi | uredi izvor]

Duboko učenje je tesno povezano sa vratom teorija o razvoju mozga(naročito nocortical razvoj) predložen od priznatih stručnjaka 90-tih god.^[266] Elman je pristupačan režim ovog rada, objavljen u knjizi "Rethinang Innateness"^[267] (vidi još: Shrager and Johnson;^[268] Quartz and Sejnowski^[269]).Kako su ove razvojne teorije bile takođe trenutno u prebojavanim modelima, one su tehnički prethodnik potpuno motivisanim modelima dubokog učenja. Ovi razvijeni modeli dele zanimljivu osobinu(svojinu) koju različito predložena dinamika učenja u mozgu konapirativno podržava samo organizaciju ili samo vratu međusobno povezanih neuronskih mreža iskorišćenih u kasnijim modelima dubokog učenja; takve prebrojane neuronske mreže izgledaju anologne na izgled nocortex mozga kao hijerarhija filtera u kojoj svaki sloj osvaja (hvata) neke od informacija u operativnoj okolini, i onda prolazi podsetnik, isto kao i modigikovan signal, do ostalih slojeva – dalje do hijerarhije. Ovaj proces proizvodi samo organizaciju gomilu transduktora, dobro podešenih sa njihovom okolinom. Kao što je upisano u The New York Times, 1995; "...mozak deteta izgleda da organizuje sebe pod uticajem talasa, zvanih trophic- faktora, različite oblasti mozga postasju povezane u nizu, sa jednim slojem tkiva zrelim pre drugog i tako dalje sve dok ceo mozak ne bude zreo"^[270]

Važnost dubokog učenja sa uvažavanjem na ocenjivanje i razvoj ljudske spoznaje, nije izmaklo pažnji ovih istraživača. Jedan od aspekta ljudskog razvoja koji nas razlikuje od najbližih komšija možda su promene u vremenu razvoja.^[271] Između ostalog, ljudski mozak ostaje relativno plastičan, sve do kasnog post-katalog perioda dok mozak naših najbližih rođaka je kompletiniji od rođenja. Pored toga, ljudi imaju bolji pristup i složenim sedativima priuštenim boravkom u svetu tokom perioda razvojamozga. Ovo će nas ometati do "tune in" do brze promene osobina okolina od drugih životinja. Ove promene se ogledaju u jednostavnim vremenskim promenama u talasima hipnoze korktikalnog razvoja, one takođe mogu da vode do promena u izvlačenju informacija iz podsticajne okoline tokom rane samoorganizacije mozga. Naravno, tokom ove fleksibilnosti dolazi jedan dugačak (produženi) period nezrelosti, tokom kojeg zavisimo od naših staratelja i društva i za podršku kao i za obuku. Teorija dubokog učenja, pored ostalog, vidi koevoluciju kulture i saznanja kao osnovno (fundamentalno) stanje ljudskog razvoja (evolucije)..^[272]

Komercijalne aktivnosti[uredi | uredi izvor]

Duboko učenje je često predstavljeno kao korak prema shvatalju jakih AL^[273] i mnoge organizacije su bile zainteresovane u njegovu upotrebu za narolčite aplikacije. U decembru '13 Fejsbuk je unajmio Jan Le Cun da vodi njihovu laboratoriju veštačke inteligencije (Al) koja je delovala u Kaliforniji, Londonu i Nju Jorku. Al laboratorija će razviti tehnike dubokog učenja kako bi pomogla fejsbuku da obavi zadatke kao što su automatsko tagovanje raznih slika sa imenima ljudi na njima.^[274] ejsbuk je 2014.god. takođe uposlio Vladimira Vapika, pravnog graditelja (osnovala) Vapnik-Červonenk rada statističkog učenja i jednog od osnivača metoda podrške mašina vektora.^[275]

U martu 2013. Godine, Google je uposlio Ž.Hintona, i dva njegova diplomca Aleks K. and Ajla S. Njihov posao je bio da se usredsrede na proizvode naprednog mašinskog učenja na Google i da pomognu rad sa rastućom količinom podataka koju Google ima. Google je takođe kupio Hintonovu kompaniju. – DNN istraživanja.

Google je takođe kupio Deep Mind Tehnologije, Britansku kompaniju koja razvija sistem sposoban da nauči kako da igra Atari video igre korišćenjem samo raw piksele kao ulazne podatke. Predstavili su, 2015 godine Alpha Go sistem koji je razvio jedan od dugotrajnih ,, velikih izazova“ od Al učenjem igre Go tako dobro da pobedi prodesionalnog Go igrača.^[276]^[277]^[278]

Takođe je 2014. godine Majkrsoft razvio centar The Deep Learning Technology u njegovu MSR diviziju, neverovatni stručnjaci dubokog učenja za aktivnosti fokusiranih aplikacija.

Bajdi je uposlio Endrju Neg. Da vodi njihov novi Silicon Valley – istraživanja koja se odnose na laboratorijsko fokusiranje dubokog učenja.

Blipar je 2015, prestavio novi mobilni sa povećanim stvarnim aplikacijama koje u pravo vreme (realno) prepoznaju objekte dubokog učenja..^[279]

Kritike i komentari[uredi | uredi izvor]

Dato daleko-dostupno učećše veštačke inteligencije povezuje se sa shvatanjem da je duboko učenje pokazalo kao jedno od njegovih najmoćnijih tehnika, predmet je razumljivo privlačan i kritici i komentarima i u nekim slučajevima izvan kom. nauke.

Glavna kritika dubokog učenja podrazumeva nedostatak teorije okruženja mnogih modela. Većina učenja u dubokoj arh. je samo neki oblik spuštanja nagiba. Dok je spuštanje nagiba shvaćeno skoro, teorija okruženja ostalih algoritama, kao što je suprotno neslaganje je manje jasno. Metode str. 52 dubokog učenja su često gledanje kao crna kutija, sa mnogim potvrdama urađenim empiražno nego teoretski.

Na duboko učenje bi trebalo da se gleda kao na korak ka shvatanju jakog Al , a ne kao na nametnuto rešenje. Pored snage metoda dubokog učenja, i dalje nedostaje funkcionalna potreba za realizaciju ovog cilja u potpunosti. Psiholog Dženi Markes je zabeležio da:

"Realistično, duboko učenje je samo deo većeg izazova građenja pametnih mašina. Takvim tehnikama nedostaju načini prestavljanja uzročnih odnosa, nemaju jasne načine prikazivanja logičnih zaključaka, i one su još uvek udaljene od integrisanja apstraktnog znanja, kao što su informacije o tome kakvi su to predmeti, čemu služe i kako se koriste. Najmoćniji Al sistemi, kao Watson (...) koriste tehnike kao duboko učenje kao samo jedan element u veoma komlikovanom ancamblu tehnika, od statističke Bejsonove tehnike zaključaka ( izvođenja) do odbijanja rasuđivanja."^[280]

Do stepena gde se takva gledišta prepliću, ne nameravajući, duboko učenje će konačno obrazovati ništa više nego do primitivne diskriminatorske nivoe svestranog shvatanja buduće mašine, skorašnje udruživanje razmišljanja u pogledu umetnosti i veštačke inteligencije^[281] ponudili su alternativni(izmenjen) i opširan izgled. Prvo takvo razmišljanje je to da bi možda bilo moguće obučiti gomilu mašinske pronicljivosti da izvede vešt zadatak diskriminacije izmeđju ,,old master“ i amatera, a drugi je da takva osećajnost može u stvari da prestavlja osnovu ne-neznačajne mašine empatije. Predloženo je da će takva mogućnost biti u liniji: sa antropologijom koja označava učešće sa istanganosti kao ključnog elementa savremenog načina rada.(e.g., in ^[282]).

U daljoj preporuci ideje da će značajan stepen umetničke osećajnosti možda biti prisutan bez povezanih (relativnih) nižih nivoa, gde će bioiloške ili digitalne srodne hijerarhije objaviti seriju seriju grafičkog predstavljanja unutrašnjeg stanja dubokih (20-30 slojeva) neuronskih mreža pokušavajući da se razlikuju bez bitnih slučajnih podataka slika na kojima su bili obučeni^[283] čini se da prikazuju upadljivu vizuelnu privlačnost u svemu izvanrednog nivoa javne pažnje koju je ovaj rad zarobio : originalno istraživanje je primilo više od 1.000 komentara, a članak u Gardsuanu^[284] je duže vreme bio najčešće posećivan na tom web-sajtu.

Neke današnje popularne i uspešne arhitekture dubokog učenja objavljuju određena problematična ponašanja,^[285] kao što je samopouzdano razvrstavanje slučajnih podataka koje pripadaju porodičnoj kategoriji ne slučajnih slika ^[286] i ne određivanja minuskula narušavanjem rada tačno klasifikovanih slika.^[287] Stvaranju „Open hog“ , Ben Goertuen ,^[285]pretpostavljanja da su ova ponašanja izazvala ograničenjima u unutrašnjem predstavljanju naučena pomoću ovih arhitektura, i da bi ta ograničenja mogla da zaustave razvoj ovih arhitektura u heterogene sa više komponenti AGI arhitektura. Predloženo je da ovi zaključci mogu biti određeni pomoću razvijenih arhitektura dubokog učenja koje obrazuje stanje homologous/homologno – prema razlaganju slike – gramatike^[288] posmatrane bitnosti i događaja.^[285] Učenje gramatike (vizuelno ili lingvističko) od obučenih podataka biće ekvivalentno ( jednako) ograničenjima sistema do shvatanja zdravog razuma koje radi na stavovima i pravilima gramatičke i to je osnovni cilj kako ljudske jezičke tekovine tako i AL.^[289]

Vidi još[uredi | uredi izvor]

Konekcionalizam

Izvori[uredi | uredi izvor]

^ ^a ^b ^v ^g ^d ^đ ^e ^ž ^z Deng, L.; Yu, D. (2014). „Deep Learning: Methods and Applications” (PDF). Foundations and Trends in Signal Processing. 7: 3—4. doi:10.1561/2000000039.
^ ^a ^b ^v ^g ^d ^đ ^e Bengio, Yoshua (2009). „Learning Deep Architectures for AI” (PDF). Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006.
^ ^a ^b ^v ^g ^d ^đ Bengio, Y.; Courville, A.; Vincent, P. (2013). „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538 . doi:10.1109/tpami.2013.50.
^ ^a ^b ^v ^g ^d ^đ ^e ^ž ^z ⁱ ^j ^k ^l ^lj ^m Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks. 61: 85—117. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003.
^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). „Deep Learning”. Nature. 521: 436—444. doi:10.1038/nature14539.
^ Deep Machine Learning – A New Frontier in Artificial Intelligence Research – a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski.
^ Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016).
^ ^a ^b ^v ^g ^d Schmidhuber, Jürgen (2015). „Deep Learning”. Scholarpedia. 10 (11): 32832. doi:10.4249/scholarpedia.32832.
^ Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535 .
^ Song, H.A.; Lee, S. Y. (2013). „Hierarchical Representation Using NMF”. Neural Information Processing. Lectures Notes in Computer Sciences. 8226. Springer Berlin Heidelberg. str. 466—473. ISBN 978-3-642-42053-5. doi:10.1007/978-3-642-42054-2_58.
^ Olshausen, B. A. (1996). „Emergence of simple-cell receptive field properties by learning a sparse code for natural images”. Nature. 381 (6583): 607—609. doi:10.1038/381607a0.
^ Collobert, R. (april 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Korisna informacija se nalazi na: 7min 45s. CS1 održavanje: Format datuma (veza)
^ Gomes, L. (20. 10. 2014). „Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts”. IEEE Spectrum. CS1 održavanje: Format datuma (veza)
^ ^a ^b Rina Dechter (1986).
^ ^a ^b ^v ^g ^d J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992.
^ ^a ^b ^v ^g Hinton, G.E. „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947.
^ ^a ^b Balázs Csanád Csáji.
^ ^a ^b ^v Cybenko (1989). „Approximations by superpositions of sigmoidal functions” (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303—314. doi:10.1007/bf02551274.
^ ^a ^b ^v Hornik, Kurt (1991). „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks. 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t.
^ ^a ^b Haykin, Simon (1998).
^ ^a ^b Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
^ ^a ^b ^v ^g Murphy, K.P. (2012) Machine learning: a probabilistic perspective MIT Press
^ Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. (2012). „Improving neural networks by preventing co-adaptation of feature detectors”. arXiv:1207.0580  [math.LG].
^ ^a ^b Ivakhnenko, Alexey (1965). Cybernetic Predicting Devices. Kiev: Naukova Dumka.
^ ^a ^b ^v Ivakhnenko, Alexey (1971). „Polynomial theory of complex systems”. IEEE Transactions on Systems, Man and Cybernetics (4): 364—378.
^ ^a ^b Fukushima, K. (1980). „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”. Biol. Cybern. 36: 193—202. doi:10.1007/bf00344251.
^ ^a ^b ^v ^g Seppo Linnainmaa (1970).
^ ^a ^b Griewank, Andreas (2012).
^ ^a ^b P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," PhD thesis, Harvard University, 1974.
^ ^a ^b Paul Werbos (1982).
^ ^a ^b LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
^ ^a ^b Jürgen Schmidhuber (1993).
^ Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (1995-05-26). „The wake-sleep algorithm for unsupervised neural networks”. Science. 268 (5214): 1158—1161. doi:10.1126/science.7761831.
^ ^a ^b S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis.
^ S. Hochreiter et al., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks.
^ ^a ^b ^v ^g J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc.
^ ^a ^b ^v ^g ^d J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf.
^ ^a ^b ^v ^g J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.
^ Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition.
^ T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP.
^ Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks.
^ Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). „Research Developments and Directions in Speech Recognition and Understanding, Part 1”. IEEE Signal Processing Magazine. 26 (3): 75—80. doi:10.1109/msp.2009.932166.
^ Y. Bengio (1991).
^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). „Analysis of correlation structure for a neural predictive model with applications to speech recognition”. Neural Networks. 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2.
^ Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). „Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design”. Speech Communication. 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1.
^ ^a ^b ^v Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). „Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups”. IEEE Signal Processing Magazine. 29 (6): 82—97. doi:10.1109/msp.2012.2205597.
^ ^a ^b ^v Deng, L.; Hinton, G.; Kingsbury, B. (2013). „New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)”.
^ ^a ^b Keynote talk: Recent Developments in Deep Neural Networks.
^ ^a ^b Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014.
^ ^a ^b ^v ^g ^d Hochreiter, Sepp; and Schmidhuber, Jürgen; Long Short-Term Memory, Neural Computation, 9(8):1735–1780, 1997
^ Alex Graves, Douglas Eck, Nicole Beringer, and Jürgen Schmidhuber (2003).
^ ^a ^b ^v ^g Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006).
^ ^a ^b ^v ^g Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007).
^ ^a ^b ^v ^g ^d Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): Google voice search: faster and more accurate.
^ Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000).
^ Google Ngram chart of the usage of the expression "deep learning" posted by Jürgen Schmidhuber (2015) Online
^ G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
^ J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013."
^ New types of deep neural network learning for speech recognition and related applications: An overview - Microsoft Research
^ L. Deng et al.
^ L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013.
^ ^a ^b T. Sainath et al., "Convolutional neural networks for LVCSR," ICASSP, 2013.
^ ^a ^b Hasim Sak and Andrew Senior and Francoise Beaufays (2014).
^ ^a ^b Xiangang Li, Xihong Wu (2015).
^ ^a ^b Heiga Zen and Hasim Sak (2015).
^ ^a ^b Yann LeCun (2016).
^ D. Yu, L. Deng, G. Li, and F. Seide (2011).
^ ^a ^b NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
^ ^a ^b Yu, D.; Deng, L. (2014). „Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)”.
^ IEEE (2015)http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-receives-prestigious-ieee-technical-achievement-award.aspx
^ Oh, K.-S.; Jung, K. (2004). „GPU implementation of neural networks”. Pattern Recognition. 37 (6): 1311—1314. doi:10.1016/j.patcog.2004.01.013.
^ Chellapilla, K., Puri, S., and Simard, P. (2006).
^ ^a ^b D. C. Ciresan et al., "Deep Big Simple Neural Nets for Handwritten Digit Recognition," Neural Computation, 22, pp. 3207–3220, 2010.
^ R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," Proc. 26th Int.
^ Riesenhuber, M; Poggio, T (1999). „Hierarchical models of object recognition in cortex”. Nature Neuroscience. 2 (11): 1019—1025. doi:10.1038/14819.
^ Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. 1989 Backpropagation Applied to Handwritten Zip Code Recognition.
^ ^a ^b ^v Griewank, Andreas and Walther, A..
^ ^a ^b Henry J. Kelley (1960).
^ ^a ^b Arthur E. Bryson (1961, April).
^ ^a ^b Stuart Dreyfus (1962).
^ ^a ^b Stuart Dreyfus (1973).
^ ^a ^b Rumelhart, D. E., Hinton, G. E. & Williams, R. J. , "Learning representations by back-propagating errors" nature, 1974.
^ ^a ^b Stuart Dreyfus (1990).
^ ^a ^b Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.
^ Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (2009). „A Novel Connectionist System for Improved Unconstrained Handwriting Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855—868. doi:10.1109/tpami.2008.137.
^ Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation. (PDF). Lecture Notes in Computer Science. 2766. Springer.
^ Smolensky, P. (1986). „Information processing in dynamical systems: Foundations of harmony theory.”. Ur.: D. E. Rumelhart, J. L. McClelland, & the PDP Research Group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. 1. str. 194—281.
^ ^a ^b Hinton, G. E.; Osindero, S.; Teh, Y. (2006). „A fast learning algorithm for deep belief nets” (PDF). Neural Computation. 18 (7): 1527—1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527.
^ Hinton, G. (2009). „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947.
^ John Markoff (25. 6. 2012). „How Many Computers to Identify a Cat? 16,000.”. New York Times. CS1 održavanje: Format datuma (veza)
^ Ng, Andrew; Dean, Jeff (2012). „Building High-level Features Using Large Scale Unsupervised Learning”. arXiv:1112.6209 .
^ ^a ^b D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber.
^ Martines, H.; Bengio, Y.; Yannakakis, G. N. (2013). „Learning Deep Physiological Models of Affect”. IEEE Computational Intelligence. 8 (2): 20—33. doi:10.1109/mci.2013.2247823.
^ D. C. Ciresan, U. Meier, J. Masci, J. Schmidhuber.
^ D. Ciresan, A. Giusti, L. Gambardella, J. Schmidhuber.
^ Krizhevsky, A., Sutskever, I. and Hinton, G. E. (2012).
^ D. C. Ciresan, U. Meier, J. Schmidhuber.
^ D. J. Felleman and D. C. Van Essen, "Distributed hierarchical processing in the primate cerebral cortex," Cerebral Cortex, 1, pp. 1-47, 1991.
^ J. Weng, "Natural and Artificial Intelligence: Introduction to Computational Brain-Mind," BMI Press, ISBN 978-0-9858757-2-5, 2012.
^ J. Weng, "Why Have We Passed `Neural Networks Do not Abstract Well'?," Natural Intelligence: the INNS Magazine, vol. 1, no.1, pp. 13-22, 2011.
^ Z. Ji, J. Weng, and D. Prokhorov, "Where-What Network 1: Where and What Assist Each Other Through Top-down Connections," Proc. 7th International Conference on Development and Learning (ICDL'08), Monterey, CA, Aug. 9-12, pp. 1-6, 2008.
^ X. Wu, G. Guo, and J. Weng, "Skull-closed Autonomous Development: WWN-7 Dealing with Scales," Proc.
^ Szegedy, Christian, Alexander Toshev, and Dumitru Erhan.
^ Felix Gers, Nicholas Schraudolph, and Jürgen Schmidhuber (2002).
^ ^a ^b ^v Felix A. Gers and Jürgen Schmidhuber.
^ ^a ^b ^v I. Sutskever, O. Vinyals, Q. Le (2014) "Sequence to Sequence Learning with Neural Networks," Proc.
^ ^a ^b Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu (2016).
^ ^a ^b Dan Gillick, Cliff Brunk, Oriol Vinyals, Amarnag Subramanya (2015).
^ T. Mikolov et al., "Recurrent neural network based language model," Interspeech, 2010.
^ LeCun, Y.; et al. „Gradient-based learning applied to document recognition”. Proceedings of the IEEE. 86 (11): 2278—2324. doi:10.1109/5.726791.
^ Eiji Mizutani, Stuart Dreyfus, Kenichi Nishio (2000).
^ ^a ^b Bryson, A.E.; W.F. Denham; S.E. Dreyfus.
^ Stuart Russell; Peter Norvig. Artificial Intelligence A Modern Approach. str. 578. „The most popular method for learning in multilayer networks is called Back-propagation.”
^ Arthur Earl Bryson, Yu-Chi Ho (1969). Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing. str. 481.
^ Seppo Linnainmaa (1976).
^ Paul Werbos (1974).
^ Eric A. Wan (1993).
^ G. E. Hinton et al.
^ Y. Bengio et al.
^ ^a ^b ^v ^g G. E. Hinton., "A Practical Guide to Training Restricted Boltzmann Machines," Tech.
^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). „Extreme learning machine: theory and applications”. Neurocomputing. 70 (1): 489—501. doi:10.1016/j.neucom.2005.12.126.
^ Widrow, Bernard; et al. (2013). „The no-prop algorithm: A new learning algorithm for multilayer neural networks”. Neural Networks. 37: 182—188. doi:10.1016/j.neunet.2012.09.020.
^ Ollivier, Yann; Charpiat, Guillaume (2015). „Training recurrent networks without backtracking”. arXiv:1507.07680 .
^ Aleksander, Igor, et al.
^ Alexey Grigorevich Ivakhnenko and V. G. Lapa and R. N. McDonough (1967).
^ Alexey Grigorevich Ivakhnenko (1968).
^ T. Kondo and J. Ueno (2008).
^ Unsupervised Feature Learning and Deep Learning Tutorial
^ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2014). „Going Deeper with Convolutions”. Computing Research Repository. arXiv:1409.4842 .
^ Goller, C.; Küchler, A. „Learning task-dependent distributed representations by backpropagation through structure”. Neural Networks, 1996., IEEE. doi:10.1109/ICNN.1996.548916.
^ Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. „Parsing Natural Scenes and Natural Language with Recursive Neural Networks”. The 28th International Conference on Machine Learning (ICML 2011).
^ Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). EMNLP 2013.
^ Justin Bayer, Daan Wierstra, Julian Togelius, and Jürgen Schmidhuber (2009).
^ Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, Andrew Ng (2014).
^ Fan, Y., Qian, Y., Xie, F., and Soong, F. K. (2014).
^ Bo Fan, Lijuan Wang, Frank K. Soong, and Lei Xie (2015).
^ Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan (2015).
^ Larochelle, H.; et al. „An empirical evaluation of deep architectures on problems with many factors of variation”. Proc. 24th Int. Conf. Machine Learning. 2007: 473—480.
^ G. E. Hinton., "Training Product of Experts by Minimizing Contrastive Divergence," Neural Computation, 14, pp. 1771–1800, 2002.
^ Fischer, A.; Igel, C. (2014). „Training Restricted Boltzmann Machines: An Introduction” (PDF). Pattern Recognition. 47: 25—39. doi:10.1016/j.patcog.2013.05.025.
^ Convolutional Deep Belief Networks on CIFAR-10
^ Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations
^ ^a ^b D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013.
^ D. Graupe," Large memory storage and retrieval (LAMSTAR) network, US Patent 5920852 A", April 1996.
^ D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp.203-274.
^ V. P. Nigam, D. Graupe, (2004),"A neural-network-based detection of epilepsy", Neurological Research, 26(1): 55-60.
^ Waxman, J.; Graupe, D.; Carley, C W. (2010). „Automated prediction of apnea and hypopnea, using a LAMSTAR artificial neural network”. American Journal of Respiratory and Critical Care Medicine. 171 (7): 727—733.
^ ^a ^b Graupe, D.; Graupe, M. H.; Zhong, Y.; Jackson, R. K. (2008). „Blind adaptive filtering for non-invasive extraction of the fetal electrocardiogram and its non-stationarities”. Proc. Inst. Mech Eng., UK, Part H: Journal of Engineering in Medicine. 222 (8): 1221—1234. doi:10.1243/09544119jeim417.
^ D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp.240-253.
^ ^a ^b Graupe, D.; Abon, J. (2002). „A Neural Network for Blind Adaptive Filtering of Unknown Noise from Speech”. Intelligent Engineering Systems Through Artificial Neural Networks. 12: 683—688.
^ Homayon, S. (2015). „Iris Recognition for Personal Identification Using LAMSTAR Neural Network”. International Journal of Computer Science and Information Technology. 7 (1).
^ D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers", 2013, pp.253-274.
^ Girado, J. I.; Sandin, D. J.; DeFanti, T. A. (2003). „Real-time camera-based face detection using amodified LAMSTAR neural network system”. Proc. SPIE 5015, Applications of Artificial Neural Networks in Image Processing VIII. doi:10.1117/12.477405.
^ Venkatachalam, V; Selvan, S. (2007). „Intrusion Detection using an Improved Competitive Learning Lamstar Network”. International Journal of Computer Science and Network Security. 7 (2): 255—263.
^ D. Graupe, M. Smollack, (2007), "Control of unstable nonlinear and nonstationary systems using LAMSTAR neural networks", Proceedings of 10th IASTED on Intelligent Control, Sect.592, 141-144.
^ D. Graupe, C. Contaldi, A. Sattiraju, (2015) "Comparison of Lamstar NN & Convolutional NN – Character Recognition".
^ Graupe, H. Kordylewski (1996). „Network based on SOM (self-organizing-map) modules combined with statistical decision tools”. Proc. IEEE 39th Midwest Conf. on Circuits and Systems. 1: 471—475.
^ D, Graupe, H. Kordylewski, (1998), "A large memory storage and retrieval neural network for adaptive retrieval and diagnosis", International Journal of Software Engineering and Knowledge Engineering, 1998.
^ Kordylewski, H.; Graupe, D; Liu, K. „A novel large-memory neural network as an aid in medical diagnosis applications”. IEEE Transactions on Information Technology in Biomedicine. 5 (3): 202—209. doi:10.1109/4233.945291.
^ Schneider, N.C.; Graupe (2008). „A modified LAMSTAR neural network and its applications”. International journal of neural systems. 18 (4): 331—337. doi:10.1142/s0129065708001634.
^ D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, p.217.
^ ^a ^b Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). „A better way to pretrain deep Boltzmann machines” (PDF). Advances in Neural. 3: 1—9.
^ ^a ^b Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). „Efficient Learning of Deep Boltzmann Machines” (PDF). 3: 448—455.
^ Bengio, Yoshua; LeCun, Yann (2007). „Scaling Learning Algorithms towards AI” (PDF). 1: 1—41.
^ Larochelle, Hugo; Salakhutdinov, Ruslan (2010). „Efficient Learning of Deep Boltzmann Machines” (PDF): 693—700.
^ ^a ^b ^v ^g Vincent, Pascal; Larochelle, Hugo; Lajoie, Isabelle; Bengio, Yoshua; Manzagol, Pierre-Antoine (2010). „Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion”. The Journal of Machine Learning Research. 11: 3371—3408.
^ Dana H. Ballard (1987).
^ ^a ^b ^v Deng, Li; Yu, Dong (2011). „Deep Convex Net: A Scalable Architecture for Speech Pattern Classification” (PDF). Proceedings of the Interspeech: 2285—2288.
^ ^a ^b ^v Deng, Li; Yu, Dong; Platt, John (2012). „Scalable stacking and learning for building deep architectures” (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133—2136.
^ David, Wolpert (1992). „Stacked generalization”. Neural Networks. 5 (2): 241—259. doi:10.1016/S0893-6080(05)80023-1.
^ Bengio, Yoshua (2009). „Learning deep architectures for AI”. Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006.
^ Hutchinson, Brian; Deng, Li; Yu, Dong (2012). „Tensor deep stacking networks”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1—15: 1944—1957. doi:10.1109/tpami.2012.268.
^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). „Reducing the Dimensionality of Data with Neural Networks”. Science. 313: 504—507. PMID 16873662. doi:10.1126/science.1127647.
^ Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). „Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition”. IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30—42. doi:10.1109/tasl.2011.2134090.
^ Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). „Acoustic Modeling Using Deep Belief Networks”. IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 14—22. doi:10.1109/tasl.2011.2109382.
^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). „A Spike and Slab Restricted Boltzmann Machine” (PDF). JMLR: Workshop and Conference Proceeding. 15: 233—241.
^ ^a ^b ^v Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). „Unsupervised Models of Images by Spike-and-Slab RBMs”. Proceedings of the 28th International Conference on Machine Learning (PDF). 10. str. 1—8.
^ Mitchell, T; Beauchamp, J (1988). „Bayesian Variable Selection in Linear Regression”. Journal of the American Statistical Association. 83 (404): 1023—1032. doi:10.1080/01621459.1988.10478694.
^ Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). „Exploring Strategies for Training Deep Neural Networks”. The Journal of Machine Learning Research. 10: 1—40.
^ Coates, Adam; Carpenter, Blake (2011). „Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning”: 440—445.
^ Lee, Honglak; Grosse, Roger (2009). „Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations”. Proceedings of the 26th Annual International Conference on Machine Learning: 1—8.
^ Lin, Yuanqing; Zhang, Tong (2010). „Deep Coding Network” (PDF). Advances in Neural . . .: 1—9.
^ Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). „Sparse Feature Learning for Deep Belief Networks” (PDF). Advances in Neural Information Processing Systems. 23: 1—8.
^ Socher, Richard; Lin, Clif (2011). „Parsing Natural Scenes and Natural Language with Recursive Neural Networks” (PDF). Proceedings of the 26th International Conference on Machine Learning.
^ Taylor, Graham; Hinton, Geoffrey (2006). „Modeling Human Motion Using Binary Latent Variables” (PDF). Advances in Neural Information Processing Systems.
^ Vincent, Pascal; Larochelle, Hugo (2008). „Extracting and composing robust features with denoising autoencoders”. Proceedings of the 25th international conference on Machine learning - ICML '08: 1096—1103.
^ Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). „Learning overhypotheses with hierarchical Bayesian models”. Developmental Science. 10 (3): 307—21. PMID 17444972. doi:10.1111/j.1467-7687.2007.00585.x.
^ Xu, Fei; Tenenbaum, Joshua (2007). „Word learning as Bayesian inference”. Psychol. Rev. 114 (2): 245—72. PMID 17500627. doi:10.1037/0033-295X.114.2.245.
^ Chen, Bo; Polatkan, Gungor (2011). „The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning” (PDF). Machine Learning . . .
^ Fei-Fei, Li; Fergus, Rob (2006). „One-shot learning of object categories”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594—611. PMID 16566508. doi:10.1109/TPAMI.2006.79.
^ Rodriguez, Abel; Dunson, David (2008). „The Nested Dirichlet Process”. Journal of the American Statistical Association. 103 (483): 1131—1154. doi:10.1198/016214508000000553.
^ Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). „Learning with Hierarchical-Deep Models”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35: 1958—71. doi:10.1109/TPAMI.2012.269.
^ ^a ^b Chalasani, Rakesh; Principe, Jose (2013). „Deep Predictive Coding Networks”: 1—13. arXiv:1301.3541 .
^ Mnih, Volodymyr; et al. (2015). „Human-level control through deep reinforcement learning”. Nature. 518: 529—533. PMID 25719670. doi:10.1038/nature14236.
^ Hinton, Geoffrey E. "Distributed representations." (1984)
^ S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory," Proc. 14th Annual Conf. of the Cog.
^ Mozer, M. C., & Das, S. (1993).
^ Schmidhuber, J. (1992). „Learning to control fast-weight memories: An alternative to recurrent nets”. Neural Computation. 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131.
^ Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). „Learning precise timing with LSTM recurrent networks”. JMLR. 3: 115—143.
^ Jürgen Schmidhuber (1993). „An introspective network that can learn to run its own weight change algorithm”. In Proc. of the Intl. Conf. on Artificial Neural Networks, Brighton. IEE. str. 191—195.
^ Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). „Learning to Learn Using Gradient Descent”. ICANN. 2130: 87—94.
^ Grefenstette, Edward, et al.
^ Atkeson, Christopher G., and Stefan Schaal.
^ Salakhutdinov, Ruslan, and Geoffrey Hinton.
^ Le, Quoc V.; Mikolov, Tomas (2014). „Distributed representations of sentences and documents”. arXiv:1405.4053 .
^ Graves, Alex, Greg Wayne, and Ivo Danihelka.
^ Weston, Jason, Sumit Chopra, and Antoine Bordes.
^ Sukhbaatar, Sainbayar, et al.
^ Bordes, Antoine, et al.
^ Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly.
^ Kurach,Karol, Andrychowicz, Marcin and Sutskever,Ilya.
^ N. Kalchbrenner and P. Blunsom, "Recurrent continuous translation models," in EMNLP’2013, 2013.
^ I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks," in NIPS’2014, 2014.
^ K. Cho, B. van Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, "Learning phrase representations using RNN encoder-decoder for statistical machine translation," in Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), Oct. 2014
^ Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio.
^ Cho, Youngmin (2012). „Kernel Methods for Deep Learning” (PDF): 1—9.
^ Scholkopf, B; Smola, Alexander (1998). „Nonlinear component analysis as a kernel eigenvalue problem”. Neural computation. (44): 1299—1319. doi:10.1162/089976698300017467.
^ L. Deng, G. Tur, X. He, and D. Hakkani-Tur.
^ TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia.
^ Abdel-Hamid, O.; et al. (2014). „Convolutional Neural Networks for Speech Recognition”. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533—1545. doi:10.1109/taslp.2014.2339736.
^ Deng, L.; Platt, J. (2014). „Ensemble Deep Learning for Speech Recognition”. Proc. Interspeech.
^ Yu, D.; Deng, L. (2010). „Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition”. NIPS Workshop on Deep Learning and Unsupervised Feature Learning.
^ Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al.
^ Deng, L.; Li, Xiao (2013). „Machine Learning Paradigms for Speech Recognition: An Overview”. IEEE Transactions on Audio, Speech, and Language Processing. 21: 1060—1089. doi:10.1109/tasl.2013.2244083.
^ L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder.
^ Z. Tuske, P. Golik, R. Schlüter and H. Ney (2014).
^ McMillan, R. "How Skype Used AI to Build Its Amazing New Language Translator", Wire, Dec. 2014.
^ Hannun et al. (2014) "Deep Speech: Scaling up end-to-end speech recognition", arXiv:1412.5567.
^ Ron Schneiderman (2015) "Accuracy, Apps Advance Speech Recognition --- Interviews with Vlad Sejnoha and Li Deng", IEEE Signal Processing Magazine, Jan, 2015.
^ MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges
^ D. Ciresan, U. Meier, J. Schmidhuber., "Multi-column Deep Neural Networks for Image Classification," Technical Report No. IDSIA-04-12, 2012.
^ D. Ciresan, A. Giusti, L.M. Gambardella, J. Schmidhuber (2013).
^ Vinyals et al. (2014)."
^ Fang et al. (2014)."
^ Kiros et al. (2014).
^ Zhong, S.; Liu, Y.; Liu, Y. „Bilinear Deep Learning for Image Classification”. Proceedings of the 19th ACM International Conference on Multimedia. 11: 343—352. |access-date= zahteva |url= (pomoć)CS1 održavanje: Format datuma (veza)
^ Nvidia Demos a Car Computer Trained with "Deep Learning" (2015-01-06), David Talbot, MIT Technology Review
^ Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin., "A Neural Probabilistic Language Model," Journal of Machine Learning Research 3 (2003) 1137–1155, 2003.
^ Goldberg, Yoav; Levy, Omar. „word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method” (PDF). Arxiv. Pristupljeno 26. 10. 2014. CS1 održavanje: Format datuma (veza)
^ ^a ^b Socher, Richard; Manning, Christopher. „Deep Learning for NLP” (PDF). Pristupljeno 26. 10. 2014. CS1 održavanje: Format datuma (veza)
^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). „Parsing With Compositional Vector Grammars” (PDF). Proceedings of the ACL 2013 conference.
^ Socher, Richard (2013). „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). EMNLP 2013.
^ Y. Shen, X. He, J. Gao, L. Deng, and G. Mesnil (2014) " A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval," Proc.
^ P. Huang, X. He, J. Gao, L. Deng, A. Acero, and L. Heck (2013) "Learning Deep Structured Semantic Models for Web Search using Clickthrough Data," Proc.
^ Mesnil, G., Dauphin, Y., Yao, K., Bengio, Y., Deng, L., Hakkani-Tur, D., He, X., Heck, L., Tur, G., Yu, D. and Zweig, G., 2015.
^ J. Gao, X. He, W. Yih, and L. Deng(2014) "Learning Continuous Phrase Representations for Translation Modeling," Proc.
^ J. Gao, P. Pantel, M. Gamon, X. He, L. Deng (2014) "Modeling Interestingness with Deep Neural Networks," Proc.
^ J. Gao, X. He, L. Deng (2014) "Deep Learning for Natural Language Processing: Theory and Practice (Tutorial)," CIKM.
^ Arrowsmith, J; Miller, P (2013). „Trial watch: Phase II and phase III attrition rates 2011-2012”. Nature Reviews Drug Discovery. 12 (8): 569. PMID 23903212. doi:10.1038/nrd4090.
^ Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). „Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project”. Drug Discovery Today. 20: 505—513. PMID 25582842. doi:10.1016/j.drudis.2014.12.014.
^ "Announcement of the winners of the Merck Molecular Activity Challenge" https://www.kaggle.com/c/MerckActivity/details/winners.
^ Dahl, G. E.; Jaitly, N.; & Salakhutdinov, R. (2014) "Multi-task Neural Networks for QSAR Predictions," ArXiv, 2014.
^ "Toxicology in the 21st century Data Challenge" https://tripod.nih.gov/tox21/challenge/leaderboard.jsp
^ "NCATS Announces Tox21 Data Challenge Winners" http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html
^ Unterthiner, T.; Mayr, A.; Klambauer, G.; Steijaert, M.; Ceulemans, H.; Wegner, J. K.; & Hochreiter, S. (2014) "Deep Learning as an Opportunity in Virtual Screening".
^ Unterthiner, T.; Mayr, A.; Klambauer, G.; & Hochreiter, S. (2015) „"Toxicity Prediction using Deep Learning"”. arXiv:pdf/1503.01445v1  Proverite vrednost parametra |arxiv= (pomoć). .
^ Ramsundar, B.; Kearnes, S.; Riley, P.; Webster, D.; Konerding, D.;& Pande, V. (2015) "Massively Multitask Networks for Drug Discovery".
^ Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (2015-10-09). „AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery”. arXiv:1510.02855 .
^ „Toronto startup has a faster way to discover effective medicines”. The Globe and Mail. Pristupljeno 2015-11-09.
^ „Startup Harnesses Supercomputers to Seek Cures”. KQED Future of You (na jeziku: engleski). Pristupljeno 2015-11-09.
^ Toronto startup has a faster way to discover effective medicines - The Globe and Mail
^ Tkachenko, Yegor.
^ Van den Oord, Aaron, Sander Dieleman, and Benjamin Schrauwen.
^ Elkahky, Ali Mamdouh, Yang Song, and Xiaodong He. "A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems."
^ Davide Chicco, Peter Sadowski, and Pierre Baldi, "Deep autoencoder neural networks for gene ontology annotation predictions".
^ Utgoff, P. E.; Stracuzzi, D. J. (2002). „Many-layered learning”. Neural Computation. 14: 2497—2529. doi:10.1162/08997660260293319.
^ J. Elman et al., "Rethinking Innateness," 1996.
^ Shrager, J.; Johnson, MH (1996). „Dynamic plasticity influences the emergence of function in a simple cortical array”. Neural Networks. 9 (7): 1119—1129. doi:10.1016/0893-6080(96)00033-0.
^ Quartz, SR; Sejnowski, TJ (1997). „The neural basis of cognitive development: A constructivist manifesto”. Behavioral and Brain Sciences. 20 (4): 537—556. doi:10.1017/s0140525x97001581.
^ S. Blakeslee., "In brain's early growth, timetable may be critical," The New York Times, Science Section, pp.
^ {BUFILL} E. Bufill, J. Agusti, R. Blesa., "Human neoteny revisited: The case of synaptic plasticity," American Journal of Human Biology, 23 (6), pp. 729–739, 2011.
^ J. Shrager and M. H. Johnson., "Timing in the development of cortical function: A computational approach," In B. Julesz and I. Kovacs (Eds.
^ D. Hernandez., "The Man Behind the Google Brain: Andrew Ng and the Quest for the New AI," http://www.wired.com/wiredenterprise/2013/05/neuro-artificial-intelligence/all/.
^ C. Metz., "Facebook's 'Deep Learning' Guru Reveals the Future of AI," http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/.
^ V. Vapnik., "research.facebook.com" .
^ „Google AI algorithm masters ancient game of Go”. Nature News & Comment. Pristupljeno 2016-01-30.
^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; van den Driessche, George; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (2016-01-28). „Mastering the game of Go with deep neural networks and tree search”. Nature (na jeziku: engleski). 529 (7587): 484—489. ISSN 0028-0836. doi:10.1038/nature16961.
^ „A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review”. MIT Technology Review. Pristupljeno 2016-01-30.
^ „Blippar Demonstrates New Real-Time Augmented Reality App”. TechCrunch.
^ G. Marcus., "Is "Deep Learning" a Revolution in Artificial Intelligence?"
^ Smith, G. W. (27. 3. 2015). „Art and Artificial Intelligence”. ArtEnt. Pristupljeno 27. 3. 2015. CS1 održavanje: Format datuma (veza)
^ Knight, Will (7. 11. 2001). „Tools point to African origin for human behaviour”. New Scientist. Pristupljeno 7. 10. 2015. CS1 održavanje: Format datuma (veza)
^ Alexander Mordvintsev, Christopher Olah, and Mike Tyka (17. 6. 2015). „Inceptionism: Going Deeper into Neural Networks”. Google Research Blog. Pristupljeno 20. 6. 2015.
^ Alex Hern (18. 6. 2015). „Yes, androids do dream of electric sheep”. The Guardian. Pristupljeno 20. 6. 2015. CS1 održavanje: Format datuma (veza)
^ ^a ^b ^v Ben Goertzel.
^ Nguyen, Anh, Jason Yosinski, and Jeff Clune.
^ Szegedy, Christian, et al.
^ Zhu, S.C.; Mumford, D. „A stochastic grammar of images”. Found. Trends Comput. Graph. Vis. 2 (4): 259—362. doi:10.1561/0600000018.
^ Jason Eisner, Deep Learning of Recursive Structure: Grammar Induction, http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/

Spoljašnje veze[uredi | uredi izvor]

Deep Learning Libraries by Language

[BOOK2014-1] v ^g ^d ^đ ^e ^ž ^z Deng, L.; Yu, D. (2014). „Deep Learning: Methods and Applications” (PDF). Foundations and Trends in Signal Processing. 7: 3—4. doi:10.1561/2000000039.

[BENGIODEEP-2] v ^g ^d ^đ ^e Bengio, Yoshua (2009). „Learning Deep Architectures for AI” (PDF). Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006.

[BENGIO2012-3] v ^g ^d ^đ Bengio, Y.; Courville, A.; Vincent, P. (2013). „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538 . doi:10.1109/tpami.2013.50.

[SCHIDHUB-4] v ^g ^d ^đ ^e ^ž ^z ⁱ ^j ^k ^l ^lj ^m Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks. 61: 85—117. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003.

[NatureBengio-5] Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). „Deep Learning”. Nature. 521: 436—444. doi:10.1038/nature14539.

[6] Deep Machine Learning – A New Frontier in Artificial Intelligence Research – a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski.

[goodfellow2016-7] Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016).

[scholarpedia-8] v ^g ^d Schmidhuber, Jürgen (2015). „Deep Learning”. Scholarpedia. 10 (11): 32832. doi:10.4249/scholarpedia.32832.

[9] Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535 .

[10] Song, H.A.; Lee, S. Y. (2013). „Hierarchical Representation Using NMF”. Neural Information Processing. Lectures Notes in Computer Sciences. 8226. Springer Berlin Heidelberg. str. 466—473. ISBN 978-3-642-42053-5. doi:10.1007/978-3-642-42054-2_58.

[11] Olshausen, B. A. (1996). „Emergence of simple-cell receptive field properties by learning a sparse code for natural images”. Nature. 381 (6583): 607—609. doi:10.1038/381607a0.

[12] Collobert, R. (april 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Korisna informacija se nalazi na: 7min 45s. CS1 održavanje: Format datuma (veza)

[13] Gomes, L. (20. 10. 2014). „Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts”. IEEE Spectrum. CS1 održavanje: Format datuma (veza)

[dechter1986-14] Rina Dechter (1986).

[SCHMID1992-15] v ^g ^d J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992.

[SCHOLARDBNS-16] v ^g Hinton, G.E. „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947.

[ReferenceB-17] Balázs Csanád Csáji.

[cyb-18] v Cybenko (1989). „Approximations by superpositions of sigmoidal functions” (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303—314. doi:10.1007/bf02551274.

[horn-19] v Hornik, Kurt (1991). „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks. 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t.

[Haykin,_Simon_1998-20] Haykin, Simon (1998).

[Hassoun,_M._1995_p._48-21] Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48

[MURPHY-22] v ^g Murphy, K.P. (2012) Machine learning: a probabilistic perspective MIT Press

[DROPOUT-23] Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. (2012). „Improving neural networks by preventing co-adaptation of feature detectors”. arXiv:1207.0580  [math.LG].

[ivak1965-24] Ivakhnenko, Alexey (1965). Cybernetic Predicting Devices. Kiev: Naukova Dumka.

[ivak1971-25] v Ivakhnenko, Alexey (1971). „Polynomial theory of complex systems”. IEEE Transactions on Systems, Man and Cybernetics (4): 364—378.

[FUKU1980-26] Fukushima, K. (1980). „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”. Biol. Cybern. 36: 193—202. doi:10.1007/bf00344251.

[lin1970-27] v ^g Seppo Linnainmaa (1970).

[grie2012-28] Griewank, Andreas (2012).

[WERBOS1974-29] P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," PhD thesis, Harvard University, 1974.

[werbos1982-30] Paul Werbos (1982).

[LECUN1989-31] LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.

[schmidhuber1993-32] Jürgen Schmidhuber (1993).

[33] Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (1995-05-26). „The wake-sleep algorithm for unsupervised neural networks”. Science. 268 (5214): 1158—1161. doi:10.1126/science.7761831.

[HOCH1991-34] S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis.

[HOCH2001-35] S. Hochreiter et al., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks.

[Weng1992-36] v ^g J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc.

[Weng1993-37] v ^g ^d J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf.

[Weng1997-38] v ^g J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.

[Morgan1993-39] Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition.

[Robinson1992-40] T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP.

[Waibel1989-41] Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks.

[Baker2009-42] Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). „Research Developments and Directions in Speech Recognition and Understanding, Part 1”. IEEE Signal Processing Magazine. 26 (3): 75—80. doi:10.1109/msp.2009.932166.

[Bengio1991-43] Y. Bengio (1991).

[Deng1994-44] Deng, L.; Hassanein, K.; Elmasry, M. (1994). „Analysis of correlation structure for a neural predictive model with applications to speech recognition”. Neural Networks. 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2.

[Heck2000-45] Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). „Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design”. Speech Communication. 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1.

[HintonDengYu2012-46] v Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). „Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups”. IEEE Signal Processing Magazine. 29 (6): 82—97. doi:10.1109/msp.2012.2205597.

[ReferenceICASSP2013-47] v Deng, L.; Hinton, G.; Kingsbury, B. (2013). „New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)”.

[HintonKeynoteICASSP2013-48] Keynote talk: Recent Developments in Deep Neural Networks.

[interspeech2014Keynote-49] Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014.

[lstm-50] v ^g ^d Hochreiter, Sepp; and Schmidhuber, Jürgen; Long Short-Term Memory, Neural Computation, 9(8):1735–1780, 1997

[graves2003-51] Alex Graves, Douglas Eck, Nicole Beringer, and Jürgen Schmidhuber (2003).

[graves2006-52] v ^g Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006).

[fernandez2007keyword-53] v ^g Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007).

[sak2015-54] v ^g ^d Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): Google voice search: faster and more accurate.

[aizenberg2000-55] Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000).

[DLchart-56] Google Ngram chart of the usage of the expression "deep learning" posted by Jürgen Schmidhuber (2015) Online

[HINTON2007-57] G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11, pp. 428–434, 2007.

[SCHMID1991-58] J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013."

[59] New types of deep neural network learning for speech recognition and related applications: An overview - Microsoft Research

[MS2013-60] L. Deng et al.

[CNNspeech2013-61] L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013.

[SAIN2013-62] T. Sainath et al., "Convolutional neural networks for LVCSR," ICASSP, 2013.

[sak2014-63] Hasim Sak and Andrew Senior and Francoise Beaufays (2014).

[liwu2015-64] Xiangang Li, Xihong Wu (2015).

[zen2015-65] Heiga Zen and Hasim Sak (2015).

[lecun2016slides-66] Yann LeCun (2016).

[patent2011-67] D. Yu, L. Deng, G. Li, and F. Seide (2011).

[NIPS2009-68] NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).

[ReferenceA-69] Yu, D.; Deng, L. (2014). „Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)”.

[70] IEEE (2015)http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-receives-prestigious-ieee-technical-achievement-award.aspx

[jung2004-71] Oh, K.-S.; Jung, K. (2004). „GPU implementation of neural networks”. Pattern Recognition. 37 (6): 1311—1314. doi:10.1016/j.patcog.2004.01.013.

[chellapilla2006-72] Chellapilla, K., Puri, S., and Simard, P. (2006).

[CIRESAN2010-73] D. C. Ciresan et al., "Deep Big Simple Neural Nets for Handwritten Digit Recognition," Neural Computation, 22, pp. 3207–3220, 2010.

[RAINA2009-74] R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," Proc. 26th Int.

[75] Riesenhuber, M; Poggio, T (1999). „Hierarchical models of object recognition in cortex”. Nature Neuroscience. 2 (11): 1019—1025. doi:10.1038/14819.

[LeCun1989-76] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. 1989 Backpropagation Applied to Handwritten Zip Code Recognition.

[grie2008-77] v Griewank, Andreas and Walther, A..

[kelley1960-78] Henry J. Kelley (1960).

[bryson1961-79] Arthur E. Bryson (1961, April).

[dreyfus1962-80] Stuart Dreyfus (1962).

[dreyfus1973-81] Stuart Dreyfus (1973).

[ROMELNAT-82] Rumelhart, D. E., Hinton, G. E. & Williams, R. J. , "Learning representations by back-propagating errors" nature, 1974.

[dreyfus1990-83] Stuart Dreyfus (1990).

[graves2009-84] Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.

[85] Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (2009). „A Novel Connectionist System for Improved Unconstrained Handwriting Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855—868. doi:10.1109/tpami.2008.137.

[86] Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation. (PDF). Lecture Notes in Computer Science. 2766. Springer.

[smolensky1986-87] Smolensky, P. (1986). „Information processing in dynamical systems: Foundations of harmony theory.”. Ur.: D. E. Rumelhart, J. L. McClelland, & the PDP Research Group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. 1. str. 194—281.

[hinton2006-88] Hinton, G. E.; Osindero, S.; Teh, Y. (2006). „A fast learning algorithm for deep belief nets” (PDF). Neural Computation. 18 (7): 1527—1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527.

[89] Hinton, G. (2009). „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947.

[markoff2012-90] John Markoff (25. 6. 2012). „How Many Computers to Identify a Cat? 16,000.”. New York Times. CS1 održavanje: Format datuma (veza)

[ng2012-91] Ng, Andrew; Dean, Jeff (2012). „Building High-level Features Using Large Scale Unsupervised Learning”. arXiv:1112.6209 .

[ciresan2011-92] D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber.

[martines2013-93] Martines, H.; Bengio, Y.; Yannakakis, G. N. (2013). „Learning Deep Physiological Models of Affect”. IEEE Computational Intelligence. 8 (2): 20—33. doi:10.1109/mci.2013.2247823.

[ciresan2011NN-94] D. C. Ciresan, U. Meier, J. Masci, J. Schmidhuber.

[ciresan2012NIPS-95] D. Ciresan, A. Giusti, L. Gambardella, J. Schmidhuber.

[krizhevsky2012-96] Krizhevsky, A., Sutskever, I. and Hinton, G. E. (2012).

[ciresan2011CVPR-97] D. C. Ciresan, U. Meier, J. Schmidhuber.

[VanEssen1991-98] D. J. Felleman and D. C. Van Essen, "Distributed hierarchical processing in the primate cerebral cortex," Cerebral Cortex, 1, pp. 1-47, 1991.

[Weng2012-99] J. Weng, "Natural and Artificial Intelligence: Introduction to Computational Brain-Mind," BMI Press, ISBN 978-0-9858757-2-5, 2012.

[Weng2011-100] J. Weng, "Why Have We Passed `Neural Networks Do not Abstract Well'?," Natural Intelligence: the INNS Magazine, vol. 1, no.1, pp. 13-22, 2011.

[Weng08-101] Z. Ji, J. Weng, and D. Prokhorov, "Where-What Network 1: Where and What Assist Each Other Through Top-down Connections," Proc. 7th International Conference on Development and Learning (ICDL'08), Monterey, CA, Aug. 9-12, pp. 1-6, 2008.

[Weng13-102] X. Wu, G. Guo, and J. Weng, "Skull-closed Autonomous Development: WWN-7 Dealing with Scales," Proc.

[103] Szegedy, Christian, Alexander Toshev, and Dumitru Erhan.

[gers2002-104] Felix Gers, Nicholas Schraudolph, and Jürgen Schmidhuber (2002).

[gers2001-105] v Felix A. Gers and Jürgen Schmidhuber.

[NIPS2014-106] v I. Sutskever, O. Vinyals, Q. Le (2014) "Sequence to Sequence Learning with Neural Networks," Proc.

[vinyals2016-107] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu (2016).

[gillick2015-108] Dan Gillick, Cliff Brunk, Oriol Vinyals, Amarnag Subramanya (2015).

[MIKO2010-109] T. Mikolov et al., "Recurrent neural network based language model," Interspeech, 2010.

[LECUN86-110] LeCun, Y.; et al. „Gradient-based learning applied to document recognition”. Proceedings of the IEEE. 86 (11): 2278—2324. doi:10.1109/5.726791.

[mizutani2000-111] Eiji Mizutani, Stuart Dreyfus, Kenichi Nishio (2000).

[automatski_generisano1-112] Bryson, A.E.; W.F. Denham; S.E. Dreyfus.

[113] Stuart Russell; Peter Norvig. Artificial Intelligence A Modern Approach. str. 578. „The most popular method for learning in multilayer networks is called Back-propagation.”

[114] Arthur Earl Bryson, Yu-Chi Ho (1969). Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing. str. 481.

[lin1976-115] Seppo Linnainmaa (1976).

[werbos1974-116] Paul Werbos (1974).

[wan1993-117] Eric A. Wan (1993).

[HINTON2012-118] G. E. Hinton et al.

[BENGIO2013-119] Y. Bengio et al.

[RBMTRAIN-120] v ^g G. E. Hinton., "A Practical Guide to Training Restricted Boltzmann Machines," Tech.

[121] Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). „Extreme learning machine: theory and applications”. Neurocomputing. 70 (1): 489—501. doi:10.1016/j.neucom.2005.12.126.

[122] Widrow, Bernard; et al. (2013). „The no-prop algorithm: A new learning algorithm for multilayer neural networks”. Neural Networks. 37: 182—188. doi:10.1016/j.neunet.2012.09.020.

[123] Ollivier, Yann; Charpiat, Guillaume (2015). „Training recurrent networks without backtracking”. arXiv:1507.07680 .

[124] Aleksander, Igor, et al.

[ivak1967-125] Alexey Grigorevich Ivakhnenko and V. G. Lapa and R. N. McDonough (1967).

[ivak1968-126] Alexey Grigorevich Ivakhnenko (1968).

[kondo2008-127] T. Kondo and J. Ueno (2008).

[STANCNN-128] Unsupervised Feature Learning and Deep Learning Tutorial

[deepdream-129] Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2014). „Going Deeper with Convolutions”. Computing Research Repository. arXiv:1409.4842 .

[130] Goller, C.; Küchler, A. „Learning task-dependent distributed representations by backpropagation through structure”. Neural Networks, 1996., IEEE. doi:10.1109/ICNN.1996.548916.

[131] Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. „Parsing Natural Scenes and Natural Language with Recursive Neural Networks”. The 28th International Conference on Machine Learning (ICML 2011).

[132] Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). EMNLP 2013.

[bayer2009-133] Justin Bayer, Daan Wierstra, Julian Togelius, and Jürgen Schmidhuber (2009).

[hannun2014-134] Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, Andrew Ng (2014).

[fan2014-135] Fan, Y., Qian, Y., Xie, F., and Soong, F. K. (2014).

[fan2015-136] Bo Fan, Lijuan Wang, Frank K. Soong, and Lei Xie (2015).

[vinyals2015-137] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan (2015).

[LAROCH2007-138] Larochelle, H.; et al. „An empirical evaluation of deep architectures on problems with many factors of variation”. Proc. 24th Int. Conf. Machine Learning. 2007: 473—480.

[POE-139] G. E. Hinton., "Training Product of Experts by Minimizing Contrastive Divergence," Neural Computation, 14, pp. 1771–1800, 2002.

[RBMTutorial-140] Fischer, A.; Igel, C. (2014). „Training Restricted Boltzmann Machines: An Introduction” (PDF). Pattern Recognition. 47: 25—39. doi:10.1016/j.patcog.2013.05.025.

[CDBN-CIFAR-141] Convolutional Deep Belief Networks on CIFAR-10

[CDBN-142] Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations

[book2013-143] D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013.

[GrPatent-144] D. Graupe," Large memory storage and retrieval (LAMSTAR) network, US Patent 5920852 A", April 1996.

[book2013a-145] D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp.203-274.

[Nigam-146] V. P. Nigam, D. Graupe, (2004),"A neural-network-based detection of epilepsy", Neurological Research, 26(1): 55-60.

[Waxman-147] Waxman, J.; Graupe, D.; Carley, C W. (2010). „Automated prediction of apnea and hypopnea, using a LAMSTAR artificial neural network”. American Journal of Respiratory and Critical Care Medicine. 171 (7): 727—733.

[GrGrZh-148] Graupe, D.; Graupe, M. H.; Zhong, Y.; Jackson, R. K. (2008). „Blind adaptive filtering for non-invasive extraction of the fetal electrocardiogram and its non-stationarities”. Proc. Inst. Mech Eng., UK, Part H: Journal of Engineering in Medicine. 222 (8): 1221—1234. doi:10.1243/09544119jeim417.

[book2013b-149] D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp.240-253.

[GrAbon-150] Graupe, D.; Abon, J. (2002). „A Neural Network for Blind Adaptive Filtering of Unknown Noise from Speech”. Intelligent Engineering Systems Through Artificial Neural Networks. 12: 683—688.

[Homayon-151] Homayon, S. (2015). „Iris Recognition for Personal Identification Using LAMSTAR Neural Network”. International Journal of Computer Science and Information Technology. 7 (1).

[book2013c-152] D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers", 2013, pp.253-274.

[Girado-153] Girado, J. I.; Sandin, D. J.; DeFanti, T. A. (2003). „Real-time camera-based face detection using amodified LAMSTAR neural network system”. Proc. SPIE 5015, Applications of Artificial Neural Networks in Image Processing VIII. doi:10.1117/12.477405.

[VenkSel-154] Venkatachalam, V; Selvan, S. (2007). „Intrusion Detection using an Improved Competitive Learning Lamstar Network”. International Journal of Computer Science and Network Security. 7 (2): 255—263.

[GrSmol-155] D. Graupe, M. Smollack, (2007), "Control of unstable nonlinear and nonstationary systems using LAMSTAR neural networks", Proceedings of 10th IASTED on Intelligent Control, Sect.592, 141-144.

[GrConSat-156] D. Graupe, C. Contaldi, A. Sattiraju, (2015) "Comparison of Lamstar NN & Convolutional NN – Character Recognition".

[GKmidwet-157] Graupe, H. Kordylewski (1996). „Network based on SOM (self-organizing-map) modules combined with statistical decision tools”. Proc. IEEE 39th Midwest Conf. on Circuits and Systems. 1: 471—475.

[GKsoftware-158] D, Graupe, H. Kordylewski, (1998), "A large memory storage and retrieval neural network for adaptive retrieval and diagnosis", International Journal of Software Engineering and Knowledge Engineering, 1998.

[Kordylew-159] Kordylewski, H.; Graupe, D; Liu, K. „A novel large-memory neural network as an aid in medical diagnosis applications”. IEEE Transactions on Information Technology in Biomedicine. 5 (3): 202—209. doi:10.1109/4233.945291.

[Schn-160] Schneider, N.C.; Graupe (2008). „A modified LAMSTAR neural network and its applications”. International journal of neural systems. 18 (4): 331—337. doi:10.1142/s0129065708001634.

[book2013d-161] D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, p.217.

[ref1-162] Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). „A better way to pretrain deep Boltzmann machines” (PDF). Advances in Neural. 3: 1—9.

[ref3-163] Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). „Efficient Learning of Deep Boltzmann Machines” (PDF). 3: 448—455.

[ref4-164] Bengio, Yoshua; LeCun, Yann (2007). „Scaling Learning Algorithms towards AI” (PDF). 1: 1—41.

[ref2-165] Larochelle, Hugo; Salakhutdinov, Ruslan (2010). „Efficient Learning of Deep Boltzmann Machines” (PDF): 693—700.

[ref9-166] v ^g Vincent, Pascal; Larochelle, Hugo; Lajoie, Isabelle; Bengio, Yoshua; Manzagol, Pierre-Antoine (2010). „Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion”. The Journal of Machine Learning Research. 11: 3371—3408.

[ballard1987-167] Dana H. Ballard (1987).

[ref16-168] v Deng, Li; Yu, Dong (2011). „Deep Convex Net: A Scalable Architecture for Speech Pattern Classification” (PDF). Proceedings of the Interspeech: 2285—2288.

[ref17-169] v Deng, Li; Yu, Dong; Platt, John (2012). „Scalable stacking and learning for building deep architectures” (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133—2136.

[ref18-170] David, Wolpert (1992). „Stacked generalization”. Neural Networks. 5 (2): 241—259. doi:10.1016/S0893-6080(05)80023-1.

[ref12-171] Bengio, Yoshua (2009). „Learning deep architectures for AI”. Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006.

[ref19-172] Hutchinson, Brian; Deng, Li; Yu, Dong (2012). „Tensor deep stacking networks”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1—15: 1944—1957. doi:10.1109/tpami.2012.268.

[ref26-173] Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). „Reducing the Dimensionality of Data with Neural Networks”. Science. 313: 504—507. PMID 16873662. doi:10.1126/science.1127647.

[ref27-174] Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). „Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition”. IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30—42. doi:10.1109/tasl.2011.2134090.

[ref28-175] Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). „Acoustic Modeling Using Deep Belief Networks”. IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 14—22. doi:10.1109/tasl.2011.2109382.

[ref30-176] Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). „A Spike and Slab Restricted Boltzmann Machine” (PDF). JMLR: Workshop and Conference Proceeding. 15: 233—241.

[ref32-177] v Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). „Unsupervised Models of Images by Spike-and-Slab RBMs”. Proceedings of the 28th International Conference on Machine Learning (PDF). 10. str. 1—8.

[ref31-178] Mitchell, T; Beauchamp, J (1988). „Bayesian Variable Selection in Linear Regression”. Journal of the American Statistical Association. 83 (404): 1023—1032. doi:10.1080/01621459.1988.10478694.

[ref15-179] Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). „Exploring Strategies for Training Deep Neural Networks”. The Journal of Machine Learning Research. 10: 1—40.

[ref39-180] Coates, Adam; Carpenter, Blake (2011). „Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning”: 440—445.

[ref40-181] Lee, Honglak; Grosse, Roger (2009). „Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations”. Proceedings of the 26th Annual International Conference on Machine Learning: 1—8.

[ref41-182] Lin, Yuanqing; Zhang, Tong (2010). „Deep Coding Network” (PDF). Advances in Neural . . .: 1—9.

[ref42-183] Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). „Sparse Feature Learning for Deep Belief Networks” (PDF). Advances in Neural Information Processing Systems. 23: 1—8.

[ref43-184] Socher, Richard; Lin, Clif (2011). „Parsing Natural Scenes and Natural Language with Recursive Neural Networks” (PDF). Proceedings of the 26th International Conference on Machine Learning.

[ref44-185] Taylor, Graham; Hinton, Geoffrey (2006). „Modeling Human Motion Using Binary Latent Variables” (PDF). Advances in Neural Information Processing Systems.

[ref45-186] Vincent, Pascal; Larochelle, Hugo (2008). „Extracting and composing robust features with denoising autoencoders”. Proceedings of the 25th international conference on Machine learning - ICML '08: 1096—1103.

[ref34-187] Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). „Learning overhypotheses with hierarchical Bayesian models”. Developmental Science. 10 (3): 307—21. PMID 17444972. doi:10.1111/j.1467-7687.2007.00585.x.

[ref37-188] Xu, Fei; Tenenbaum, Joshua (2007). „Word learning as Bayesian inference”. Psychol. Rev. 114 (2): 245—72. PMID 17500627. doi:10.1037/0033-295X.114.2.245.

[ref46-189] Chen, Bo; Polatkan, Gungor (2011). „The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning” (PDF). Machine Learning . . .

[ref47-190] Fei-Fei, Li; Fergus, Rob (2006). „One-shot learning of object categories”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594—611. PMID 16566508. doi:10.1109/TPAMI.2006.79.

[ref48-191] Rodriguez, Abel; Dunson, David (2008). „The Nested Dirichlet Process”. Journal of the American Statistical Association. 103 (483): 1131—1154. doi:10.1198/016214508000000553.

[ref38-192] Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). „Learning with Hierarchical-Deep Models”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35: 1958—71. doi:10.1109/TPAMI.2012.269.

[ref56-193] Chalasani, Rakesh; Principe, Jose (2013). „Deep Predictive Coding Networks”: 1—13. arXiv:1301.3541 .

[DQN-194] Mnih, Volodymyr; et al. (2015). „Human-level control through deep reinforcement learning”. Nature. 518: 529—533. PMID 25719670. doi:10.1038/nature14236.

[Hinton,_Geoffrey_E_1984-195] Hinton, Geoffrey E. "Distributed representations." (1984)

[S._Das,_C.L._Giles_p._79-196] S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory," Proc. 14th Annual Conf. of the Cog.

[Mozer,_M._C._1993_pp._863-870-197] Mozer, M. C., & Das, S. (1993).

[ReferenceC-198] Schmidhuber, J. (1992). „Learning to control fast-weight memories: An alternative to recurrent nets”. Neural Computation. 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131.

[F._Gers,_N._Schraudolph_2002-199] Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). „Learning precise timing with LSTM recurrent networks”. JMLR. 3: 115—143.

[J._Schmidhuber_pages_191-195-200] Jürgen Schmidhuber (1993). „An introspective network that can learn to run its own weight change algorithm”. In Proc. of the Intl. Conf. on Artificial Neural Networks, Brighton. IEE. str. 191—195.

[Hochreiter,_Sepp_2001-201] Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). „Learning to Learn Using Gradient Descent”. ICANN. 2130: 87—94.

[Grefenstette,_Edward_1506-202] Grefenstette, Edward, et al.

[203] Atkeson, Christopher G., and Stefan Schaal.

[204] Salakhutdinov, Ruslan, and Geoffrey Hinton.

[205] Le, Quoc V.; Mikolov, Tomas (2014). „Distributed representations of sentences and documents”. arXiv:1405.4053 .

[Graves,_Alex_1410-206] Graves, Alex, Greg Wayne, and Ivo Danihelka.

[Weston,_Jason_1410-207] Weston, Jason, Sumit Chopra, and Antoine Bordes.

[208] Sukhbaatar, Sainbayar, et al.

[209] Bordes, Antoine, et al.

[210] Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly.

[211] Kurach,Karol, Andrychowicz, Marcin and Sutskever,Ilya.

[212] N. Kalchbrenner and P. Blunsom, "Recurrent continuous translation models," in EMNLP’2013, 2013.

[213] I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks," in NIPS’2014, 2014.

[214] K. Cho, B. van Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, "Learning phrase representations using RNN encoder-decoder for statistical machine translation," in Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), Oct. 2014

[215] Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio.

[ref59-216] Cho, Youngmin (2012). „Kernel Methods for Deep Learning” (PDF): 1—9.

[ref60-217] Scholkopf, B; Smola, Alexander (1998). „Nonlinear component analysis as a kernel eigenvalue problem”. Neural computation. (44): 1299—1319. doi:10.1162/089976698300017467.

[KDCN-218] L. Deng, G. Tur, X. He, and D. Hakkani-Tur.

[LDCTIMIT-219] TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia.

[CNN-2014-220] Abdel-Hamid, O.; et al. (2014). „Convolutional Neural Networks for Speech Recognition”. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533—1545. doi:10.1109/taslp.2014.2339736.

[EnsembleDL-221] Deng, L.; Platt, J. (2014). „Ensemble Deep Learning for Speech Recognition”. Proc. Interspeech.

[Roles2010-222] Yu, D.; Deng, L. (2010). „Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition”. NIPS Workshop on Deep Learning and Unsupervised Feature Learning.

[ICASSP2013-223] Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al.

[224] Deng, L.; Li, Xiao (2013). „Machine Learning Paradigms for Speech Recognition: An Overview”. IEEE Transactions on Audio, Speech, and Language Processing. 21: 1060—1089. doi:10.1109/tasl.2013.2244083.

[interspeech2010-225] L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder.

[interspeech2014-226] Z. Tuske, P. Golik, R. Schlüter and H. Ney (2014).

[Wire-227] McMillan, R. "How Skype Used AI to Build Its Amazing New Language Translator", Wire, Dec. 2014.

[Baidu-228] Hannun et al. (2014) "Deep Speech: Scaling up end-to-end speech recognition", arXiv:1412.5567.

[SPM2015-229] Ron Schneiderman (2015) "Accuracy, Apps Advance Speech Recognition --- Interviews with Vlad Sejnoha and Li Deng", IEEE Signal Processing Magazine, Jan, 2015.

[YANNMNIST-230] MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges

[CIRESAN2012-231] D. Ciresan, U. Meier, J. Schmidhuber., "Multi-column Deep Neural Networks for Image Classification," Technical Report No. IDSIA-04-12, 2012.

[ciresan2013miccai-232] D. Ciresan, A. Giusti, L.M. Gambardella, J. Schmidhuber (2013).

[1411.4555-233] Vinyals et al. (2014)."

[1411.4952-234] Fang et al. (2014)."

[1411.2539-235] Kiros et al. (2014).

[236] Zhong, S.; Liu, Y.; Liu, Y. „Bilinear Deep Learning for Image Classification”. Proceedings of the 19th ACM International Conference on Multimedia. 11: 343—352. |access-date= zahteva |url= (pomoć)CS1 održavanje: Format datuma (veza)

[237] Nvidia Demos a Car Computer Trained with "Deep Learning" (2015-01-06), David Talbot, MIT Technology Review

[BENGIO2003-238] Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin., "A Neural Probabilistic Language Model," Journal of Machine Learning Research 3 (2003) 1137–1155, 2003.

[GoldbergLevy2014-239] Goldberg, Yoav; Levy, Omar. „word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method” (PDF). Arxiv. Pristupljeno 26. 10. 2014. CS1 održavanje: Format datuma (veza)

[SocherManning2014-240] Socher, Richard; Manning, Christopher. „Deep Learning for NLP” (PDF). Pristupljeno 26. 10. 2014. CS1 održavanje: Format datuma (veza)

[241] Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). „Parsing With Compositional Vector Grammars” (PDF). Proceedings of the ACL 2013 conference.

[242] Socher, Richard (2013). „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). EMNLP 2013.

[CIKM2014-243] Y. Shen, X. He, J. Gao, L. Deng, and G. Mesnil (2014) " A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval," Proc.

[CIKM2013-244] P. Huang, X. He, J. Gao, L. Deng, A. Acero, and L. Heck (2013) "Learning Deep Structured Semantic Models for Web Search using Clickthrough Data," Proc.

[IEEE-TASL2015-245] Mesnil, G., Dauphin, Y., Yao, K., Bengio, Y., Deng, L., Hakkani-Tur, D., He, X., Heck, L., Tur, G., Yu, D. and Zweig, G., 2015.

[ACL2014-246] J. Gao, X. He, W. Yih, and L. Deng(2014) "Learning Continuous Phrase Representations for Translation Modeling," Proc.

[EMNLP2014-247] J. Gao, P. Pantel, M. Gamon, X. He, L. Deng (2014) "Modeling Interestingness with Deep Neural Networks," Proc.

[Tutorial2014-248] J. Gao, X. He, L. Deng (2014) "Deep Learning for Natural Language Processing: Theory and Practice (Tutorial)," CIKM.

[ARROWSMITH2013-249] Arrowsmith, J; Miller, P (2013). „Trial watch: Phase II and phase III attrition rates 2011-2012”. Nature Reviews Drug Discovery. 12 (8): 569. PMID 23903212. doi:10.1038/nrd4090.

[VERBIEST2015-250] Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). „Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project”. Drug Discovery Today. 20: 505—513. PMID 25582842. doi:10.1016/j.drudis.2014.12.014.

[MERCK2012-251] "Announcement of the winners of the Merck Molecular Activity Challenge" https://www.kaggle.com/c/MerckActivity/details/winners.

[DAHL2014-252] Dahl, G. E.; Jaitly, N.; & Salakhutdinov, R. (2014) "Multi-task Neural Networks for QSAR Predictions," ArXiv, 2014.

[TOX21-253] "Toxicology in the 21st century Data Challenge" https://tripod.nih.gov/tox21/challenge/leaderboard.jsp

[TOX21Data-254] "NCATS Announces Tox21 Data Challenge Winners" http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html

[Unterthiner2014-255] Unterthiner, T.; Mayr, A.; Klambauer, G.; Steijaert, M.; Ceulemans, H.; Wegner, J. K.; & Hochreiter, S. (2014) "Deep Learning as an Opportunity in Virtual Screening".

[Unterthiner2015-256] Unterthiner, T.; Mayr, A.; Klambauer, G.; & Hochreiter, S. (2015) „"Toxicity Prediction using Deep Learning"”. arXiv:pdf/1503.01445v1  Proverite vrednost parametra |arxiv= (pomoć). .

[Ramsudar2015-257] Ramsundar, B.; Kearnes, S.; Riley, P.; Webster, D.; Konerding, D.;& Pande, V. (2015) "Massively Multitask Networks for Drug Discovery".

[258] Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (2015-10-09). „AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery”. arXiv:1510.02855 .

[259] „Toronto startup has a faster way to discover effective medicines”. The Globe and Mail. Pristupljeno 2015-11-09.

[260] „Startup Harnesses Supercomputers to Seek Cures”. KQED Future of You (na jeziku: engleski). Pristupljeno 2015-11-09.

[261] Toronto startup has a faster way to discover effective medicines - The Globe and Mail

[262] Tkachenko, Yegor.

[263] Van den Oord, Aaron, Sander Dieleman, and Benjamin Schrauwen.

[264] Elkahky, Ali Mamdouh, Yang Song, and Xiaodong He. "A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems."

[265] Davide Chicco, Peter Sadowski, and Pierre Baldi, "Deep autoencoder neural networks for gene ontology annotation predictions".

[UTGOFF-266] Utgoff, P. E.; Stracuzzi, D. J. (2002). „Many-layered learning”. Neural Computation. 14: 2497—2529. doi:10.1162/08997660260293319.

[ELMAN-267] J. Elman et al., "Rethinking Innateness," 1996.

[SHRAGER-268] Shrager, J.; Johnson, MH (1996). „Dynamic plasticity influences the emergence of function in a simple cortical array”. Neural Networks. 9 (7): 1119—1129. doi:10.1016/0893-6080(96)00033-0.

[QUARTZ-269] Quartz, SR; Sejnowski, TJ (1997). „The neural basis of cognitive development: A constructivist manifesto”. Behavioral and Brain Sciences. 20 (4): 537—556. doi:10.1017/s0140525x97001581.

[BLAKESLEE-270] S. Blakeslee., "In brain's early growth, timetable may be critical," The New York Times, Science Section, pp.

[BUFILL-271] {BUFILL} E. Bufill, J. Agusti, R. Blesa., "Human neoteny revisited: The case of synaptic plasticity," American Journal of Human Biology, 23 (6), pp. 729–739, 2011.

[SHRAGER2-272] J. Shrager and M. H. Johnson., "Timing in the development of cortical function: A computational approach," In B. Julesz and I. Kovacs (Eds.

[HERN2013-273] D. Hernandez., "The Man Behind the Google Brain: Andrew Ng and the Quest for the New AI," http://www.wired.com/wiredenterprise/2013/05/neuro-artificial-intelligence/all/.

[METZ2013-274] C. Metz., "Facebook's 'Deep Learning' Guru Reveals the Future of AI," http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/.

[Vapnik2014-275] V. Vapnik., "research.facebook.com" .

[276] „Google AI algorithm masters ancient game of Go”. Nature News & Comment. Pristupljeno 2016-01-30.

[277] Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; van den Driessche, George; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (2016-01-28). „Mastering the game of Go with deep neural networks and tree search”. Nature (na jeziku: engleski). 529 (7587): 484—489. ISSN 0028-0836. doi:10.1038/nature16961.

[278] „A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review”. MIT Technology Review. Pristupljeno 2016-01-30.

[279] „Blippar Demonstrates New Real-Time Augmented Reality App”. TechCrunch.

[MARCUS-280] G. Marcus., "Is "Deep Learning" a Revolution in Artificial Intelligence?"

[281] Smith, G. W. (27. 3. 2015). „Art and Artificial Intelligence”. ArtEnt. Pristupljeno 27. 3. 2015. CS1 održavanje: Format datuma (veza)

[282] Knight, Will (7. 11. 2001). „Tools point to African origin for human behaviour”. New Scientist. Pristupljeno 7. 10. 2015. CS1 održavanje: Format datuma (veza)

[283] Alexander Mordvintsev, Christopher Olah, and Mike Tyka (17. 6. 2015). „Inceptionism: Going Deeper into Neural Networks”. Google Research Blog. Pristupljeno 20. 6. 2015.

[284] Alex Hern (18. 6. 2015). „Yes, androids do dream of electric sheep”. The Guardian. Pristupljeno 20. 6. 2015. CS1 održavanje: Format datuma (veza)

[goertzel-285] v Ben Goertzel.

[286] Nguyen, Anh, Jason Yosinski, and Jeff Clune.

[287] Szegedy, Christian, et al.

[288] Zhu, S.C.; Mumford, D. „A stochastic grammar of images”. Found. Trends Comput. Graph. Vis. 2 (4): 259—362. doi:10.1561/0600000018.

[289] Jason Eisner, Deep Learning of Recursive Structure: Grammar Induction, http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

[98]

[99]

[100]