Дубоко учење — разлика између измена

С Википедије, слободне енциклопедије
Садржај обрисан Садржај додат
Нема описа измене
Нема описа измене
Ред 40: Ред 40:
== Историја ==
== Историја ==
Појам ''дубоко учење'' уведен је у заједницу машинског учења 1986 од стране [[Rina Dechter|Рине Дехтер]],<ref name="dechter1986">[[Rina Dechter]] (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Online]</ref><ref name="scholarpedia" />а [[вештачке неуронске мреже]] од стране Игора Ајзенберга и колега 2000. године у контексту Булових неуронских прагова.<ref name="aizenberg2000">Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media.</ref><ref>Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795-1802, ACM Press, New York, NY, USA, 2005.</ref> У 2006. години публикација [[Geoffrey Hinton|Хинтона]], Осиндера и Теха<ref name=hinton06>{{Cite journal | last1 = Hinton | first1 = G. E. |authorlink1=Geoff Hinton| last2 = Osindero | first2 = S. | last3 = Teh | first3 = Y. W. | doi = 10.1162/neco.2006.18.7.1527 | title = A Fast Learning Algorithm for Deep Belief Nets | journal = [[Neural Computation (journal)|Neural Computation]]| volume = 18 | issue = 7 | pages = 1527–1554 | year = 2006 | pmid = 16764513| pmc = | url = http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf}}</ref><ref name=bengio2012>{{cite arXiv |last=Bengio |first=Yoshua |author-link=Yoshua Bengio |eprint=1206.5533 |title=Practical recommendations for gradient-based training of deep architectures |class=cs.LG|year=2012 }}</ref> показала је како би код вишеслојне [[преносна неуронска мрежа|преносне неуронске мреже]] ниво могао бити унапред ефикасно обучен третирајући сваки слој као ненадгледану ограничену Болцманову машину, лепо наштимовану коришћењем надгледане повратне прпопагације.<ref name="HINTON2007">G. E. Hinton., "Learning multiple layers of representation," ''Trends in Cognitive Sciences'', 11, pp. 428–434, 2007.</ref> Рад се односи на ''учење'' за ''дубоке мреже веровања''.
Појам ''дубоко учење'' уведен је у заједницу машинског учења 1986 од стране [[Rina Dechter|Рине Дехтер]],<ref name="dechter1986">[[Rina Dechter]] (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Online]</ref><ref name="scholarpedia" />а [[вештачке неуронске мреже]] од стране Игора Ајзенберга и колега 2000. године у контексту Булових неуронских прагова.<ref name="aizenberg2000">Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media.</ref><ref>Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795-1802, ACM Press, New York, NY, USA, 2005.</ref> У 2006. години публикација [[Geoffrey Hinton|Хинтона]], Осиндера и Теха<ref name=hinton06>{{Cite journal | last1 = Hinton | first1 = G. E. |authorlink1=Geoff Hinton| last2 = Osindero | first2 = S. | last3 = Teh | first3 = Y. W. | doi = 10.1162/neco.2006.18.7.1527 | title = A Fast Learning Algorithm for Deep Belief Nets | journal = [[Neural Computation (journal)|Neural Computation]]| volume = 18 | issue = 7 | pages = 1527–1554 | year = 2006 | pmid = 16764513| pmc = | url = http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf}}</ref><ref name=bengio2012>{{cite arXiv |last=Bengio |first=Yoshua |author-link=Yoshua Bengio |eprint=1206.5533 |title=Practical recommendations for gradient-based training of deep architectures |class=cs.LG|year=2012 }}</ref> показала је како би код вишеслојне [[преносна неуронска мрежа|преносне неуронске мреже]] ниво могао бити унапред ефикасно обучен третирајући сваки слој као ненадгледану ограничену Болцманову машину, лепо наштимовану коришћењем надгледане повратне прпопагације.<ref name="HINTON2007">G. E. Hinton., "Learning multiple layers of representation," ''Trends in Cognitive Sciences'', 11, pp. 428–434, 2007.</ref> Рад се односи на ''учење'' за ''дубоке мреже веровања''.

Први општи агоритам рада за надгледане, дупоке, преносне перцепторне објавили су [[Alexey Grigorevich Ivakhnenko]] и Лапа 1965. године.<ref name="ivak1965">{{cite book|first=A. G. |last=Ivakhnenko|title=Cybernetic Predicting Devices|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|year=1973|publisher=CCM Information Corporation}}</ref> Документ из 1971. описао је дубоку мрежу са осам слојева обучених групном методом алгоритма за обраду података.<ref name="ivak1971">{{Cite journal|last=Ivakhnenko|first=Alexey|date=1971|title=Polynomial theory of complex systems|url=|journal=IEEE Transactions on Systems, Man and Cybernetics (4)|pages=364–378|doi=10.1109/TSMC.1971.4308320|pmid=|accessdate=|volume=1}}</ref>

Друге радне архитектуре дубоког учења, посебно оне које су изграђене за рачунарски вид почеле су са Неогонитроном који је 1980. године представио [[Kunihiko Fukushima|Фукушима]].<ref name="FUKU1980">{{cite journal | last1 = Fukushima | first1 = K. | year = 1980 | title = Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position | url= | journal = Biol. Cybern. | volume = 36 | issue = | pages = 193–202 | doi=10.1007/bf00344251 | pmid=7370364}}</ref> 1989. [[Yann LeCun|ЛиЦун]] применио је алгоритам за повратну пропагацију, који је од 1970. године био окренур резервном режиму аутоматског диференцирања,<ref name="lin1970">[[Seppo Linnainmaa]] (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7.</ref><ref name="grie2012">{{Cite journal|last=Griewank|first=Andreas|date=2012|title=Who Invented the Reverse Mode of Differentiation?|url=http://www.math.uiuc.edu/documenta/vol-ismp/52_griewank-andreas-b.pdf|journal=Documenta Matematica, Extra Volume ISMP|pages=389–400|via=}}</ref><ref name="WERBOS1974">{{Cite journal|last=Werbos|first=P.|date=1974|title=Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences |url=https://www.researchgate.net/publication/35657389_Beyond_regression_new_tools_for_prediction_and_analysis_in_the_behavioral_sciences |journal=Harvard University |accessdate=12 June 2017}}</ref><ref name="werbos1982">{{Cite book|url=ftp://ftp.idsia.ch/pub/juergen/habilitation.pdf|title=System modeling and optimization|last=Werbos|first=Paul|publisher=Springer|year=1982|isbn=|location=|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis}}</ref> до дубоке неуронске мреже с циљем препознавања рукописних ЗИП кодова у пошти. Док је алгоритам фнкционисао, обучавање је трајало три дана.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989.</ref>

До 1991. године такви системи су коришћени за препознавање 2Д ручно исписаних цифара, док је препознавање 3Д објеката учињено одговарајућим 2Д сликама са ручно изграђеним 3Д објектним модулом. Венг и други су претпоставили да људски мозак не користи монолитни 3Д објектни модел и 1992. године објавили су Кресептрон,<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. International Joint Conference on Neural Networks'', Baltimore, Maryland, vol I, pp. 576-581, June, 1992.</ref><ref name="Weng1993">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. Computer Vision'', Berlin, Germany, pp. 121-128, May, 1993.</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997.</ref> метод за препознавање 3Д објеката у скривеним сценама. Кресептон је слап слојева сличних Неокогнитрону. Међутим док Неокогнитрон очекује програмера да га ручно споји са карактеристикама, Кресептон је без надзора научио отворен број карактеристика на сваком нивоу, где је свака карактеристика представљена реконструкцијским алгоритмом. Кресептон је учврстио сваки научени објекат из нереда кроз анализу уназад кроз мрежу. Максимално удруживање, сада често усвојен од дубоких неуронских мрежа (нпп. ИмејџНет тестови) је први пут коришћено у Кресптону да смањи резолуцију позиције за фактор (2x2) до 1 кроз слап ради бољег генерализовања.


== Референце ==
== Референце ==

Верзија на датум 30. јануар 2018. у 13:42

Дубоко учење (познато као дубоко структурно учење или хијерархијско учење) део је шире породице метода машинског учења базиранe на учењу репрезентације података, насупрот алгоритмима који се базирају на листама наредби. Учење може бити надгледано, полу-надгледано или ненадгледано.[1][2][3]

Неке репрезентације подсећају на интерпретацију обраде информација и на шаблоне комуникације у биолошком нервном систему, као што је нервно кодирање које дефинише везу између различитих дражи и одговарајућег нервног одговора у мозгу.

Архитектуре дубоког учења, као што су дубока нервна мрежа или рекурентна нервна мрежа примењена су на пољима рачунарског вида, препознавања говора, обраде природних језика, препознавања звука, филтрирања друштвених мрежа, биоинформатике и дизајна лекова[4] и постигли резултате једнаке, ако не и боље од резултата стручњака.[5][6]

Дефиниције

Дубоко учење је класа алгоритама машинског учења који:[7]

  • користе вишеслојне нелинеарне процесорске јединице за екстракцију и трансформацију одлика. Сваки следећи слој узима као улаз излазне елементе претходног слоја.
  • уче на надгледан и/или ненадгледан начин.
  • уче већи број нивоа репрезентације који одговарају различитим степенима апстракције.
  • користе некакав облик алгоритма с опадајућим градијентом за тренинг кроз повратно пропагирање грешке.

Слојеви коришћени у дубоком програмирању укључују скривене слојеве вештачке нервне мреже и мноштво исказних формула.[8] Могу укључити и слојевито организоване скривене променљиве у дубоко генерисаним моделима налик онима код Дубоких Болцанових машина.

Поверљиви задатак

  • Путања поверљивог задатка (ЦАП)[2] – Ланац трансформација од улаза до излаза. ЦАП описује потенцијално узрочне везе између улаза и излаза.
  • Дубина ЦАП-а – за преносне неуронске мреже, дубина ЦАП-а је дубина мреже и број сакривених слојева плус један (излазни слој је такође параметризован), али за рекурентне неуронске мреже, у којима се сигнал може пропагирати преко слоја више пута, дупина ЦАП-а је потенцијално неограничена.
  • Дубоко / плитко – Не постоји универзалан праг дубине који дели плитко учење од дубоког, али се већина истраживача слаже да се подразумева да је код дубоког учења дубина ЦАП-а већа од 2.

Концепти

Претпоставка у основи дистрибуираних репрезентација је да се посматрани подаци генеришу интеракцијама слојевитих фактора.

Дубоко учење додаје претпоставку да ови слојеви фактора одговарају нивоима апстракције или састава. Различит број слојева и величина слоја могу да обезбеде различите степене апстракције.[1]

Архитектура дубоког учења се често конструише помоћу похлепне слој-по-слој методе. Дубоко учење помаже у раздвајању ових апстракција и одабиру карактеристика које побољшавају перформансе.[1]

За задатке надгледаног учења, методе дубоког учења избегавају карактеристичан инжењеринг, превођењем података у компактне посредоване репрезентације сличне главној компоненти, и изводе слојевите структуре које уклањају редудантост у репрезентацији.

Алгоритми дубоког учења се могу применити за задатке ненадгледаног учења. Ово је важна предност јер су необележени подаци обимнији од обележених података. Примери дубоких структура које могу бити изучаване на ненадгледан начин су компресор неуралне мреже[9] и дубоке мреже веровања.[1][10]

Интерпретације

Дубоке неуралне мреже се обично тумаче у смислу теорија универзалне апроксимације[11][12][13][14][15] или пробабилистичког закључивања.[7][8][1][2][10][16][17]

Универзална теорема апроксимације се односи на капацитет преносних неуронских мрежа са једним скривеном слојем коначне величине за проксимацију континуиране функције.[11][12][13][14][15] 1989. је Цибенко објавио први доказ за функције сигмуидне активације[12] и генерализован је за дистрибуцију вишеслојних архитектура 1991. године од стране Хорника.[13] Пробабилистичке интерпретације[16] потичу из области машинског учења. Оне нелинеарне активације разматрају као кумулативну функцију расподеле.[16] Уведене су од стране истраживача, укључујући Хопфилда, Видрова и Наренда и популризоване у анкатема као што је једна од стране Бишопа.[18]

Историја

Појам дубоко учење уведен је у заједницу машинског учења 1986 од стране Рине Дехтер,[19][9]а вештачке неуронске мреже од стране Игора Ајзенберга и колега 2000. године у контексту Булових неуронских прагова.[20][21] У 2006. години публикација Хинтона, Осиндера и Теха[22][23] показала је како би код вишеслојне преносне неуронске мреже ниво могао бити унапред ефикасно обучен третирајући сваки слој као ненадгледану ограничену Болцманову машину, лепо наштимовану коришћењем надгледане повратне прпопагације.[24] Рад се односи на учење за дубоке мреже веровања.

Први општи агоритам рада за надгледане, дупоке, преносне перцепторне објавили су Alexey Grigorevich Ivakhnenko и Лапа 1965. године.[25] Документ из 1971. описао је дубоку мрежу са осам слојева обучених групном методом алгоритма за обраду података.[26]

Друге радне архитектуре дубоког учења, посебно оне које су изграђене за рачунарски вид почеле су са Неогонитроном који је 1980. године представио Фукушима.[27] 1989. ЛиЦун применио је алгоритам за повратну пропагацију, који је од 1970. године био окренур резервном режиму аутоматског диференцирања,[28][29][30][31] до дубоке неуронске мреже с циљем препознавања рукописних ЗИП кодова у пошти. Док је алгоритам фнкционисао, обучавање је трајало три дана.[32]

До 1991. године такви системи су коришћени за препознавање 2Д ручно исписаних цифара, док је препознавање 3Д објеката учињено одговарајућим 2Д сликама са ручно изграђеним 3Д објектним модулом. Венг и други су претпоставили да људски мозак не користи монолитни 3Д објектни модел и 1992. године објавили су Кресептрон,[33][34][35] метод за препознавање 3Д објеката у скривеним сценама. Кресептон је слап слојева сличних Неокогнитрону. Међутим док Неокогнитрон очекује програмера да га ручно споји са карактеристикама, Кресептон је без надзора научио отворен број карактеристика на сваком нивоу, где је свака карактеристика представљена реконструкцијским алгоритмом. Кресептон је учврстио сваки научени објекат из нереда кроз анализу уназад кроз мрежу. Максимално удруживање, сада често усвојен од дубоких неуронских мрежа (нпп. ИмејџНет тестови) је први пут коришћено у Кресптону да смањи резолуцију позиције за фактор (2x2) до 1 кроз слап ради бољег генерализовања.

Референце

  1. ^ а б в г д Bengio, Y.; Courville, A.; Vincent, P. (2013). „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538Слободан приступ. doi:10.1109/tpami.2013.50. 
  2. ^ а б в Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks. 61: 85—117. PMID 25462637. arXiv:1404.7828Слободан приступ. doi:10.1016/j.neunet.2014.09.003. 
  3. ^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). „Deep Learning”. Nature. 521: 436—444. PMID 26017442. doi:10.1038/nature14539. 
  4. ^ Ghasemi, F.; Mehridehnavi, AR.; Fassihi, A.; Perez-Sanchez, H. (2017). „Deep Neural Network in Biological Activity Prediction using Deep Belief Network”. Applied Soft Computing. 
  5. ^ Ciresan, Dan; Meier, U.; Schmidhuber, J. (1. 6. 2012). „Multi-column deep neural networks for image classification”. 2012 IEEE Conference on Computer Vision and Pattern Recognition: 3642—3649. doi:10.1109/cvpr.2012.6248110. 
  6. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). „ImageNet Classification with Deep Convolutional Neural Networks” (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. 
  7. ^ а б Deng, L.; Yu, D. (2014). „Deep Learning: Methods and Applications” (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1—199. doi:10.1561/2000000039. 
  8. ^ а б Bengio, Yoshua (2009). „Learning Deep Architectures for AI” (PDF). Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006. 
  9. ^ а б Jürgen Schmidhuber (2015). Deep Learning. Scholarpedia, 10(11):32832. Online
  10. ^ а б Hinton, G.E. (2009). „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947. 
  11. ^ а б Balázs Csanád Csáji (2001). Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary
  12. ^ а б в Cybenko (1989). „Approximations by superpositions of sigmoidal functions” (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303—314. doi:10.1007/bf02551274. Архивирано из оригинала (PDF) 2015-10-10. г. 
  13. ^ а б в Hornik, Kurt (1991). „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks. 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t. 
  14. ^ а б Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall. ISBN 978-0-13-273350-2. 
  15. ^ а б Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks. MIT Press. стр. 48. ISBN 978-0-262-08239-6. 
  16. ^ а б в Murphy, Kevin P. (24. 8. 2012). Machine Learning: A Probabilistic Perspective. MIT Press. ISBN 978-0-262-01802-9. 
  17. ^ Patel, Ankit; Nguyen, Tan; Baraniuk, Richard (2016). „A Probabilistic Framework for Deep Learning” (PDF). Advances in Neural Information Processing Systems. 
  18. ^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). Springer. ISBN 978-0-387-31073-2. 
  19. ^ Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online
  20. ^ Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media.
  21. ^ Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795-1802, ACM Press, New York, NY, USA, 2005.
  22. ^ Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). „A Fast Learning Algorithm for Deep Belief Nets” (PDF). Neural Computation. 18 (7): 1527—1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527. 
  23. ^ Bengio, Yoshua (2012). „Practical recommendations for gradient-based training of deep architectures”. arXiv:1206.5533Слободан приступ [cs.LG]. 
  24. ^ G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
  25. ^ Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation. 
  26. ^ Ivakhnenko, Alexey (1971). „Polynomial theory of complex systems”. IEEE Transactions on Systems, Man and Cybernetics (4). 1: 364—378. doi:10.1109/TSMC.1971.4308320. 
  27. ^ Fukushima, K. (1980). „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”. Biol. Cybern. 36: 193—202. PMID 7370364. doi:10.1007/bf00344251. 
  28. ^ Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7.
  29. ^ Griewank, Andreas (2012). „Who Invented the Reverse Mode of Differentiation?” (PDF). Documenta Matematica, Extra Volume ISMP: 389—400. 
  30. ^ Werbos, P. (1974). „Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences”. Harvard University. Приступљено 12. 6. 2017. 
  31. ^ Werbos, Paul (1982). „Applications of advances in nonlinear sensitivity analysis”. System modeling and optimization (PDF). Springer. стр. 762—770. 
  32. ^ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
  33. ^ J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581, June, 1992.
  34. ^ J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128, May, 1993.
  35. ^ J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.

Спољашње везе