Бекпропагација

Бекпропагација је метода која се користи у вештачким неуронским мрежама за израчунавање доприноса грешке сваког неурона након обраде серије података. То је посебан случај старије и општије технике која се назива аутоматско диференцирање. У контексту учења, бекпропагација се обично користи од стране алгоритма за оптимизацију градијента како би се прилагодила тежина неурона израчунавањем градијента функције губитка. Ова техника се понекад назива и повратно ширење грешака, јер се грешка израчунава на излазу и преноси натраг кроз мрежне слојеве.

Алгоритам за проширење уназад је поново откривен и еквивалент је аутоматском диференцирању у обрнутом режиму акумулације. Бекпропагација захтева познати излаз за сваку улазну вредност па се стога сматра да је то метод учења надгледањем (мада се такође користи у неким ненадгледаним мрежама као што су аутоенкодери). Бекпропагација је такође генерализација делта правила за вишеслојне мреже, омогућене коришћењем правила ланца за итеративно израчунавање нагиба за сваки слој. Она је уско повезана са Гаус-Њутн алгоритмом, и део је континуираног истраживања у нервној бекпропагацији. Бекпропагација се може користити у било ком оптимизатору заснованом на градијенту, као што је L-BFGS или скраћени Њутн. Такође се често користи за обучавање дубоких неуронских мрежа, појма који се користи за опис неуронских мрежа са више од једног скривеног слоја.^[1]

Мотивација

Циљ сваког алгоритма учења надгледања је проналажење функције која најбоље мапира скуп улаза на њихов тачан излаз. Пример би био класификациони задатак, где је улаз слика животиње, а тачан резултат је име животиње.

Мотивација за бекпропагацију је обучавање вишеслојне неуронске мреже тако да може научити одговарајућа представљања како би омогућила да сазна неко произвољно мапирање уноса за излаз.

Губитак функције

Понекад се назива функција трошка или функција грешке (не сме се мешати са Гаусовом функцијом грешке), функција губитка је функција која мапира вредности једне или више променљивих као реалан број који интуитивно представља неки "трошак" повезан са тим вредностима. Функција губитка рачуна разлику између излаза мреже и очекиваног излаза, након што се случај рашири кроз мрежу.

Претпоставке

Две претпоставке се морају направити о облику функције грешке.^[2] Прва је да се може написати као просек ${\textstyle E={\frac {1}{n}}\sum _{x}E_{x}}$ преко функција грешке ${\textstyle E_{x}}$ за ${\textstyle n}$ индивидуалних примера обуке, ${\textstyle x}$ . Разлог за ову претпоставку је да алгоритам бекпропагације израчунава градијент функције грешке за један пример тренинга, који треба генерализовати са укупном функцијом грешке. Друга претпоставка је да се може написати као функција излаза из неуронске мреже.

Нека су $y,y'$ вектори у $\mathbb {R} ^{n}$ .

Посматрајмо функцију грешке $E(y,y')$ која рачуна метрику између излаза.

Стандардан избор је:

квадрат Еуклидске метрике између вектора $y$ и вектора $y'$ : $E(y,y')={\tfrac {1}{2}}\lVert y-y'\rVert ^{2}$ Коефицијент ${\tfrac {1}{2}}$ се користи како би се скратио са 2 након диференцирања Функција грешке на основу ${\textstyle n}$ примера се може записати као просечна вредност: $E={\frac {1}{2n}}\sum _{x}\lVert (y(x)-y'(x))\rVert ^{2}$ и као парцијални извод у односу на излаз функције ${\frac {\partial E}{\partial y'}}=y'-y$

Алгоритам оптимизације понавља циклус од две фазе, ширење и ажурирање тежине. Када се улазни вектор појави на мрежи, он се прослеђује напред кроз мрежу, слој по слој, све док не достигне излазни слој. Излаз мреже се затим упоређује са жељеним излазом, користећи функцију губитка. Добијена вредност грешке се израчунава за сваки од неурона у излазном слоју. Вредности грешке се затим прослеђују из излаза назад кроз мрежу, све док сваки неурон не добије придружену вредност грешке која одражава њен допринос изворном излазу. Бекпропагација користи ове вредности грешке за израчунавање градијента функције губитка. У другој фази, овај градијент се напаја методом оптимизације, која заузврат то користи за ажурирање тежине, у покушају да минимизира функцију губитка.

Нека је $N$ неуронска мрежа са $e$ конекција, $m$ улаза и $n$ излаза.

$x_{1},x_{2},\dots$ означавају векторе у $\mathbb {R} ^{m}$ , $y_{1},y_{2},\dots$ векторе у $\mathbb {R} ^{n}$ и $w_{0},w_{1},w_{2},\ldots$ векторе у $\mathbb {R} ^{e}$ .

Они се редом називају улази, излази и тежине.

Неуронска мрежа одговара функцији $y=f_{N}(w,x)$ која за дати вектор тежина мапира улаз и излаз.

Оптимизација као улазе узима секвенцу примера $(x_{1},y_{1}),\dots ,(x_{p},y_{p})$ и као резултат даје секвенцу тежина $w_{0},w_{1},\dots ,w_{p}$ почевши од неке тежине $w_{0}$ која се обично бира као произвољна.

Ове тежине се рачунају на следећи начин: Прво се рачуна $w_{i}$ користећи само $(x_{i},y_{i},w_{i-1})$ за $i=1,\dots ,p$ . Излаз алгоритма је $w_{p}$ који нам даје нову функцију $x\mapsto f_{N}(w_{p},x)$ . Рачуница је иста у сваком кораку, овде је описан случај за $i=1$ .

Рачунање $w_{1}$ из $(x_{1},y_{1},w_{0})$ се завршава примењујући градијент нагиба на функцију $w\mapsto E(f_{N}(w,x_{1}),y_{1})$ како би се нашао локални минимум, почевши од $w=w_{0}$ .

Интуиција

Да би се схватило математичко извођење алгоритма бекпропагације, пожељно је да се прво развију неке интуиције о односу између стварног излаза неурона и тачног излаза за одређени пример. Размотримо једноставну неуронску мрежу са две улазне јединице, једном излазном јединицом и без скривених јединица. Сваки неурон користи линеарни излаз, што је пондерисана сума његовог уноса.

У почетку, пре тренинга, тежине ће бити подешене насумично. Затим неурон учи на примерима, који се у овом случају састоје од скупа тројки $(x_{1},x_{2},t)$ где су $x_{1}$ и $x_{2}$ улази у мрежу и $t$ је исправан излаз (излаз који мрежа треба на крају да произведе за дате улазе). Иницијална мрежа, за дате $x_{1}$ и $x_{2}$ ће израчунати излаз у који се вероватно разликује од $t$ (дате случајне тежине) . Уобичајена метода за мерење неслагања између очекиваног излаза $t$ и стварног излаза $y$ је квадратна мера грешке:

E=(t-y)^{2},

где је $E$ неслагање или грешка.

Као пример, размотрите мрежу у једном случају: $(1,1,0)$ , тако да улаз $x_{1}$ и улаз $x_{2}$ буду 1 и 1 и тачан излаз, $t$ буде 0. Сада, ако је стварни излаз $y$ исцртан на хоризонталној оси заједно са грешком $E$ на вертикалној оси, резултат је парабола. Минимум параболе одговара излазу $y$ који минимизује грешку $E$ . На једном примеру, минимум такође дотиче хоризонталну осу, што значи да ће грешка бити нула и да мрежа може произвести излаз $y$ који тачно одговара очекиваном излазу $t$ . Самим тим, проблем мапирања улаза на излазе може се свести на проблем оптимизације проналаска функције која ће дати минималну грешку.

Међутим, излаз неурона зависи од пондерисане суме свих инпута: $y=x_{1}w_{1}+x_{2}w_{2},$ где су тежине на везу од улазних јединица до излазне јединице. Стога, грешка такође зависи од долазних тежина неурону, што је на крају оно што треба променити у мрежи како би се омогућило учење. Ако је свака тежина исцртана на засебној хоризонталној оси и грешка на вертикалној оси, резултат је параболичка посуда. За неурон са $k$ тежина, исти график би захтевао елиптички параболоид са $k+1$ димензијом.

Инерција

Користећи променљиви инерцијски израз (Моментум) ${\textstyle \alpha }$ , градијент и последња промена се могу пондерисати тако да подешавање тежине додатно зависи од претходне промене. Ако је Моментум ${\textstyle \alpha }$ једнак 0, промена зависи искључиво од градијента, док вредност 1 зависи само од последње промене.

Слично као лопта која се спушта низ планину, чија тренутна брзина се одређује не само тренутним нагибом планине, већ и сопственом инерцијом, може се додати инерција: $\Delta w_{ij}(t+1)=(1-\alpha )\eta \delta _{j}o_{i}+\alpha \,\Delta w_{ij}(t)$ где је

{\textstyle \Delta w_{ij}(t+1)}

промена у тежини

{\textstyle w_{ij}(t+1)}

у вези између неурона

{\textstyle i}

и неурона

{\textstyle j}

у времену

{\textstyle (t+1),}

{\textstyle \eta }

стопа учења

{\textstyle \delta _{j}}

грешка сигнала неурона ј

{\textstyle o_{i}}

излаз неурона

{\textstyle i}

што је и улаз за тренутни неурон (неурон

{\textstyle j,}

)

{\textstyle \alpha }

утицај инерције

{\textstyle \Delta w_{ij}(t)}

Ово одговара промени тежине у претходној тачки времена

Инерција зависи од тренутне промене тежине ${\textstyle (t+1)}$ из тренутног градијента функције грешке (нагиб планине, прва сума), као и од промене тежине у претходној тачки времена (инерција, друга сума).

Уз инерцију, избегавају се такође и проблеми заглављивања (у стрмим равницама и равним платоима). Будући да, на пример, градијент функције грешке постаје врло мали у равним платоима, инерција би одмах довела до "успоравања" градијента. Ово успоравање је одложено додавањем инерције тако да се равни плато може прећи што брже.

Начини учења

Доступна су два начина учења: стохастични и серијски. У стохастичком учењу, сваки улаз ствара прилагођавање тежине. У серијском учењу тежине се прилагођавају на основу серије улаза, акумулирајући грешке над том серијом. Стохастично учење уводи "буку" у процес градације, користећи локални градијент израчунат из једне тачке податка; ово смањује шансе да се мрежа заглави у локалним минимумима. Међутим, серијско учење обично даје брже и стабилније резултате, пошто се свака промена врши у правцу просечне грешке серије. Општи избор компромиса је коришћење "мини-серија", што значи мале серије и са узорцима у свакој серији изабраним стохастички из целог скупа података.

Ограничења

Не постоји гаранција да ће бекпропагација наћи глобални минимум функције грешке, већ само локални минимум. За овај проблем који настаје због неконвексности функције грешке у неуронским мрежама, се дуго сматрало да представља велики недостатак, али је Јан ЛеЦун показао да у многим практичним проблемима ово није озбиљан недостатак.^[3]

Историја

Према различитим изворима^[4]^[5]^[6]^[7] , основе непрекидне бекпропагације су извели у контексту теорије контроле Хенри Џ. Кели 1960. године^[8] и Артур Е. Брајсон 1961.^[9] Користили су принципе динамичког програмирања. Године 1962. Стјуарт Дрејфус^[10] је објавио једноставнији алат заснован само на правилу ланца. Брајсон и Хо су то описали као вишестепену динамичку системску оптимизацију 1969.^[11]^[12]

Линаинма је 1970. објавио општу методу за аутоматско диференцирање (АД) дискретних повезаних мрежа угњеждених диференцијабилних функција.^[13] Ово одговара бекпропагацији, која је ефикасна и за ретке мреже.

Године 1973. Дрејфус је користио бекпропагацију како би прилагодио параметре контролора пропорционално грешки градијената^[14]. Године 1974. Вербос је поменуо могућност примене овог принципа на вештачке неуронске мреже^[15], а 1982. године је Линаинма применио АД метод на неуралне мреже на начин који се данас користи.^[7]^[16]

Године 1986. Румелхарт, Хинтон и Вилијамс су експериментално показали да ова метода може генерисати корисна интерна представљања долазних података у скривеним слојевима неуронских мрежа^[17]^[18]. Године 1993, Ван је био први који је победио на такмичењу за признавање међународних узорака кроз бекпропагацију.^[19]

Током 2000-их година за њу је опало интересовање, али се вратило у 2010-им, јер је коришћена од стране јефтиних, моћних рачунарских система заснованих на ГПУ-у.

Референце

^ „Deep Networks: Overview - Ufldl”. ufldl.stanford.edu (на језику: енглески). Приступљено 04. 8. 2017.
^ Nielsen, Michael A. (01. 1. 2015). „Neural Networks and Deep Learning”.
^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). „Deep learning”. Nature. 521: 436—444. PMID 26017442. doi:10.1038/nature14539.
^ Stuart Dreyfus (1990). Artificial Neural Networks, Back Propagation and the Kelley-Bryson Gradient Procedure. J. Guidance, Control and Dynamics, 1990.
^ Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July). „On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application.” (PDF). Proceedings of the IEEE International Joint Conference on Neural Networks. Проверите вредност парамет(а)ра за датум: |date=, |year= / |date= mismatch (помоћ)^{[мртва веза]}
^ Schmidhuber, Jürgen (2015). „Deep learning in neural networks: An overview”. Neural Networks. 61: 85—117. doi:10.1016/j.neunet.2014.09.003.
^ ^а ^б Schmidhuber, Jürgen (2015). „Deep Learning”. Scholarpedia. 10 (11): 32832. doi:10.4249/scholarpedia.32832.
^ Kelley, Henry J. (1960). „Gradient theory of optimal flight paths”. Ars Journal. 30 (10): 947—954. doi:10.2514/8.5282.
^ Arthur E. Bryson (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard University Symposium on digital computers and their applications.
^ Dreyfus, Stuart. „The numerical solution of variational problems”. Journal of Mathematical Analysis and Applications. 5 (1): 30—45. doi:10.1016/0022-247x(62)90004-5.
^ Russell, Stuart; Norvig, Peter. Artificial Intelligence A Modern Approach. стр. 578. „The most popular method for learning in multilayer networks is called Back-propagation.”
^ Bryson, A. E.; Yu-Chi, Ho (01. 1. 1975). Applied Optimal Control: Optimization, Estimation and Control. CRC Press. ISBN 978-0-89116-228-5.
^ Linnainmaa, Seppo (1976). „Taylor expansion of the accumulated rounding error”. BIT Numerical Mathematics. 16 (2): 146—160. doi:10.1007/bf01931367.
^ Dreyfus, Stuart (1973). „The computational solution of optimal control problems with time lag”. IEEE Transactions on Automatic Control. 18 (4): 383—385. doi:10.1109/tac.1973.1100330.
^ Werbos, Paul John (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University.
^ Werbos 1982, стр. 762–770
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (08. 10. 1986). „Learning representations by back-propagating errors”. Nature. 323 (6088): 533—536. doi:10.1038/323533a0.
^ Alpaydin 2010.
^ Wan, Eric A. (1993). „Time series prediction by using a connectionist network with internal delay lines” (PDF). SANTA FE INSTITUTE STUDIES IN THE SCIENCES OF COMPLEXITY-PROCEEDINGS. стр. 195—195. Архивирано из оригинала (PDF) 02. 02. 2018. г. Невалидан унос |dead-url=dead (помоћ)

Литература

Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Press. ISBN 978-0-262-01243-0.
Werbos, Paul John (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University.
Bryson, A. E.; Yu-Chi, Ho (01. 1. 1975). Applied Optimal Control: Optimization, Estimation and Control. CRC Press. ISBN 978-0-89116-228-5.
Werbos, Paul (1982). „Applications of advances in nonlinear sensitivity analysis”. System modeling and optimization (PDF). Springer. стр. 762—770.
Russell, Stuart; Norvig, Peter. Artificial Intelligence A Modern Approach. стр. 578. „The most popular method for learning in multilayer networks is called Back-propagation”

[1] „Deep Networks: Overview - Ufldl”. ufldl.stanford.edu (на језику: енглески). Приступљено 04. 8. 2017.

[:0-2] Nielsen, Michael A. (01. 1. 2015). „Neural Networks and Deep Learning”.

[3] LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). „Deep learning”. Nature. 521: 436—444. PMID 26017442. doi:10.1038/nature14539.

[dreyfus1990-4] Stuart Dreyfus (1990). Artificial Neural Networks, Back Propagation and the Kelley-Bryson Gradient Procedure. J. Guidance, Control and Dynamics, 1990.

[5] Mizutani, Eiji; Dreyfus, Stuart; Nishio, Kenichi (July). „On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application.” (PDF). Proceedings of the IEEE International Joint Conference on Neural Networks. Проверите вредност парамет(а)ра за датум: |date=, |year= / |date= mismatch (помоћ)^{[мртва веза]}

[schmidhuber2015-6] Schmidhuber, Jürgen (2015). „Deep learning in neural networks: An overview”. Neural Networks. 61: 85—117. doi:10.1016/j.neunet.2014.09.003.

[scholarpedia2015-7] а ^б Schmidhuber, Jürgen (2015). „Deep Learning”. Scholarpedia. 10 (11): 32832. doi:10.4249/scholarpedia.32832.

[kelley1960-8] Kelley, Henry J. (1960). „Gradient theory of optimal flight paths”. Ars Journal. 30 (10): 947—954. doi:10.2514/8.5282.

[bryson1961-9] Arthur E. Bryson (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard University Symposium on digital computers and their applications.

[10] Dreyfus, Stuart. „The numerical solution of variational problems”. Journal of Mathematical Analysis and Applications. 5 (1): 30—45. doi:10.1016/0022-247x(62)90004-5.

[11] Russell, Stuart; Norvig, Peter. Artificial Intelligence A Modern Approach. стр. 578. „The most popular method for learning in multilayer networks is called Back-propagation.”

[12] Bryson, A. E.; Yu-Chi, Ho (01. 1. 1975). Applied Optimal Control: Optimization, Estimation and Control. CRC Press. ISBN 978-0-89116-228-5.

[lin1976-13] Linnainmaa, Seppo (1976). „Taylor expansion of the accumulated rounding error”. BIT Numerical Mathematics. 16 (2): 146—160. doi:10.1007/bf01931367.

[dreyfus1973-14] Dreyfus, Stuart (1973). „The computational solution of optimal control problems with time lag”. IEEE Transactions on Automatic Control. 18 (4): 383—385. doi:10.1109/tac.1973.1100330.

[werbos1974-15] Werbos, Paul John (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University.

[werbos1982-16] Werbos 1982, стр. 762–770

[Rumelhart1986-17] Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (08. 10. 1986). „Learning representations by back-propagating errors”. Nature. 323 (6088): 533—536. doi:10.1038/323533a0.

[FOOTNOTEAlpaydin2010-18] Alpaydin 2010.

[19] Wan, Eric A. (1993). „Time series prediction by using a connectionist network with internal delay lines” (PDF). SANTA FE INSTITUTE STUDIES IN THE SCIENCES OF COMPLEXITY-PROCEEDINGS. стр. 195—195. Архивирано из оригинала (PDF) 02. 02. 2018. г. Невалидан унос |dead-url=dead (помоћ)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]