Aktivaciona funkcija
U veštačkim neuronskim mrežama, aktivaciona funkcija čvora definiše izlaz tog čvora na osnovu ulaza ili skupa ulaza. Standardno kolo kompjuterskog čipa može se gledati kao digitalna mreža aktivacionih funkcija koje mogu imati vrednost „uključeno” (1) ili „isključeno” (0), u zavisnosti od ulaza. Ovo je slično ponašanju linearnog perceptrona u neuronskim mrežama. Međutim, samo nelinearne aktivacione funkcije dozvoljavaju takvim mrežama da izračunaju netrivijalne probleme koristeći samo mali broj čvorova.[1] U veštačkim neuronskim mrežama, ova funkcija se naziva i funkcija prenosa.
Funkcije[uredi | uredi izvor]
U biološki inspirisanim neuronskim mrežama, aktivaciona funkcija je obično apstrakcija koja predstavlja stopu akcionog potencijala koji se pojavljuje u ćeliji. U svojoj najjednostavnijoj formi, ova funkcija je binarna — tj. ili se neuron aktivira ili ne. Funkcija izgleda kao , gdje je Hevisajdova odskočna funkcija. U ovom slučaju mnogi neuroni se moraju koristiti u računanju izvan linearnog razdvajanja kategorija.
Linija pozitivnog nagiba može se koristiti da bi se odrazilo povećanje stope aktiviranja koja se javlja kako se ulazna struja povećava. Takva funkcija bi bila u formi , gde je nagib. Ova aktivaciona funkcija je linearna i stoga ima iste probleme kao i binarna funkcija. Pored toga, mreže konstruisane korišćenjem ovog modela imaju nestabilnu konvergenciju zato što neuronski ulazi po favorizovanim putevima imaju tendenciju da se povećaju bez vezivanja, jer ova funkcija nije normalizovana.
Svi navedeni problemi mogu se obraditi korišćenjem normalizovane sigmoidne aktivacione funkcije. Jedan realan model ostaje na nuli sve dok ne primi ulaznu struju. U tom trenutku, stopa aktivacije se prvo brzo povećava, ali se postepeno približava asimptoti sa stopom od 100%. Matematički, ovo izgleda kao , gde se hiperobolička tangentna funkcija može zameniti bilo kojom sigmoidnom funkcijom. Ovo ponašanje se realno reflektuje u neuronu, jer neuroni fizički ne mogu da se aktiviraju brže od određene stope. Međutim, ovaj model se susreće sa problemima u računarskim mrežama, jer nije diferencijabilan, što je zahtev za izračunavanje bekpropagacije.
Konačni model, koji se koristi u višeslojnim perceptronima, je sigmoidna aktivaciona funkcija u obliku hiperboličnog tangensa. Obično se koriste dva oblika ove funkcije: , čiji je raspon normalizovan od -1 do 1 i , koji je vertikalno transliran kako bi bio normalizovan od 0 do 1. Ovaj poslednji model često se smatra biološki realnijim, ali ima teorijske i eksperimentalne poteškoće sa određenim tipovima računarskih problema.
Poređenje aktivacionih funkcija[uredi | uredi izvor]
Aktivacione funkcije treba da imaju neka poželjna svojstva, među kojima su:
- Nelinearnost — Kada je aktivaciona funkcija nelineaerna, onda se može dokazati da je dvoslojna neuronska mreža univerzalni aproksimator funkcije.[2]
- Interval — Kada je interval aktivacione funkcije konačan, metode učenja zasnovane na gradijentu imaju tendenciju da budu stabilnije. Kada je interval beskonačan, učenje je generalno efikasnije.
- Neprekidna diferencijabilnost — Ovo svojstvo je poželjno (ReLU nije neprekidno diferencijabilan i ima neke probleme sa optimizacijom zasnovanom na gradijentu) za omogućavanje metoda optimizacije zasnovanih na gradijentu. Aktivaciona binarna odskočna funkcija nije diferencijabilna u nuli, a izvod joj je 0 za sve ostale vrednosti, tako da metode zasnovane na gradijentu nemaju napretka sa ovom funkcijom.[3]
- Monotonost — Kada je aktivaciona funkcija monotona, površina greške koja je povezana sa jednoslojnim modelom garantovano je konveksna.[4]
- Glatke funkcije sa monotonim izvodom — Za ove funkcije pokazalo se da u nekim slučajevima bolje generalizuju.
- Aproksimacija identiteta približno originalu — Kada aktivacione funkcije imaju ovo svojstvo, neuronska mreža će efikasno učiti kada se njene težine inicijalizuju na male slučajne vrednosti. Kada aktivaciona funkcija ne aproksimira identitet približan originalu, prilikom inicijalizacije težina mora se obratiti posebna pažnja.[5] U tabeli ispod, aktivacion efunkcije gde je i i gde je neprekidno u 0, označene su da imaju ovo svojstvo.
Sledeća tabela poredi svojstva nekoliko aktivacionih funkcija:
Naziv | Graf | Jednačina | Izvod (po x) | Interval | Red neprekidnosti | Monotona | Monoton izvod | Aproksimira identitet približno originalu |
---|---|---|---|---|---|---|---|---|
Funkcija identiteta | Da | Da | Da | |||||
Binarna odskočna funkcija | Da | Ne | Ne | |||||
Sigmoidna funkcija | [1] | Da | Ne | Ne | ||||
Hiperbolički tangens | Da | Ne | Da | |||||
Inverzni tangens | Da | Ne | Da | |||||
Inverzni hiperbolički sinus | Da | Ne | Da | |||||
ElliotSig[6][7][8] Softsign[9][10] | Da | Ne | Da | |||||
ISRU[11] | Da | Ne | Da | |||||
ISRLU[11] | Da | Da | Da | |||||
SQNL[8] | Da | Ne | Da | |||||
ReLU[12] | Da | Da | Ne | |||||
BReLU[13] | Da | Da | Ne | |||||
Leaky ReLU[14] | Da | Da | Ne | |||||
PReLU[15] | Da akko | Da | Da akko | |||||
RReLU[16] | [2] | Da | Da | Ne | ||||
ELU[17] | Da akko | Da akko | Da akko | |||||
SELU[18] |
sa i |
Da | Ne | Ne | ||||
SReLU[19] | su parametri. |
Ne | Ne | Ne | ||||
APL[20] | [3] | Ne | Ne | Ne | ||||
SoftPlus[21] | Da | Da | Ne | |||||
Savijena funkcija identieta | Da | Da | Da | |||||
SiLU[22] (SiL[23] ili Swish-1[24]) | [4] | [5] | Ne | Ne | Aproksimira identitet/2 | |||
Blaga eksponencijalna funkcija[25] | Da | Da | Da akko | |||||
Soft Clipping[26] | Da | Ne | Ne | |||||
Sinusoida[27] | Ne | Ne | Da | |||||
Sinc | Ne | Ne | Ne | |||||
Gausova funkcija | Ne | Ne | Ne |
- ^ Ovde, H je Hevisajdova funkcija.
- ^ α je stohastička promenljiva izvedena iz uniformne raspodele vremena učenja i fiksirana je na očekivanu vrednost raspodele vremena testiranja.
- ^ ^ ^ Ovde, je logistička funkcija.
Sledeća tabela sadrži aktivacione funkcije koje nisu funkcije jednog složenog x iz prethodnog sloja ili slojeva:
Naziv | Jednačina | Izvodi | Interval | Red neprekidnosti |
---|---|---|---|---|
Softmax | for i = 1, …, J | [6] | ||
Maxout[28] |
Reference[uredi | uredi izvor]
- ^ Hinkelmann, Knut. „Neural Networks,” (PDF). University of Applied Science Northwestern Switzerland. str. 7. Arhivirano iz originala (PDF) 06. 10. 2018. g. Nevalidan unos
|dead-url=dead
(pomoć) - ^ Mathematics of Control, Signals, and Systems: MCSS. (na jeziku: engleski). Springer International. 2006.
- ^ Snyman, Jan (2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms (na jeziku: engleski). Springer Science & Business Media. ISBN 9780387243481.
- ^ Wu, Huaiqin (9. 9. 2009). „Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions”. Information Sciences. 179 (19): 3432—3441. ISSN 0020-0255. doi:10.1016/j.ins.2009.06.006.
- ^ Abbott, L. F.; Sussillo, David (19. 12. 2014). „Random Walk Initialization for Training Very Deep Feedforward Networks” (na jeziku: engleski).
- ^ Elliot, David L. (1993), „A better activation function for artificial neural networks”, ISR Technical Report TR 93-8, University of Maryland, College Park, MD 20742., CiteSeerX 10.1.1.46.7204
- ^ „elliotsig, Elliot symmetric sigmoid transfer function”, command introduced in Matlab R2012b, Matlab Documentation, MathWorks.
- ^ a b Wuraola, Adedamola; Patel, Nitish (2018), „SQNL:A New Computationally Efficient Activation Function”, 2018 International Joint Conference on Neural Networks (IJCNN), Rio Rio de Janeiro, Brazil: IEEE, str. 1—7
- ^ Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). „Quadratic polynomials learn better image features". Technical Report 1337”. Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. Arhivirano iz originala 25. 9. 2018. g.
- ^ Glorot, Xavier; Bengio, Yoshua (2010), „Understanding the difficulty of training deep feedforward neural networks” (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS'10), Society for Artificial Intelligence and Statistics, Arhivirano iz originala (PDF) 01. 04. 2017. g.
- ^ a b Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (9. 11. 2017). „Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)”. arXiv:1710.09967 [cs.LG].
- ^ Nair, Vinod; Hinton, Geoffrey E. (2010), „Rectified Linear Units Improve Restricted Boltzmann Machines”, 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, str. 807—814, ISBN 9781605589077
- ^ Eidnes, Lars; Nøkland, Arild (2018). „Shifting Mean Activation Towards Zero with Bipolar Activation Functions”. International Conference on Learning Representations (ICLR) Workshop. arXiv:1709.04054 .
- ^ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (jun 2013). „Rectifier nonlinearities improve neural network acoustic models” (PDF). Proc. ICML. 30 (1). Arhivirano iz originala (PDF) 03. 01. 2017. g. Pristupljeno 2. 1. 2017.
- ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6. 2. 2015). „Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”. arXiv:1502.01852 [cs.CV].
- ^ Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (4. 5. 2015). „Empirical Evaluation of Rectified Activations in Convolutional Network”. arXiv:1505.00853 [cs.LG].
- ^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23. 11. 2015). „Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)”. arXiv:1511.07289 [cs.LG].
- ^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (8. 6. 2017). „Self-Normalizing Neural Networks”. Advances in Neural Information Processing Systems. 30 (2017). Bibcode:2017arXiv170602515K. arXiv:1706.02515 .
- ^ Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (22. 12. 2015). „Deep Learning with S-shaped Rectified Linear Activation Units”. arXiv:1512.07030 [cs.CV].
- ^ Agostinelli, Forest; Hoffman, Matthew; Sadowski, Peter; Baldi, Pierre (21. 12. 2014). „Learning Activation Functions to Improve Deep Neural Networks”. arXiv:1412.6830 [cs.NE].
- ^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). „Deep sparse rectifier neural networks” (PDF). International Conference on Artificial Intelligence and Statistics.
- ^ Hendrycks, Dan; Gimpel, Kevin (2016). „Gaussian Error Linear Units (GELUs)”. arXiv:1606.08415 [cs.LG].
- ^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2017). „Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning”. arXiv:1702.03118 [cs.LG].
- ^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). „Searching for Activation Functions”. arXiv:1710.05941 [cs.NE].
- ^ Godfrey, Luke B.; Gashler, Michael S. (3. 2. 2016). „A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks”. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 1602: 481—486. Bibcode:2016arXiv160201321G. arXiv:1602.01321 .
- ^ Klimek, Matthew D.; Perelstein, Maxim (26. 10. 2018). „Neural Network-Based Approach to Phase Space Integration”. arXiv:1810.11509 [hep-ph].
- ^ Gashler, Michael S.; Ashmore, Stephen C. (9. 5. 2014). „Training Deep Fourier Neural Networks To Fit Time-Series Data”. arXiv:1405.2262 [cs.NE].
- ^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). „Maxout Networks”. JMLR Workshop and Conference Proceedings. 28 (3): 1319—1327. Bibcode:2013arXiv1302.4389G. arXiv:1302.4389 .