Aktivaciona funkcija

S Vikipedije, slobodne enciklopedije
Logistička aktivaciona funkcija

U veštačkim neuronskim mrežama, aktivaciona funkcija čvora definiše izlaz tog čvora na osnovu ulaza ili skupa ulaza. Standardno kolo kompjuterskog čipa može se gledati kao digitalna mreža aktivacionih funkcija koje mogu imati vrednost „uključeno” (1) ili „isključeno” (0), u zavisnosti od ulaza. Ovo je slično ponašanju linearnog perceptrona u neuronskim mrežama. Međutim, samo nelinearne aktivacione funkcije dozvoljavaju takvim mrežama da izračunaju netrivijalne probleme koristeći samo mali broj čvorova.[1] U veštačkim neuronskim mrežama, ova funkcija se naziva i funkcija prenosa.

Funkcije[uredi | uredi izvor]

U biološki inspirisanim neuronskim mrežama, aktivaciona funkcija je obično apstrakcija koja predstavlja stopu akcionog potencijala koji se pojavljuje u ćeliji. U svojoj najjednostavnijoj formi, ova funkcija je binarna — tj. ili se neuron aktivira ili ne. Funkcija izgleda kao , gdje je Hevisajdova odskočna funkcija. U ovom slučaju mnogi neuroni se moraju koristiti u računanju izvan linearnog razdvajanja kategorija.

Linija pozitivnog nagiba može se koristiti da bi se odrazilo povećanje stope aktiviranja koja se javlja kako se ulazna struja povećava. Takva funkcija bi bila u formi , gde je nagib. Ova aktivaciona funkcija je linearna i stoga ima iste probleme kao i binarna funkcija. Pored toga, mreže konstruisane korišćenjem ovog modela imaju nestabilnu konvergenciju zato što neuronski ulazi po favorizovanim putevima imaju tendenciju da se povećaju bez vezivanja, jer ova funkcija nije normalizovana.

Svi navedeni problemi mogu se obraditi korišćenjem normalizovane sigmoidne aktivacione funkcije. Jedan realan model ostaje na nuli sve dok ne primi ulaznu struju. U tom trenutku, stopa aktivacije se prvo brzo povećava, ali se postepeno približava asimptoti sa stopom od 100%. Matematički, ovo izgleda kao , gde se hiperobolička tangentna funkcija može zameniti bilo kojom sigmoidnom funkcijom. Ovo ponašanje se realno reflektuje u neuronu, jer neuroni fizički ne mogu da se aktiviraju brže od određene stope. Međutim, ovaj model se susreće sa problemima u računarskim mrežama, jer nije diferencijabilan, što je zahtev za izračunavanje bekpropagacije.

Konačni model, koji se koristi u višeslojnim perceptronima, je sigmoidna aktivaciona funkcija u obliku hiperboličnog tangensa. Obično se koriste dva oblika ove funkcije: , čiji je raspon normalizovan od -1 do 1 i , koji je vertikalno transliran kako bi bio normalizovan od 0 do 1. Ovaj poslednji model često se smatra biološki realnijim, ali ima teorijske i eksperimentalne poteškoće sa određenim tipovima računarskih problema.

Poređenje aktivacionih funkcija[uredi | uredi izvor]

Aktivacione funkcije treba da imaju neka poželjna svojstva, među kojima su:

  • Nelinearnost — Kada je aktivaciona funkcija nelineaerna, onda se može dokazati da je dvoslojna neuronska mreža univerzalni aproksimator funkcije.[2]
  • Interval — Kada je interval aktivacione funkcije konačan, metode učenja zasnovane na gradijentu imaju tendenciju da budu stabilnije. Kada je interval beskonačan, učenje je generalno efikasnije.
  • Neprekidna diferencijabilnost — Ovo svojstvo je poželjno (ReLU nije neprekidno diferencijabilan i ima neke probleme sa optimizacijom zasnovanom na gradijentu) za omogućavanje metoda optimizacije zasnovanih na gradijentu. Aktivaciona binarna odskočna funkcija nije diferencijabilna u nuli, a izvod joj je 0 za sve ostale vrednosti, tako da metode zasnovane na gradijentu nemaju napretka sa ovom funkcijom.[3]
  • Monotonost — Kada je aktivaciona funkcija monotona, površina greške koja je povezana sa jednoslojnim modelom garantovano je konveksna.[4]
  • Glatke funkcije sa monotonim izvodom — Za ove funkcije pokazalo se da u nekim slučajevima bolje generalizuju.
  • Aproksimacija identiteta približno originalu — Kada aktivacione funkcije imaju ovo svojstvo, neuronska mreža će efikasno učiti kada se njene težine inicijalizuju na male slučajne vrednosti. Kada aktivaciona funkcija ne aproksimira identitet približan originalu, prilikom inicijalizacije težina mora se obratiti posebna pažnja.[5] U tabeli ispod, aktivacion efunkcije gde je i i gde je neprekidno u 0, označene su da imaju ovo svojstvo.

Sledeća tabela poredi svojstva nekoliko aktivacionih funkcija:

Naziv Graf Jednačina Izvod (po x) Interval Red neprekidnosti Monotona Monoton izvod Aproksimira identitet približno originalu
Funkcija identiteta Da Da Da
Binarna odskočna funkcija Da Ne Ne
Sigmoidna funkcija [1] Da Ne Ne
Hiperbolički tangens Da Ne Da
Inverzni tangens Da Ne Da
Inverzni hiperbolički sinus Da Ne Da
ElliotSig[6][7][8] Softsign[9][10] Da Ne Da
ISRU[11] Da Ne Da
ISRLU[11] Da Da Da
SQNL[8] Da Ne Da
ReLU[12] Da Da Ne
BReLU[13] Visualization of the Bipolar Rectified Linear Unit (BReLU) Da Da Ne
Leaky ReLU[14] Da Da Ne
PReLU[15] Da akko Da Da akko
RReLU[16] [2] Da Da Ne
ELU[17] Da akko Da akko Da akko
SELU[18]

sa i

Da Ne Ne
SReLU[19]
su parametri.
Ne Ne Ne
APL[20] [3] Ne Ne Ne
SoftPlus[21] Da Da Ne
Savijena funkcija identieta Da Da Da
SiLU[22] (SiL[23] ili Swish-1[24]) [4] [5] Ne Ne Aproksimira identitet/2
Blaga eksponencijalna funkcija[25] Da Da Da akko
Soft Clipping[26] Da Ne Ne
Sinusoida[27] Ne Ne Da
Sinc Ne Ne Ne
Gausova funkcija Ne Ne Ne
^ Ovde, H je Hevisajdova funkcija.
^ α je stohastička promenljiva izvedena iz uniformne raspodele vremena učenja i fiksirana je na očekivanu vrednost raspodele vremena testiranja.
^ ^ ^ Ovde, je logistička funkcija.

Sledeća tabela sadrži aktivacione funkcije koje nisu funkcije jednog složenog x iz prethodnog sloja ili slojeva:

Naziv Jednačina Izvodi Interval Red neprekidnosti
Softmax    for i = 1, …, J [6]
Maxout[28]

Reference[uredi | uredi izvor]

  1. ^ Hinkelmann, Knut. „Neural Networks,” (PDF). University of Applied Science Northwestern Switzerland. str. 7. Arhivirano iz originala (PDF) 06. 10. 2018. g.  Nevalidan unos |dead-url=dead (pomoć)
  2. ^ Mathematics of Control, Signals, and Systems: MCSS. (na jeziku: engleski). Springer International. 2006. 
  3. ^ Snyman, Jan (2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms (na jeziku: engleski). Springer Science & Business Media. ISBN 9780387243481. 
  4. ^ Wu, Huaiqin (9. 9. 2009). „Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions”. Information Sciences. 179 (19): 3432—3441. ISSN 0020-0255. doi:10.1016/j.ins.2009.06.006. 
  5. ^ Abbott, L. F.; Sussillo, David (19. 12. 2014). „Random Walk Initialization for Training Very Deep Feedforward Networks” (na jeziku: engleski). 
  6. ^ Elliot, David L. (1993), „A better activation function for artificial neural networks”, ISR Technical Report TR 93-8, University of Maryland, College Park, MD 20742., CiteSeerX 10.1.1.46.7204Slobodan pristup 
  7. ^ „elliotsig, Elliot symmetric sigmoid transfer function”, command introduced in Matlab R2012b, Matlab Documentation, MathWorks. 
  8. ^ a b Wuraola, Adedamola; Patel, Nitish (2018), „SQNL:A New Computationally Efficient Activation Function”, 2018 International Joint Conference on Neural Networks (IJCNN), Rio Rio de Janeiro, Brazil: IEEE, str. 1—7 
  9. ^ Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). „Quadratic polynomials learn better image features". Technical Report 1337”. Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. Arhivirano iz originala 25. 9. 2018. g. 
  10. ^ Glorot, Xavier; Bengio, Yoshua (2010), „Understanding the difficulty of training deep feedforward neural networks” (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS'10), Society for Artificial Intelligence and Statistics, Arhivirano iz originala (PDF) 01. 04. 2017. g. 
  11. ^ a b Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (9. 11. 2017). „Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)”. arXiv:1710.09967Slobodan pristup [cs.LG]. 
  12. ^ Nair, Vinod; Hinton, Geoffrey E. (2010), „Rectified Linear Units Improve Restricted Boltzmann Machines”, 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, str. 807—814, ISBN 9781605589077 
  13. ^ Eidnes, Lars; Nøkland, Arild (2018). „Shifting Mean Activation Towards Zero with Bipolar Activation Functions”. International Conference on Learning Representations (ICLR) Workshop. arXiv:1709.04054Slobodan pristup. 
  14. ^ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (jun 2013). „Rectifier nonlinearities improve neural network acoustic models” (PDF). Proc. ICML. 30 (1). Arhivirano iz originala (PDF) 03. 01. 2017. g. Pristupljeno 2. 1. 2017. 
  15. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6. 2. 2015). „Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”. arXiv:1502.01852Slobodan pristup [cs.CV]. 
  16. ^ Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (4. 5. 2015). „Empirical Evaluation of Rectified Activations in Convolutional Network”. arXiv:1505.00853Slobodan pristup [cs.LG]. 
  17. ^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23. 11. 2015). „Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)”. arXiv:1511.07289Slobodan pristup [cs.LG]. 
  18. ^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (8. 6. 2017). „Self-Normalizing Neural Networks”. Advances in Neural Information Processing Systems. 30 (2017). Bibcode:2017arXiv170602515K. arXiv:1706.02515Slobodan pristup. 
  19. ^ Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (22. 12. 2015). „Deep Learning with S-shaped Rectified Linear Activation Units”. arXiv:1512.07030Slobodan pristup [cs.CV]. 
  20. ^ Agostinelli, Forest; Hoffman, Matthew; Sadowski, Peter; Baldi, Pierre (21. 12. 2014). „Learning Activation Functions to Improve Deep Neural Networks”. arXiv:1412.6830Slobodan pristup [cs.NE]. 
  21. ^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). „Deep sparse rectifier neural networks” (PDF). International Conference on Artificial Intelligence and Statistics. 
  22. ^ Hendrycks, Dan; Gimpel, Kevin (2016). „Gaussian Error Linear Units (GELUs)”. arXiv:1606.08415Slobodan pristup [cs.LG]. 
  23. ^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2017). „Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning”. arXiv:1702.03118Slobodan pristup [cs.LG]. 
  24. ^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). „Searching for Activation Functions”. arXiv:1710.05941Slobodan pristup [cs.NE]. 
  25. ^ Godfrey, Luke B.; Gashler, Michael S. (3. 2. 2016). „A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks”. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 1602: 481—486. Bibcode:2016arXiv160201321G. arXiv:1602.01321Slobodan pristup. 
  26. ^ Klimek, Matthew D.; Perelstein, Maxim (26. 10. 2018). „Neural Network-Based Approach to Phase Space Integration”. arXiv:1810.11509Slobodan pristup [hep-ph]. 
  27. ^ Gashler, Michael S.; Ashmore, Stephen C. (9. 5. 2014). „Training Deep Fourier Neural Networks To Fit Time-Series Data”. arXiv:1405.2262Slobodan pristup [cs.NE]. 
  28. ^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). „Maxout Networks”. JMLR Workshop and Conference Proceedings. 28 (3): 1319—1327. Bibcode:2013arXiv1302.4389G. arXiv:1302.4389Slobodan pristup.