Активациона функција

Из Википедије, слободне енциклопедије
Иди на навигацију Иди на претрагу
Логистичка активациона функција

У вештачким неуронским мрежама, активациона функција чвора дефинише излаз тог чвора на основу улаза или скупа улаза. Стандардно коло компјутерског чипа може се гледати као дигитална мрежа активационих функција које могу имати вредност „укључено” (1) или „искључено” (0), у зависности од улаза. Ово је слично понашању линеарног перцептрона у неуронским мрежама. Међутим, само нелинеарне активационе функције дозвољавају таквим мрежама да израчунају нетривијалне проблеме користећи само мали број чворова.[1] У вештачким неуронским мрежама, ова функција се назива и функција преноса.

Функције[уреди]

У биолошки инспирисаним неуронским мрежама, активациона функција је обично апстракција која представља стопу акционог потенцијала који се појављује у ћелији. У својој најједноставнијој форми, ова функција је бинарна — тј. или се неурон активира или не. Функција изгледа као , гдје је Хевисајдова одскочна функција. У овом случају многи неурони се морају користити у рачунању изван линеарног раздвајања категорија.

Линија позитивног нагиба може се користити да би се одразило повећање стопе активирања која се јавља како се улазна струја повећава. Таква функција би била у форми , где је нагиб. Ова активациона функција је линеарна и стога има исте проблеме као и бинарна функција. Поред тога, мреже конструисане коришћењем овог модела имају нестабилну конвергенцију зато што неуронски улази по фаворизованим путевима имају тенденцију да се повећају без везивања, јер ова функција није нормализована.

Сви наведени проблеми могу се обрадити коришћењем нормализоване сигмоидне активационе функције. Један реалан модел остаје на нули све док не прими улазну струју. У том тренутку, стопа активације се прво брзо повећава, али се постепено приближава асимптоти са стопом од 100%. Математички, ово изгледа као , где се хипероболичка тангентна функција може заменити било којом сигмоидном функцијом. Ово понашање се реално рефлектује у неурону, јер неурони физички не могу да се активирају брже од одређене стопе. Међутим, овај модел се сусреће са проблемима у рачунарским мрежама, јер није диференцијабилан, што је захтев за израчунавање бекпропагације.

Коначни модел, који се користи у вишеслојним перцептронима, је сигмоидна активациона функција у облику хиперболичног тангенса. Обично се користе два облика ове функције: , чији је распон нормализован од -1 до 1 и , који је вертикално транслиран како би био нормализован од 0 до 1. Овај последњи модел често се сматра биолошки реалнијим, али има теоријске и експерименталне потешкоће са одређеним типовима рачунарских проблема.

Поређење активационих функција[уреди]

Активационе функције треба да имају нека пожељна својства, међу којима су:

  • Нелинеарност — Када је активациона функција нелинеаерна, онда се може доказати да је двослојна неуронска мрежа универзални апроксиматор функције.[2]
  • Интервал — Када је интервал активационе функције коначан, методе учења засноване на градијенту имају тенденцију да буду стабилније. Када је интервал бесконачан, учење је генерално ефикасније.
  • Непрекидна диференцијабилност — Ово својство је пожељно (ReLU није непрекидно диференцијабилан и има неке проблеме са оптимизацијом заснованом на градијенту) за омогућавање метода оптимизације заснованих на градијенту. Активациона бинарна одскочна функција није диференцијабилна у нули, а извод јој је 0 за све остале вредности, тако да методе засноване на градијенту немају напретка са овом функцијом.[3]
  • Монотоност — Када је активациона функција монотона, површина грешке која је повезана са једнослојним моделом гарантовано је конвексна.[4]
  • Глатке функције са монотоним изводом — За ове функције показало се да у неким случајевима боље генерализују.
  • Апроксимација идентитета приближно оригиналу — Када активационе функције имају ово својство, неуронска мрежа ће ефикасно учити када се њене тежине иницијализују на мале случајне вредности. Када активациона функција не апроксимира идентитет приближан оригиналу, приликом иницијализације тежина мора се обратити посебна пажња.[5] У табели испод, активацион ефункције где је и и где је непрекидно у 0, означене су да имају ово својство.

Следећа табела пореди својства неколико активационих функција:

Назив Граф Једначина Извод (по x) Интервал Ред непрекидности Монотона Монотон извод Апроксимира идентитет приближно оригиналу
Функција идентитета Activation identity.svg Да Да Да
Бинарна одскочна функција Activation binary step.svg Да Не Не
Сигмоидна функција Activation logistic.svg [1] Да Не Не
Хиперболички тангенс Activation tanh.svg Да Не Да
Инверзни тангенс Activation arctan.svg Да Не Да
Инверзни хиперболички синус Да Не Да
ElliotSig[6][7][8] Softsign[9][10] Activation softsign.png Да Не Да
ISRU[11] Activation ISRU.svg Да Не Да
ISRLU[11] Activation ISRLU.svg Да Да Да
SQNL[8] Activation tanh.svg Да Не Да
ReLU[12] Activation rectified linear.svg Да Да Не
BReLU[13] Visualization of the Bipolar Rectified Linear Unit (BReLU) Да Да Не
Leaky ReLU[14] Activation prelu.svg Да Да Не
PReLU[15] Activation prelu.svg Да akko Да Да akko
RReLU[16] Activation prelu.svg [2] Да Да Не
ELU[17] Activation elu.svg Да akko Да akko Да akko
SELU[18]

са и

Да Не Не
SReLU[19]
су параметри.
Не Не Не
APL[20] [3] Не Не Не
SoftPlus[21] Activation softplus.svg Да Да Не
Савијена функција идентиета Activation bent identity.svg Да Да Да
SiLU[22] (SiL[23] или Swish-1[24]) [4] [5] Не Не Апроксимира идентитет/2
Блага експоненцијална функција[25] Activation soft exponential.svg Да Да Да akko
Soft Clipping[26] Soft Clipping Activation Function.svg Да Не Не
Синусоида[27] Activation sinusoid.svg Не Не Да
Sinc Activation sinc.svg Не Не Не
Гаусова функција Activation gaussian.svg Не Не Не
^ Овде, H је Хевисајдова функција.
^ α је стохастичка променљива изведена из униформне расподеле времена учења и фиксирана је на очекивану вредност расподеле времена тестирања.
^ ^ ^ Овде, је логистичка функција.

Следећа табела садржи активационе функције које нису функције једног сложеног x из претходног слоја или слојева:

Назив Једначина Изводи Интервал Ред непрекидности
Softmax    for i = 1, …, J [6]
Maxout[28]

Референце[уреди]

  1. ^ Hinkelmann, Knut. „Neural Networks,” (PDF). University of Applied Science Northwestern Switzerland. стр. 7. 
  2. ^ Mathematics of Control, Signals, and Systems: MCSS. (на језику: енглески). Springer International. 2006. 
  3. ^ Snyman, Jan (2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms (на језику: енглески). Springer Science & Business Media. ISBN 9780387243481. 
  4. ^ Wu, Huaiqin (9. 9. 2009). „Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions”. Information Sciences. 179 (19): 3432—3441. ISSN 0020-0255. doi:10.1016/j.ins.2009.06.006. 
  5. ^ Abbott, L. F.; Sussillo, David (19. 12. 2014). „Random Walk Initialization for Training Very Deep Feedforward Networks” (на језику: енглески). 
  6. ^ Elliot, David L. (1993), „A better activation function for artificial neural networks”, ISR Technical Report TR 93-8, University of Maryland, College Park, MD 20742., CiteSeerX 10.1.1.46.7204Слободан приступ 
  7. ^ „elliotsig, Elliot symmetric sigmoid transfer function”, command introduced in Matlab R2012b, Matlab Documentation, MathWorks. 
  8. 8,0 8,1 Wuraola, Adedamola; Patel, Nitish (2018), „SQNL:A New Computationally Efficient Activation Function”, 2018 International Joint Conference on Neural Networks (IJCNN), Rio Rio de Janeiro, Brazil: IEEE, стр. 1—7 
  9. ^ Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). „Quadratic polynomials learn better image features". Technical Report 1337”. Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. Архивирано из оригинала на датум 25. 9. 2018. 
  10. ^ Glorot, Xavier; Bengio, Yoshua (2010), „Understanding the difficulty of training deep feedforward neural networks” (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS'10), Society for Artificial Intelligence and Statistics 
  11. 11,0 11,1 Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (9. 11. 2017). „Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)”. arXiv:1710.09967Слободан приступ [cs.LG]. 
  12. ^ Nair, Vinod; Hinton, Geoffrey E. (2010), „Rectified Linear Units Improve Restricted Boltzmann Machines”, 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, стр. 807—814, ISBN 9781605589077 
  13. ^ Eidnes, Lars; Nøkland, Arild (2018). „Shifting Mean Activation Towards Zero with Bipolar Activation Functions”. International Conference on Learning Representations (ICLR) Workshop. arXiv:1709.04054Слободан приступ. 
  14. ^ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (јун 2013). „Rectifier nonlinearities improve neural network acoustic models” (PDF). Proc. ICML. 30 (1). Приступљено 2. 1. 2017. 
  15. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6. 2. 2015). „Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”. arXiv:1502.01852Слободан приступ [cs.CV]. 
  16. ^ Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (4. 5. 2015). „Empirical Evaluation of Rectified Activations in Convolutional Network”. arXiv:1505.00853Слободан приступ [cs.LG]. 
  17. ^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23. 11. 2015). „Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)”. arXiv:1511.07289Слободан приступ [cs.LG]. 
  18. ^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (8. 6. 2017). „Self-Normalizing Neural Networks”. Advances in Neural Information Processing Systems. 30 (2017). Bibcode:2017arXiv170602515K. arXiv:1706.02515Слободан приступ. 
  19. ^ Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (22. 12. 2015). „Deep Learning with S-shaped Rectified Linear Activation Units”. arXiv:1512.07030Слободан приступ [cs.CV]. 
  20. ^ Agostinelli, Forest; Hoffman, Matthew; Sadowski, Peter; Baldi, Pierre (21. 12. 2014). „Learning Activation Functions to Improve Deep Neural Networks”. arXiv:1412.6830Слободан приступ [cs.NE]. 
  21. ^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). „Deep sparse rectifier neural networks” (PDF). International Conference on Artificial Intelligence and Statistics. 
  22. ^ Hendrycks, Dan; Gimpel, Kevin (2016). „Gaussian Error Linear Units (GELUs)”. arXiv:1606.08415Слободан приступ [cs.LG]. 
  23. ^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2017). „Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning”. arXiv:1702.03118Слободан приступ [cs.LG]. 
  24. ^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). „Searching for Activation Functions”. arXiv:1710.05941Слободан приступ [cs.NE]. 
  25. ^ Godfrey, Luke B.; Gashler, Michael S. (3. 2. 2016). „A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks”. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 1602: 481—486. Bibcode:2016arXiv160201321G. arXiv:1602.01321Слободан приступ. 
  26. ^ Klimek, Matthew D.; Perelstein, Maxim (26. 10. 2018). „Neural Network-Based Approach to Phase Space Integration”. arXiv:1810.11509Слободан приступ [hep-ph]. 
  27. ^ Gashler, Michael S.; Ashmore, Stephen C. (9. 5. 2014). „Training Deep Fourier Neural Networks To Fit Time-Series Data”. arXiv:1405.2262Слободан приступ [cs.NE]. 
  28. ^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). „Maxout Networks”. JMLR Workshop and Conference Proceedings. 28 (3): 1319—1327. Bibcode:2013arXiv1302.4389G. arXiv:1302.4389Слободан приступ.