Функције губитака за класификацију

Бајесове конзистентне функције губитка: губитак нула-један (сива), губитак дивљака (зелена), логистички губитак (наранџаста), експоненцијални губитак (љубичаста), губитак тангента (браон), губитак квадрата (плава)

У машинском учењу и математичкој оптимизацији, функције губитка за класификацију су рачунски изводљиве функције губитка које представљају цену плаћену за нетачност предвиђања у проблемима класификације (проблеми идентификације којој категорији припада одређено запажање). Дато ${\mathcal {X}}$ као простор свих могућих улаза (обично ${\mathcal {X}}\subset \mathbb {R} ^{d}$ ), и ${\mathcal {Y}}=\{-1,1\}$ као скуп ознака (могућих излаза), типичан циљ класификационих алгоритама је проналажење функције $f:{\mathcal {X}}\mapsto \mathbb {R}$ који најбоље предвиђа ознаку $y$ за дати улаз ${\vec {x}}$ . Међутим, због непотпуних информација, шума у мерењу или вероватноћа компоненти у основном процесу, могуће је да исти ${\vec {x}}$ генерише различите $y$ . Као резултат, циљ проблема учења је да се минимизира очекивани губитак (такође познат као ризик), дефинисан као

I[f]=\displaystyle \int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy

где је $V(f({\vec {x}}),y)$ дата функција губитка, и $p({\vec {x}},y)$ је функција густине вероватноће процеса који је генерисао податке, што је еквивалентно:

p({\vec {x}},y)=p(y\mid {\vec {x}})p({\vec {x}}).

У оквиру класификације, неколико често коришћених функција губитка је написано искључиво у смислу производа праве лабеле $y$ и предвиђене лабеле $f({\vec {x}})$ . Стога се могу дефинисати као функције само једне променљиве $\upsilon =yf({\vec {x}})$ , тако да $V(f({\vec {x}}),y)=\phi (yf({\vec {x}}))=\phi (\upsilon )$ са прикладно одабраном функцијом $\phi :\mathbb {R} \to \mathbb {R}$ . Оне се називају функције губитка засноване на маржи . Одабир функције губитка засноване на маржи представља избор $\phi$ . Избор функције губитка унутар овог оквира утиче на оптималну $f_{\phi }^{*}$ што минимизира очекивани ризик.

У случају бинарне класификације, могуће је поједноставити израчунавање очекиваног ризика из горе наведеног интеграла. Односно:

{\begin{aligned}I[f]&=\int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy\\[6pt]&=\int _{\mathcal {X}}\int _{\mathcal {Y}}\phi (yf({\vec {x}}))p(y\mid {\vec {x}})p({\vec {x}})\,dy\,d{\vec {x}}\\[6pt]&=\int _{\mathcal {X}}[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))p(-1\mid {\vec {x}})]p({\vec {x}})\,d{\vec {x}}\\[6pt]&=\int _{\mathcal {X}}[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))(1-p(1\mid {\vec {x}}))]p({\vec {x}})\,d{\vec {x}}\end{aligned}}

Друга једнакост произилази из горе описаних својстава. Трећа једнакост произилази из чињенице да су 1 и −1 једине могуће вредности за $y$ , а четврта јер је $p(-1\mid x)=1-p(1\mid x)$ . Термин у заградама $[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))(1-p(1\mid {\vec {x}}))]$ је познат као условни ризик.

Може се решити за минимизатор од $I[f]$ узимањем функционалног извода последње једнакости у односу на $f$ и изједначавањем извода са 0. Ово ће резултирати следећом једначином:

{\frac {\partial \phi (f)}{\partial f}}\eta +{\frac {\partial \phi (-f)}{\partial f}}(1-\eta )=0\;\;\;\;\;(1)

што је еквивалентно постављању извода условног ризика једнаком нули.

С обзиром на бинарну природу класификације, природна селекција за функцију губитка (под претпоставком да је једнака цена за лажне позитивне и лажно негативне ) била би функција губитка 0-1 ( функција индикатора 0–1), која узима вредност 0 ако је предвиђено класификација једнака оној праве класе или 1 ако се предвиђена класификација не поклапа са правом класом. Овај избор је моделован по следећој једнокости:

V(f({\vec {x}}),y)=H(-yf({\vec {x}}))

где $H$ означава функцију Хевисајдовог корака. Међутим, ова функција губитка није конвексна и није глатка, а решавање оптималног решења је НП-тежак комбинаторни оптимизациони проблем. Као резултат тога, боље је заменити сурогате функције губитка који су погодни за уобичајено коришћене код алгоритама учења, јер имају погодна својства као што је конвексност и глаткос. Поред њихове рачунске поправљивости, може се показати да решења проблема учења помоћу ових сурогата губитака омогућавају опоравак стварног решења оригиналног проблема класификације. Неки од ових сурогата су описани у наставку.

У пракси, расподела вероватноће $p({\vec {x}},y)$ је непозната. Сходно томе, користити тренинг сет за обуку $n$ независно и идентично распоређених тачки узорка

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}

извучен из простора елемантарних узорака података, настоји се минимизирати емпиријски ризик

I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

као замена за очекивани ризик.

Бајесова конзистенција[уреди | уреди извор]

Користећи Бајесову теорему, може се показати да је оптимална $f_{0/1}^{*}$ , тј. она који минимизује очекивани ризик повезан са губитком нула-један, имплементира Бајесово правило оптималне одлуке за проблем бинарне класификације и у облику је:

f_{0/1}^{*}({\vec {x}})\;=\;{\begin{cases}\;\;\;1&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\\;\;\;0&{\text{if }}p(1\mid {\vec {x}})=p(-1\mid {\vec {x}})\\-1&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

.

За функцију губитка се каже да је калибрисана класификацијом или Бајесова конзистентна ако је оптимална $f_{\phi }^{*}$ је такава да $f_{0/1}^{*}({\vec {x}})=\operatorname {sgn} (f_{\phi }^{*}({\vec {x}}))$ и стога је оптималана према Бајесовом правилу одлучивања. Бајесова конзистентна функција губитка омогућава нам да пронађемо Бајесову оптималну функцију одлучивања $f_{\phi }^{*}$ директним минимизовањем очекиваног ризика и без потребе за експлицитним моделирањем функција густине вероватноће.

За губитак конвексне маргине $\phi (\upsilon )$ , може се показати да $\phi (\upsilon )$ је Бајес конзистентан ако и само ако је диференцибилан на 0 и $\phi '(0)<0$ . Ипак, овај резултат не искључује постојање неконвексних Бајесових конзистентних функција губитка. Општији резултат каже да се Бајесове конзистентне функције губитка могу генерисати коришћењем следеће формулације:

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]\;\;\;\;\;(2)

,

где $f(\eta ),(0\leq \eta \leq 1)$ је било која инверзибилна функција таква да је $f^{-1}(-v)=1-f^{-1}(v)$ и $C(\eta )$ било која диференцибилна стриктно конкавна функција таква да је $C(\eta )=C(1-\eta )$ . Табела-И приказује генерисане Бајесове конзистентне функције губитка за неке примере избора $C(\eta )$ и $f^{-1}(v)$ . Имајте на уму да нису сви губитци конвексни. Показало се да су такве неконвексне функције губитка корисне у раду са одступницима у класификацији. За све функције губитка генерисане из (2), постериорна вероватноћа $p(y=1|{\vec {x}})$ може се наћи помоћу функције инверзне везе као $p(y=1|{\vec {x}})=\eta =f^{-1}(v)$ . Такве функције губитка где се задња вероватноћа може повратити коришћењем инверзибилне везе називају се функције правилног губитка .

Табела-И
Име губитка	$\phi (v)$	$C(\eta )$	$f^{-1}(v)$	$f(\eta )$
Експоненцијално	$e^{-v}$	$2{\sqrt {\eta (1-\eta )}}$	${\frac {e^{2v}}{1+e^{2v}}}$	${\frac {1}{2}}\log({\frac {\eta }{1-\eta }})$
Логистиц	${\frac {1}{\log(2)}}\log(1+e^{-v})$	${\frac {1}{\log(2)}}[-\eta \log(\eta )-(1-\eta )\log(1-\eta )]$	${\frac {e^{v}}{1+e^{v}}}$	$\log({\frac {\eta }{1-\eta }})$
Квадрат	$(1-v)^{2}$	$4\eta (1-\eta )$	${\frac {1}{2}}(v+1)$	$2\eta -1$
Севиџ	${\frac {1}{(1+e^{v})^{2}}}$	$\eta (1-\eta )$	${\frac {e^{v}}{1+e^{v}}}$	$\log({\frac {\eta }{1-\eta }})$
Тангента	$(2\arctan(v)-1)^{2}$	$4\eta (1-\eta )$	$\arctan(v)+{\frac {1}{2}}$	$\tan(\eta -{\frac {1}{2}})$

Једини минимизатор очекиваног ризика, $f_{\phi }^{*}$ , повезан са горе генерисаним функцијама губитака може се директно наћи из једначине (1) и показати да је једнака одговарајућој $f(\eta )$ . Ово важи чак и за неконвексне функције губитка, што значи да се алгоритми засновани на градијенту спуштања, као што је повећање градијента, који се може користити за конструисање минимизатора.

Исправне функције губитка, маргина губитка и регуларизација[уреди | уреди извор]

(Црвени) стандардни логистички губитак ( $\gamma =1,\mu =2$ ) и (Плава) повећана маржа Логистички губитак ( $\gamma =0.2$ ).

За валидне функције губитка, маргина губитка се може дефинисати као $\mu _{\phi }=-{\frac {\phi '(0)}{\phi ''(0)}}$ а показало се да је директно повезана са својствима регуларизације класификатора. Конкретно, функција губитка веће маргине повећава регуларизацију и даје боље процене постериорне вероватноће. На пример, маржа губитка се може повећати за логистички губитак увођењем а $\gamma$ параметар и писање логистичког губитка као ${\frac {1}{\gamma }}\log(1+e^{-\gamma v})$ где мањи $0<\gamma <1$ повећава маргину губитка. Показано је да је ово директно еквивалентно смањењу стопе учења у подизању градијента $F_{m}(x)=F_{m-1}(x)+\gamma h_{m}(x),$ где смањење $\gamma$ побољшава регуларизацију појачаног класификатора. Теорија јасно показује да када стопа учења од $\gamma$ се користи, исправна формула за добијање постериорне вероватноће је сада $\eta =f^{-1}(\gamma F(x))$ .

Закључујемо, избором функције губитка са већом маргином (мањом $\gamma$ ) повећавамо регуларизацију и побољшавамо наше процене постериорне вероватноће што заузврат побољшава ROC(површину конвергенције) криву коначног класификатора.

Квадратни губитак[уреди | уреди извор]

Иако је чешће коришћена у регресији, функција квадратног губитка може се поново написати као функција $\phi (yf({\vec {x}}))$ и користи се за класификацију. Може се генерисати коришћењем израза (2) и табеле-И на следећи начин:

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=4({\frac {1}{2}}(v+1))(1-{\frac {1}{2}}(v+1))+(1-{\frac {1}{2}}(v+1))(4-8({\frac {1}{2}}(v+1)))=(1-v)^{2}.

Функција квадратног губитка је и конвексна и глатка. Међутим, функција квадратног губитка има тенденцију да прекомерно кажњава граничне вредности, што доводи до спорије конвергенције (у односу на сложеност узорка) него за функције логистичког губитка или губитка зглоба. Поред тога, функције које дају високе вредности за $f({\vec {x}})$ за неке $x\in X$ ће имати лошије перформансе са функцијом квадратног губитка, пошто ће високе вредности од $yf({\vec {x}})$ бити строго кажњене, без обзира на то да ли се знаци од $y$ и $f({\vec {x}})$ поклапају.

Предност функције квадратног губитка је у томе што њена структура омогућава лаку унакрсну валидацију параметара регуларизације. Конкретно за Тихоновљеву регуларизацију, параметар регуларизације се може решити коришћењем унакрсне валидације за исто време које би било потребно за решавање једног проблема.

Минимизација за $I[f]$ за функцију квадратног губитка може се директно наћи из једначине (1) као:

f_{\text{Square}}^{*}=2\eta -1=2p(1\mid x)-1.

Логистички губитак[уреди | уреди извор]

Функција логистичких губитака може се генерисати коришћењем (2) и табеле-И као:

{\begin{aligned}\phi (v)&=C[f^{-1}(v)]+\left(1-f^{-1}(v)\right)\,C'\left[f^{-1}(v)\right]\\&={\frac {1}{\log(2)}}\left[{\frac {-e^{v}}{1+e^{v}}}\log {\frac {e^{v}}{1+e^{v}}}-\left(1-{\frac {e^{v}}{1+e^{v}}}\right)\log \left(1-{\frac {e^{v}}{1+e^{v}}}\right)\right]+\left(1-{\frac {e^{v}}{1+e^{v}}}\right)\left[{\frac {-1}{\log(2)}}\log \left({\frac {\frac {e^{v}}{1+e^{v}}}{1-{\frac {e^{v}}{1+e^{v}}}}}\right)\right]\\&={\frac {1}{\log(2)}}\log(1+e^{-v}).\end{aligned}}

Логистички губитак је конвексан и расте линеарно за негативне вредности што га чини мање осетљивим на одступања. Логистички губитак се користи у ЛогитБоост алгоритму .

Минимизатор за $I[f]$ за функцију логистичког губитка може се директно наћи из једначине (1) као

f_{\text{Logistic}}^{*}=\log \left({\frac {\eta }{1-\eta }}\right)=\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

Ова функција је недефинисана када $p(1\mid x)=1$ или $p(1\mid x)=0$ (тежући ка ∞ и −∞ респективно), али предвиђа глатку криву која расте када $p(1\mid x)$ расте и једнака је 0 када $p(1\mid x)=0.5$ .

Лако је проверити да ли су логистички губитак и бинарни губитак ентропије у ствари исти (до мултипликативне константе ${\frac {1}{\log(2)}}$ ). Губитак унакрсне ентропије је уско повезан са Кулбек-Лајблеровом дивергенцијом између емпиријске расподеле и предвиђене расподеле. Губитак унакрсне ентропије је свеприсутан у савременим дубоким неуронским мрежама .

Експоненцијални губитак[уреди | уреди извор]

Функција експоненцијалног губитка може се генерисати коришћењем (2) и табеле-И као:

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=2{\sqrt {({\frac {e^{2v}}{1+e^{2v}}})(1-{\frac {e^{2v}}{1+e^{2v}}})}}+(1-{\frac {e^{2v}}{1+e^{2v}}})({\frac {1-{\frac {2e^{2v}}{1+e^{2v}}}}{\sqrt {{\frac {e^{2v}}{1+e^{2v}}}(1-{\frac {e^{2v}}{1+e^{2v}}})}}})=e^{-v}

Експоненцијални губитак је конвексан и расте експоненцијално за негативне вредности што га чини осетљивијим на одступања. Експоненцијални губитак се користи у АдаБуст алгоритму .

Минимизатор за $I[f]$ за експоненцијалну функцију губитка може се директно наћи из једначине (1) као:

f_{\text{Exp}}^{*}={\frac {1}{2}}\log \left({\frac {\eta }{1-\eta }}\right)={\frac {1}{2}}\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

Севиџ(дивљи) губитак[уреди | уреди извор]

Савиџ губитак се може генерисати коришћењем (2) и табеле-И на следећи начин:

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=({\frac {e^{v}}{1+e^{v}}})(1-{\frac {e^{v}}{1+e^{v}}})+(1-{\frac {e^{v}}{1+e^{v}}})(1-{\frac {2e^{v}}{1+e^{v}}})={\frac {1}{(1+e^{v})^{2}}}.

Савиџ губитак је квази-конвексан и ограничен је за велике негативне вредности што га чини мање осетљивим на спољне вредности. Севиџ губитак је коришћен у појачавању градијента и алгоритму СавиџБуст.

Минимизатор за $I[f]$ за Севиџ функцију губитка може се директно наћи из једначине (1) као:

f_{\text{Savage}}^{*}=\log \left({\frac {\eta }{1-\eta }}\right)=\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

Губитак тангенте[уреди | уреди извор]

Губитак тангенте може се генерисати коришћењем (2) и табеле-И на следећи начин:

{\begin{aligned}\phi (v)&=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=4(\arctan(v)+{\frac {1}{2}})(1-(\arctan(v)+{\frac {1}{2}}))+(1-(\arctan(v)+{\frac {1}{2}}))(4-8(\arctan(v)+{\frac {1}{2}}))\\&=(2\arctan(v)-1)^{2}.\end{aligned}}

Губитак тангенте је квази-конвексан и ограничен је за велике негативне вредности што га чини мање осетљивим на одступања. Занимљиво је да губитак тангенте такође додељује ограничену казну тачкама података које су класификоване „превише исправне (оверфит)“. Ово може помоћи у спречавању претеране обуке на скупу података. Губитак тангенте је коришћен у појачавању градијента, алгоритму ТангентБуст и шумама наизменичних одлука.

Минимизатор за $I[f]$ за тангентну функцију губитка може се директно наћи из једначине (1) као:

f_{\text{Tangent}}^{*}=\tan(\eta -{\frac {1}{2}})=\tan(p(1\mid x)-{\frac {1}{2}}).

Губитак зглоба[уреди | уреди извор]

Функција губитка зглоба је дефинисана као $\phi (\upsilon )=\max(0,1-\upsilon )=[1-\upsilon ]_{+}$ , где је $[a]_{+}=\max(0,a)$ функција позитивног дела .

V(f({\vec {x}}),y)=\max(0,1-yf({\vec {x}}))=[1-yf({\vec {x}})]_{+}.

Губитак зглоба обезбеђује релативно чврсту, конвексну горњу границу на функцији индикатора 0–1. Конкретно, губитак зглоба је једнак функцији индикатора 0–1 када $\operatorname {sgn} (f({\vec {x}}))=y$ и $|yf({\vec {x}})|\geq 1$ . Поред тога, емпиријска минимизација ризика од овог губитка је еквивалентна класичној формулацији за машине подржане векторима (SVMs). Тачно класификоване тачке које леже изван маргиналних граница вектора подршке се не кажњавају, док се тачке унутар граница маргине или на погрешној страни хиперравне кажњавају на линеарни начин у поређењу са њиховом удаљености од исправне границе.

Док је функција губитка зглоба и конвексна и континуирана, није глатка (не може се разликовати) на $yf({\vec {x}})=1$ . Сходно томе, функција губитка зглоба се не може користити са методама градијентног спуста или методама стохастичког градијента које се ослањају на диференцијабилност у целом домену. Међутим, губитак зглоба има субградијент на $yf({\vec {x}})=1$ , што омогућава коришћење субградијентних метода спуштања . SVM-ови који користе функцију губитка зглоба такође се могу решити коришћењем квадратног програмирања .

Минимизатор од $I[f]$ за функцију губитка зглоба је

f_{\text{Hinge}}^{*}({\vec {x}})\;=\;{\begin{cases}1&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\-1&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

када $p(1\mid x)\neq 0.5$ , што одговара функцији индикатора 0–1. Овај закључак чини губитак зглоба прилично атрактивним, јер се могу поставити границе између очекиваног ризика и знака функције губитка зглоба. Губитак зглоба се не може извести из (2) јер $f_{\text{Hinge}}^{*}$ није инверзибилан.