Funkcije gubitaka za klasifikaciju

Bajesove konzistentne funkcije gubitka: gubitak nula-jedan (siva), gubitak divljaka (zelena), logistički gubitak (narandžasta), eksponencijalni gubitak (ljubičasta), gubitak tangenta (braon), gubitak kvadrata (plava)

U mašinskom učenju i matematičkoj optimizaciji, funkcije gubitka za klasifikaciju su računski izvodljive funkcije gubitka koje predstavljaju cenu plaćenu za netačnost predviđanja u problemima klasifikacije (problemi identifikacije kojoj kategoriji pripada određeno zapažanje). Dato ${\mathcal {X}}$ kao prostor svih mogućih ulaza (obično ${\mathcal {X}}\subset \mathbb {R} ^{d}$ ), i ${\mathcal {Y}}=\{-1,1\}$ kao skup oznaka (mogućih izlaza), tipičan cilj klasifikacionih algoritama je pronalaženje funkcije $f:{\mathcal {X}}\mapsto \mathbb {R}$ koji najbolje predviđa oznaku $y$ za dati ulaz ${\vec {x}}$ . Međutim, zbog nepotpunih informacija, šuma u merenju ili verovatnoća komponenti u osnovnom procesu, moguće je da isti ${\vec {x}}$ generiše različite $y$ . Kao rezultat, cilj problema učenja je da se minimizira očekivani gubitak (takođe poznat kao rizik), definisan kao

I[f]=\displaystyle \int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy

gde je $V(f({\vec {x}}),y)$ data funkcija gubitka, i $p({\vec {x}},y)$ je funkcija gustine verovatnoće procesa koji je generisao podatke, što je ekvivalentno:

p({\vec {x}},y)=p(y\mid {\vec {x}})p({\vec {x}}).

U okviru klasifikacije, nekoliko često korišćenih funkcija gubitka je napisano isključivo u smislu proizvoda prave labele $y$ i predviđene labele $f({\vec {x}})$ . Stoga se mogu definisati kao funkcije samo jedne promenljive $\upsilon =yf({\vec {x}})$ , tako da $V(f({\vec {x}}),y)=\phi (yf({\vec {x}}))=\phi (\upsilon )$ sa prikladno odabranom funkcijom $\phi :\mathbb {R} \to \mathbb {R}$ . One se nazivaju funkcije gubitka zasnovane na marži . Odabir funkcije gubitka zasnovane na marži predstavlja izbor $\phi$ . Izbor funkcije gubitka unutar ovog okvira utiče na optimalnu $f_{\phi }^{*}$ što minimizira očekivani rizik.

U slučaju binarne klasifikacije, moguće je pojednostaviti izračunavanje očekivanog rizika iz gore navedenog integrala. Odnosno:

{\begin{aligned}I[f]&=\int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy\\[6pt]&=\int _{\mathcal {X}}\int _{\mathcal {Y}}\phi (yf({\vec {x}}))p(y\mid {\vec {x}})p({\vec {x}})\,dy\,d{\vec {x}}\\[6pt]&=\int _{\mathcal {X}}[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))p(-1\mid {\vec {x}})]p({\vec {x}})\,d{\vec {x}}\\[6pt]&=\int _{\mathcal {X}}[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))(1-p(1\mid {\vec {x}}))]p({\vec {x}})\,d{\vec {x}}\end{aligned}}

Druga jednakost proizilazi iz gore opisanih svojstava. Treća jednakost proizilazi iz činjenice da su 1 i −1 jedine moguće vrednosti za $y$ , a četvrta jer je $p(-1\mid x)=1-p(1\mid x)$ . Termin u zagradama $[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))(1-p(1\mid {\vec {x}}))]$ je poznat kao uslovni rizik.

Može se rešiti za minimizator od $I[f]$ uzimanjem funkcionalnog izvoda poslednje jednakosti u odnosu na $f$ i izjednačavanjem izvoda sa 0. Ovo će rezultirati sledećom jednačinom:

{\frac {\partial \phi (f)}{\partial f}}\eta +{\frac {\partial \phi (-f)}{\partial f}}(1-\eta )=0\;\;\;\;\;(1)

što je ekvivalentno postavljanju izvoda uslovnog rizika jednakom nuli.

S obzirom na binarnu prirodu klasifikacije, prirodna selekcija za funkciju gubitka (pod pretpostavkom da je jednaka cena za lažne pozitivne i lažno negativne ) bila bi funkcija gubitka 0-1 ( funkcija indikatora 0–1), koja uzima vrednost 0 ako je predviđeno klasifikacija jednaka onoj prave klase ili 1 ako se predviđena klasifikacija ne poklapa sa pravom klasom. Ovaj izbor je modelovan po sledećoj jednokosti:

V(f({\vec {x}}),y)=H(-yf({\vec {x}}))

gde $H$ označava funkciju Hevisajdovog koraka. Međutim, ova funkcija gubitka nije konveksna i nije glatka, a rešavanje optimalnog rešenja je NP-težak kombinatorni optimizacioni problem. Kao rezultat toga, bolje je zameniti surogate funkcije gubitka koji su pogodni za uobičajeno korišćene kod algoritama učenja, jer imaju pogodna svojstva kao što je konveksnost i glatkos. Pored njihove računske popravljivosti, može se pokazati da rešenja problema učenja pomoću ovih surogata gubitaka omogućavaju oporavak stvarnog rešenja originalnog problema klasifikacije. Neki od ovih surogata su opisani u nastavku.

U praksi, raspodela verovatnoće $p({\vec {x}},y)$ je nepoznata. Shodno tome, koristiti trening set za obuku $n$ nezavisno i identično raspoređenih tački uzorka

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}

izvučen iz prostora elemantarnih uzoraka podataka, nastoji se minimizirati empirijski rizik

I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

kao zamena za očekivani rizik.

Bajesova konzistencija[uredi | uredi izvor]

Koristeći Bajesovu teoremu, može se pokazati da je optimalna $f_{0/1}^{*}$ , tj. ona koji minimizuje očekivani rizik povezan sa gubitkom nula-jedan, implementira Bajesovo pravilo optimalne odluke za problem binarne klasifikacije i u obliku je:

f_{0/1}^{*}({\vec {x}})\;=\;{\begin{cases}\;\;\;1&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\\;\;\;0&{\text{if }}p(1\mid {\vec {x}})=p(-1\mid {\vec {x}})\\-1&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

.

Za funkciju gubitka se kaže da je kalibrisana klasifikacijom ili Bajesova konzistentna ako je optimalna $f_{\phi }^{*}$ je takava da $f_{0/1}^{*}({\vec {x}})=\operatorname {sgn} (f_{\phi }^{*}({\vec {x}}))$ i stoga je optimalana prema Bajesovom pravilu odlučivanja. Bajesova konzistentna funkcija gubitka omogućava nam da pronađemo Bajesovu optimalnu funkciju odlučivanja $f_{\phi }^{*}$ direktnim minimizovanjem očekivanog rizika i bez potrebe za eksplicitnim modeliranjem funkcija gustine verovatnoće.

Za gubitak konveksne margine $\phi (\upsilon )$ , može se pokazati da $\phi (\upsilon )$ je Bajes konzistentan ako i samo ako je diferencibilan na 0 i $\phi '(0)<0$ . Ipak, ovaj rezultat ne isključuje postojanje nekonveksnih Bajesovih konzistentnih funkcija gubitka. Opštiji rezultat kaže da se Bajesove konzistentne funkcije gubitka mogu generisati korišćenjem sledeće formulacije:

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]\;\;\;\;\;(2)

,

gde $f(\eta ),(0\leq \eta \leq 1)$ je bilo koja inverzibilna funkcija takva da je $f^{-1}(-v)=1-f^{-1}(v)$ i $C(\eta )$ bilo koja diferencibilna striktno konkavna funkcija takva da je $C(\eta )=C(1-\eta )$ . Tabela-I prikazuje generisane Bajesove konzistentne funkcije gubitka za neke primere izbora $C(\eta )$ i $f^{-1}(v)$ . Imajte na umu da nisu svi gubitci konveksni. Pokazalo se da su takve nekonveksne funkcije gubitka korisne u radu sa odstupnicima u klasifikaciji. Za sve funkcije gubitka generisane iz (2), posteriorna verovatnoća $p(y=1|{\vec {x}})$ može se naći pomoću funkcije inverzne veze kao $p(y=1|{\vec {x}})=\eta =f^{-1}(v)$ . Takve funkcije gubitka gde se zadnja verovatnoća može povratiti korišćenjem inverzibilne veze nazivaju se funkcije pravilnog gubitka .

Tabela-I
Ime gubitka	$\phi (v)$	$C(\eta )$	$f^{-1}(v)$	$f(\eta )$
Eksponencijalno	$e^{-v}$	$2{\sqrt {\eta (1-\eta )}}$	${\frac {e^{2v}}{1+e^{2v}}}$	${\frac {1}{2}}\log({\frac {\eta }{1-\eta }})$
Logistic	${\frac {1}{\log(2)}}\log(1+e^{-v})$	${\frac {1}{\log(2)}}[-\eta \log(\eta )-(1-\eta )\log(1-\eta )]$	${\frac {e^{v}}{1+e^{v}}}$	$\log({\frac {\eta }{1-\eta }})$
Kvadrat	$(1-v)^{2}$	$4\eta (1-\eta )$	${\frac {1}{2}}(v+1)$	$2\eta -1$
Sevidž	${\frac {1}{(1+e^{v})^{2}}}$	$\eta (1-\eta )$	${\frac {e^{v}}{1+e^{v}}}$	$\log({\frac {\eta }{1-\eta }})$
Tangenta	$(2\arctan(v)-1)^{2}$	$4\eta (1-\eta )$	$\arctan(v)+{\frac {1}{2}}$	$\tan(\eta -{\frac {1}{2}})$

Jedini minimizator očekivanog rizika, $f_{\phi }^{*}$ , povezan sa gore generisanim funkcijama gubitaka može se direktno naći iz jednačine (1) i pokazati da je jednaka odgovarajućoj $f(\eta )$ . Ovo važi čak i za nekonveksne funkcije gubitka, što znači da se algoritmi zasnovani na gradijentu spuštanja, kao što je povećanje gradijenta, koji se može koristiti za konstruisanje minimizatora.

Ispravne funkcije gubitka, margina gubitka i regularizacija[uredi | uredi izvor]

(Crveni) standardni logistički gubitak ( $\gamma =1,\mu =2$ ) i (Plava) povećana marža Logistički gubitak ( $\gamma =0.2$ ).

Za validne funkcije gubitka, margina gubitka se može definisati kao $\mu _{\phi }=-{\frac {\phi '(0)}{\phi ''(0)}}$ a pokazalo se da je direktno povezana sa svojstvima regularizacije klasifikatora. Konkretno, funkcija gubitka veće margine povećava regularizaciju i daje bolje procene posteriorne verovatnoće. Na primer, marža gubitka se može povećati za logistički gubitak uvođenjem a $\gamma$ parametar i pisanje logističkog gubitka kao ${\frac {1}{\gamma }}\log(1+e^{-\gamma v})$ gde manji $0<\gamma <1$ povećava marginu gubitka. Pokazano je da je ovo direktno ekvivalentno smanjenju stope učenja u podizanju gradijenta $F_{m}(x)=F_{m-1}(x)+\gamma h_{m}(x),$ gde smanjenje $\gamma$ poboljšava regularizaciju pojačanog klasifikatora. Teorija jasno pokazuje da kada stopa učenja od $\gamma$ se koristi, ispravna formula za dobijanje posteriorne verovatnoće je sada $\eta =f^{-1}(\gamma F(x))$ .

Zaključujemo, izborom funkcije gubitka sa većom marginom (manjom $\gamma$ ) povećavamo regularizaciju i poboljšavamo naše procene posteriorne verovatnoće što zauzvrat poboljšava ROC(površinu konvergencije) krivu konačnog klasifikatora.

Kvadratni gubitak[uredi | uredi izvor]

Iako je češće korišćena u regresiji, funkcija kvadratnog gubitka može se ponovo napisati kao funkcija $\phi (yf({\vec {x}}))$ i koristi se za klasifikaciju. Može se generisati korišćenjem izraza (2) i tabele-I na sledeći način:

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=4({\frac {1}{2}}(v+1))(1-{\frac {1}{2}}(v+1))+(1-{\frac {1}{2}}(v+1))(4-8({\frac {1}{2}}(v+1)))=(1-v)^{2}.

Funkcija kvadratnog gubitka je i konveksna i glatka. Međutim, funkcija kvadratnog gubitka ima tendenciju da prekomerno kažnjava granične vrednosti, što dovodi do sporije konvergencije (u odnosu na složenost uzorka) nego za funkcije logističkog gubitka ili gubitka zgloba. Pored toga, funkcije koje daju visoke vrednosti za $f({\vec {x}})$ za neke $x\in X$ će imati lošije performanse sa funkcijom kvadratnog gubitka, pošto će visoke vrednosti od $yf({\vec {x}})$ biti strogo kažnjene, bez obzira na to da li se znaci od $y$ i $f({\vec {x}})$ poklapaju.

Prednost funkcije kvadratnog gubitka je u tome što njena struktura omogućava laku unakrsnu validaciju parametara regularizacije. Konkretno za Tihonovljevu regularizaciju, parametar regularizacije se može rešiti korišćenjem unakrsne validacije za isto vreme koje bi bilo potrebno za rešavanje jednog problema.

Minimizacija za $I[f]$ za funkciju kvadratnog gubitka može se direktno naći iz jednačine (1) kao:

f_{\text{Square}}^{*}=2\eta -1=2p(1\mid x)-1.

Logistički gubitak[uredi | uredi izvor]

Funkcija logističkih gubitaka može se generisati korišćenjem (2) i tabele-I kao:

{\begin{aligned}\phi (v)&=C[f^{-1}(v)]+\left(1-f^{-1}(v)\right)\,C'\left[f^{-1}(v)\right]\\&={\frac {1}{\log(2)}}\left[{\frac {-e^{v}}{1+e^{v}}}\log {\frac {e^{v}}{1+e^{v}}}-\left(1-{\frac {e^{v}}{1+e^{v}}}\right)\log \left(1-{\frac {e^{v}}{1+e^{v}}}\right)\right]+\left(1-{\frac {e^{v}}{1+e^{v}}}\right)\left[{\frac {-1}{\log(2)}}\log \left({\frac {\frac {e^{v}}{1+e^{v}}}{1-{\frac {e^{v}}{1+e^{v}}}}}\right)\right]\\&={\frac {1}{\log(2)}}\log(1+e^{-v}).\end{aligned}}

Logistički gubitak je konveksan i raste linearno za negativne vrednosti što ga čini manje osetljivim na odstupanja. Logistički gubitak se koristi u LogitBoost algoritmu .

Minimizator za $I[f]$ za funkciju logističkog gubitka može se direktno naći iz jednačine (1) kao

f_{\text{Logistic}}^{*}=\log \left({\frac {\eta }{1-\eta }}\right)=\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

Ova funkcija je nedefinisana kada $p(1\mid x)=1$ ili $p(1\mid x)=0$ (težući ka ∞ i −∞ respektivno), ali predviđa glatku krivu koja raste kada $p(1\mid x)$ raste i jednaka je 0 kada $p(1\mid x)=0.5$ .

Lako je proveriti da li su logistički gubitak i binarni gubitak entropije u stvari isti (do multiplikativne konstante ${\frac {1}{\log(2)}}$ ). Gubitak unakrsne entropije je usko povezan sa Kulbek-Lajblerovom divergencijom između empirijske raspodele i predviđene raspodele. Gubitak unakrsne entropije je sveprisutan u savremenim dubokim neuronskim mrežama .

Eksponencijalni gubitak[uredi | uredi izvor]

Funkcija eksponencijalnog gubitka može se generisati korišćenjem (2) i tabele-I kao:

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=2{\sqrt {({\frac {e^{2v}}{1+e^{2v}}})(1-{\frac {e^{2v}}{1+e^{2v}}})}}+(1-{\frac {e^{2v}}{1+e^{2v}}})({\frac {1-{\frac {2e^{2v}}{1+e^{2v}}}}{\sqrt {{\frac {e^{2v}}{1+e^{2v}}}(1-{\frac {e^{2v}}{1+e^{2v}}})}}})=e^{-v}

Eksponencijalni gubitak je konveksan i raste eksponencijalno za negativne vrednosti što ga čini osetljivijim na odstupanja. Eksponencijalni gubitak se koristi u AdaBust algoritmu .

Minimizator za $I[f]$ za eksponencijalnu funkciju gubitka može se direktno naći iz jednačine (1) kao:

f_{\text{Exp}}^{*}={\frac {1}{2}}\log \left({\frac {\eta }{1-\eta }}\right)={\frac {1}{2}}\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

Sevidž(divlji) gubitak[uredi | uredi izvor]

Savidž gubitak se može generisati korišćenjem (2) i tabele-I na sledeći način:

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=({\frac {e^{v}}{1+e^{v}}})(1-{\frac {e^{v}}{1+e^{v}}})+(1-{\frac {e^{v}}{1+e^{v}}})(1-{\frac {2e^{v}}{1+e^{v}}})={\frac {1}{(1+e^{v})^{2}}}.

Savidž gubitak je kvazi-konveksan i ograničen je za velike negativne vrednosti što ga čini manje osetljivim na spoljne vrednosti. Sevidž gubitak je korišćen u pojačavanju gradijenta i algoritmu SavidžBust.

Minimizator za $I[f]$ za Sevidž funkciju gubitka može se direktno naći iz jednačine (1) kao:

f_{\text{Savage}}^{*}=\log \left({\frac {\eta }{1-\eta }}\right)=\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

Gubitak tangente[uredi | uredi izvor]

Gubitak tangente može se generisati korišćenjem (2) i tabele-I na sledeći način:

{\begin{aligned}\phi (v)&=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=4(\arctan(v)+{\frac {1}{2}})(1-(\arctan(v)+{\frac {1}{2}}))+(1-(\arctan(v)+{\frac {1}{2}}))(4-8(\arctan(v)+{\frac {1}{2}}))\\&=(2\arctan(v)-1)^{2}.\end{aligned}}

Gubitak tangente je kvazi-konveksan i ograničen je za velike negativne vrednosti što ga čini manje osetljivim na odstupanja. Zanimljivo je da gubitak tangente takođe dodeljuje ograničenu kaznu tačkama podataka koje su klasifikovane „previše ispravne (overfit)“. Ovo može pomoći u sprečavanju preterane obuke na skupu podataka. Gubitak tangente je korišćen u pojačavanju gradijenta, algoritmu TangentBust i šumama naizmeničnih odluka.

Minimizator za $I[f]$ za tangentnu funkciju gubitka može se direktno naći iz jednačine (1) kao:

f_{\text{Tangent}}^{*}=\tan(\eta -{\frac {1}{2}})=\tan(p(1\mid x)-{\frac {1}{2}}).

Gubitak zgloba[uredi | uredi izvor]

Funkcija gubitka zgloba je definisana kao $\phi (\upsilon )=\max(0,1-\upsilon )=[1-\upsilon ]_{+}$ , gde je $[a]_{+}=\max(0,a)$ funkcija pozitivnog dela .

V(f({\vec {x}}),y)=\max(0,1-yf({\vec {x}}))=[1-yf({\vec {x}})]_{+}.

Gubitak zgloba obezbeđuje relativno čvrstu, konveksnu gornju granicu na funkciji indikatora 0–1. Konkretno, gubitak zgloba je jednak funkciji indikatora 0–1 kada $\operatorname {sgn} (f({\vec {x}}))=y$ i $|yf({\vec {x}})|\geq 1$ . Pored toga, empirijska minimizacija rizika od ovog gubitka je ekvivalentna klasičnoj formulaciji za mašine podržane vektorima (SVMs). Tačno klasifikovane tačke koje leže izvan marginalnih granica vektora podrške se ne kažnjavaju, dok se tačke unutar granica margine ili na pogrešnoj strani hiperravne kažnjavaju na linearni način u poređenju sa njihovom udaljenosti od ispravne granice.

Dok je funkcija gubitka zgloba i konveksna i kontinuirana, nije glatka (ne može se razlikovati) na $yf({\vec {x}})=1$ . Shodno tome, funkcija gubitka zgloba se ne može koristiti sa metodama gradijentnog spusta ili metodama stohastičkog gradijenta koje se oslanjaju na diferencijabilnost u celom domenu. Međutim, gubitak zgloba ima subgradijent na $yf({\vec {x}})=1$ , što omogućava korišćenje subgradijentnih metoda spuštanja . SVM-ovi koji koriste funkciju gubitka zgloba takođe se mogu rešiti korišćenjem kvadratnog programiranja .

Minimizator od $I[f]$ za funkciju gubitka zgloba je

f_{\text{Hinge}}^{*}({\vec {x}})\;=\;{\begin{cases}1&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\-1&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

kada $p(1\mid x)\neq 0.5$ , što odgovara funkciji indikatora 0–1. Ovaj zaključak čini gubitak zgloba prilično atraktivnim, jer se mogu postaviti granice između očekivanog rizika i znaka funkcije gubitka zgloba. Gubitak zgloba se ne može izvesti iz (2) jer $f_{\text{Hinge}}^{*}$ nije inverzibilan.