Pređi na sadržaj

Metoda potpornih vektora

S Vikipedije, slobodne enciklopedije

 

U mašinskom učenju, metoda potpornih vektora je model učenja pod nadzorom sa pripadajućim algoritmima učenja koji analiziraju podatke za klasifikaciju i regresionu analizu . Razvio ju je Vladimir Vapnik sa kolegama u AT&T Bell Laboratorijama. Metoda potpornih vektora je jedna od najpouzdanijih metoda predviđanja, zasnovana na statističkim okvirima učenja ili VC teoriji koju su predložili Vapnik (1982, 1995) i Červoninks (1974). Imajući u vidu skup primera za obuku, od kojih je svaki označen kao da pripada jednoj od dve kategorije, MPV algoritam za obuku gradi model koji dodeljuje nove primere jednoj ili drugoj kategoriji, čineći ga nenagađajućim binarnim linearnim klasifikatorom . MPV preslikava primere obuke na tačke u prostoru kako bi maksimizirao širinu jaza između dve kategorije. Novi primeri se zatim mapiraju u isti prostor i predviđaju da pripadaju kategoriji na osnovu koje strane jaza padaju.

Pored izvođenja linearne klasifikacije, MPV-ovi mogu efikasno da izvrše nelinearnu klasifikaciju koristeći ono što se naziva trik jezgra, implicitno mapirajući svoje ulaze u prostore karakteristika visoke dimenzije.

Kada podaci nisu označeni, nadgledano učenje nije moguće i potreban je pristup učenju bez nadzora, koji pokušava da pronađe prirodno grupisanje podataka u grupe, a zatim mapira nove podatke u ove formirane grupe. Algoritam za grupisanje potpornih vektora [1], koji su kreirali Hava Sigelman i Vladimir Vapnik, primenjuje statistiku vektora podrške, razvijenu u algoritmu motode podžanih vektora, za kategorizaciju neoznačenih podataka, i jedan je od najčešće korišćenih algoritama za grupisanje u inustrijskoj aplikaciji.[traži se izvor]

Motivacija[uredi | uredi izvor]

H1 ne razdvaja klase. H2 razdvaja, ali samo sa malom marginom. H3 ih razdvaja sa maksimalnom marginom.

Klasifikacija podataka je uobičajen zadatak u mašinskom učenju . Pretpostavimo da svaka data tačka pripada jednoj od dve klase, a cilj je da se odluči u kojoj će klasi biti nova tačka podataka . U slučaju metode potpornih vektora, tačka podataka se posmatra kao -dimenzionalni vektor (lista brojeva), i želimo da znamo da li možemo da odvojimo takve tačke sa a -dimenzionalnom hiperravni . Ovo se zove linearni klasifikator . Postoji mnogo hiperravni koje mogu klasifikovati podatke. Razuman izbor kao najbolja hiperravna je ona koji postiže najveće razdvajanje, ili marginu, između dve klase. Zato biramo hiperravan tako da je rastojanje od nje do najbliže tačke podataka na svakoj strani maksimizirano. Ako takva hiperravan postoji, poznata je kao hiperravan maksimalne margine, a linearni klasifikator koji on definiše je poznat kao klasifikator maksimalne margine; ili ekvivalentno, perceptron optimalne stabilnosti .[traži se izvor]

Definicija[uredi | uredi izvor]

Model potpornih vekotra konstruiše hiperravan ili skup hiperravni u visoko- ili beskonačno-dimenzionalnom prostoru, koji se može koristiti za klasifikaciju, regresiju ili druge zadatke kao što je otkrivanje odstupanja. [2] Dobro razdvajanje se postiže hiperravninom koja ima najveću udaljenost do najbliže tačke podataka za obuku bilo koje klase (funkcionalna margina), pošto generalno što je veća margina, to je manja greška generalizacije klasifikatora. [3]

Kernel mašina

Dok se originalni problem može navesti u konačnodimenzionalnom prostoru, često se dešava da skupovi diskriminanti nisu linearno odvojivi u tom prostoru. Iz tog razloga, predloženo je [4] da se originalni konačno-dimenzionalni prostor preslika u prostor mnogo veće dimenzije, što verovatno olakšava razdvajanje u tom prostoru. Da bi računarsko opterećenje bilo razumno, mapiranja koje koriste MPV šeme su dizajnirane da obezbede da se tačkasti proizvodi parova vektora ulaznih podataka mogu lako izračunati u smislu promenljivih u originalnom prostoru, definisanjem u smislu funkcije jezgra odabrano da odgovara problemu. [5] Hiperravne u višedimenzionalnom prostoru su definisane kao skup tačaka čiji je tačkasti proizvod sa vektorom u tom prostoru konstantan, pri čemu je takav skup vektora ortogonalan (a time i minimalan skup vektora koji definiše hiperravan. Vektori koji definišu hiperravne mogu se izabrati da budu linearne kombinacije sa parametrima slike vektora obeležja koji se javljaju u bazi podataka. Sa ovim izborom hiperravnine, tačke u prostoru obeležja koji su preslikani u hiperravninu definisani su relacijom Imajte na umu da ako postaje mali kao raste dalje od , svaki član u zbiru meri stepen bliskosti ispitane tačke do odgovarajuće tačke baze podataka . Na ovaj način, zbir gornjih jezgara može da se koristi za merenje relativne blizine svake ispitne tačke tačkama podataka koje potiču iz jednog ili drugog skupa koji se diskriminiše. Obratite pažnju na činjenicu da je skup tačaka preslikan u bilo koju hiperravninu može biti prilično zamršen kao rezultat, omogućavajući mnogo složeniju diskriminaciju između skupova koji uopšte nisu konveksni u originalnom prostoru.

Aplikacije[uredi | uredi izvor]

Metode potpornih vekotra se mogu koristiti za rešavanje različitih problema iz stvarnog sveta:

  • Metode potpornih vekotra su korisne u kategorizaciji teksta i hiperteksta, jer njihova primena može značajno smanjiti potrebu za označenim instancama obuke i u standardnim induktivnim i transduktivnim postavkama. [6] Neke metode za plitko semantičko raščlanjivanje zasnovane su na metodama potpornih vekotra. [7]
  • Klasifikacija slika se takođe može izvršiti pomoću MPV-a. Eksperimentalni rezultati pokazuju da MPV postižu znatno veću tačnost pretrage od tradicionalnih šema za preciziranje upita nakon samo tri do četiri kruga povratnih informacija o relevantnosti. Ovo važi i za sisteme za segmentaciju slika, uključujući i one koji koriste modifikovanu verziju MPV-a koja koristi privilegovani pristup kako je predložio Vapnik. [8] [9]
  • Klasifikacija satelitskih podataka kao što su SAR podaci korišćenjem nadgledanog MPV. [10]
  • Rukom pisani znakovi se mogu prepoznati pomoću MPV. [11] [12]
  • Algoritam MPV ima široku primenu u biologijo i drugim naukama. Korišćeni su za klasifikaciju proteina sa do 90% ispravno klasifikovanih jedinjenja. Permutacioni testovi zasnovani na MPV težinama su predloženi kao mehanizam za interpretaciju MPV modela. [13] [14] Metode potpornih vekotra su takođe korišćene za tumačenje MPV modela u prošlosti. [15] Posthok interpretacija modela potpornih vektora u cilju identifikacije karakteristika koje model koristi za predviđanje je relativno nova oblast istraživanja od posebnog značaja u biološkim naukama.

Istorija[uredi | uredi izvor]

Originalni MPV algoritam su izmislili Vladimir N. Vapnik i Aleksej Ja. Červoninks 1963. godine. Godine 1992. Bernhard Boser, Izabela Gujon i Vladimir Vapnik su predložili način da se stvore nelinearni klasifikatori primenom trika jezgra da bi se dobile maksimalne margine hiperravni. [4] Inkarnaciju „meke margine“, kao što se uobičajeno koriste softverski paketi, predložili su Korina Kortes i Vapnik 1993. godine i objavljeni 1995. godine [16]

Linearna MPV[uredi | uredi izvor]

Hiperravan maksimalne margine i margine za MPV obučen sa uzorcima iz dve klase. Uzorci na margini nazivaju se vektori podrške.

Imamo skup podataka za obuku od tačke forme

gde su ili 1 ili −1, od kojih svaki ukazuje na klasu do koje je tačka pripada. Svaki je -dimenzionalni realni vektor. Želimo da pronađemo "hiperravan maksimalne margine" koja deli grupu tačaka za koje iz grupe bodova za koje , koji je definisan tako da rastojanje između hiperravni i najbliže tačke iz bilo koje grupe bude maksimiziran.

Bilo koja hiperravan se može napisati kao skup tačaka ukoliko ispunjava:

gde je (ne nužno normalizovan) vektor normale na hiperravan. Ovo je slično Hesenovom normalnom obliku, osim toga nije nužno jedinični vektor. Parametar određuje pomak hiperravni od početka duž vektora normale .

Tvrda margina[uredi | uredi izvor]

Ako su trening podaci linearno razdvojivi, možemo izabrati dve paralelne hiperravne koje razdvajaju dve klase podataka, tako da je rastojanje između njih što je moguće veće. Područje ograničeno sa ove dve hiperravne naziva se „margina“, a hiperravan maksimalne margine je hiperravan koja se nalazi na pola puta između njih. Sa normalizovanim ili standardizovanim skupom podataka, ove hiperravne se mogu opisati sldećim jednačinama:

(sve na ili iznad ove granice priprada jednoj klasi, sa oznakom 1)

i

(sve na ili ispod ove granice pripada drugoj klasi, sa oznakom −1).

Geometrijski, rastojanje između ove dve hiperravne je , [17] tako da bi maksimizovali rastojanje između ravni koje želimo da minimiziramo . Rastojanje se izračunava korišćenjem jednačine udaljenosti tačke od ravni . Takođe moramo da sprečimo da tačke podataka padnu na marginu, dodajemo sledeće ograničenje: za svaku bilo

, ako je ,

ili

, ako je .

Ovi uslovi navode da svaka tačka podataka mora ležati na ispravnoj strani margine.

Ovo se može napisati i kao:

Možemo da sastavimo sve ovo i dobijemo problem optimizacije:

„Minimizuj na za ."

i koji rešavaju ovaj problem određuju naš klasifikator, gde je funkcija znaka .

Važna posledica ovog geometrijskog opisa je da je hiperravan maksimalne margine potpuno određena vekotrom koji mu je najbliži. Ovi nazivaju se vektori podrške .

Meka margina[uredi | uredi izvor]

Za proširenje MPV na slučajeve u kojima podaci nisu linearno odvojivi, funkcija gubitka zgloba je od pomoći

Napomenuti da je i-ti cilj (to jest, u ovom slučaju je 1 ili −1), i je i-ti izlaz.

Ova funkcija je nula ako je uslov iz (1) zadovoljen, drugim rečima, ako leži na ispravnoj strani margine. Za podatke na pogrešnoj strani margine, vrednost funkcije je proporcionalna udaljenosti od tačke od margine.

Cilj optimizacije je da se minimizuje

gde je parametar određuje kompromis između povećanja veličine margine i obezbeđivanja da leže na ispravnoj strani margine. Dakle, za dovoljno male vrednosti od , ponašaće se slično MPV-a sa tvrdom marginom, ako se ulazni podaci linearno klasifikuju, ali će i dalje naučiti da li je pravilo klasifikacije održivo ili ne. (Ovaj parametar se takođe naziva C, npr. u <a href="https://en.wikipedia.org/wiki/LIBSVM" rel="mw:ExtLink" title="LIBSVM" class="cx-link" data-linkid="534">LIBSVM</a> . )

Nelinearna klasifikacija[uredi | uredi izvor]

Kernel mašina

Originalni algoritam maksimalne margine hiperavni koji je predložio Vapnik 1963. godine konstruisao je linearni klasifikator . Međutim, 1992. godine, Bernhard Boser, Izabel Gujon i Vladimir Vapnik su predložili način za kreiranje nelinearnih klasifikatora primenom trika jezgra (prvobitno predložen od Aizermana [18] ) za maksimalne margine hiperravni. [4] Dobijeni algoritam je formalno sličan, osim što je svaki tačkasti proizvod zamenjen nelinearnom funkcijom jezgra. Ovo omogućava algoritmu da uklopi hiperravan maksimalne margine u transformisani prostor obeležja. Transformacija može biti nelinearna, a transformisani prostor višedimenzionalan; iako je klasifikator hiperravna u transformisanom prostoru obeležja, on može biti nelinearan u originalnom ulaznom prostoru.

Važno je napomenuti da rad u višedimenzionalnom prostoru karakteristika povećava grešku generalizacije metode potpornih vektora, ukoliko ima dovoljno trening uzoraka algoritam će i dalje radi dobro.

Neka uobičajena jezgra uključuju:

  • Polinom (homogen) : .
  • Polinom (nehomogen): .
  • Gausova radijalna bazna funkcija : za . Ponekad se parametrizuju korišćenjem .
  • Hiperbolički tangent : za neke (ne za sve) i .

Jezgro je povezano sa transformacijom po jednačini . Vrednost W je takođe u transformisanom prostoru, sa . Tačkasti proizvodi sa w za klasifikaciju se ponovo mogu izračunati pomoću trika jezgra, tj .

Izračunavanje klasifikatora MPV[uredi | uredi izvor]

Izračunavanje (meke margine) klasifikatora MPV dovodi do minimiziranja izraza forme

Fokusiramo se na klasifikator meke margine pošto, kao što je gore navedeno, odabir dovoljno male vrednosti za daje klasifikator tvrde margine za linearno klasifikujuće ulazne podatke. Klasični pristup, koji uključuje svođenje (2) na problem kvadratnog programiranja, detaljno je opisan u nastavku. Zatim će se raspravljati o novijim pristupima kao što su sub-gradijentalni spust i koordinatni spust.

Primal[uredi | uredi izvor]

Minimizovanje izraza (2) se može napisati kao problem ograničene optimizacije sa diferencijabilnom ciljnom funkcijom ovako:

Za svaki uvodimo promenljivu . Napomenuti da je najmanji nenegativni broj koji zadovoljava(ispunjava)

Stoga možemo prepisati problem optimizacije na sledeći način

Ovo se zove primarni problem.

Dual[uredi | uredi izvor]

Rešavanjem Lagranžovog duala gornjeg problema dobija se uprošćeni problem

Ovo se zove dualni problem. Pošto je problem dvostruke maksimizacije kvadratna funkcija od a podleže linearnim ograničenjima, efikasno se rešava pomoću algoritama kvadratnog programiranja.

Ovde, promenljive definisane su tako da

.

Štaviše, tačno kada leži na ispravnoj strani margine, i kada leži na granici margine. Sledi da se može napisati kao linearna kombinacija potpornih vekotra.

Ofset, , može se povratiti pronalaženjem na granici margine i rešavanjem:

(Napomenuti da je jer je . )

Trik jezgra[uredi | uredi izvor]

Trening primer MPV sa jezgrom datim sa φ(( a, b )) = ( a, b, a 2 + b 2 )

Pretpostavimo sada da bismo želeli da naučimo pravilo nelinearne klasifikacije koje odgovara pravilu linearne klasifikacije za transformisane tačke podataka Štaviše, data nam je funkcija jezgra koja zadovoljava .

Poznato nam je da vektor klasifikacije u transformisanom prostoru zadovoljava

gde se dobija se rešavanjem zadatka optimizacije

Koeficijenti se mogu rešiti korišćenjem kvadratnog programiranja, kao i ranije. Opet, možemo pronaći neki indeks tako da , tako da leži na granici margine u transformisanom prostoru, a zatim možemo rešiti

konačno,

Savremene metode[uredi | uredi izvor]

Najnoviji algoritmi za pronalaženje klasifikatora MPV uključuju sub-gradijentni spus i koordinatni spust. Obe tehnike pokazale su se da nude značajne prednosti u odnosu na tradicionalni pristup kada se radi sa velikim, retkim skupovima podataka — metode sub-gradijenta su posebno efikasne kada postoji mnogo primera za obuku i koordinisani spust kada je dimenzija prostora obeležja velika.

Sub-gradijenti spust[uredi | uredi izvor]

Sub-gradijentni spust algoritam za MPV radi direktno sa izrazom

Napomenuti da je konveksna funkcija od i . Kao takav, tradicionalni gradijenti spust (ili SGS) se može prilagoditi, gde umesto uzimanja koraka u pravcu funkcije gradijenta, korak se uzima u pravcu vektora izabranog iz funkcije sub-gradijenta . Ovaj pristup ima prednost u tome što se, za određene implementacije, broj iteracija ne povećava sa , broj tačaka podataka. [19]

Koordinatni spust[uredi | uredi izvor]

Algoritmi koordinatnog spusta za MPV rade iz dualnog problema

Za svako , iterativno, koeficijent je podešen u pravcu . Zatim, rezultujući vektor koeficijenata projektuje se na najbliži vektor koeficijenata koji zadovoljava date uslove. (Obično se koriste euklidske udaljenosti. ) Proces se zatim ponavlja sve dok se ne dobije skoro optimalan vektor koeficijenata. Dobijeni algoritam je izuzetno brz u praksi, iako je malo garancija performansi dokazano. [20]

Empirijska minimizacija rizika[uredi | uredi izvor]

Gore opisana motoda potpornih vekotra meke margine je primer empirijskog algoritma za smanjenje rizika (ERM) za gubitak zgloba . Gledano na ovaj način, metoda potpornih vekotra pripadaju prirodnoj klasi algoritama za statističko zaključivanje, a mnoge od njegovih jedinstvenih karakteristika su posledica ponašanja gubitka zgloba. Ova perspektiva može pružiti dalji uvid u to kako i zašto MPV funkcionišu i omogućiti nam da bolje analiziramo njihova statistička svojstva.

Minimizacija rizika[uredi | uredi izvor]

U nadgledanom učenju, daje se trening skup primera sa labelama , i želimo da predvidimo za dato . Da bi se to uradilo, formira se hipoteza, , tako da je "dobra" aproksimacija za . "Dobra" aproksimacija se obično definiše uz pomoć funkcije gubitka, , što karakteriše koliko je loše kao predviđanje za . Zatim bismo želeli da izaberemo hipotezu koja minimizira očekivani rizik :

U većini slučajeva ne znamo zajedničku raspodelu direktno. U ovim slučajevima, uobičajena strategija je da se izabere hipoteza koja minimizuje empirijski rizik:

Pod određenim pretpostavkama o redosledu slučajnih promenljivih (na primer, da su generisani konačnim Markovljevim procesom), ako je skup hipoteza koje se razmatraju dovoljno mali, minimizator empirijskog rizika će se blisko približiti minimizatoru očekivanog rizika kako postaje veliko. Ovaj pristup se naziva empirijska minimizacija rizika ili ERM.

Regularizacija i stabilnost[uredi | uredi izvor]

Da bi problem minimizacije imao dobro definisano rešenje, moramo da postavimo neka ograničenja na skup hipoteza koje se razmatraju. Ako je normirani prostor (kao što je slučaj sa MPV), posebno efikasna tehnika je razmatranje samo tih hipoteza za koje . Ovo je jednako izricanju kazne regularizacije , i rešavanje novog problema optimizacije

Ovaj pristup se naziva Tihonovska regularizacija .

može biti neka mera složenosti hipoteze , tako da prednost dobijaju jednostavnije hipoteze.

MPV i gubitak zgloba[uredi | uredi izvor]

Podsetimo se da je MPV klasifikator (meke margine) izabran da minimizuje sledeći izraz:

Vidimo da je tehnika MPV ekvivalentna empirijskoj minimizaciji rizika sa Tihonovom regularizacijom, gde je u ovom slučaju funkcija gubitka gubitak zgloba.

Iz ove perspektive, MPV je usko povezana sa drugim osnovnim klasifikacionim algoritmima kao što su regularizovani najmanji kvadrati i logistička regresija . Razlika između ova tri algoritma leži u izboru funkcije gubitka: regularizovani najmanji kvadrati predstavljaju empirijsku minimizaciju rizika sa kvadratnim gubitkom,  ; logistička regresija koristi log-gubitak,

Ciljne funkcije[uredi | uredi izvor]

Razlika između gubitka zgloba i ovih drugih funkcija gubitka najbolje se može izraziti u smislu ciljnih funkcija – funkcija koja minimizira očekivani rizik za dati par slučajnih prmoneljivih .

Konkretno, neka označava uslovljeno događajem koji daje . U postavci klasifikacije imamo:

Dakle, optimalni klasifikator je:

Za kvadratni gubitak, ciljna funkcija je funkcija uslovnog očekivanja,  ; Za logistički gubitak, to je logit funkcija, . Dok obe ove ciljne funkcije daju ispravan klasifikator, kao , one nam daju više informacija nego što nam je potrebno. U stvari, one nam daju dovoljno informacija da u potpunosti opišemo raspodelu po .

S druge strane, može se proveriti da li je ciljna funkcija za gubitak zgloba tačna . Dakle, u dovoljno bogatom prostoru hipoteza — ili ekvivalentno, za odgovarajuće odabrano jezgro — MPV klasifikator će konvergirati najjednostavnijoj funkciji (u smislu ) koji ispravno klasifikuje podatke. Ovo proširuje geometrijsku interpretaciju MPV-a – za linearnu klasifikaciju, empirijski rizik je minimiziran bilo kojom funkcijom čije margine leže između vektora podrške, a najjednostavniji od njih je klasifikator maksimalne margine. [21]

Svojstva[uredi | uredi izvor]

MPV pripadaju porodici generalizovanih linearnih klasifikatora i mogu se tumačiti kao proširenje perceptrona . Oni se takođe mogu smatrati posebnim slučajem Tihonovske regularizacije . Posebno svojstvo je da oni istovremeno minimiziraju grešku empirijske klasifikacije i maksimiziraju geometrijsku marginu ; stoga su poznati i kao klasifikatori maksimalne margine.

Poređenje MPV-a sa drugim klasifikatorima su napravili Meier, Leisch i Hornik. [22]

Izbor parametara[uredi | uredi izvor]

Efikasnost MPV-a zavisi od izbora jezgra, parametara jezgra i parametra meke margine . Uobičajeni izbor je Gausovo jezgro, koje ima jedan parametar . Najbolja kombinacija od i se često bira pretragom mreže sa eksponencijalno rastućim sekvencama od i , na primer,  ; . Obično se svaka kombinacija izbora parametara proverava korišćenjem unakrsne validacije i biraju se parametri sa najboljom tačnošću unakrsne provere. Alternativno, nedavni rad u Bajesovoj optimizaciji se može koristiti za odabir i , što često zahteva procenu mnogo manjeg broja kombinacija parametara od pretraživanja mreže. Konačni model, koji se koristi za testiranje i klasifikaciju novih podataka, se zatim obučava na celom skupu za obuku koristeći izabrane parametre.

Problemi[uredi | uredi izvor]

Potencijalni nedostaci MPV-a uključuju sledeće aspekte:

  • Zahteva potpuno označavanje ulaznih podataka
  • Nekalibrirane verovatnoće članstva u klasama — MPV proizilazi iz Vapnikove teorije koja izbegava procenu verovatnoće na konačnim podacima
  • MPV je direktno primenljiva samo za dvoklasne zadatke. Stoga se moraju primeniti algoritmi koji svode zadatak više klasa na nekoliko binarnih problema.
  • Parametre rešenog modela je teško interpretirati.

Nadogradnje[uredi | uredi izvor]

Metoda grupisanja potpornih vektora[uredi | uredi izvor]

Metoda grupisanja potpornih vektora je sličana metoda koja se takođe zasniva na funkcijama jezgra, ali je prikladaan za učenje bez nadzora. Smatra se fundamentalnom metodom u nauci o podacima .[traži se izvor]

Metoda potpornih vekotra sa više klasa[uredi | uredi izvor]

Multiklasna MPV ima za cilj da dodeli oznake instancama korišćenjem metode potpornih vekotra, gde su oznake izvučene iz konačnog skupa nekoliko elemenata.

Dominantan pristup za to je svođenje jednog problema više klasa na višestruke probleme binarne klasifikacije. [23] Uobičajene metode za takvu optimizaciju uključuju: [23] [24]

  • Pravljenje binarnih klasifikatora koji prave razliku između jedne od oznaka i ostatka ( jedan protiv svih ) ili između svakog para klasa ( jedan protiv jedanog ). Klasifikacija novih instanci za slučaj jedan naspram svih vrši se strategijom pobednik uzima sve, u kojoj klasifikator sa najvećom izlaznom funkcijom dodeljuje klasu (važno je da izlazne funkcije budu kalibrisane da bi proizvele uporedive rezultate ). Za pristup jedan protiv jedan, klasifikacija se vrši strategijom glasanja sa maksimalnim brojem pobeda, u kojoj svaki klasifikator dodeljuje instancu jednoj od dve klase, zatim se glas za dodeljenu klasu povećava za jedan glas, i na kraju klasa sa najviše glasova određuje klasifikaciju instance.
  • Usmereni aciklični graf MPV (DAGSVM) [25]
  • Ispravljanje izlaznih kodova [26]

Kramer i Singer su predložili višeklasnu MPV koji baca problem višeklasne klasifikacije u jedan problem optimizacije, umesto da ga dekomponuje na višestruke probleme binarne klasifikacije. [27] Vidi takođe Li, Lin i Vaba [28] [29] i Van den Burg i Groenen. [30]

Transduktivna metoda potpornih vekotra[uredi | uredi izvor]

Transduktivna metoda potpornih vekotra prošire MPV tako što mogu da tretiraju i delimično obeležene podatke u polunadgledanom učenju prateći principe transdukcije . Ovde, pored kompleta za obuku , učeniku se takođe daje set

test primera koje treba klasifikovati. Formalno, transduktivna metoda potpornih vektora je definisana sledećim primarnim problemom optimizacije: [31]

Minimizovati (u )

podleže (za bilo koje i bilo koje )

i

Transduktivne metode potpornih vektora je predstavio Vladimir N. Vapnik 1998. godine.

Strukturirana MPV[uredi | uredi izvor]

MPV su generalizovane na strukturirane MPV, gde je prostor za oznake strukturiran i verovatno beskonačne veličine.

Regresija[uredi | uredi izvor]

Regresija vektora podrške (predviđanje) sa različitim pragovima ε . Kako se ε povećava, predviđanje postaje manje osetljivo na greške.

Verziju MPV za regresiju predložili su 1996. Vladimir N. Vapnik, Haris Draker, Kristofer Džej Si Berdžes, Linda Kaufman i Aleksandar J. Smola. [32] Ovaj metod se naziva regresija vektora potpora. Model proizveden klasifikacijom vektora podrške (kao što je gore opisano) zavisi samo od podskupa podataka o obuci, jer funkcija troškova za izgradnju modela ne brine o tačkama obuke koje se nalaze izvan margine. Analogno tome, model koji proizvodi SVR(support-vector regression) zavisi samo od podskupa podataka o obuci, jer funkcija greške za izgradnju modela ignoriše sve podatke o obuci koji su bliski predviđanju modela. Drugu MPV verziju poznatu kao metoda potpornih vektora najmanjih kvadrata (LS-SVM) su predložili Suikens i Vandevalle. [33]

Obuka originalnog SVR-a znači rešavanje [34]

minimizirati
za

gde je uzorak za obuku sa ciljnom vrednošću . Unutrašnji proizvod plus presretanje je predviđanje za taj uzorak, i je slobodan parametar koji služi kao prag: sva predviđanja moraju biti unutar raspona istinitih predviđanja. "Labave" promenljive se obično dodaju u gore navedenom da bi se omogućile greške i omogućila aproksimacija u slučaju da je gornji problem neizvodljiv.

Bajesova MPV[uredi | uredi izvor]

Polson i Skot su 2011. pokazali da MPV prihvata Bajesovu interpretaciju kroz tehniku povećanja podataka . [35] U ovom pristupu MPV se posmatra kao grafički model (gde su parametri povezani preko raspodele verovatnoće). Ovaj detaljni pregled omogućava primenu Bajesove tehnike na MPV, kao što je fleksibilana funkcija modeliranja, automatsko hiperparametersko podešavanje, i predvidljivu nesigurnu kvantifikaciju . „Nedavno je Florijan”. arXiv:search/stat?searchtype=author&query=Wenzel%2C+FSlobodan pristup Proverite vrednost parametra |arxiv= (pomoć).  Vencel razvio skalabilnu verziju Bajesovoe MPV, omogućavajući primenu Bajesovoe MPV na velike podatke . [36] Florian Venzel je razvio dve različite verzije, šemu varijacionog zaključivanja (VI) za Bajesov model potpornih vektora sa jezgrom (SVM) i stohastičku verziju (SVI) za linearni Bajesov MPV. [37]

Implementacija[uredi | uredi izvor]

Parametri hiperravni maksimalne margine su izvedeni rešavanjem optimizacije. Postoji nekoliko specijalizovanih algoritama za brzo rešavanje problema kvadratnog programiranja (KP) koji proizilazi iz MPV, uglavnom se oslanjajući na heuristiku za razbijanje problema na manje delove kojima je lakše upravljati.

Drugi pristup je korišćenje metode unutrašnje tačke koja koristi iteracije slične Njutnovoj metodi da bi se pronašlo rešenje Karuš–Kun–Takerovih uslova primarnog i dualnog problema. [38] Umesto rešavanja niza raščlanjenih problema, ovaj pristup direktno rešava problem u celini. Da bi se izbeglo rešavanje linearnog sistema koji uključuje veliku matricu jezgra, aproksimacija niskog ranga matrici se često koristi u triku jezgra.

Uobičajeni metod je i Platoov algoritam sekvencijalne minimalne optimizacije, koji razlaže problem na 2-dimenzionalne podprobleme koji se rešavaju analitički, eliminišući potrebu za numeričkim algoritmom optimizacije i skladištenjem matrice. Ovaj algoritam je konceptualno jednostavan, lak za implementaciju, generalno brži i ima bolja svojstva skaliranja za teške MPV probleme.

Poseban slučaj lineranih MPV može se efikasnije rešiti istom vrstom algoritama koji se koriste za optimizaciju njegovog bliskog rođaka, logističke regresije ; ova klasa algoritama uključuje sub-gradijenti spust (npr. PEGASOS) i koordinatni spust (npr. LIBLINEAR[39] ). LIBLINEAR ima impresivna vremena obuke. Svaka iteracija konvergencije traje linearno u vremenu potrebnom za čitanje trening podataka, a iteracije takođe imaju svojstvo Q-linearne konvergencije, što algoritam čini izuzetno brzim.

Opšta MPV jezgra se takođe mogu efikasnije rešiti korišćenjem sub-gradijentnog spusta (npr P-packSVM ), posebno kada je paralelizacija dozvoljena.

MPV jezgra su dostupna u mnogim kompletima alata za mašinsko učenje, uključujući <a href="https://en.wikipedia.org/wiki/LIBSVM" rel="mw:ExtLink" title="LIBSVM" class="cx-link" data-linkid="815">LIBSVM</a>, MATLAB, SAS, SVMlight, kernlab, <a href="https://en.wikipedia.org/wiki/Scikit-learn" rel="mw:ExtLink" title="Scikit-learn" class="cx-link" data-linkid="817">scikit-learn</a>-, <a href="https://en.wikipedia.org/wiki/Shogun_(toolbox)" rel="mw:ExtLink" title="Shogun (toolbox)" class="cx-link" data-linkid="818">Shogun</a>, <a href="https://en.wikipedia.org/wiki/Weka_(machine_learning)" rel="mw:ExtLink" title="Weka (machine learning)" class="cx-link" data-linkid="819">Weka</a>, Shark, JKernelMachines, OpenCV i druge.

Preporučuje se prethodna obrada podataka (standardizacija) da bi se poboljšala tačnost klasifikacije. [40] Postoji nekoliko metoda standardizacije, kao što su min-maks, normalizacija decimalnim skaliranjem, Z-score. [41] Oduzimanje srednje vrednosti i deljenje varijansom svake karakteristike se obično koristi za M. [42]

Reference[uredi | uredi izvor]

  1. ^ Ben-Hur, Asa; Horn, David; Siegelmann, Hava; Vapnik, Vladimir N. „"Support vector clustering" (2001);”. Journal of Machine Learning Research. 2: 125—137. 
  2. ^ „1.4. Support Vector Machines — scikit-learn 0.20.2 documentation”. Arhivirano iz originala 2017-11-08. g. Pristupljeno 2017-11-08. 
  3. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (PDF) (Second izd.). New York: Springer. str. 134. 
  4. ^ a b v Boser, Bernhard E.; Guyon, Isabelle M.; Vapnik, Vladimir N. (1992). „A training algorithm for optimal margin classifiers”. Proceedings of the fifth annual workshop on Computational learning theory – COLT '92. str. 144. CiteSeerX 10.1.1.21.3818Slobodan pristup. ISBN 978-0897914970. doi:10.1145/130385.130401. 
  5. ^ Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (2007). „Section 16.5. Support Vector Machines”. Numerical Recipes: The Art of Scientific Computing (3rd izd.). New York: Cambridge University Press. ISBN 978-0-521-88068-8. Arhivirano iz originala 2011-08-11. g. 
  6. ^ Joachims, Thorsten (1998). „Text categorization with Support Vector Machines: Learning with many relevant features”. Machine Learning: ECML-98. Lecture Notes in Computer Science (na jeziku: engleski). Springer. 1398: 137—142. ISBN 978-3-540-64417-0. doi:10.1007/BFb0026683Slobodan pristup. 
  7. ^ Pradhan, Sameer S., et al. "Shallow semantic parsing using support vector machines." Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: HLT-NAACL 2004. 2004.
  8. ^ Vapnik, Vladimir N.: Invited Speaker. IPMU Information Processing and Management 2014).
  9. ^ Barghout, Lauren. "Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation". Granular Computing and Decision-Making. Springer International Publishing, 2015. 285–318.
  10. ^ A. Maity (2016). „Supervised Classification of RADARSAT-2 Polarimetric Data for Different Land Features”. arXiv:1608.00501Slobodan pristup [cs.CV]. 
  11. ^ DeCoste, Dennis (2002). „Training Invariant Support Vector Machines” (PDF). Machine Learning. 46: 161—190. doi:10.1023/A:1012454411458Slobodan pristup. 
  12. ^ Maitra, D. S.; Bhattacharya, U.; Parui, S. K. (avgust 2015). „CNN based common approach to handwritten character recognition of multiple scripts”. 2015 13th International Conference on Document Analysis and Recognition (ICDAR). str. 1021—1025. ISBN 978-1-4799-1805-8. S2CID 25739012. doi:10.1109/ICDAR.2015.7333916. 
  13. ^ Gaonkar, Bilwaj; Davatzikos, Christos; "Analytic estimation of statistical significance maps for support vector machine based multi-variate image analysis and classification".
  14. ^ Cuingnet, Rémi; Rosso, Charlotte; Chupin, Marie; Lehéricy, Stéphane; Dormont, Didier; Benali, Habib; Samson, Yves; and Colliot, Olivier; "Spatial regularization of SVM for the detection of diffusion alterations associated with stroke outcome" Arhivirano na sajtu Wayback Machine (22. decembar 2018), Medical Image Analysis (PDF). 15 (5): 729—737. 2011 https://web.archive.org/web/20181222172844/http://www.aramislab.fr/perso/colliot/files/media2011_remi_published.pdf. Arhivirano iz originala (PDF) 22. 12. 2018. g. Pristupljeno 19. 11. 2021.  Nedostaje ili je prazan parametar |title= (pomoć).
  15. ^ Statnikov, Alexander; Hardin, Douglas; & Aliferis, Constantin; (2006); "Using SVM weight-based methods to identify causally relevant and non-causally relevant variables", Sign, 1, 4.
  16. ^ Cortes, Corinna; Vapnik, Vladimir N. (1995). „Support-vector networks” (PDF). Machine Learning. 20 (3): 273—297. CiteSeerX 10.1.1.15.9362Slobodan pristup. doi:10.1007/BF00994018. 
  17. ^ „Why is the SVM margin equal to . Mathematics Stack Exchange. 30. 5. 2015. 
  18. ^ Aizerman, Mark A.; Braverman, Emmanuel M.; Rozonoer, Lev I. (1964). „Theoretical foundations of the potential function method in pattern recognition learning”. Automation and Remote Control. 25: 821—837. 
  19. ^ Shalev-Shwartz, Shai; Singer, Yoram; Srebro, Nathan; Cotter, Andrew (2010-10-16). „Pegasos: primal estimated sub-gradient solver for SVM”. Mathematical Programming. 127 (1): 3—30. CiteSeerX 10.1.1.161.9629Slobodan pristup. ISSN 0025-5610. doi:10.1007/s10107-010-0420-4. 
  20. ^ Hsieh, Cho-Jui; Chang, Kai-Wei; Lin, Chih-Jen; Keerthi, S. Sathiya; Sundararajan, S. (2008-01-01). A Dual Coordinate Descent Method for Large-scale Linear SVM. Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA: ACM. str. 408—415. CiteSeerX 10.1.1.149.5594Slobodan pristup. ISBN 978-1-60558-205-4. doi:10.1145/1390156.1390208. 
  21. ^ Rosasco, Lorenzo; De Vito, Ernesto; Caponnetto, Andrea; Piana, Michele; Verri, Alessandro (2004-05-01). „Are Loss Functions All the Same?”. Neural Computation. 16 (5): 1063—1076. CiteSeerX 10.1.1.109.6786Slobodan pristup. ISSN 0899-7667. PMID 15070510. doi:10.1162/089976604773135104. 
  22. ^ Meyer, David; Leisch, Friedrich; Hornik, Kurt (septembar 2003). „The support vector machine under test”. Neurocomputing. 55 (1–2): 169—186. doi:10.1016/S0925-2312(03)00431-4. 
  23. ^ a b Duan, Kai-Bo; Keerthi, S. Sathiya (2005). „Which Is the Best Multiclass SVM Method? An Empirical Study” (PDF). Multiple Classifier Systems. LNCS. 3541. str. 278—285. CiteSeerX 10.1.1.110.6789Slobodan pristup. ISBN 978-3-540-26306-7. doi:10.1007/11494683_28. Arhivirano iz originala (PDF) 03. 05. 2013. g. Pristupljeno 19. 11. 2021. 
  24. ^ Hsu, Chih-Wei; Lin, Chih-Jen (2002). „A Comparison of Methods for Multiclass Support Vector Machines” (PDF). IEEE Transactions on Neural Networks. 13 (2): 415—25. PMID 18244442. doi:10.1109/72.991427. Arhivirano iz originala (PDF) 03. 05. 2013. g. Pristupljeno 19. 11. 2021. 
  25. ^ Platt, John; Cristianini, Nello; Shawe-Taylor, John (2000). „Large margin DAGs for multiclass classification” (PDF). Ur.: Solla, Sara A.; Leen, Todd K.; Müller, Klaus-Robert. Advances in Neural Information Processing Systems. MIT Press. str. 547—553. Arhivirano iz originala (PDF) 2012-06-16. g. 
  26. ^ Dietterich, Thomas G.; Bakiri, Ghulum (1995). „Solving Multiclass Learning Problems via Error-Correcting Output Codes” (PDF). Journal of Artificial Intelligence Research. 2: 263—286. Bibcode:1995cs........1101D. arXiv:cs/9501101Slobodan pristup. doi:10.1613/jair.105. Arhivirano iz originala (PDF) 2013-05-09. g. 
  27. ^ Crammer, Koby; Singer, Yoram (2001). „On the Algorithmic Implementation of Multiclass Kernel-based Vector Machines” (PDF). Journal of Machine Learning Research. 2: 265—292. Arhivirano iz originala (PDF) 2015-08-29. g. 
  28. ^ Lee, Yoonkyung; Lin, Yi; Wahba, Grace (2001). „Multicategory Support Vector Machines” (PDF). Computing Science and Statistics. 33. Arhivirano iz originala (PDF) 2013-06-17. g. 
  29. ^ Lee, Yoonkyung; Lin, Yi; Wahba, Grace (2004). „Multicategory Support Vector Machines”. Journal of the American Statistical Association. 99 (465): 67—81. CiteSeerX 10.1.1.22.1879Slobodan pristup. doi:10.1198/016214504000000098. 
  30. ^ Van den Burg, Gerrit J. J.; Groenen, Patrick J. F. (2016). „GenSVM: A Generalized Multiclass Support Vector Machine” (PDF). Journal of Machine Learning Research. 17 (224): 1—42. 
  31. ^ Joachims, Thorsten; "Transductive Inference for Text Classification using Support Vector Machines", Proceedings of the 1999 International Conference on Machine Learning (ICML 1999), pp. 200–209.
  32. ^ Drucker, Harris; Burges, Christ. C.; Kaufman, Linda; Smola, Alexander J.; and Vapnik, Vladimir N. (1997); "Support Vector Regression Machines", in Advances in Neural Information Processing Systems 9, NIPS 1996, 155–161, MIT Press.
  33. ^ Suykens, Johan A. K.; Vandewalle, Joos P. L.; "Least squares support vector machine classifiers", Neural Processing Letters, vol. 9, no. 3, Jun. 1999, pp. 293–300.
  34. ^ Smola, Alex J.; Schölkopf, Bernhard (2004). „A tutorial on support vector regression” (PDF). Statistics and Computing. 14 (3): 199—222. CiteSeerX 10.1.1.41.1452Slobodan pristup. doi:10.1023/B:STCO.0000035301.49549.88. Arhivirano iz originala (PDF) 2012-01-31. g. 
  35. ^ Polson, Nicholas G.; Scott, Steven L. (2011). „Data Augmentation for Support Vector Machines”. Bayesian Analysis. 6 (1): 1—23. doi:10.1214/11-BA601Slobodan pristup. 
  36. ^ Wenzel, Florian; Galy-Fajou, Theo; Deutsch, Matthäus; Kloft, Marius (2017). „Bayesian Nonlinear Support Vector Machines for Big Data”. Machine Learning and Knowledge Discovery in Databases (ECML PKDD). Lecture Notes in Computer Science. 10534: 307—322. Bibcode:2017arXiv170705532W. ISBN 978-3-319-71248-2. arXiv:1707.05532Slobodan pristup. doi:10.1007/978-3-319-71249-9_19. 
  37. ^ Florian Wenzel; Matthäus Deutsch; Théo Galy-Fajou; Marius Kloft; ”Scalable Approximate Inference for the Bayesian Nonlinear Support Vector Machine” Arhivirano na sajtu Wayback Machine (23. oktobar 2021)
  38. ^ Ferris, Michael C.; Munson, Todd S. (2002). „Interior-Point Methods for Massive Support Vector Machines” (PDF). SIAM Journal on Optimization. 13 (3): 783—804. CiteSeerX 10.1.1.216.6893Slobodan pristup. doi:10.1137/S1052623400374379. Arhivirano iz originala (PDF) 2008-12-04. g. 
  39. ^ Fan, Rong-En; Chang, Kai-Wei; Hsieh, Cho-Jui; Wang, Xiang-Rui; Lin, Chih-Jen (2008). „LIBLINEAR: A library for large linear classification” (PDF). Journal of Machine Learning Research. 9: 1871—1874. 
  40. ^ Fan, Rong-En; Chang, Kai-Wei; Hsieh, Cho-Jui; Wang, Xiang-Rui; Lin, Chih-Jen (2008). „LIBLINEAR: A library for large linear classification”. Journal of Machine Learning Research. 9 (Aug): 1871—1874. 
  41. ^ Mohamad, Ismail; Usman, Dauda (2013-09-01). „Standardization and Its Effects on K-Means Clustering Algorithm”. Research Journal of Applied Sciences, Engineering and Technology. 6 (17): 3299—3303. doi:10.19026/rjaset.6.3638Slobodan pristup. 
  42. ^ Fennell, Peter; Zuo, Zhiya; Lerman, Kristina (2019-12-01). „Predicting and explaining behavioral data with structured feature space decomposition”. EPJ Data Science. 8. doi:10.1140/epjds/s13688-019-0201-0Slobodan pristup. 

 

Dodatna literatura[uredi | uredi izvor]

Spoljašnje veze[uredi | uredi izvor]