Karakteristika slična Har talasu

Karakteristika slična Har talasu je karakteristika digitalna slike koja se koriste za otkrivanje i prepoznavanje objekata.^[1]

Detekcija objekata je jedna od računarskih tehnologija koja je povezana sa obradom slike i računarskim vidom. Bavi se otkrivanjem instanci objekata kao što su ljudska lica, zgrade, drveće, automobili, itd. Primarni cilj algoritama za detekciju lica je da utvrdi da li na slici postoji neki objekat ili ne.

U 19. veku, mađarski matematičar, Alfred Har, dao je koncepte Har talasa, koji su niz reskaliranih funkcija „u obliku kvadrata“ koje zajedno čine porodicu talasa ili osnovu. Detekcija objekata korišćenjem kaskadnih klasifikatora zasnovanih na Har karakteristikama je efikasan metod detekcije objekata koji su predložili Paul Viola i Michael Jones ^[1] u svom radu „Brza detekcija objekata korišćenjem pojačane kaskade jednostavnih karakteristika“ iz 2001. To je pristup zasnovan na mašinskom učenju gde kaskadna funkcija je obučena iz mnoštva pozitivnih i negativnih slika. Zatim se koristi za otkrivanje objekata na drugim slikama. Har kaskada se ne može koristiti za prepoznavanje (na primer, ljudskog lica) jer identifikuje samo odgovarajući oblik i veličinu.

Istorijski gledano, rad samo sa intenzitetima slike (tj. RGB vrednosti piksela na svakom pikselu slike) činio je zadatak izračunavanja karakteristika računarski skupim.

Har karakteristika su u suštini proračuni koji se izvode na susednim pravougaonim regionima na određenoj lokaciji u prozoru za detekciju. Proračun uključuje sabiranje intenziteta piksela u svakom regionu i izračunavanje razlika između zbira. Ova razlika se zatim koristi za kategorizaciju podsekcija slike. Konačni klasifikator je ponderisani zbir ovih slabih klasifikatora. Naziva se slabom jer sama ne može da klasifikuje sliku, ali zajedno sa ostalima čini jak klasifikator.

Na primer, kod ljudskog lica, uobičajeno je zapažanje da je među svim licima region očiju tamniji od predela obraza. Stoga je uobičajena Har karakteristika za detekciju lica skup dva susedna pravougaonika koji leže iznad oka i obraza. Položaj ovih pravougaonika je definisan u odnosu na prozor za detekciju koji se ponaša kao granični okvir prema ciljnom objektu (lice u ovom slučaju).

Ove karakteristike može biti teško odrediti za veliku sliku. Ovde dolaze u obzir integralne slike jer se broj operacija smanjuje korišćenjem integralne slike.

Pravljenje integralnih slika

Ne ulazeći previše u matematiku koja stoji iza toga, integralne slike u suštini ubrzavaju izračunavanje ovih Har karakteristika. Umesto da računa na svakom pikselu, pravi podpravougaonike i reference niza za svaki od tih podpravougaonika. Oni se zatim koriste za izračunavanje Har karakteristika.

U fazi detekcije objekata Viola–Jones, prozor ciljne veličine se pomera preko ulazne slike, a za svaki pododeljak slike se izračunava karakteristika slična Haru. Ova razlika se zatim upoređuje sa naučenim pragom koji odvaja ne-objekte od objekata. Pošto je takva karakteristika slična Haru samo slab učenik ili klasifikator (njegov kvalitet detekcije je nešto bolji od slučajnog nagađanja), veliki broj karakteristika sličnih Haru je neophodan da bi se objekat opisao sa dovoljnom preciznošću.

Slabi učenici se stvaraju pomeranjem prozora preko ulazne slike i izračunavanjem Har karakteristika za svaki pododeljak slike. Ova razlika se upoređuje sa naučenim pragom koji odvaja ne-objekte od objekata. Pošto su ovo „slabi klasifikatori“, potreban je veliki broj Har-ovih karakteristika da bi preciznost formirala jak klasifikator.

Stoga su karakteristike sliične Haru organizovane u nešto što se zove kaskada klasifikatora da formiraju snažnog učenika ili klasifikatora.

Vrednost karakteristike se izračunava kao jedan broj: zbir vrednosti piksela u crnoj oblasti minus zbir vrednosti piksela u beloj oblasti. Vrednost je nula za običnu površinu u kojoj svi pikseli imaju istu vrednost, i stoga ne pružaju korisne informacije.

Na primeru ljudskih lica, koja su složenih oblika sa tamnijim i svetlijim tačkama, karakteristika slična Haru daje vam veliki broj kada su oblasti u crno-belim pravougaonicima veoma različite. Koristeći ovu vrednost, dobijamo deo validne informacije iz slike.

Pravougaone karakteristike nalik Haru[uredi | uredi izvor]

Integralna slika (poznata i kao tabela sa sumiranim površinama) je naziv i strukture podataka i algoritma koji se koristi za dobijanje ove strukture podataka. Koristi se kao brz i efikasan način za izračunavanje zbira vrednosti piksela na slici ili pravougaonom delu slike.

Ključna prednost funkcije slične Haru u odnosu na većinu drugih funkcija je njena brzina izračunavanja. Zbog upotrebe integralnih slika, karakteristika slična Haru bilo koje veličine može se izračunati u konstantnom vremenu (približno 60 mikroprocesorskih instrukcija za karakteristiku od 2 pravougaonika).

Jednostavna pravougaona karakteristika slična Haru može se definisati kao razlika zbira piksela površina unutar pravougaonika, koja može biti na bilo kojoj poziciji i razmeri unutar originalne slike. Ovaj modifikovani skup karakteristika se naziva obeležje sa 2 pravougaonika . Viola i Jones su takođe definisali karakteristike sa 3 pravougaonika i karakteristike sa 4 pravougaonika. Vrednosti ukazuju na određene karakteristike određene oblasti slike. Svaki tip obeležja može ukazivati na postojanje (ili odsustvo) određenih karakteristika na slici, kao što su ivice ili promene u teksturi. Na primer, obeležje sa 2 pravougaonika može da ukaže gde se nalazi granica između tamnog i svetlog regiona.

Važno je napomenuti da će skoro sve Har karakteristike biti irelevantne prilikom otkrivanja objekata, jer su jedine važne karakteristike objekta.

Brzo izračunavanje karakteristika sličnih Haru[uredi | uredi izvor]

Izračunavanje Har karakteristika

Prvi korak je prikupljanje karakteristika Hara. Har karakteristika su u suštini proračuni koji se izvode na susednim pravougaonim regionima na određenoj lokaciji u prozoru za detekciju. Proračun uključuje sabiranje intenziteta piksela u svakom regionu i izračunavanje razlika između zbira.

Jedan od doprinosa Viole i Džonsa bio je korišćenje tabela sa sumiranim površinama, ^[2] koje su nazvali integralne slike . Integralne slike se mogu definisati kao dvodimenzionalne tabele traženja u obliku matrice sa istom veličinom originalne slike. Svaki element integralne slike sadrži zbir svih piksela koji se nalaze u gornjem levom delu originalne slike (u odnosu na poziciju elementa). Ovo omogućava da se izračuna zbir pravougaonih površina na slici, na bilo kojoj poziciji ili skali, koristeći samo četiri pretraživanja:

{\text{sum}}=I(C)+I(A)-I(B)-I(D).\,

gde redom tačke $A,B,C,D$ pripadaju integralnoj slici, $I$ kao što je prikazano na slici.

Svaka funkcija slična Haru može zahtevati više od četiri pretraživanja, u zavisnosti od toga kako je definisana. Za funkcije sa 2 pravougaonika Viole i Džonsa, potrebno je šest traženja, za funkcije sa 3 pravougaonika potrebno je osam traženja, a za karakteristike sa 4 pravougaonika je potrebno devet traženja.

Nagnute karakteristike Hara[uredi | uredi izvor]

Kaskadni klasifikator se sastoji od niza faza, gde je svaka faza skup slabih učenika. Slabi učenici se obučavaju korišćenjem pojačavanja, što omogućava visoko precizan klasifikator iz srednjeg predviđanja svih slabih učenika.

Na osnovu ovog predviđanja, klasifikator ili odlučuje da ukaže da je objekat pronađen (pozitivno) ili pređe na sledeći region (negativno). Faze su dizajnirane da odbace negativne uzorke što je brže moguće, jer većina prozora ne sadrži ništa od interesa.

Važno je maksimizirati nisku stopu lažno negativnih, jer će klasifikovanje objekta kao neobjekta ozbiljno narušiti vaš algoritam detekcije objekata.

Na primeru detekcije ljudskih lica, posao kaskade je da brzo odbaci lica koja nisu lica i izbegne gubljenje dragocenog vremena i proračuna. Tako se postiže brzina neophodna za detekciju lica u realnom vremenu.

Kada podregija slike uđe u kaskadu, ona se procenjuje u prvoj fazi. Ako ta faza oceni podregion kao pozitivnu, što znači da misli da je lice, rezultat faze je možda. Kada podregion dobije možda, on se šalje u sledeću fazu kaskade i proces se nastavlja kao takav dok ne dođemo do poslednje faze. Ako svi klasifikatori odobre sliku, ona se konačno klasifikuje kao ljudsko lice i predstavlja se korisniku kao detekcija.

Kako nam to pomaže da povećamo brzinu? U suštini, ako prva faza daje negativnu ocenu, onda se slika odmah odbacuje jer ne sadrži ljudsko lice. Ako prođe prvu fazu, ali ne prođe drugu fazu, takođe se odbacuje. U osnovi, slika se može odbaciti u bilo kojoj fazi klasifikatora.^[4] ^[5] ^[6] ^[7] ^[8]

Linhart i Majt ^[3] uveli su koncept nagnute (45°) karakteristike slične Haru. Ovo je korišćeno za povećanje dimenzionalnosti skupa karakteristika u pokušaju da se poboljša detekcija objekata na slikama. Ovo je bilo uspešno, jer su neke od ovih karakteristika u stanju da opišu objekat na bolji način. Na primer, 2-pravougaona nagnuta karakteristika slična Haru može ukazivati na postojanje ivice pod uglom od 45°.

Reference[uredi | uredi izvor]

^ ^a ^b Viola and Jones, "Rapid object detection using a boosted cascade of simple features", Computer Vision and Pattern Recognition, 2001
^ Crow, F, "Summed-area tables for texture mapping Arhivirano 2017-08-08 na sajtu Wayback Machine", in Proceedings of SIGGRAPH, 18(3):207–212, 1984
^ ^a ^b Lienhart, R. and Maydt, J., "An extended set of Haar-like features for rapid object detection Arhivirano 2017-12-15 na sajtu Wayback Machine", ICIP02, pp. I: 900–903, 2002
^ „viola-jones-algorithm”.
^ Lee, Socret (2021-08-11). „Understanding Face Detection with the Viola-Jones Object Detection Framework”. Medium (na jeziku: engleski). Pristupljeno 2024-02-15.
^ „OpenCV: Face Detection using Haar Cascades”. docs.opencv.org. Pristupljeno 2024-02-15.
^ Jaiswal, Abhishek (2022-10-19). „Face Detection using Haar-Cascade using Python”. Analytics Vidhya (na jeziku: engleski). Pristupljeno 2024-02-15.
^ Behera, Girija Shankar (2020-12-29). „Face Detection with Haar Cascade”. Medium (na jeziku: engleski). Pristupljeno 2024-02-15.

[Viola_2001-1] Viola and Jones, "Rapid object detection using a boosted cascade of simple features", Computer Vision and Pattern Recognition, 2001

[2] Crow, F, "Summed-area tables for texture mapping Arhivirano 2017-08-08 na sajtu Wayback Machine", in Proceedings of SIGGRAPH, 18(3):207–212, 1984

[Lienhart-3] Lienhart, R. and Maydt, J., "An extended set of Haar-like features for rapid object detection Arhivirano 2017-12-15 na sajtu Wayback Machine", ICIP02, pp. I: 900–903, 2002

[4] „viola-jones-algorithm”.

[5] Lee, Socret (2021-08-11). „Understanding Face Detection with the Viola-Jones Object Detection Framework”. Medium (na jeziku: engleski). Pristupljeno 2024-02-15.

[6] „OpenCV: Face Detection using Haar Cascades”. docs.opencv.org. Pristupljeno 2024-02-15.

[7] Jaiswal, Abhishek (2022-10-19). „Face Detection using Haar-Cascade using Python”. Analytics Vidhya (na jeziku: engleski). Pristupljeno 2024-02-15.

[8] Behera, Girija Shankar (2020-12-29). „Face Detection with Haar Cascade”. Medium (na jeziku: engleski). Pristupljeno 2024-02-15.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]