Elektrotehniški vestnik 86(1-2): 7-13, 2019 Izvirni znanstveni članek Prepoznava obrazov z AG opisnikom Domen Lušina1, Jasna Maver2 1 Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, Tržaška 25, 1000 Ljubljana, Slovenija 2 Univerza v Ljubljani, Filozofsaka fakultera, Oddelek za bibliotekarstvo, informacijsko znanost in knjigarstvo, Aškerčeva 2, 1000 Ljubljana, Slovenija E-počta: jasna.maver@ff.uni-lj.si Povzetek. Za prepoznavanje obrazov obstajajo številne metode, nekatere med njimi uporabljajo lokalne opisnike. V članku raziščemo moZnost uporabe novega lokalnega AG opisnika, ki je zasnovan na modelu odvisnih učinkov, za prepoznavanje obrazov. V ta namen smo razvili sistem za prepoznavanje obrazov, ki iz izračunanih AG opisnikov zgradi vrečo besed in uporabi SVM klasifikator. Predlagani sistem smo testirali na javno dostopnih podatkovnih bazah. Testiranje smo opravili tudi z drugimi priljubljenimi opisniki. Sistem za prepoznavo obrazov je pri uporabi AG opisnika dal primerljivo klasifikacijsko točnost kot pri uporabi drugih testiranih opisnikov, v nekaterih testih pa je bila ta večšja. AG opisnik se je izkazal kot dobra alternativa drugim opisnikom. Ključne besede: prepoznavanje obrazov, AG opisnik, lokalni opisnik Face recognition with an AG descriptor There are many methods available for face recognition. Some of them use local descriptors. The paper explores the possibility of using a new local AG descriptor, derived from a dependent-effects model, for the face-recognition function. A face recognition system is developed that builds a bag of words from calculated AG descriptors and uses a SVM classifier. The system is tested on publicly-available databases. Some other popular descriptors are also tested.The recognition scores of the AG descriptor are similar to those of other tested descriptors. in some tests, the recognition scores are higher. The AG descriptor proves to be a good alternative to other descriptors. Keywords: face recognition, AG descriptor, local descriptor 1 Uvod Prepoznava obrazov je ena osnovnih človeških zmožnosti, ki jo usvojimo v zgodnjem obdobju Življenja. Tezko si je predstavljati vsakdanje zivljenje brez zmozšnosti, da bi na ulici prepoznali znano osebo, prijatelja ali sorodnika. (čeprav se nam prepoznavanje obrazov zdi samoumevna funkcija, je to zapletena naloga, ki smo jo sposobni izvesti zelo hitro in ucšinkovito. Kompleksnosti naloge se zavemo, ko zelimo zmoznost prepoznavanja obrazov prenesti v racunalniški sistem. Prvi zacetki razvoja sistemov za prepoznavanje obrazov segajo v šestdeseta leta prejšnjega stoletja, ko se je zacšel razvoj prvih polavtomatskih sistemov, ki so zahtevali rocno vnašanje znacilnic na obrazu (oci, ušesa, nos in usta) [1]. Skozi leta je prišlo do veliko izboljšav [2], [3], [4]. Prejet 12. november, 2018 Odobren 5. marec, 2019 Prepoznavanje obrazov ima velik potenčial uporabe. Med drugim bi ga s pridom lahko uporabljali za kontrolo dostopa, nadzor in v zdravstvene namene. V zadnjih letih se je prepoznava obrazov ze začela uporabljati kot biometrična identifikačija npr. za dostop do sočialnih omrezij, kot sta Fačebook in Google+, ki sta dostopna na pametnih telefonih, kjer vgrajena kamera omogoča sliko obraza. Prepoznava obrazov je zelo obsezno raziskovalno področje. Grobo ga lahko razdelimo na dva dela, pri katerih se uporabljata globalni oz. lokalni pristop. Starejši je globalni pristop. Sem uvrstimo metodo glavnih komponent (PCA) [5], linearno diskriminantno analizo (LDA) [6] in analizo neodvisnih komponent (ICA) [7]. Uporaba teh metod ima svoje slabosti, med drugim je znano, da je PCA metoda občutljiva na spremembe v osvetlitvi. Na splošno so te metode, ker opisujejo obraz kot čeloto, zelo občšutljive na spremembe v videzu obraza, kot je npr. sprememba v izrazih. Pri lokalnem pristopu obraz običajno predstavimo z lokalnimi opisniki, izračunanimi na določšenih obraznih točškah, imenovanih značšilne lokačije. Lokalni pristopi so zato bolj robustni na spremembe v izrazih na obrazu. Z uporabo ustreznega opis-nika lahko minimiziramo vpliv osvetlitve. Med prvimi je bil opisnik SIFT [8], skozi leta pa so bili razviti številni novi opisniki [9], [12], [13], [14], [15]. Prepoznava obrazov pogosto vključuje uporabo metod s področja umetne inteligenče. Za primerno se je izkazal klasifikator SVM, prav tako naključni gozdovi in umetne nevronske mreze. Uporaba metod umetne inteligenče je postala skoraj neizogibna, saj je prispevek zelo velik. Cilj predlaganega dela je preizkusiti lokalni AG opis-nik [11] za prepoznavo obrazov. Pripravili smo sistem za prepoznavo obrazov, sestavljen iz modula za detekčijo obraza in modula za prepoznavo. Predstavitev obrazov, 8 LUSINA, MAVER Slika 1: Sistem za prepoznavo obrazov. ki jo uporablja modul za prepoznavo, bo zasnovana na AG opisnikih. V poglavju 2 predstavimo zgradbo sistema za prepoznavo obrazov oz. osnovne module, ki jih vključuje sistem. V podpoglavju 2.1 opišemo postopek detekcije in izrezave obraza iz slike, v poglavju 2.2 pa predstavimo metodo vreče besed, ki smo jo uporabili za predstavitev obrazov, in dva razlicšna pristopa za pridobivanje značilnih lokacij. Sledi razlaga AG opis-nika, s katerim predstavimo znacšilne lokacije na sliki. V poglavju 3 najprej predstavimo testne podatkovne baze slik obrazov. Sledijo opis eksperimentov ter prikaz in interpretacija rezultatov. 2 Sistem za prepoznavo obrazov Sistem za prepoznavanje obrazov je sestavljen iz vecš modulov: predprocesiranja slike, gradnje predstavitve obraza in klasifikatorja, ki je zgrajen s pomočjo učenja. Slika 1 prikazuje osnovne module predlaganega sistema. 2.1 Predprocesiranje Predpročesiranje slike vključuje detekčijo obraza, izračun verige mejnih točk na obraznih delih, poravnavo in izrezovanje obraza ter normalizačijo velikosti obraznega dela. 2.1.1 Detekcija obraza: Primer detektiranega obraza prikazuje slika 2. Izmed sštevilnih algoritmov, ki so na voljo, smo izbrali algoritem za detekčijo obrazov, predlagan v delih [17] in [18]. Koda algoritma je na voljo v knjizniči dLib*. Algoritem uporablja HOG piramido slik, skozi katero pošlje linearni klasifikator. Vsaka raven v piramidi pomeni HOG značšilniče, izračšunane pri različni resolučiji slike. Za detekčijo obraza uporabimo zaznavalno okno, kije sestavljeno iz mreze prekrivajočih * Zaznava slik frontalnih obrazov knjizniče dLib: http://dlib.net/imaging.html#get_frontal_fače_detečtor/. se HOG značilnič. Te zdruzimo v skupni vektor in uporabimo SVM klasifikator, ki ločuje med območjem v sliki, ki predstavlja obraz in območšjem, ki to ni. Detekčijo obrazov smo izboljšali tako, da smo dano sliko I rotirali za kote a e [-30°, 30°] s korakom 1°. Za manjše obraze, katerih drseče okno ni zaznalo, smo sliko povečali in detekčijo ponovili. Slika 2: Detekčija obraza. Obraz je označen z rdečim okvirjem. 2.1.2 Izločanje obraza in njegova poravnava: Obraz izločimo iz slike z določitvijo verige mejnih točk na obraznih delih (slika 3), kot so npr. usta, nos, oči in obrvi. Za to nalogo uporabimo algoritem ansambla regresijskih dreves [19], ki uporablja 68 mejnih točk. Algoritem je implementiran v knjizšniči dLib. Prednost tega algoritma je, da z zadovoljivo natančnostjo zazna verigo mejnih točk obraznih delov v milisekundi. Algoritem uspesšno zazna polozšaj mejnih točšk tudi v primerih, ko je obraz delno zakrit. Obraz na sliki poravnamo glede Vi Slika 3: Veriga vključuje 68 mejnih točk. PREPOZNAVA OBRAZOV Z AG OPISNIKOM 9 na položaj oči. Središči obeh očes smo izračunali s pomočjo mejnih točk, pridobljenih v prejšnjem koraku. Naj pi,s označuje koordinati (xis,yi,s) i-te mejne točke, v verigi mejnih točk, ki pripadajo očesu. Naj velja i G {1, ..., N}, kjer je N število mejnih točk, razporejenih okoli očesa, in naj s označuje, ali gre za levo ali desno oko (s G {l, r}). Središče očesa Cs zapišemo kot: CS = (Xc,s,Vc,S) = Pi,s . N N Iz izračunanih središč lahko določimo kot nagiba obraza na sliki a = tan- Vc,l - Vc,r \ xc,l xc,r (2) Sliko nato zarotiramo z rotacijsko matriko R: R cos(a) -sin(a) 0 sin(a) cos(a) 0 0 0 1 (3) V 1 0 xo ( x y' = 0 1 yo R y 1 0 0 1 V 1 Hkrati ob rotačiji slike pa moramo koordinate mejnih točk v verigi transformirati v koordinate rotirane slike. Poznamo lokačijo zgornjega levega vogala (x0, yo) slike v novem koordinatnem sistemu. Nove koordinate mejnih točk v verigi (x', y') izračunamo z naslednjo enačbo: (4) 2.1.3 Izrezovanje obraza: Z izrezovanjem obraza zšelimo izločšiti vpliv ozadja na prepoznavo obraza. S slike poravnanega obraza odstranimo del, ki ne vključuje obraza. Ustvarili smo tri različne tipe izrezovanja, ki jih prikazuje slika 4: • tip 1 - okvir izrezave zajame oči, usta in nos, • tip 2 - okvir izrezave zajame oči, usta, nos, liča in obrvi, • tip 3 - okvir izrezave zajame čel obraz. 2.2 Gradnja predstavitve obraza in klasifikatorja Za predstavitev obrazov uporabimo metodo vreče besed (BOW - angl. bag of words) [20]. Značilne lokacije na sliki obraza predstavimo z opisniki, s pomočjo katerih zgradimo besednjak za vrečo besed. Vrečo besed uporabi klasifikator, kije zmozen ločevanja med različnimi osebami. Glavni koraki predlagane metode so: 1) Določanje značilnih lokačij na sliki in gradnja opisnikov. Opisnik opisuje bliznjo okoličo značilne lokačije in je predstavljen kot vektor. 2) Gradnja besednjaka oz. razvrščanje opisnikov v roje. 3) Gradnja histograma opisnikov oz. vreče besed, ki prešteje število opisnikov, dodeljenih k vsakemu roju. 4) Uporaba večrazrednega klasifikatorja, kjer vrečo besed, predstavljeno v vektorski obliki, uporabimo za dodeljevanje h kategoriji oz. osebi. Idealno so ti koraki zasnovani tako, da maksimirajo klasifikačijsko točnost, medtem ko minimizirajo računsko zahtevnost. Za opisnike, pridobljene v prvem koraku, mora veljati, da so robustni na spremembe, ki niso povezane s kategorizačijo (npr. razlike zaradi osvetlitve), hkrati pa morajo vsebovati dovolj informačij, ki omogočajo, ločevanje med kategorijami. Poskrbeti moramo, da je besednjak dovolj velik, da omogočša ločevanje pomembnih sprememb v delih slike in hkrati ne preveč velik, da se izognemo ločevanju nepomembnih podrobnostmi, kot je npr. šum. Slika 4: Različni tipi izrezave: tip 1, tip 2 in tip 3 Velikost izrezanega območja smo izračunali iz koordinat mejnih točšk v verigi. Za vsak tip izrezave izračšunamo minimalni in maksimalni koordinati x in y. Izračunane koordinate določajo štiri vogalne točke okvirja izrezave. Območje v sliki zunaj okvirja odstranimo in izrezano sliko normaliziramo na 128 pikslov v višino in širino. Slika 5: Izbira značilnih lokačij. Levi del slike prikazuje izbiro značilnih lokačij z mrezo, desni del slike prikazuje značilne lokačije, izbrane z detektorjem. Uporabili smo detektor SURF. 2.2.1 Značilne lokacije: Najprej na sliki določimo značšilne lokačije, okoli katerih zšelimo opisati lokalno regijo oz. jo predstaviti z opisnikom. Raziskali smo dva pristopa. Prvi deluje tako, da na sliko postavimo mrezo (slika 5 levo). Presečišča mreznih črt pomenijo značilne lokačije, za katere izračunamo opisnike. Drug pristop uporablja detektorje značilnih točk (slika 5 desno). 2.2.2 Gradnja besednjaka: Pri gradnji sistema za pre-poznavo obrazov je pomembno, kako zgradimo besednjak. Besednjak uporablja klasifikator, ki gaje treba učiti. Ce bi vsak opisnik iz prejšnjega koraka pomenil besedo v besednjaku, bi bilo učenje časovno zelo zahtevno. Ce bi veliko opisnikov dodelili enemu roju oz. besedi, bi izgubili na natančnosti klasifikatorja. Stevilo rojev k je treba pazljivo izbrati, v nasšem primeru je bilo rojev 10 LUSINA, MAVER 1000. Za združevanje opisnikov v roje oz. besede uporabimo algoritem k-means [21]. Za vsak obraz preštejemo enake besede in zgradimo histogram oz. vrečo besed, ki je pravzaprav vektor, s katerim predstavimo obraz. 2.2.3 Razvrščanje v razrede s SVM klasifikatorjem: Razvrščanje v razrede vključuje ucenje klasifikatorja in njegovo testiranje. Predlagan sistem za prepoznavo obrazov uporablja SVM klasifikator. SVM klasifikator najde optimalno hiperravnino, ki razdeli prostor podatkov, v prejšnjem koraku izračunane vreče besed, v dva razreda. Optimalna hiperravnina je določena tako, da je ločitvena meja med razredoma čim širša. SVM se v osnovi uporablja za razvrščanje v dva razreda. Za razširitev na večrazredno razvrščanje moramo opraviti primerjavo vseh mogočih N razredov med seboj. Končno število primerjav je tako N • (N - 1)/2. 2.3 AG opisnik Raziskati smo zeleli, kako zanesljiva je prepoznava obrazov, če za opisnik ključnih lokačij uporabimo AG opisnik [11]. Večina popularnih opisnikov, med katerimi je najbolj poznan SIFT, uporablja za predstavitev lokalne regije na sliki informačijo o gradientu oz. o velikosti spremembe intenzivnosti in smeri spremembe. AG opisnik uporabi model odvisnih učinkov (angl. Dependent Effects Model [22]). Opisnik vzorči sliko v okoliči značilne lokačije na krozničah z eksponentno naraščajočim polmerom. Zajete vrednosti so Gaussova povprečja, izračunana na okoliških pikslih. Standardni odklon filtrov narašča eksponentno s številko krozniče. Prinčip vzorčenja prikazuje slika 6. Odčitana Gaussova Slika 6: Marjetiča ponazarja vzorčenje informačije na sliki z AG opisnikom. Modre točke so mesta, kjer vzorčimo z Gausso-vimi filtri. Polmeri barvnih krogov ustrezajo standardnemu odklonu Gaussovega filtra. Vzoreč je sestavljen iz devetih kroznič. Na vsaki krozniči zajamemo 13 vrednosti. povprečja Imn; m = 0,..., M - 1, n = 0,..., N - 1 lahko ponazorimo s pravokotnikom P dimenzije MxN. Vrednost M označuje število kroznič, na katerih smo vzorčili, oz. število stolpčev v P, vrednost N pa število vzorčev na krozniči oz. število vrstič v P .V našem primeru velja: M = 9 in N = 13. Naj Cm in Rn označujeta seštevek vrednosti iz m-tega stolpča in nte vrstiče pravokotnika P. Velja Cm = ^—o Imn in Rn = m—o Imn. Pravokotnik P lahko predstavimo s tremi tipi učinkov: učinki stolpčev am, učinki vrstič , in učinki preostanka Ymn, za m = 0 ... M - 1 in n = 0 ... N - 1. Vsak Imn lahko predstavimo kot linearno kombinacijo treh zgoraj navedenih učinkov ^mn = 1 + am + ^n + Tmn. (5) I označuje povprečno vrednost, izračunano na vrednostih pravokotnika P. I = 1 M-1 N-1 MN Imn' (6) m = 0 n = 0 am in označujeta razliko povprečne vrednosti stolpca m in vrstiče n od povprečne vrednosti pravokotnika I: 1 _ ^m = N ' Cm I ' A = m-Rn - /• Učinke preostanka Ymn lahko izrazimo kot: 7mn = ^mn I am ^n. (7) (8) (9) Enostavno je pokazati [11], da so učinki enaki učinkom -Y0n, zato opisnik uporabi le učinke a in 7. Od tod sledi tudi ime AG opisnika kot okrajšava za alfa-gama. Z normalizačijo opisnika dosezemo robustnost opisnika na velikost spremembe v kontrastu. Vrednosti učinkov normaliziramo s standardnimi odkloni, izračunanimi za vektor a učinkov in stolpče pravokot-nika Y učšinkov. Velja: in 7 = a = Y00 a7 0 Y01 a7 0 a0 a1 ^a Y10 a71 Y11 a71 aM 1 ^a (10) Y0,(n-1) Y1,(N-1) V 0 a71 Y(M-1),0 (M-1) Y(M-1),1 ^7 (M-1) Y(m-1),(N-1) ^7 (M-1) ) (11) kjer so in a7m; m = 0 ... M — 1 očenjeni standardni odkloni, izračšunani z naslednjima enačšbama: = VM-1 a2 Z^m = 0 am M - 1 -1 Y Z^n = 0 Y: N- 1 2 mn (12) PREPOZNAVA OBRAZOV Z AG OPISNIKOM 11 3 Eksperimentiranje 3.1 Testne baze slik Predlagani sistem smo testirali na treh bazah, faces94, faces95 in faces96 zbirke slik obrazov Univerze v Es-sexu*. Podatkovne baze se po težavnosti razlikujejo. Slika 7: Primeri slik iz zbirke slik obrazov Univerze v Essexu. Prva vrstica predstavlja slike iz faces94, druga iz faces95 in tretja vrstica iz podatkovne baze faces96. Podatkovna baza faces94 vsebuje 3059 slik 153 oseb, med katerimi je 20 zensk in 133 moških. Ozadje na slikah je zeleno platno. Osvetlitev obrazov je enaka, velikosti obraza na slikah so enake. Obrazi so lahko rahlo nagnjeni, prisotna pa je tudi sprememba v izrazih na obrazu. Podatkovna baza faces95 vsebuje 1440 slik 72 oseb. Ozadje je rdeca zavesa, ki vsebuje sence, padajoče s slikane osebe. S premikanjem osebe naprej se zgodijo velike spremembe v osvetlitvi obraza zaradi umetnega osvetljevanja. Prisotne so manjše razlike v velikosti obraza, nagibu glave in izrazih na obrazu. Podatkovna baza faces96 vsebuje 3016 slik 152 oseb. Iz podatkovne baze so bile izlocšene tri slike, na katerih nismo zaznali obraza. Naš detektor obrazov zaznava frontalni del obraza in ne stranskega profila obraza, ki je prisoten na teh slikah. Ozadje je kompleksno, saj vsebuje blešcece posterje. Prisotne so razlike v velikosti, izrazih in nagibu obraza. Osvetlitev obraza se spremeni, ko se oseba pomakne naprej. 3.2 Rezultati 3.2.1 Izbira tipa izrezave obraza: Ugotoviti smo zeleli, kateri tip izrezave obraza da najvišjo klasifikacijsko tocnost. Klasifikacijska tocnost je delez pravilno prepoznanih obrazov glede na vse testirane obraze. Prepoznava obraza je pravilna, ce pravilno prepoznamo osebo, ki ji obraz pripada. Podatkovno bazo smo nakljucšno razdelili na ucšno in testno mnozšico. Ucšno mnozico predstavlja 80 % vseh slik, testno mnozico pa * Zbirka Univerze v Essexu je dosegljiva na: http://cswww.essex.ac.uk/mv/allfaces/. preostalih 20 % slik. Parameter k, ki pomeni število rojev za algoritem k-means, smo nastavili na 1000 in izvedli 10 ponovitev. Testiranje smo ponovili za vse tri tipe izrezav. Znacšilne lokacije smo najprej dolocšili z mrezo z velikostjo celic 8 x 8 pikslov. Testirali smo naslednje opisnike lokalne regije: SURF [10], SIFT [8], BRISK [9], ORB [15], KAZE [14] in AG [11]. Rezultate za vse tri testne baze in tri razlicšne tipe izrezav prikazuje tabela 1. Kot je razvidno iz posamicšnih rezultatov in povprecšja rezultatov, izrezava tipa 3 dosega najvišjo klasifikacijsko tocnost. Rezultat se zdi smiseln, saj izrezava tipa 3 vkljucuje najvecji del obraza, torej najvecš informacije. Opazimo lahko, da se klasifikacijska tocnost zmanjšuje s tezavnostjo podatkovne baze. Klasifikacijska tocšnost je najvisšja za bazo faces94 in najnizšja za bazo faces96. Rezultati, ki so jih dosegli razlicšni opisniki, so si podobni, gre za majhne razlike, manjše od 1 %. Za izrezavo tipa 3 dosega opisnik AG na bazi faces96 najboljši rezultat, na bazi faces95 pa drugi najboljši rezultat. Najslabše rezultate je dosegel opisnik BRISK. Algoritem smo testirali tudi za primer znacšilnih lokacij, ki jih dobimo z detektorjem. Testirali smo naslednje detektorje: SURF [10], SIFT [8], BRISK [9], ORB [15] in KAZE [14]. Rezultate prikazuje tabela 2. Tudi tu da izrezava tipa 3 v vecšini primerov najboljše rezultate. Klasifikacijska tocnost se zmanjšuje s tezavnostjo podatkovne baze. Ce izberemo izrezavo tipa 3, dosezemo z uporabo detektorjev boljšo kvalifikacijsko tocnost kot pri izbiri kljucnih lokacij z mrezo. 3.2.2 Rezultati ob prisotnosti zameglitve in zakritij: Preizkusiti smo zšeleli tudi robustnost predlaganega sistema ob prisotnosti zameglitve slike in zakritja dela obraza. Za prvo nalogo smo slike filtrirali z Gaussovim filtrom s standardno deviacijo a = 1,1 piksel. Eksperiment smo izvedli pri dolocitvi znacilnih lokacij z mrezo in detektorjem. Rezultate za izrezavo tipa 3 prikazujeta tabeli 3 in 4. Rezultati, dosezšeni pri uporabi detektorja znacšilnih lokacij, so vecšinoma boljsši na bazah faces95 in faces96, pri bazi faces94 pa so rezultati v vecšini primerov malenkostno slabši od rezultatov, dobljenih pri uporabi mreze. Opisnik AG je dosegel najboljše rezultate za detektor BRISK in ORB. Za drugo nalogo smo cšetrtino izrezane slike obraza zakrili s kvadratom intenzivnosti nic. Vsako sliko smo zakrili na sštiri razlicšne nacšine s polaganjem kvadrata v drugo oglišce slike. Eksperiment smo izvedli pri dolocitvi znacilnih lokacij z mrezo in detektorjem. Rezultate za izrezavo tipa 3 prikazujeta tabeli 5 in 6. Rezultati so pri uporabi znacšilnih lokacij, dolocšenih z mrezo malenkostno boljši na testni bazi faces94 in faces96 in slabši na bazi faces95. V tem testu se je najbolje izkazal opisnik AG. Pri izbiri znacšilnih lokacij z detektorjem je dosegel najboljše rezultate v kombinaciji z detektorjem KAZE. 12 LUSINA, MAVER Opisnik SURF SIFT BRISK ORB KAZE AG povprečje KT[%] faces94-tip 1 99,36 99,45 99,18 99,40 99,12 99,45 99,33 KT[%] faces94-tip 2 99,79 99,77 99,64 99,78 99,91 99,78 99,78 KT[%] faces94-tip 3 99,97 99,93 99,90 99,90 99,88 99,86 99,91 KT[%] faces95-tip 1 94,13 93,34 93,87 94,14 94,06 93,67 93,87 KT[%] faces95-tip 2 97,16 97,91 97,50 97,61 97,56 97,68 97,57 KT[%] faces95-tip 3 98,71 98,43 98,53 98,42 98,92 98,88 98,65 KT[%] faces96-tip 1 84,43 84,68 84,56 84,92 85,00 84,54 84,69 KT[%] faces96-tip 2 93,89 93,71 93,35 94,04 93,50 93,58 93,68 KT[%] faces96-tip 3 96,66 96,54 96,45 96,71 96,76 96,78 96,65 Tabela 1: Klasifikacijska točnost (KT), dosežena na bazah faces94, faces95 in faces96 z izbiro značilnih lokacij z mrezo in pri uporabi različnih tipov izrezave. Prvi, drugi in tretji rezultat v vrstici so obarvani in poudarjeni. Detektor SURF SIFT BRISK ORB KAZE SURF SIFT BRISK ORB KAZE Opisnik SURF SIFT BRISK ORB KAZE AG AG AG AG AG povprečje KT[%] faces94-tip 1 99,50 99,43 99,36 99,34 99,44 99,28 99,43 99,36 99,62 99,66 99,44 KT[%] faces94-tip 2 99,80 99,76 99,67 99,78 99,70 99,76 99,69 99,92 99,76 99,81 99,76 KT[%] faces94-tip 3 99,85 99,86 99,83 99,80 99,84 99,85 99,76 99,79 99,86 99,88 99,83 KT[%] faces95-tip 1 97,22 97,96 97,53 97,54 97,89 98,06 97,48 97,69 97,53 97,90 97,68 KT[%] faces95-tip 2 98,62 98,44 98,53 98,38 98,47 98,60 98,49 98,29 98,55 98,55 98,49 KT[%] faces95-tip 3 98,75 99,20 98,67 98,97 98,86 98,75 99,31 98,96 98,88 98,74 98,91 KT[%] faces96-tip 1 85,39 85,47 85,52 85,59 84,98 85,63 84,77 85,97 85,56 84,53 85,34 KT[%] faces96-tip 2 92,51 93,53 93,23 92,72 92,72 92,65 92,69 93,39 92,96 92,50 92,89 KT[%] faces96-tip 3 97,78 97,28 97,29 97,26 97,87 97,37 97,20 97,56 97,70 97,65 97,50 Tabela 2: Klasifikacijska točnost (KT), dosezena na bazah faces94, faces95 in faces96 z izbiro značilnih lokacij z detektorjem in pri uporabi različnih tipov izrezave. Prvi, drugi in tretji rezultat v vrstici so obarvani in poudarjeni. SURF SIFT BRISK ORB KAZE AG KT[%] faces94-zameglitev-tip 3 99,86 99,82 99,91 99,93 99,88 99,86 KT[%] faces95-zameglitev-tip 3 98,80 98,66 98,37 98,32 98,56 98,35 KT[%] faces96-zameglitev-tip 3 96,85 96,83 96,72 97,06 96,50 96,48 Tabela 3: Klasifikacijska točnost (KT), dosezena na bazah faces94, faces95 in faces96 z izbiro značilnih lokacij z mrezo pri uporabi izrezave tipa 3 in zameglitvi slike z Gaussovim filtrom. Prvi, drugi in tretji rezultat v vrstici so obarvani in poudarjeni. Detektor SURF SIFT BRISK ORB KAZE SURF SIFT BRISK ORB KAZE Opisnik SURF SIFT BRISK ORB KAZE AG AG AG AG AG KT[%] faces94-zameglitev-tip 3 99,80 99,81 99,85 99,76 99,93 99,76 99,77 99,86 99,79 99,81 KT[%] faces95-zameglitev-tip 3 99,14 99,08 99,17 99,23 98,76 99,02 99,00 99,35 99,32 98,84 KT[%] faces96-zameglitev-tip 3 97,78 97,28 97,29 97,26 97,87 97,37 97,20 97,56 97,70 97,65 Tabela 4: Klasifikacijska točnost (KT), dosezena na bazah faces94, faces95 in faces96 z izbiro značilnih lokacij z detektorjem pri uporabi izrezave tipa 3 in zameglitvi slike z Gaussovim filtrom. Prvi, drugi in tretji rezultat v vrstici so obarvani in poudarjeni. SURF SIFT BRISK ORB KAZE AG KT[%] faces94-zakritja-tip 3 99,90 99,87 99,89 99,90 99,86 99,91 KT[%] faces95-zakritja-tip 3 98,02 98,15 98,01 97,99 98,24 98,25 KT[%] faces96-zakritja-tip 3 96,94 97,10 96,97 97,05 96,63 97,02 Tabela 5: Klasifikacijska točnost (KT), dosezena na bazah faces94, faces95 in faces96 z izbiro značilnih lokacij z mrezo pri uporabi izrezave tipa 3 in prisotnosti zakritij na slikah. Prvi, drugi in tretji rezultat v vrstici so obarvani in poudarjeni. Detektor SURF SIFT BRISK ORB KAZE SURF SIFT BRISK ORB KAZE Opisnik SURF SIFT BRISK ORB KAZE AG AG AG AG AG KT[%] faces94-zakritja-tip 3 99,78 99,80 99,75 99,75 99,79 99,79 99,79 99,78 99,81 99,82 KT[%] faces95-zakritja-tip 3 98,37 98,49 98,46 98,47 98,43 98,51 98,46 98,38 98,52 98,55 KT[%] faces96-zakritja-tip 3 95,86 95,51 95,72 95,56 95,74 95,58 95,64 95,67 95,65 95,91 Tabela 6: Klasifikacijska točnost (KT), pridobljena na bazah faces94, faces95 in faces96 z izbiro značilnih lokacij z detektorjem pri uporabi izrezave tipa 3 ter prisotnosti zakritij na sliki obraza. Prvi, drugi in tretji rezultat v vrstici so obarvani in poudarjeni. PREPOZNAVA OBRAZOV Z AG OPISNIKOM 13 Na testiranih podatkovnih bazah sta se metodi pridobivanja značilnih lokacij s pomočjo mreZe in detektorjem izkazali za uspešni. Klasifikacijsko točnost bi lahko izboljšali s povečanjem števila rojev k, metodo z mrezo bi lahko še dodatno izboljšali, če bi uporabili gostejšo mrezo. Razlog, da tega nismo storili, je v omejitvi količine virov, ki so nam bili na voljo. Vsi uporabljeni lokalni opisniki in detektorji ključnih točk, z izjemo opisnika AG so implementirani v knjizniči OpenCV. Te implementačije smo tudi uporabili pri testiranju. Koda za opisnik AG je dostopna na [16]. 4 Sklep V delu smo predlagali sistem za prepoznavo obrazov. Sistem najprej predpročesira sliko. Ta korak vključuje detekčijo obraza, iskanje verige mejnih točk in izrezavo slike obraza. Raziskali smo tri izrezave slike, za najboljšo se je izkazala izrezava, ki vključuje čel obraz. Za prepoznavo uporabimo metodo vreče besed in klasifiator SVM. Vrečša besed uporablja opis-nike AG značilnih lokačij. Predlagali smo dve metodi za določanje značilnih lokačij; prva določi lokačije s pomočjo mreze, druga uporabi detektorje značilnih točk. Testirali smo več detektorjev, rezultati prepoznave so bili podobni. Celoten sistem smo testirali na treh javno dostopnih bazah, ki se po tezavnosti razlikujejo. Sistem smo testirali tudi za druge popularne opisnike lokalnih regij. Opisnik AG se je izkazal kot primeren, saj je dosegel povsem konkurenčne rezultate k drugim testi-ranim opisnikom, pri delno zakritih obrazih pa je dosegel najvišjo klasifikačijsko točnost. Zahvala Raziskavo je omogočšilo Ministrstvo za izobrazševanje, znanost in šport Republike Slovenije v okviru programa P2-0214-Računalniški vid. References [1] P. Melin and W. Pedryčz. Soft Computing for Recognition Based on Biometrics, volume 312, Springer, 2010. [2] A. J. Goldstein, L. D. Harmon and A. B. Lesk. Identifičation of human fačes. Proceedings of the IEEE, 59(5), pp. 748-760, 1971. [3] L. Sirovičh and .l Kirby. Low-dimensional pročedure for the čharačterization of human fačes. JosaA, 4(3), pp. 519-524, 1987. [4] M. A. Turk and A. P. Pentland. Fače rečognition using eigen-fačes. Proceedings of the CVPR, pp. 586-591, 1991. [5] M. Kirby and L. Sirovičh. Appličation of the karhunen-loeve pročedure for the čharačterization of human fačes. IEEE Transactions on Pattern analysis and Machine intelligence, 12(1), pp. 103-108, 1990. [6] K. Etemad and R. Chellappa. Disčriminant analysis for rečog-nition of human fače images. JOSA A, 14(8), pp. 1724-1733, 1997. [7] M. S. Bartlett, J. R. Movellan and T. J. Sejnowski. Fače rečogni-tion by independent čomponent analysis. IEEE Transactions on neural networks, 13(6), pp. 1450-1464, 2002. [8] D. G. Lowe. Distinčtive image features from sčale-invariant keypoints. International journal of computer vision, 60(2), pp. 91-110, 2004. [9] S. Leutenegger, M. Chli and R. Y. Siegwart. Brisk: Binary robust invariant scalable keypoints. ICCV, pp. 2548-2555, 2011. [10] H. Bay, A. Ess, T. Tuytelaars and L. Van Gool. Speeded-up robust features (surf). Computer vision and image understanding, 110(3), pp. 346-359, 2008. [11] R. Mandeljc and J. Maver AGs: local descriptors derived from the dependent effects model. Journal of Visual Communication and Image Representation 58, pp. 503-514, 2019. [12] M. Calonder, V. Lepetit, C. Strecha and P. Fua. Brief: Binary robust independent elementary features. ECCV, pp. 778-792, 2010. [13] A. Alahi, R. Ortiz and P. Vandergheynst. Freak: Fast retina keypoint. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 510-517, 2012. [14] P. F. Alcantarilla, A. Bartoli and A. J. Davison. Kaze features. In European Conference on Computer Vision, pp. 214-227, 2012. [15] E. Rublee, V. Rabaud, K. Konolige and G. Bradski, ORB: An efficient alternative to SIFT or SURF, In Proc. IEEE Int. Conf. Comput. Vis., pp. 2564-2571, 2011. [16] R. Mandeljc, AlphaGamma descriptor, https://github.com/rokm/ alphagamma-descriptor, 2017. [17] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, volume 1, pp. 886893, 2005. [18] P. F. Felzenszwalb, R. B. Girshick, D. McAllester and D. Ra-manan. Object detection with discriminatively trained part-based models. IEEE transactions on pattern analysis and machine intelligence, 32(9), pp. 1627-1645, 2010. [19] V. Kazemi and J. Sullivan. One millisecond face alignment with an ensemble of regression trees. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1867-1874, 2014. [20] G. Csurka, C. R. Dance, L. Fan, J. Willamowski and C. Bray. Visual categorization with bags of keypoints. In Workshop on Statistical Learning in Computer Vision, ECCV, pp. 1-22, 2004. [21] D. G. Stork, O. Duda, P. E. Hart. Pattern classification. John Wiley & Sons, 2000. [22] J. Maver. Self-similarity and points of interest. IEEE transactions on pattern analysis and machine intelligence, 32 (7), pp. 1211-1226, 2010. Domen Lušina je leta 2017 postal diplomirani inženir računalništva in informatike (UN) na Fakulteti za računalništvo in informatiko Univerze v Ljubljani. Trenutno nadaljuje študij na magistrskem programu Računalništvo in matematika na Fakulteti za matematiko in fiziko Univerze v Ljubljani. Zanima se predvsem za področje umetne inteligenče in rudarjenja podatkov. Jasna Maver je leta 1995 doktorirala s področja računalništva na Fakulteti za računalništvo in informatiko Univerze v Ljubljani. V letih 1990 in 1991 je bila raziskovalka v laboratoriju GRASP na Univerzi v Pensilvaniji, kjer je raziskovala na področju aktivnega robotskega vida. Je izredna profesoriča za računalništvo in informatiko na Univerzi v Ljubljani. Zaposlena je na Oddelku za bibliotekarstvo, informačijsko znanost in knjigarstvo na Filozofski fakulteti, kjer predava račšunalnisške predmete. Na raziskovalnem področšju sodeluje z Laboratorijem za račšunalnisški vid in Laboratorijem za umetne vizualne spoznavne sisteme na Fakulteti za račšunalnisštvo in informatiko. Njeno trenutno področšje raziskovanja je gradnja nizkonivojskih opisnikov lokalnih regij v slikah, ki jih lahko uporabimo za različšne naloge račšunalnisškega vida, med katere lahko uvrstimo tudi prepoznavo obrazov.