Elektrotehniški vestnik 87(4): 217-222, 2020 Izvirni znanstveni članek Vrednotenje postopkov superresolucije za izboljšavo lokalizacije obraznih tock Klemen Grm Univerza v Ljubljani, Fakulteta za elektrotehniko, Tržaška cesta 25, 1000 Ljubljana, Slovenija E-pošta: klemen.grm@fe.uni-lj.si Povzetek. Postopki superresolucije so se izkazali kot izjemno uporabni na področju obraznih slik, saj lahko z njimi izboljšamo kakovost slik nizke ločljivosti oziroma slik, podvrzenih drugim dejavnikom vizualne degradacije, kot so slabo izostrenje, šum in razostritev zaradi gibanja. Z uporabo postopkov superresolucije obrazov na takih podatkih lahko izboljšamo delovanje biometričnih sistemov, npr. za razpoznavanje obrazov ali nadzorne sisteme. Postopki lokalizacije obraznih točk so pri biometričnih sistemih ključnega pomena, saj se tipicšno uporabljajo v predobdelavi obraznih slik, za poravnavo obrazov v kanonicšne poze, ki jih pricšakujejo samodejni sistemi razpoznavanja obrazov. V članku je ovrednotena uporaba postopkov superresolucije obrazov za namen izboljšave delovanja metod lokalizacije obraznih točk. Na podlagi eksperimentov z različnimi postopki superresolucije obrazov sledi ugotovitev, daje vpliv postopkov superresolucije na uspešnost lokalizacije obraznih točk močno odvisen od postopka superresolucije, vsi preizkušeni postopki pa imajo pozitiven vpliv v primerjavi z lokalizacijo obraznih točk neposredno iz obraznih slik nizke ločljivosti. Glede na to ugotovitev se predlaga vključitev postopkov superresolucije kot enega od prvih korakov pri delu z obraznimi slikami nizke ločljivosti. Ključne besede: biometrija, superresolucija, lokalizacija obraznih točk Evaluation of super-resolution methods for improving face landmark localisation performance Super-resolution methods have proven to be useful in the face domain, where they can be used to improve the quality of low-resolution images, as well as images subjected to different forms of visual degradation, such as out-of-focus, shot noise and motion blur. Super-resolution methods can be used on such data to improve the performance of various biometric systems, such as face recognition and surveillance systems. Landmark localisation is of key importance in biometric systems, since it is typically used in the image processing pipeline to align face images to a canonical pose expected by automatic face recognition systems. This paper evaluates the use of face superresolution systems in terms of their effect on the performance of face landmark localisation methods. Experiments with different face super-resolution systems show that the impact of super-resolution on face landmark localisation is heavily dependent on the specific super-resolution method, however, the impact of each tested method is positive in comparison to landmark localisation directly from low-resolution face images. Based on our findings, the inclusion of face superresolution as one of the first pre-processing steps in the face recognition pipeline is recommended. Keywords: biometrics, super-resolution, face landmark localisation 1 Uvod Obrazna poza je eden od ključnih dejavnikov, ki lahko vplivajo na uspešnost razpoznavanja obrazov. (človeški obraz je najbolje viden v frontalni pozi, stranske poze pa Prejet 6. maj, 2020 Odobren 8. julij, 2020 Slika 1: Obraz, fotografiran v razlicnih pozah. lahko odvisno od kota bistveno spremenijo videz obraza ali celo zakrijejo dele obraza. Slika 1 prikazuje fotografije istega obraza v različnih pozah, ki izrazito spremenijo videz slike. Največ informacije o izgledu obraza je ohranjene v sliki frontalne poze, zato je to poza, za katero so tipično prilagojeni sistemi za samodejno razpoznavanje obrazov, in poza, iz katere je najlazje prepoznati obraz na sliki. Kot korak predobdelave slik za razpoznavanje obrazov se zato tipično uporabljajo postopki poravnave obrazov, ki sliko poravnajo v to kanonično pozo glede na zaznano lokacijo in orientacijo obraza na sliki. 218 GRM Slika 2: Lokacije 68 ključnih obraznih točk po standardu MultiPIE [5], Primer frontalne poze iz zbirke XM2VTS [14], 2 Lokalizacija in poravnava obraznih točk Lokalizacija obraznih točk je postopek določitve koordinat slikovnih elementov na sliki obraza, ki ustrezajo ključnim obraznim točkam. Obstaja več različnih definicij ključnih obraznih točk, v zadnjem času pa se je najbolj uveljavil sistem 68 obraznih točk, uporabljenih pri označitvi podatkovne zbirke Multi-PIE [5]. Diagram teh točk v kanonični frontalni pozi obraza je predstavljen na sliki 2. Če želimo novo sliko poravnati s kanonično pozo, in na podlagi sistema za zaznavo obraznih točk poznamo približek (x, y) koordinate njenih obraznih točk v obliki matrike X G R68 2, in je kanonična poza določena z matriko koordinat Y G R68 2, lahko sliko poravnamo s kanonično pozo tako, da določimo transformacijsko matriko T G l3 '3, ki v smislu najmanjših kvadratov reši enačbo X'T«Y', (1) kjer sta X' in Y' matriki koordinat obraznih točk v homogenem zapisu, torej z vrsticami (.r. y. 1). Enačbo (1) v smislu najmanjših kvadratov reši matrika T = (X'T X') 1 X'T Y. (2) Slika 3 prikazuje primere obraznih slik, poravnanih s tem postopkom. Postopek zagotavlja sliko obraza v isti velikosti, obliki in orientaciji, kot jih ima kanonična poza, kar je ključnega pomena za delovanje sistemov samodejnega razpoznavanja obrazov. Tudi najnovejši rezultati s področja samodejnega razpoznavanja obrazov namreč kažejo, da je obrazna poza eden izmed dejavnikov, ki najbolj vplivajo na uspešnost razpoznavanja [15]. Slika 3: Primeri poravnave obraznih slik iz podatkovne zbirke CelebFacesA [13], Na sliki so prikazane originalne (levo) in poravnane slike (desno). 3 SUPERRESOLUCIJA Superresolucija je družina postopkov za izboljšavo kakovosti slikovnih podatkov nizke ločljivosti. Problem je matematično definiran s postopkom degradacije slike, y = F(x) + n, (3) kjer y predstavlja znano sliko nizke ločljivosti, II(■) predstavlja postopek glajenja in podvzorčenja, x predstavlja latentno sliko visoke ločljivosti, ki jo s postopkom superresolucije želimo rekonstruirati, in n predstavlja člen šuma. Postopki superresolucije sestojijo iz določitve preslikave x = /(y), ki postopek degradacije do čim večje mere invertirajo. Moderni pristopi [2], [8], [9], [11], [17], [18], [4] postopek določijo kot x = fe(y)> kjer fg predstavlja globoko nevronsko omrežje, naučeno na primerih parov slik visoke in nizke ločljivosti. Postopek učenja je tak, da učno zbirko slik visoke ločljivosti umetno podvzorčimo z izbranim degradacij skim postopkom. Umetno podvzorčene slike nizke ločljivosti y nato predstavljajo učne vhode nevronskemu omrežju, originalne slike visoke ločljivosti x pa pričakovane učne izhode. Z nevronskim omrežjem fe nato preko gradientne optimizacije parametrov 0 minimiziramo kriterijsko funkcijo £{fg{y),x), ki je lahko npr. srednja kvadratna napaka med dejanskimi slikami visoke ločljivosti in izhodi nevronskega omrežja. Postopek učenja in uporabe nevronskega omrežja za superresolucijo je prikazan na sliki 4. Slika 4: Prikaz učenja nevronskega omrežja za superresolucijo. Slika prikazuje generiranje parov učnih slik (1) in učenje nevronskega omrežja (2). SUPERRESOLUCIJA ZA IZBOLJŠAVO LOKALIZACIJE OBRAZNIH TOCK 219 4 Eksperimentalni protokol V tem razdelku je opisan protokol, uporabljen za vrednotenje vpliva postopkov superresolucije na uspešnost lokalizacije obraznih tock pri obraznih slikah nizke ločljivosti. 4.1 Podatkovne zbirke Za učenje postopkov superresolucije uporabljamo podatkovno zbirko CASIA WebFace [16]. Gre za podatkovno zbirko, ki vsebuje 494 414 slik obrazov 10 575 ljudi, in je pogosto uporabljena v namen ucenja sistemov za analizo in razpoznavanje obrazov. Z ucenjem postopkov superresolucije izkljucšno na slikah obrazov dosezemo, da se nevronska omrezja za superresolucijo naucijo rekonstrukcije videza obrazov, kar predstavlja bolj omejen problem od splošne resolucije poljubnih scen, s cšimer je mogocša izboljsšava uspesšnosti superre-solucije. Za testiranje vpliva postopkov superresolucije na uspešnost lokalizacije obraznih tock uporabljamo podatkovno zbirko Helen [10]. Testni del zbirke je sestavljen iz 330 obraznih slik z oznacenimi lokacijami kljucnih obraznih tock po standardu s 68 tockami. 4.2 Postopki superresolucije Za vrednotenje uporabnosti postopkov superresolucije za namen izboljšave delovanja sistema za lokalizacijo obraznih tocšk uporabimo predlagane postopke superre-solucije Super-identity Convolutional Neural Network (SICNN) [18], Super-Resolution Convolutional Neural Network (SRCNN) [2], Very Deep Super Resolution Network (VDSR) [8], Perceptual-loss based SR (¿p) [6], Cascading Residual Network (CARN) [1], Deep Laplacian Pyramid Super-Resolution Network (Lap-SRN) [9], Super-Resolution Generative Adversarial Network (SRGAN) [11], Enhanced Deep Residual Network (EDSR) [12], Ultra Resolving Discriminative Generative Network (URDGN) [17] in Cascaded Super-Resolution with Identity Priors (C-SRIP) [4]. Ker so bili nekateri izmed teh pristopov predlagani za splosšen problem su-perresolucije in ne konkretno za problem superresolucije obrazov, vse modele naucšimo od zacšetka na podatkovni zbirki CASIA-WebFace. 4.3 Postopek lokalizacije kljucnih obraznih točk Za dolocšitev lokacije kljucšnih obraznih tocšk uporabljamo postopek [7]. Postopek je sestavljen iz kaskade regresijskih funkcij, ki iterativno izboljšujejo oceno lokacij kljucnih obraznih tock na podlagi videza lokalne okolice trenutnih ocen njihovih lokacij. Postopek loka-lizacije je podan z izrazom XM = X(t-1) + rt (/, X(t-1)) , (4) predstavlja t-to regresijsko funkcijo, ki oceni nove lokacije kljucnih tock na podlagi slike obraza in prejšnje ocene. Zaporedje regresijskih funkcij rt je uceno z gradien-tnim optimizacijskim postopkom za drevesa regresijskih funkcij, ki v vsakem koraku optimizira funkcije za šibko regresijo s kriterijsko funkcijo minimizacije rezidualov iz prejšnjih iteracij. 4.4 Mera za vrednotenje rezultatov Naj bodo referenčne koordinate kljucnih obraznih tock dane slike obraza podane v matriki Y, in naj bodo priblizški teh koordinat, dobljeni s postopkom lokaliza-cije podani v matriki X. Odstopanje napovedi X od dejanskih koordinat Y podamo z mero povprecne ev-klidske razdalje dane kljucne tocke od njenega priblizka, normirano z medocesno evklidsko razdaljo. Mera napake je podana z izrazom Diod 68 i= Y i,- — Xi, II 1 31,: — Y36,:||2 kjer izraz Mi : predstavlja i-to vrstico matrike M, ter 31. in 36. kljucna obrazna tocka v sistemu 68 Multi-PIE [5] kljucnih obraznih tock predstavljata središci levega oz. desnega ocšesa. 4.5 Priprava testne podatkovne zbirke Ker podatkovna zbirka Helen [10] vsebuje slike visoke locljivosti, jih moramo za namen uporabe preizkusa postopkov superresolucije obdelati z ustreznim postopkom umetne degradacije. Vpliv postopkov superresolucije na uspešnost loka-lizacije kljucšnih obraznih tocšk ovrednotimo tako, da celotni testni del podatkovne zbirke Helen podvzorcšimo na locljivost slik 24 x 24 slikovnih elementov, ki je smiselna za vhod v izbrane postopke superresolucije. V ta namen slike gladimo preko konvolucije z Gaussovim jedrom s a = 2.0 ter jih podvzorcimo za faktor 8. Ker so koordinate referencšnih oznak kljucšnih obraznih tocšk podane v koordinatnem sistemu slikovnih elementov, tudi oznake lokacij obraznih tocšk skaliramo tako, da matriko Y, pripadajoco vsaki sliki mnozimo z razmerjem med velikostjo originalne slike in velikostjo nove referencne slike visoke locljivosti, kije 192 x 192 slikovnih elementov. Te slike nizke locljivosti nato z vsakim od omenjenih postopkov superresolucije povecšamo za faktor 8x , na locljivost 192 x 192 slikovnih elementov. Primeri povecave so prikazani na sliki 5. Kot osnovo za primerjavo uporabimo še postopek bikubicne interpolacije, ki slike poveca z interpoliranjem vrednosti med sosednjimi slikovnimi elementi brez ucenja degradacije. Rezultate preizkusa uspešnosti lokalizacije obraznih tock primerjamo tudi z uspešnostjo na originalnih slikah visoke locljivosti. Rezultate uspešnosti lokalizacije pri uporabi vsakega izmed postopkov superresolucije preko celotnega testnega dela podatkovne zbirke Helen [10] (5) kjer I predstavlja sliko obraza, X(t) predstavlja oceno lokacij kljucnih obraznih tock v t-ti iteraciji, in rt( , •) 2 220 GRM •5 Tabela 1: Rezultati preizkusa uspešnosti lokalizacije obraznih tock pri uporabi postopkov superresolucije. Postopki so razvrščeni v padajočem redu povprečne napake lokalizacije. Slika 5: Prikaz superresolucije slike s postopkom C-SRIP [4]. Slika nizke locljivosti je povecana za faktor povecave 8x. Levo: Slika nizke locljivosti. Sredina: Rezultat postopka superresolucije. Desno: Referencna slika visoke locljivosti. Postopek Napaka (D1Od , p ± a) Bikubicna interpolacija 0.0531 ± 0.0052 SRCNN 0.0502 ± 0.0057 VDSR 0.0502 ± 0.0048 URDGN 0.0487 ± 0.0042 LapSRN 0.0449 ± 0.0050 SICNN 0.0431 ± 0.0036 CARN 0.0417 ± 0.0035 EDSR 0.0409 ± 0.0045 SRGAN 0.0405 ± 0.0034 p pp 0.0396 ± 0.0052 C-SRIP 0.0380 ± 0.0028 Originalne slike 0.0344 ± 0.0025 visoke locšljivosti podamo v obliki statistike(p ± a), tj. s srednjo vrednostjo in standardnim odklonom, izracunanim preko rezultatov na 330 slikah v testni podatkovni zbirki. 5 Rezultati V tabeli 1 so z mero odstopanja D1Od podani rezultati preizkusa lokalizacije obraznih tock. Statistiko mere preko celotne podatkovne zbirke podamo v obliki intervala zaupanja (p ± a). Iz rezultatov je razvidno, da vsi preizkušeni postopki superresolucije izboljšajo delovanje postopka lokalizacije kljucnih obraznih tock, saj je postopek bikubicne interpolacije, ki smo ga uporabili kot osnovo za primerjavo v smislu izbrane mere napake lokalizacije v povprecju najslabši in glede na standardni odklon mere napake D10D med najmanj konsistentnimi. Med postopki superresolucije k uspesšnosti lokalizacije kljucnih obraznih tock najbolj pripomorejo tisti, ki pri postopku ucenja nevronskega omrezja za superresolucijo na razlicne nacine eksplicitno vkljucujejo znanje o videzu obrazov (C-SRIP, Pp), sledijo pa jim postopki, ki vkljucujejo metode nenadzorovanega in nasprotniškega ucenja (EDSR, SRGAN) po postopku ucenja generativ-nih nasprotniških omrezij [3]. Med najslabšimi postopki so zastopani predvsem tisti, pri katerih ucenje modelov za superresolucijo poteka zgolj na podlagi kriterija naivne rekonstrukcije ucšnih slik visoke locšljivosti v smislu najmanjših kvadratov (SRCNN, VDSR). Kvantitativni rezultati v tabeli 1 kazejo, da napredki na podrocju superresolucije v zadnjih letih, ki se v literaturi tipicšno merijo s kakovostjo rekonstrukcije testnih slik in kvalitativnim videzom rezultatov, mocno korelirajo z uspešnostjo teh postopkov na podrocju uporabe za izboljšavo lokalizacije obraznih tock. Na sliki 6 so prikazani tudi kvalitativni vizualni rezultati dveh primerov lokalizacije kljucšnih obraznih tock pri uporabi vsakega od preizkušenih postopkov superresolucije. Tudi iz kvalitativnih primerov je razvidno, da kakovost rekonstrukcije slike postopka su-perresolucije jasno pripomore k uspesšnosti lokalizacije obraznih tock. Na zgornjem primeru vidimo, da pri uporabi slabših superresolucijskih postopkov (kot je SRCNN) postopek lokalizacije obraznih tock popolnoma zgresši kljucšne obrazne tocške na ustih in pri lokalizaciji obrisa obraza naredi veliko vecjo napako, kot jo naredi pri uporabi novejsših postopkov superresolucije (kot je Pp). Na spodnjem primeru zaradi boljšega kontrasta slike postopek lokalizacije obraznih tock neodvisno od postopka superresolucije v vecšini primerov zadane obris obraza, obenem pa pri uporabi slabsših izmed postopkov superresolucije zgreši kljucne obrazne tocke na nosu in na ustih. 6 Zaključki Pravilna poravnava obraznih slik je kljucšnega pomena v biometricnih sistemih. Zanesljiv sistem za poravnavo obrazov nam lahko bistveno olajša delo z obraznimi slikami, kjer je obraz slikan pod pozo, ki predstavlja problem za sisteme samodejnega razpoznavanja obrazov. Ta scenarij je pogost npr. v sistemih za varnostni nadzor, kjer so kamere tipicšno namesšcšene na nacšin, ki cšimbolj ucšinkovito pokriva prostor, ne zagotavlja pa slik obrazov pod primernimi pozami. V temu delu smo pokazali, da pri predobdelavi slik nizke locšljivosti korak uporabe postopkov superresolucije lahko bistveno pripomore k pravilni lokalizaciji kljucnih obraznih tock, ki jih uporabljamo za poravnavo obraznih slik. Zato se delu s podatki nizke locšljivosti, kjer je potrebna poravnava slik priporocša uporabo postopkov superresolucije. SUPERRESOLUCIJA ZA IZBOLJŠAVO LOKALIZACIJE OBRAZNIH TOČK 221 Slika 6: Kvantitativni prikaz uspešnosti postopka lokalizacije obraznih točk pri uporabi različnih postopkov superresolucije, v primerjavi z rezultati na originalnih slikah visoke ločljivosti. Na vsaki izmed slik zelene točke prikazujejo referenčne oznake koordinat ključnih obraznih točk, Y, rdeče točke pa prikazujejo napovedi postopka za lokalizacijo obraznih točk, X, pri uporabi danega postopka superresolucije. Literatura [1] N. Ahn, B. Kang, and K. A. Sohn. Fast, accurate, and lightweight super-resolution with cascading residual network. In European Conference on Computer Vision (ECCV), pages 252-268, 2018. [2] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deep convolutional network for image super-resolution. In European Conference on Computer Vision (ECCV), pages 184-199, 2014. [3] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems (NIPS), 2014. [4] K. Grm, W. J. Scheirer, and V. Struc. Face hallucination using cascaded super-resolution and identity priors. IEEE Transactions on Image Processing, 29:2150-2165, 2020. [5] R. Gross, I. Matthews, J. Cohn, T. Kanade, and S. Baker. Multi-pie. Image and Vision Computing, 28(5):807-813, 2010. [6] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for realtime style transfer and super-resolution. In European Conference on Computer Vision (ECCV), pages 694-711, 2016. [7] V. Kazemi and J. Sullivan. One millisecond face alignment with an ensemble of regression trees. In Computer Vision and Pattern Recognition (CVPR), pages 1867-1874, 2014. [8] J. Kim, L. J. Kwon, and K. L. Mu. Accurate image super-resolution using very deep convolutional networks. In Computer Vision and Pattern Recognition (CVPR), pages 1646-1654, 2016. [9] W. S. Lai, J. B. Huang, N. Ahuja, and M. H. Yang. Deep la- placian pyramid networks for fast and accurate super-resolution. In Computer Vision and Pattern Recognition (CVPR), volume 2, page 5, 2017. [10] V. Le, J. Brandt, Z. Lin, L. Bourdev, and T. S. Huang. Interactive facial feature localization. In European Conference on Computer Vision (ECCV), pages 679-692. Springer, 2012. [11] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi. Photo-realistic single image super-resolution using a generative adversarial network. In Computer Vision and Pattern Recognition (CVPR), pages 4681-4690, 2017. [12] B. Lim, S. Son, H. Kim, S. Nah, and K. Lee. Enhanced deep residual networks for single image super-resolution. In Computer Vision and Pattern Recognition Workshops (CVPR-W), volume 2, 2017. [13] Z. Liu, P. Luo, X. Wang, and X. Tang. Deep learning face attributes in the wild. In International Conference on Computer Vision (ICCV), pages 3730-3738, 2015. [14] K. Messer, J. Kittler, M. Sadeghi, S. Marcel, C. Marcel, S. Bengio, F. Cardinaux, C. Sanderson, J. Czyz, L. Vandendorpe, et al. Face verification competition on the xm2vts database. In International Conference on Audio-and Video-Based Biometric Person Authentication, pages 964-974. Springer, 2003. [15] D. Pal, C. Bhagavatula, Y. Zheng, R. Tao, and M. Savvides. Is pose really solved? a frontalization study on off-angle face matching. In 2019 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 2058-2067. IEEE, 2019. 222 GRM [16] D. Yi, Z. Lei, S. Liao, and S. Z. Li. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014. [17] X. Yu and F. Porikli. Ultra-resolving face images by discriminative generative networks. In European Conference on Computer Vision (ECCV), pages 318-333, 2016. [18] K. Zhang, Z. Zhang, C.-W. Cheng, W. H. Hsu, Y. Qiao, W. Liu, and T. Zhang. Super-identity convolutional neural network for face hallucination. In European Conference on Computer Vision (ECCV), pages 183-198, 2018. Klemen Grm je leta 2020 doktoriral s področja elektrotehnike na Fakulteti za elektrotehniko Univerze v Ljubljani. Je asistent v Laboratoriju za strojno inteligenco na Fakulteti za elektrotehniko. Njegovo področje raziskovanja obsega strojno učenje, biometrijo in obdelavo slik.