OCENJEVANJE KAKOVOSTI PRSTNIH SLEDI Z ANSAMBLI GLOBOKEGA U ˇ CENJA Tim Oblak, Peter Peer Univerza v Ljubljani, Fakulteta za računalništvo in informatiko, Večna pot 113, 1000 Ljubljana {tim.oblak,peter.peer}@fri.uni-lj.si Izvleˇ cek Ocena kakovosti je pomemben korak za identifikacijo prstnih sledi s kraja zloˇ cina. Pogosto se izvaja v okviru forenziˇ cne preiskave, izvajajo pa ga usposobljeni preiskovalci in je ponavadi precej subjektiven. Cilj našega dela je razviti avtomatizirano metodo ocenjevanja kakovosti prstnih sledi, ki bi pomagala izpraševalcem pri njihovem delu. V tem delu sodobne tehnike globokega uˇ cenja prenesemo na podroˇ cje ocenjevanja kakovosti prstnih sledi, ovrednotimo prednosti in slabosti te metodologije ter naˇ crtujemo smer nadaljnjega razvoja na podroˇ cju. Predlagamo novo metriko kakovosti, ki s pomoˇ cjo posebne metode fuzije združuje posamezne napovedi ansambla globokih modelov. Predlagani pristop zagotavlja izboljšano zmogljivost napovedi, hkrati pa skrajša ˇ cas obdelave za vsaj 15-krat v primerjavi z obstojeˇ cimi najsodobnejšimi rešitvami. Kljuˇ cne besede: forenzika, globoko uˇ cenje, ocena kakovosti, prstne sledi FINGERMARK QUALITY ASSESSMENT WITH DEEP LEARNING ENSEMBLES Abstract Quality assessment is an important step when trying to identify fingermarks from a crime scene. Often done in the scope of forensic investigation, it is performed by trained examiners and tends to be rather subjective. The goal of our work is to develop an automated fingermark quality assessment method, which would assist the examiners in their work. In this paper, we introduce modern deep learning techniques into the field of fingermark quality assessment, we evaluate the advantages and disadvantages of this methodology, and identify key aspects for further development in the field. We propose a new quality metric, which works by fusing individual predictions of an ensemble of deep models. The proposed approach provides improved prediction performance while reducing processing time by at least a factor of 15 compared to existing solutions. Keywords: forensics, deep learning, quality assessment, fingermarks 1 UVOD Prstne sledi (latentni prstni odtisi) so posebna vrsta odtisov kože s konic naših prstov, ki jih najdemo v nenadzorovanih okoljih, na primer v okviru forenziˇ cne preiskave [1]. V takih primerih odtis kožnega vzorca ni nadzorovan in med postopkom pride do napak. Med analizo sledi preiskovalci najprej ocenijo njihovo kakovost. Ta vrednost pomeni, (i) kako uporabna je sled kot forenziˇ cni dokaz, (ii) doloˇ ca, kakšen bo postopek obdelave sledi, in (iii) kaže na uspešnost potencialnega ujemanja s referenˇ cnimi prstnimi odtisi. Ocena kakovosti prstnih sledi ima torej velik vpliv na preiskavo. Kot je znaˇ cilno za ˇ cloveško naravo, so tudi odloˇ citve forenziˇ cnih preiskovalcev zelo subjektivne [7, 8, 12]. Uporabna prstna sled se zato lahko zavrže že zgodaj v preiskavi ali pa se preveˇ c ˇ casa nameni prepoznavanju prstnih sledi slabe kakovosti. Da bi zmanjšali to subjektivnost, želimo avtomatizirati proces ocenjevanja kakovosti prstnih sledi. Trenutno veˇ c dejavnikov omejuje razvoj novih metod avtomatiziranega ocenjevanje kakovosti prstnih sledi (angl. automated fingermark quality assessment - AFQA). Komercialni ponudniki svoje algoritme šˇ citijo kot intelektualno lastnino. Nekatere metode so bile razvite posebej za organe pregona in niso javno dostopne [9]. Obiˇ cajno raziskave vkljuˇ cujejo nadzorovano uˇ cenje napovedovalnih modelov [2, 3, 4], redko pa avtorji objavijo tudi kodo, nauˇ cene modele, podatke ali referenˇ cne vrednosti. ˇ Ceprav obstajajo odprtokodne rešitve za x FCNN ŷ Učenje NFIQ 2.1, VerifingerQ, LQmetric, MorphoQ Oznake kakovosti Napovedana verjetnost y L(y, ŷ) ŷ 1 Fuzija q ŷ m ... Figure 1: Model za ocenjevanje kakovosti prstnih sledi. Metoda, predlagana v tem delu, je sestavljena iz CNN ansambla in metode fuzije, ki posamezne glasove združi v konˇ cno vrednost kakovosti. ocenjevanje kakovosti odtisov s prstov [11], so te veˇ cinoma osredotoˇ cene na ocenjevanje optiˇ cno branih prstnih odtisov v nadzorovanem okolju in niso primerne za uporabo v forenziki. Druga vrsta objav [13, 10] se opira na roˇ cno sestavljene znaˇ cilke, zaradi ˇ cesar so metode razumljive, vendar je koliˇ cina izlušˇ cenih informacij omejena. Zaradi teh dejavnikov smo ugotovili, da bi bila nova metoda ocenjevanja kakovosti prstnih sledi koristna za to znanstveno podroˇ cje. Doslej metode globokega uˇ cenja na tem podroˇ cju še niso bile uporabljene. V tem delu preuˇ cujemo, kako je mogoˇ ce konvolucijske nevronske mreže (angl. convolutional neural network - CNN) najbolje uporabiti v kontekstu metod AFQA in predlagamo novo metodo, prikazano na sliki 1. V okviru raziskave (i) zgradimo ansambel CNN-jev, ki so nauˇ ceni na razliˇ cnih množicah oznak kakovosti. Za oznaˇ cevanje našega nabora podatkov uporabljamo obstojeˇ ce komercialne in zaprtokodne metode AFQA. V drugem delu (ii) predlagamo metodo fuzije, ki vzame posamezne glasove ansambla in jih združi, da ustvari enotno, robustnejšo vrednost napovedane kakovosti. 2 ANSAMBEL ZA OCENJEVANJE KAKOVOSTI PRSTNIH SLEDI Formulacija problema. Za napovedovanje vrednosti kakovostiy iz vhodne slikex v tem delu naˇ crtujemo strategijo uˇ cenja, kjer nauˇ ceni modeliF CNN napovejo ocene kakovosti, ki so ˇ cim bližje resniˇ cnim oznakam: ˆy = F CNN (x;θ CNN ), kjer je ˆy izhod konvolucijske nevronske mreže, θ CNN pa so uˇ cljive uteži mreže. V namen ansambelskega uˇ cenja predlagano arhitekturo modelaF CNN posplošimo tako, da izhod ˆy∈ R m definiramo kot vektor kakovosti velikosti m∈ N. V konfiguraciji ansambla je lahko F CNN bodisi CNN z izhodom velikostim ali zbirkam CNN modelov, od katerih je vsak nauˇ cen na svojem naboru oznak kakovosti. Optimalne parametreθ išˇ cemo tako, da minimiziramo funkcijo izgubeL(Y, ˆY ) = 1 n P n i=1 (y i − ˆy i ) 2 , kjer je Y nabor resniˇ cnih vektorjev kakovosti, ˆY je množica napovedanih vektorjev kakovosti,n pa je število slik prstnih sledi v uˇ cni množici. Arhitektura CNN. Kot osnovno ogrodje našega modela lahko uporabimo katero koli od uveljavljenih arhitektur CNN. V kontekstu prstnih oznak nam razširitev zaznavnega polja v CNN omogoˇ ca obdelavo slik prstnih sledi, ne da bi vnaprej poznali loˇ cljivost slik. Ker je ciljna vrednost zvezno število, spremenimo izhod mreže in ustvarimo regresijski model. Za poveˇ canje zmogljivosti mreže na podlagi predhodnega testiranja na koncu mreže dodamo še en popolnoma povezan sloj s 512 nevroni. Za tem dopolnimo mrežo še z izhodno plastjo zm nevroni. Metoda fuzije. Da konˇ cno napoved kakovosti naredimo bolj robustno in ˇ cim bolje pokrijemo širok razpon možnih lastnosti prstnih sledi, lahko napovedi ansambla združimo s pomoˇ cjo fuzije. Za pravilno uteževanje posameznih ocen kakovosti želimo izraˇ cunati projekcijo R n → R iz m-dimenzionalnega vektorja ocen kakovostiy na enodimenzionalno konˇ cno vrednostiq. S pomoˇ cjo PCA najprej najdemo os najveˇ cje variance znotraj m-dimenzionalnega prostora glasov ansambla, potem pa posamezne vektorje kakovosti preslikamo na to enodimenzionalno os. Preslikavo definiramo na naslednji naˇ cin: ˆq pca =W (ˆy− ¯y), (1) kjer jeW∈ R 1× n lastni vektor najveˇ cje glavne komponente (angl. principal component), pridobljen z metodo PCA, ˆy je napovedani vektor kakovosti od katerega odštejemo povpreˇ cni vektor resniˇ cnih vrednosti kakovosti ¯y, ˆq pca ∈ R pa je prva glavna komponenta. Za transformacijo konˇ cne vrednosti v razpon kakovosti (0, 100) izhod dodatno normaliziramo: ˆq = (ˆq pca − q min pca )/(q max pca − q min pca ), (2) 2 Table 1: Rezultati vrednotenja napovednikov CNN. Modeli so testirani na testni množici in primerjani z uporabo metrike MAE inR 2 . Najboljšo napovedno zmogljivost je ansambel dosegel z uporabo ogrodja DenseNet-121. ResNet-50 DenseNet-121 EfficientNet-b0 Inception-v3 Model MAE R 2 MAE R 2 MAE R 2 MAE R 2 NFQ 3, 41 0, 49 3, 03 0,60 3, 14 0, 55 3, 38 0, 37 VFQ 4, 29 0, 73 4, 20 0,76 4, 20 0, 75 4, 12 0, 75 LQM 7, 81 0, 79 7, 44 0, 79 6, 92 0,83 7, 64 0, 78 MOR 2, 11 0, 81 2, 01 0,83 1, 99 0, 82 1, 95 0, 82 ˇ Cas izvajanja [ms] 19, 59± 0, 10 21, 05± 0, 85 11, 1± 1, 89 10,2± 0,89 kjer sta q max pca najveˇ cja, q min pca pa najmanjša glavna komponenta, izraˇ cunana z resniˇ cnih vrednosti uˇ cne množice, ˆq pa je konˇ cni rezultat fuzije napovedanih vrednosti kakovosti. 3 REZULTATI Eksperimentalno okolje. Za uˇ cenje modelov uporabljamo dve množici prstnih sledi, NIST SD 302 [5] in NIST SD 301 [6]. Obe vsebujeta prstne sledi, ki so jih z razliˇ cnih površin pridobili usposobljeni forenziˇ cni preiskovalci v simuliranem okolju. Podatke smo razdelili v uˇ cno množico (10.000 prstnih sledi + 2000 prstnih odtisov z množice SD 302) in testno množico (1200 prstnih sledi z množice SD 301). Namesto roˇ cnega oznaˇ cevanja resniˇ cnih vrednosti kakovosti smo uporabili obstojeˇ ce algoritme za ocenjevanje kakovosti in tako ustvarili ciljne vrednosti za uˇ cenje. Uporabili smo štiri metode; NFIQ 2.1 [11], VerifingerQ, MorphoQ in LQmetric [9]. Za vrednotenje uspešnosti nauˇ cenih modelov smo uporabili metrike, ki se v literaturi obiˇ cajno uporabljajo za regresijske naloge, in sicer povpreˇ cno absolutno napako (angl. mean absolute error - MAE) in r-kvadrat (angl. r-squared -R 2 ). Ovrednotenje modelov. Naš cilj je nauˇ citi napovedovalni model za vsako množico ciljnih vrednosti kakovosti, pridobljenih z metodami NFIQ 2.1, VerifingerQ, MorphoQ in LQmetric. Nauˇ cene modele poimenujemo NFQ, VFQ, MOR oziroma LQM. Poleg tega za vsakega od štirih modelov testiramo štiri razliˇ cna ogrodja CNN-jev, ki se pogosto uporabljajo v literaturi (ResNet, DenseNet, EfficientNet in Inception). Rezultati so prikazani v tabeli 1. Najveˇ cje razlike so opažene med modeli NFQ, kjer se vrednostR 2 giblje od 0,37 do 0,60. Zdi se, da so modeli, usposobljeni z drugimi vrednostmi kakovosti, bolj konsistentni med razliˇ cnimi arhitekturami. Na splošno je natanˇ cnost regresije izbranih osnovnih arhitektur relativno visoka. MAE v povpreˇ cju predstavlja okoli 5% možnega razpona kakovosti od 0 do 100. Pri ocenjevanju ogrodij je na splošno najboljši DenseNet, sledi mu EfficientNet. DenseNet dosega najboljšo korelacijsko zmogljivost za tri od štirih modelov in ima najvišje povpreˇ cno vrednostR 2 = 0, 74. Prav tako izstopa kot najboljši napovedovalec metode NFIQ 2.1 v primerjavi z drugimi arhitekturami. Drug vidik je ˇ cas izvedbe. Za dano serijo slik nauˇ cen model napove kakovosti v konstantnem ˇ casu. Od vseh štirih ogrodij sta EfficientNet in Inception-v3 oˇ citno najhitrejša, saj oba obdelata serijo slik v približno 10 ms. V primerjavi NFIQ 2.1 porabi najmanj 150 ms za obdelavo slike prstnega odtisa. CNN modeli so tako vsaj 15-krat hitrejši v primerjavi s konvencionalno metodo z roˇ cnim lušˇ cenjem znaˇ cilk. Sami po sebi pa CNN-ji ne nudijo naˇ cina za razlago svojih odloˇ citev. Z vidika razložljivosti ostaja klasiˇ cen pristop roˇ cno izbranih znaˇ cilk boljša izbira. Veˇ c raziskav je potrebnih za združitev uˇ cinkovitosti CNN-jev in interpretabilnosti metod z roˇ cno izbranimi znaˇ cilkami. Ovrednotenje fuzije. Da bi ocenili, kako se rezultat fuzije obnese v primerjavi z ostalimi metodami, lahko izmerimo njegovo napovedno moˇ c. Na sliki 2 smo vzeli naš najuspešnejši model (DenseNet-121) in prikazali krivulje ujemanja za celoten ansambel, vkljuˇ cno z novo metofo fuzije. Najprej definiramo idealen scenarij, kjer krivulja sledi diagonalni pikˇ casti ˇ crti. V našem primeru želimo, da napovedana metrika kakovosti korelira z verjetnostjo, da bomo za dano prstno sled našli ujemajoˇ c se referenˇ cni prstni odtist na prvem mestu (rank-1). ˇ Ce je idealna krivulja diagonalna ˇ crta, potem kakovost 20 pomeni, da obstaja 20% verjetnost rank-1 identifikacije. S krivulj slike 2 je razvidno, da imata modela NFQ in MOR najvišje narašˇ cajoˇ ce krivulje, ki dosežejo 100% verjetnost že okoli kakovosti 40. Na drugi strani je krivulja modela LQM vedno pod diagonalno ˇ crto, kar pomeni, da model je preveˇ c radodaren z visokimi ocenami kakovosti in da rank-1 ujemanja niso zagotovljena, tudi ˇ ce je ocena kakovosti dobra. Idealni situaciji se najbolje prilega predlagana metoda fuzije, sledi pa ji model VFQ. Glede na to, da metoda fuzije upošteva tudi porazdelitve prvotnih oznak v uˇ cni množici, 3 Figure 2: Krivulje rank-1 identifikacije. V tem grafu je razvidno razmerje med napovedano kakovostjo razliˇ cnih metod in deležom rank-1 identifikacij. Za vsako kakovost v razponu od 0 do 100 prikažemo delež prstnih odtisov te kakovosti, ki so bili uspešno najdeni na prvem mestu s pomoˇ cjo avtomatizirane metode ujemanja prstnih sledi. Rezultati združenega ansambla imajo najboljšo napovedno moˇ c v primerjavi z ostalimi metodami. je ta sposobna bolje utežiti prispevke posameznih glasov ansambla in zato deluje bolj robustno v nasprotju s posameznimi napovedmi. 4 ZAKLJU ˇ CEK V tem delu smo predlagali nov pristop za ocenjevanje kakovosti prstnih sledi s pomoˇ cjo globokega uˇ cenja. Metoda je sestavljena iz ansambla modelov CNN in metode za fuzijo, ki posamezne napovedi ansambla združi v eno samo robustno vrednost kakovosti. S tem delom forenziˇ cni in biometriˇ cni skupnosti nudimo sodobno, zanesljivo in odprtokodno metriko kakovosti prstnih sledi. V prihodnosti bomo nadaljevali z uporabo metod globokega uˇ cenja, vendar pa se bomo osredotoˇ cili na razložljivost odloˇ citev modela in pa celovito predstavitev konˇ cnih rezultatov. REFERENCES [1] Jeffery G. Barnes. History. In Fingerprint sourcebook, chapter 1, pages 5–22. U.S. Department of Justice, National Institute of Justice, 2010. [2] Kai Cao, Tarang Chugh, Jiayu Zhou, Elham Tabassi, and Anil K Jain. Automatic latent value determina- tion. In International Conference on Biometrics, pages 1–8. IEEE, 2016. [3] Tarang Chugh, Kai Cao, Jiayu Zhou, Elham Tabassi, and Anil K. Jain. Latent Fingerprint Value Prediction: Crowd-Based Learning. IEEE Transactions on Information Forensics and Security, 13(1):20–34, 2018. [4] Jude Ezeobiejesi and Bir Bhanu. Latent fingerprint image quality assessment using deep learning. In Conference on Computer Vision and Pattern Recognition Workshops, pages 508–516. IEEE, 2018. [5] Gregory Fiumara, Patricia Flanagan, John Grantham, Kenneth Ko, Karen Marshall, Matthew Schwarz, Elham Tabassi, Brian Woodgate, and Christopher Boehnen. NIST Special Database 302: Nail to Nail Fingerprint Challenge. Technical Report 2007, NIST, 2018. [6] Gregory Fiumara, Patricia Flanagan, Matthew Schwarz, Elham Tabassi, and Christopher Boehnen. Nist special database 301: Nail to nail fingerprint challenge dry run. Technical Report 2002, NIST, 2018. [7] R Haraksim, J Galbally, and L Beslay. Study on Fingermark and Palmmark Identification Technologies for their Implementation in the Schengen Information System. EUR 29755 EN, Publications Office of the European Union, 2019. [8] R Austin Hicklin, Joann Buscaglia, Maria Antonia Roberts, Stephen B Meagher, William Fellner, Mark J Burge, Matthew Monaco, Davill Vera, Larry R Pantzer, Calvin C Y eung, and Ted N Unnikumaran. Latent Fingerprint Quality: A Survey of Examiners. Journal of Forensic Identification, 61(4):385–419, 2011. 4 [9] Nathan D Kalka, Michael Beachler, and R Austin Hicklin. LQMetric: A Latent Fingerprint Quality Metric for Predicting AFIS Performance and Assessing the Value of Latent Fingerprints. Journal of Forensic Identification, 70:443–463, 2020. [10] Anush Sankaran, Mayank Vatsa, and Richa Singh. Automated clarity and quality assessment for latent fingerprints. International Conference on Biometrics: Theory, Applications and Systems, pages 1–6, 2013. [11] Elham Tabassi, Martin Olsen, Oliver Bausinger, Christoph Busch, Andrew Figlarz, Gregory Fiumara, Olaf Henniger, Johannes Merkle, Timo Ruhland, Christopher Schiel, and Michael Schwaiger. NIST Fingerprint Image Quality 2, NISTIR 8382. National Institute of Standards and Technology, 2021. [12] Bradford T. Ulery, R. Austin Hicklin, Jo Ann Buscaglia, and Maria Antonia Roberts. Repeatability and reproducibility of decisions by latent fingerprint examiners. PLoS ONE, 7(3), 2012. [13] Soweon Yoon, Eryun Liu, and Anil K Jain. On latent fingerprint image quality. In Computational Forensics, pages 67–82. Springer, 2012. Tim Oblak je doktorski študent na Fakulteti za raˇ cunalništvo in informatiko Univerze v Ljubljani. Leta 2020 je zakljuˇ cil dvojni magisterij na Univerzi v Ljubljani in Tehniˇ cni univerzi v Gradcu. V svojih raziskavah uporablja metode raˇ cunalniškega vida s poudarkom na globokem uˇ cenju. V preteklosti se je ukvarjal z rekonstrukcijo 3D prostora, trenutno pa v sklopu doktorskega študija razvija nove metode na podroˇ cju digitalne forenzike in identifikacije prstnih sledi. Peter Peer je redni profesor na Fakulteti za raˇ cunalništvo in informatiko na Univerzi v Ljubljani, kjer je tudi vodja Laboratorija za raˇ cunalniški vid, koordinator dvojnega študijskega programa z južnokorejsko univerzo Kyungpook National University in prodekan za gospodarske zadeve. Na Fakulteti za raˇ cunalništvo in informatiko je doktoriral leta 2003. Po doktoratu je bil vabljen podoktorski raziskovalec na CEIT v San Sebastianu v Španiji. Raziskovalno se ukvarja z raˇ cunalniškim vidom s poudarkom na biometriji. Sodeloval je v številnih državnih in EU projektih in je avtor veˇ c kot 100 raziskovalnih ˇ clankov v priznanih revijah in na konferencah. Nedavno je bil soorganizator tekmovanja Unconstrained Ear Recognition Challenge na IEEE/IAPR International Joint Conference on Biometrics 2017 in IAPR International Conference on Biometrics 2019. Leta 2018 je bil na to temo tudi sourednik posebne izdaje v reviji IET Biometrics. Trenutno je podroˇ cni urednik v revijah IEEE Access in IET Biometrics. Je ˇ clan EAB, IAPR in IEEE, v slovenski sekciji IEEE pa je 4 leta bil tudi predsednik raˇ cunalniškega poglavja. 5