ERK'2021, Portorož, 356-359 356 Analiza robustnosti globokih nenadzorovanih metod za detekcijo vizualnih anomalij Jakob Boˇ ziˇ c, Vitjan Zavrtanik, Danijel Skoˇ caj Fakulteta za raˇ cunalniˇ stvo in informatiko, Univerza v Ljubljani E-poˇ sta: fjakob.bozic, vitjan.zavrtanik, danijel.skocajg@fri.uni-lj.si Analysis of robustness of deep unsupervised methods for visual anomaly detection Unsupervised generative methods have recently attracted significant attention in the field of industrial visual ano- maly detection, mainly owing to their ability to learn from non anomalous data withouth requiring anomalous sam- ples and pixel-level labels, which are costly to obtain. An assumption that anomalous data are always correctly identified and consequently removed from the training set underlies all of the generative methods. In practice, how- ever, correctly identifying every single anomalous image can either be very costly to do or it can not be done at all due to the nature of the problem. In this paper, we ana- lyze how robust some of the recently proposed generative methods for anomaly detection are, by introducing anoma- lous data in the training process. Our analysis covers 3 methods and 4 datasets with 8 categories in total, and we conclude that while some of the methods are more robust than others, introducing a minor percentage of anomalous data in the training set does not significantly deteriorate the performance. 1 Uvod Detekcija anomalij v slikah naslavlja problem identifika- cije primerov, ki odstopajo od priˇ cakovanega izgleda; na ta problem pogosto naletimo pri detekciji povrˇ sinskih napak na izdelkih pri nadzoru kvalitete na proizvodnih linijah. V zadnjem obdobju je bilo razvitih veliko metod, ki temeljijo na paradigmi globokega uˇ cenja, primernih za detekcijo izstopajoˇ cih slik ter lokalizacijo anomalnih regij v slikah. Metode se po naˇ cinu delovanja v grobem delijo na dva dela: diskriminativne metode, ki modelirajo predstavitev tako normalnih kot anomalnih primerov ter nato razliku- jejo med temi, in generativne metode, ki modelirajo le predstavitev normalnih primerov, detekcijo anomalij pa nato izvajajo z ocenjevanjem odstopanja predstavitve pri- mera od priˇ cakovane. Zbiranje mnoˇ zice anomalnih prime- rov, ki ustrezno predstavljajo porazdelitev moˇ znih napak, je v praksi lahko teˇ zko izvedljivo, saj se anomalni primeri praviloma pojavljajo redko, poslediˇ cno pa diskriminativne metode ne zmorejo dovolj dobro modelirati predstavitve anomalnih primerov. Dodaten problem za diskriminativne metode predstavlja tudi potreba po oznaˇ cevanju na nivoju slikovnih elementov, kar zahteva veliko vloˇ zenega dela, zato se namesto diskriminativnih metod vse bolj uvelja- vljajo generativne metode, ki teh dveh problemov nimajo. Za uˇ cenje predstavitve normalnih primerov genera- tivne metode uˇ cimo le na normalnih primerih, kar pomeni, da moramo pred uˇ cenjem vse uˇ cne primere podrobno pre- gledati, morebitne anomalne primere pa izloˇ citi. To je lahko ˇ casovno zelo potratno, poleg tega pa je vˇ casih za nekatere primere teˇ zko oz. skoraj nemogoˇ ce natanˇ cno doloˇ citi, ali so normalni ali anomalni. V dosedanji lite- raturi [4, 7, 3] se predpostavlja, da je proces izloˇ canja anomalnih primerov iz uˇ cne mnoˇ zice izveden brez napak, kar pa je v praksi pogosto nemogoˇ ce zagotoviti. V tem prispevku zato analiziramo robustnost generativnih metod na prisotnost anomalnih primerov med uˇ cenjem (slika 1). Slika 1: Proces zbiranja in roˇ cnega izbiranja normalnih primerov za uˇ cenje generativnih metod. Navadno predpostavljamo, da proces poteka brez napak [7, 4, 3], kar pa je v realnih situacijah vˇ casih nemogoˇ ce zagotoviti. Analizirali bomo, kaj se zgodi, ˇ ce v uˇ cni mnoˇ zici ostanejo anomalni primeri. 2 Analizirane generativne metode Generativne metode modelirajo predstavitev normalnih primerov. Med seboj jih razlikujemo po dveh kljuˇ cnih lastnostih; naˇ cinu predstavitve in merjenju odstopanja od normalnosti. Razvitih je bilo veliko generativnih metod, analizirali bomo tri metode, ki so bile nedavno predlagane in dosegajo odliˇ cne rezultate. RIAD RIAD (Reconstruction by Inpaiting for Anomaly Detection) [7] se predstavitve normalnih primerov uˇ ci pre- ko globoke nevronske mreˇ ze, ki je nauˇ cena, da dopolnjuje manjkajoˇ ce regije v sliki (angl. inpainting). Med uˇ cenjem se na normalnih slikah posamezne regije maskira (vse slikovne elemente v regiji se nastavi na 0), od mreˇ ze pa priˇ cakujemo, da bo iz konteksta sosednih regij znala re- konstruirati maskirano regijo. Predpostavljamo, da se bo mreˇ za tako nauˇ cila rekonstruirati normalne regije, anomal- 357 nih pa ne, saj le-te niso prisotne med uˇ cnimi primeri. V fazi razpoznave sliko, za katero nas zanima, ali je ano- malna ali ne, najprej razbijemo na veˇ c kopij, v vsaki kopiji je nekaj regij maskiranih, nekaj pa ne, vsaka regija pa je maskirana v natanˇ cno eni kopiji. Nato vse maskirane regije v vseh kopijah rekonstruiramo z nauˇ ceno mreˇ zo, iz rekonstruiranih regij pa sestavimo rekonstrukcijo celotne slike. Oceno anomalnosti slike dobimo tako, da izmerimo odstopanje prvotne slike od rekonstruirane. Gaussian AD Metoda, predlagana v [4], uporablja za predstavitev primerov prednauˇ ceno nevronsko mreˇ zo. Po- samezne primere opiˇ se z znaˇ cilkami, ki jih proizvede mreˇ za, ki je bila diskriminativno uˇ cena za razpoznava- nje razliˇ cnih kategorij slik na podatkovni zbirki ImageNet. Znaˇ cilke, pridobljene na normalnih slikah, nato opiˇ se z multivariantno Gaussovo porazdelitvijo in tako zgradi mo- del normalnosti. V fazi razpoznave za sliko, za katero nas zanima, ali je anomalna ali ne, najprej pridobimo znaˇ cilke iz prednauˇ cene mreˇ ze, nato pa izraˇ cunamo odstopanje od normalnega modela s pomoˇ cjo Mahalanobisove razdalje. Metoda daje zelo dobre rezultate za razpoznavo, slabost metode pa je pomanjkanje vpogleda v njeno delovanje, saj deluje v prostoru znaˇ cilk, poslediˇ cno je tudi ne moremo uporabiti za lokalizacijo anomalnih regij. PaDiM PaDiM (Patch Distribution Modeling Frame- work for Anomaly Detection and Localization) [3] je po delovanju podobna prejˇ snji metodi, saj se ravno tako nauˇ ci porazdelitve znaˇ cilk iz prednauˇ cene nevronske mreˇ ze. Me- toda poleg detekcije omogoˇ ca tudi lokalizacijo anomalij, saj se nauˇ ci normalnosti za posamezne regije, ne le za celotno sliko. V fazi razpoznave za sliko, za katero nas zanima, ali je anomalna ali ne, najprej pridobimo znaˇ cilke iz prednauˇ cene mreˇ ze, nato pa za vse regije izraˇ cunamo odstopanje od normalnosti. Za vsako regijo tako dobimo stopnjo odstopanja, kar nam omogoˇ ca lokalizacijo, maksi- malna stopnja za regijo pa predstavlja tudi konˇ cno oceno anomalnosti celotne slike. 3 Eksperimenti Temeljito analizo robustnosti metod smo izvedli na 4 po- datkovnih bazah, iz katerih smo izbrali skupno 8 kategorij. Za vse izbrane kategorije smo preverili robustnost me- tod, ˇ ce je uˇ cni mnoˇ zici dodanih 1%, 5%, 10% ali 20% anomalnih primerov. Za vsako kombinacijo metode, kategorije in deleˇ za anomalnih primerov smo izvedli 5 ponovitev eksperi- menta, s tem smo omejili vpliv nakljuˇ cnosti, ki lahko izvira ali iz nakljuˇ cnosti metode, ali iz izbire razliˇ cnih primerov za uˇ cno mnoˇ zico. Za vsako izmed 5 ponovitev eksperimenta smo iz nabora vseh normalnih in anomal- nih primerov v prvotni uˇ cni mnoˇ zici nakljuˇ cno izbrali podmnoˇ zici normalnih in anomalnih primerov ustrezne velikosti. Za podatkovno bazo MVTec smo ˇ stevilo uˇ cnih normalnih primerov omejili na 150, saj kategorije ne vse- bujejo dovolj primerov, da bi lahko zagotovili veˇ cjo he- terogenost pri selekciji uˇ cnih podmnoˇ zic za ponovitve Zbirka Kategorija U. N. U. A. (1%, 5%, 10%, 20%) T. N. T. A. MVTec AD pill 150 2, 8, 15, 30 26 70 screw 150 2, 8, 15, 30 41 59 carpet 150 2, 8, 15, 30 28 44 leather 150 2, 8, 15, 30 32 46 DAGM 9 250 3, 13, 25, 50 1000 150 10 250 3, 13, 25, 50 1000 150 KolektorSDD2 / 250 3, 13, 25, 50 894 110 BSData / 250 3, 13, 25, 50 210 75 Tabela 1: Povzetek podatkovnih zbirk, na katerih je bila izvedena analiza. Okrajˇ save U. N., U. A., T. N. in T. A. predstavljajo ˇ stevila uˇ cnih normalnih, uˇ cnih anomalnih, testnih normalnih in testnih anomalnih slik. eksperimenta. Dodatno smo zaradi velikega ˇ stevila eks- perimentov omejili ˇ stevilo normalnih primerov v uˇ cnih mnoˇ zicah za preostale kategorije na 250. Kjer je bilo mogoˇ ce, smo ohranili prvotne testne mnoˇ zice, zato v neka- terih kategorijah vsebujejo veliko veˇ c primerov kot uˇ cne. 3.1 Podatkovne zbirke Slika 2: Primeri slik iz podatkovnih zbirk, uporabljenih za ana- lizo. Za vsako kategorijo je prikazana po ena anomalna slika, anomalne regije so obkroˇ zene z rdeˇ co barvo. 3.1.1 MVTec AD Podatkovna zbirka MVTec AD [1] vsebuje 15 razliˇ cnih kategorij, 4 kategorije predstavljajo teksture, preostalih 11 pa predmeti. Kategorije vsebujejo razliˇ cna ˇ stevila uˇ c- nih in testnih slik, zaradi majhnega ˇ stevila primerov v nekaterih kategorijah smo se omejili na 2 kategoriji tekstur in 2 kategoriji predmetov, ki vsebujejo najveˇ c slik, saj lahko tako simuliramo dodajanje anomalnih primerov v uˇ cno mnoˇ zico. Za izbrane kategorije smo novo testno mnoˇ zico sestavili iz vseh normalnih testnih primerov in iz 358 polovice anomalnih testnih primerov, preostali anomalni testni primeri pa so bili postopoma dodani v uˇ cno mnoˇ zico. Uˇ cno mnoˇ zico za vsako kategorijo smo sestavili iz 150 normalnih primerov in 2, 8, 15 ali 30 anomalnih primerov. 3.1.2 KolektorSDD2 Podatkovna zbirka KolektorSDD2 [2] vsebuje veˇ c kot 3000 slik povrˇ sine izdelka iz industrijske aplikacije. Povrˇ sina na slikah je praviloma uniforma, veˇ cina ano- malnih regij pa zavzema le manjˇ si del slike. V naˇ sih eksperimentih smo ohranili prvotno testno mnoˇ zico, ki vsebuje 894 normalnih in 110 anomalnih primerov, uˇ cno mnoˇ zico pa smo skrˇ cili na 250 normalnih primerov in 3, 13, 25 ali 50 anomalnih primerov. 3.1.3 DAGM Podatkovna zbirka DAGM [6] vsebuje 10 kategorij ume- tno generiranih povrˇ sin in anomalij. Povrˇ sine in anomalije se razlikujejo med kategorijami, v vseh pa se videz povrˇ sin znotraj kategorije ne spreminja, anomalije pa zavzemajo le majhen del slike. Uporabili smo le zadnje dve katego- riji, 9. in 10., ohranili smo prvotni testni mnoˇ zici, uˇ cni mnoˇ zici pa smo skrˇ cili na 250 normalnih primerov in 3, 13, 25 ali 50 anomalnih primerov. 3.1.4 BSData Podatkovna zbirka BSData [5] vsebuje 1035 slik delov krogliˇ cnega navojnega vretena (angl. ball screw), od ka- terih je 394 slik anomalnih, preostale pa so normalne. V testno mnoˇ zico smo uvrstili 210 normalnih ter 75 anomal- nih primerov, v uˇ cno pa 250 normalnih in 3, 13, 25 ali 50 anomalnih primerov. V tabeli 1 so povzeti kljuˇ cni podatki o uporabljenih podatkovnih zbirkah, na sliki 2 pa lahko vidimo po eno anomalno sliko iz vsake kategorije. Opazimo lahko, da anomalne regije predstavljajo majhen del slik. 4 Rezultati Za primerjavo robustnosti metod poroˇ camo mero AUC, ki se za domeno detekcije anomalij najpogosteje pojavlja v literaturi. Kljub temu da se poleg mere AUC na nivoju slik vˇ casih poroˇ ca tudi AUC na nivoju slikovnih elementov, se omejimo le na AUC na nivoju slik, saj je za domeno detekcije anomalij na industrijskih izdelkih le-ta pomemb- nejˇ sa. Za vse kombinacije metod in kategorij poroˇ camo povpreˇ cje in standardni odklon 5 ponovitev eksperimenta. RIAD Rezultati kaˇ zejo, da je metoda RIAD zelo robu- stna na prisotnost anomalnih primerov v uˇ cni mnoˇ zici. Tudi ko je v uˇ cno mnoˇ zico dodanih 20% anomalnih prime- rov, se AUC ne zniˇ za obˇ cutneje, rezultati so skoraj povsod v intervalu napake. Povpreˇ cen AUC vseh kategorij pade iz zaˇ cetnega 81.9% na 81.9%, 81.6%, 81.2% in 81.2%, ko dodamo 1%, 5%, 10% ali 20% anomalnih primerov v uˇ cno mnoˇ zico. Verjamemo, da gre tolikˇ sno robustnost metode v najveˇ cji meri pripisati njenemu delovanju, saj se uˇ ci rekonstrukcije posameznih regij slike, ki jih med uˇ cenjem maskiramo. Tudi v primeru anomalnih slik je zaradi narave problema veˇ cji del slike ˇ se vedno normalen, tako da se mreˇ za tudi na anomalnih slikah v veˇ cini uˇ ci re- konstrukcije normalnih regij. Ker je mera AUC neodvisna od praga, ki loˇ ci normalne in anomalne primere, je konˇ cni rezultat odvisen le od razvrstitve testnih primerov, tako da izboljˇ sana rekonstrukcija anomalnih regij zaradi doda- janja anomalnih primerov ne vpliva kljuˇ cno na rezultat. Opazimo lahko tudi, da so intervali napake pri rezultatih metode veˇ cji kot pri ostalih dveh metodah, kar gre pripisati dodatnemu viru nakljuˇ cnosti, ki izhaja iz nakljuˇ cne inicia- lizacije nevronske mreˇ ze in nakljuˇ cnega vrstnega reda slik med uˇ cenjem za vsako ponovitev eksperimenta. Ravno ta nakljuˇ cnost je najbrˇ z vzrok za rahlo izboljˇ sanje rezul- tata na podatkovni zbirki M-Carpet ob poviˇ sanju ˇ stevila anomalnih slik, ki imajo lahko tudi regularizacijski efekt. Na sliki 3 so prikazani rezultati eksperimentov za me- todo RIAD. Prikazana so povpreˇ cja in standardni odkloni 5 ponovitev eksperimenta, zaradi boljˇ se preglednosti so toˇ cke rahlo zamaknjene levo in desno. Skrajno leve toˇ cke predstavljajo AUC, ko uˇ cna mnoˇ zica ne vsebuje anomal- nih primerov, nadaljnje pa AUC ob dodajanju naraˇ sˇ cajo- ˇ cega ˇ stevila anomalnih primerov v uˇ cno mnoˇ zico. Slika 3: Rezultati eksperimentov za metodo RIAD. Prikazani so AUC za uˇ cno mnoˇ zico brez anomalnih primerov in za uˇ cne mnoˇ zice z naraˇ sˇ cajoˇ cim deleˇ zem anomalnih primerov. Y os prikazuje AUC, X pa deleˇ z anomalnih primerov, ki je bil dodan glede na prvotno velikost uˇ cne mnoˇ zice. ˇ Crtkana ˇ crta za vsako kategorijo prikazuje AUC za uˇ cno mnoˇ zico brez anomalnih pri- merov. Gaussian AD Metoda Gaussian AD kaˇ ze veˇ cjo obˇ cu- tljivost na prisotnost anomalnih primerov v uˇ cni mnoˇ zici. Pri skoraj vseh kategorijah opazimo jasen trend slabˇ sa- nja rezultatov, ko se deleˇ z anomalnih primerov v uˇ cni mnoˇ zici viˇ sa, izjemi sta kategoriji MVTec leather, kjer metoda konstanto proizvede popoln rezultat, in MVTec carpet, kjer se rezultat malenkostno izboljˇ sa. Povpreˇ cen AUC vseh kategorij pade iz zaˇ cetnega 89.7% na 89.0%, 88.0%, 87.3% in 86.0%, ko dodamo 1%, 5%, 10% ali 20% anomalnih primerov v uˇ cno mnoˇ zico. Opazimo la- hko tudi, da so rezultati za iste kombinacije kategorij in deleˇ za anomalnih primerov razmeroma podobni oz. da so intervali napake majhni, veˇ cje intervale napake opazimo predvsem pri kategoriji MVTec screw, ki vsebuje slike vijakov, rotirane za razliˇ cne kote, ki so si vizualno zelo 359 razliˇ cni, zato verjetno izbor slik igra veˇ cjo vlogo. Opa- zimo tudi, da so pri tej metodi intervali napake manjˇ si, saj ne uˇ cimo nevronske mreˇ ze, temveˇ c le ocenimo parame- tre za znaˇ cilke, ki jih proizvede prednauˇ cena nevronska mreˇ za. Dodatno k zmanjˇ sanju nakljuˇ cnosti pripomore tudi ocenjevanje anomalnosti na nivoju slik, kar pomeni, da se znaˇ cilke iz prednauˇ cene mreˇ ze za anomalne primere ne razlikujejo toliko od znaˇ cilk normalnih primerov, saj je tudi na anomalnih slikah veˇ cji del slike ˇ se vedno norma- len. Zaradi tega so parametri ocenjene distribucije manj obˇ cutljivi na posamezne anomalne slike in se ocenjena dis- tribucija znaˇ cilk ne premakne bistveneje. Iz istega razloga pa verjetno dobimo tudi izrazitejˇ se poslabˇ sanje ob vnosu veˇ cjega ˇ stevila anomalnih primerov v uˇ cno mnoˇ zico, saj se distribucija znaˇ cilk uˇ cne mnoˇ zice premakne bliˇ ze dis- tribuciji znaˇ cilk anomalne mnoˇ zice, poslediˇ cno pa je teˇ zje doloˇ citi, kateri distribuciji pripada testni primer. Slika 4: Rezultati eksperimentov za metodo Gaussian AD. Po- men elementov je razloˇ zen pod sliko 3. PaDiM Tudi metoda PaDiM kaˇ ze visoko robustnost na prisotnost anomalnih primerov v uˇ cni mnoˇ zici. Povpreˇ cen AUC vseh kategorij se spremeni iz zaˇ cetnega 88.7% na 88.3%, 88.8%, 88.6% in 87.7%, ko dodamo 1%, 5%, 10% ali 20% anomalnih primerov v uˇ cno mnoˇ zico. Podobno kot pri Gaussian AD lahko opazimo, da so rezultati me- tode dokaj ponovljivi, saj so z izjemo kategorije MVTec screw intervali napake zelo ozki. Delovanje metode Pa- DiM ima lastnosti tako metode RIAD kot Gaussian AD, saj podobno kot prva deluje na posameznih regijah slike, podobno kot druga pa za modeliranje posameznih regij uporablja znaˇ cilke iz prednauˇ cene mreˇ ze, za katere nato oceni parametre multivariantne Gaussove porazdelitve. Tako metoda prevzame dobre lastnosti obeh metod, robu- stnost prve in ponovljivost druge. 5 Zakljuˇ cek Analizirali smo, kako prisotnost anomalnih primerov v uˇ cni mnoˇ zici vpliva na delovanje treh nedavno predlaga- Zahvala: To delo je podprla Javna agencija za raziskovalno dejav- nost Republike Slovenije (ARRS), projekt J2-9433 in program P2-0214. Slika 5: Rezultati eksperimentov za metodo PaDiM. Pomen elementov je razloˇ zen pod sliko 3. nih generativnih metod za detekcijo anomalij. Z obseˇ zno eksperimentalno evaluacijo na 8 kategorijah iz 4 podat- kovnih bazah smo pokazali, da so vse 3 metode robustne na prisotnost majhnega ˇ stevila anomalnih primerov v uˇ cni mnoˇ zici, od teh pa sta 2 robustni tudi na veˇ cja ˇ stevila ano- malnih primerov. Zahteva, da uˇ cna mnoˇ zica pri uˇ cenju generativnih metod ne sme vsebovati anomalnih primerov, je torej lahko prekrˇ sena, dokler je ˇ stevilo anomalnih prime- rov relativno majhno glede na ˇ stevilo normalnih primerov, do katere mere pa je lahko prekrˇ sena, pa je odvisno tudi od posamezne metode in od zahtevnosti problema. Literatura [1] Paul Bergmann, Michael Fauser, David Sattlegger, and C. Steger. Mvtec ad — a comprehensive real-world da- taset for unsupervised anomaly detection. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 9584–9592, 2019. [2] Jakob Boˇ ziˇ c, Domen Tabernik, and Danijel Skoˇ caj. Mixed supervision for surface-defect detection: from weakly to fully supervised learning. Comput. Ind., 129:103459, 2021. [3] Thomas Defard, Aleksandr Setkov, Angelique Loesch, and Romaric Audigier. Padim: a patch distribution modeling framework for anomaly detection and localization. In ICPR Workshops, 2020. [4] Oliver Rippel, Patrick Mertens, and D. Merhof. Modeling the distribution of normal data in pre-trained deep features for anomaly detection. 2020 25th International Conference on Pattern Recognition (ICPR), pages 6726–6733, 2021. [5] Tobias Schlagenhauf, Magnus Landwehr, and Juergen Fle- ischer. Industrial machine tool component surface defect dataset, 2021. [6] Daniel Weimer, Bernd Scholz-Reiter, and Moshe Shpitalni. Design of deep convolutional neural network architectures for automated feature extraction in industrial inspection. CIRP Annals - Manufacturing Technology, 65, 05 2016. [7] Vitjan Zavrtanik, M. Kristan, and D. Skoˇ caj. Reconstruc- tion by inpainting for visual anomaly detection. Pattern Recognit., 112:107706, 2021.