Hierarhično iskanje ujemanja za vizualno kategorizacijo objektov Matjaž Jogan Univerza v Ljubljani, Fakulteta za rašunalništvo in informatiko, Tršaška 25, 1000 Ljubljana, Slovenija E-pošta: matjaz.jogan@fri. uni-lj.si Povzetek. Predstavljamo model vizualne prepoznave in kategorizacije objektov na podlagi odkrivanja intenzitetnih in strukturnih ujemanj med interpretirano sliko in prototipno sliko objekta. Glavni prispevek te raziskave je uporaba sinhronega hierarhičnega iskanja ujemanj, pri cemer se visokonivojska ujemanja konstruirajo pragmatično, v več ravneh zdruzevanja, izbire in inhibicije. Z iskanjem ujemanj lahko kategoriziramo objekte brez pretirane uporabe učenja, le z izčrpnim iskanjem podobnosti med objekti. Kategorije torej niso opredeljene z naborom značilk, ki bi omogočale optimalno kategorizačijo, temveč kot mrezni sistem podobnosti. Eksperimentalni rezultati dokazujejo primernost metode za iskanje višjenivojskih ujemanj med prototipno sliko objekta v kanoničnem pogledu in sliko neznanega objekta. Ključne besede: računalniški vid, vizualna kategorizačija, vizualno ujemanje, vizualno učenje, hierarhične metode A Hierarchical Matching Framework for Visual Object Categorization Extended abstract. We investigate a framework for visual object categorization in artificial cognitive systems that is based on discovery of appearance and structural similarities between prototypes that represent a category and object exemplars. Our main contribution is a novel approach for visual categorization of objects by synchronous hierarchical matching to a prototype, where high-level matches between an object and a prototype are gradually discovered through several steps of binding, selection and inhibition. We show that categorization can be achieved without an excessive collection of evidence or learning from examples. We start with a low-level description, which defines relatively stable local regions of interest (ROI) based on their appearance (Figure 2). In order to characterize the appearance variation within local regions, the system learns a codebook of ICA filters which impose a maximally sparse response (Figure 3). Clusters of local features that conform to a subset of Gestalt rules (being essentially co-centric or co-linear) are then grouped (Figure 4). Features on subsequent levels are then dynamically constructed and matched in synchrony between the view being interpreted and a prototype view of an object. The composite features are augmented with structural properties and represented in a geometric conceptual space, the structure of which is learned on a prototype. Local binding is performed through the hierarchy (Algorithm 1) until a focused response within an area that encompasses the whole object is constructed (Figures 5 and 6). The result is a set of matches of composite features at level N, where each of the features can be tracked to the constituent features at levels N — 1, N — 2, ... 0. The decision whether the two object categories match, can be done based on the number of high-level matches. The experiments on the ETH-80 database show that the method efficiently discriminates between eight categories of objects in a canonical view. Key words: computer vision, visual categorization, visual matching, visual learning, hierarchical methods 1 Uvod Kategorizacija objektov spada med pomembnejše probleme umetnega zaznavanja. V tem delu obravnavamo oZje področje vizualne kategorizacije objektov, ki proučuje problem predstavitve in prepoznavanja kategorij objektov z uporabo vidne informacije. V okviru razvoja umetnih kognitivnih sistemov je vizualna kategorizacija pomembna predvsem kot funkcionalnost, ki premosti razliko med procesiranjem signala in višjenivojskim se-manticnim procesiranjem, saj omogoca abstraktno interpretacijo prizorov in situacij. Eden prvih in vplivnejših poskusov racunskega modela za kategorizacijo objektov je Marrov model [12], ki temelji na postopnem procesu prepoznave tridimenzionalnih primitivov kot osnovnih gradnikov, iz katerih so sestavljeni kompleksnejsši objekti. Marr predvideva, da lahko primitive uspešno rekonstruiramo, nakar prizor kategoriziramo s pomocjo modela, na primer z uporabo in-terpretacijskih dreves [8]. Tezavna rekonstrukcija primi-tivov in omejitve primitivov pri predstavitvi nestrukturi-ranih objektov so pogojevale postopen odmik od visoko-nivojskih predstavitev k izvorni slikovni informaciji, npr. k predstavitvam, zasnovanim na globalnem videzu objektov, ali pa k predstavitvam z lokalnimi znacilkami. Lokalne predstavitve so še posebej uspešne kot osnova za statisticšno zasnovane modele kategorizacije. Ti se razli- Slika 1. Shema modela za hierarhično iskanje ujemanj. S pravokotniki so uokvirjena lokalna področja, krogi pa pomenijo receptivna polja zdruZevanja. Zavoljo preglednosti je na sliki prikazan le del hierarhičnega drevesa povezovanja dveh začetnih lokalnih regij. Figure 1. The outline of the framework for hierarchical matching. Rectangular outlines denote local regions, while circular regions denote binding receptive fields. For the sake of clarity, only one branch of binding is depicted, starting with two initial local regions. kujejo predvsem po vrsti lokalnih znacilk in po nacinu in stopnji integracije geometričnih relacij med znacilkami. Leibe in sod. [9] tako implementirajo kategorizacijo s slovarji lokalnih zaplat in implicitnim geometrijskim modelom, medtem ko Fei-Fei in sod. [2] ter Torralba in sod. [17] uporabljajo generativni model lokalnih konste-lacij. Hierarhicne predstavitve [4, 3, 14, 6], ki predvidevajo hierarhicno kompozicionalnost objektov, poskušajo modelirati dele kot konstelacije lokalnih znacilk na vecih nivojih podrobnosti. Medtem ko našteti pristopi definirajo kategorije z ucenjem znacilnosti nad mnozico primerov ali z namensko definicijo lastnosti, pa lahko kategorije opredelimo le na podlagi podobnosti s prototipom [15], kjer podobnost vrednotimo z iskanjem strukturnih ujemanj [16], z deformacijskim ujemanjem oblike [1] ali s primerjavo se-gmentacijskih dreves [18]. Vecina predlaganih metod temelji na predhodnem iskanju lokalnih ujemanj, ki pa je v kontekstu kategoricšnega primerjanja objektov pogosto problematicšno. V predlaganem pristopu predlagamo model kategorizacije s postopnim iskanjem lokalnih in strukturnih ujemanj s prototipom, kjer se ujemanja konstruirajo v hi-erarhicnem sosledju lokalnega zdruzevanja in inhibicije. Tak nacin iskanja omogoca intenzivno odkrivanje podobnosti na vec nivojih podrobnosti. Podobnosti, ki naj predmet opredelijo kot pripadnika dolocene kategorije, so torej izpeljane iz prototipne slike objekta v kanonicšnem pogledu [15] in niso vnaprej opredeljene. Ucenje kategorije ne predvideva obsširnega zbiranja znanja o kategoriji objektov, temvec je implementirano kot sprotno ucenje lastnosti prototipa in kot ucenje in prilagajanje parametrov zdruzevanja. Diagram na sliki 1 prikazuje poenostavljeno shemo poteka kategorizacije. Prototipna slika je podlaga za ucenje lokalnega slovarja filtrov za klasifikacijo lokalnih regij in za ucenje lastnosti geometricnega konceptualnega prostora (GKP). Ucenju sledi vec nivo- jev zdruzevanja znacilk, iskanja ujemanj in inhibicije. Znacilke se zdruzujejo v pare, ki z vsakim nivojem rastejo, tako glede na velikost in kompleksnost sestavljenih znacšilnic kot tudi glede na povrsšino slike, ki jo opisujejo. Ti procesi potekajo sinhrono, v okviru omejenih receptivnih polj prototipa in interpretirane slike. (Če je bilo iskanje ujemanj med prototipom in interpretirano sliko uspešno, lokalna podrocja na koncnem nivoju obsegajo celotno povrsšino prototipa in ustrezno povrsšino interpretirane slike. Stevilo visokonivojskih ujemanj odraza strukturno in vizualno podobnost s prototipom. (Če sistem kategorij zasnujemo kot mrezšo podobnosti, lahko na podlagi števila ujemanj objekt kategoriziramo. V nadaljevanju bomo najprej predstavili postopek de-tekcije, ucenja in grucenja lokalnih regij, ki mu bo sledil opis hierarhicnega zdruzevanja. Zakljucili bomo z opisom eksperimentalnih rezultatov in kriticšnim ovrednotenjem metode. 2 Detekcija, ucenje in grucenje lokalnih regij 2.1 Detekcija Z detekcijo stabilnih lokalnih regij zšelimo zagotoviti lokalno podporo za poznejše zdruzevanje slikovne informacije. Klasicne metode za razpoznavanje objektov na podlagi lokalnih regij uporabljajo informativne opisnike, ki so nacrtovani z namenom minimizacije števila napacnih ujemanj [11]. Pri kategorizaciji objektov pa je znacilno, da se objekti iz dolocene kategorije na lokalni ravni lahko zelo razlikujejo. Zato v pricujocem pristopu lokalno fo-tometricšno informacijo uporabimo le kot osnovo za gradnjo znacilk na višjih nivojih, ki opisno moc pridobijo šele na nivoju posameznega objekta. Kljub temu pa morajo nizkonivojske znacšilke ustrezati merilom ponovljivosti in stabilnosti, imeti pa morajo tudi lastno merilo in orientacijo. Poleg tega zelimo, da so lokalne regije gosto Slika 2. Lokalne regije Ki, detektirane na prvih štirih oktavah. Pravokotniki ponazarjajo velikost regij in njihovo usmerjenost. Figure 2. Local regions Ki detected at the first four octaves. The size and orientation of the regions is denoted by oriented rectangles. posejane, tako daje začetna predstavitev redundantna. Lokalna območja poiščemo z detektorjem lokalnih regij, kije zasnovan na podlagi lastnosti diferenčnih operatorjev v prostoru meril [10, 11]. Sliko I(x,y) preslikamo v prostor meril L(x, y, a), do katerega pridemo s konvo-lucijo slike z Gaussovim jedrom G(x,y,a) spremenljive velikosti. Središca lokalnih regij definiramo kot lokalne ekstreme razlike Gaussovih jeder (Difference of Gaussi-ans, DoG) DoG(x,y,a) = L(x,y,ka) — L(x,y,a) (1) v prostoru meril. Izberemo tiste kandidate, ki presezejo prag lokalnega kontrasta in so lokalni ekstrem tudi v lokalni slikovni sosešcini. Kandidate za lokalne regije dodatno okarakteriziramo glede na prisotnost roba v središcni tocki. Velikost posamezne regije je dolocena z merilom, na katerem je bila regija detektirana. Usmerjenost regije je dolocena kot smer, kjer histogram lokalnih gradientov zavzame maksimalno vrednost [11]. Lokalne regije Kj so torej opisane z lokacijo CKj, usmerjenostjo oKj ter velikostjo rKj. Slika 2 prikazuje regije, detektirane na prvih stirih oktavah. 2.2 Ucenje slovarja ICA Lokalne regije so zdaj opisane le s strukturnimi znacilnostmi regije. Opis videza regije podamo na podlagi slovarja filtrov, katerih maksimalno razpršeni odzivi dolocajo razred lokalne regije. Stevilo razredov in s tem Slika 3. Slovar ICA, naučen na prototipni sliki. Figure 3. ICA codebook learned from a prototype image. velikost slovarja je namenoma majhno, saj se želimo izogniti natančnemu opisu, ki bi preprečilo konstrukcijo vi-sokonivojskih ujemanj. Nabora filtrov se naučimo z analizo neodvisnih komponent (Independent Component Analysis, ICA) slikovne matrike učnih regij, kijih pridobimo iz prototipne slike, ali pa iz več slik objektov določene kategorije. V literaturi se slovarji ICA pogosto obravnavajo kot model nevronskih rečeptorjev v primarnem vidnem korteksu [13,5], vendar pa učenje slovarja vedno temelji na naključno izbranih regijah naključnih slik. V nasprotju s pristopi v literaturi v tem delu računamo slovar le na informiranih področjih, ki so bili ze izbrani v postopku detekčije. Slovar se zato izogne modeliranju redundantne informačije in se osredini na opise značilnih struktur z generično smerjo in velikostjo, ki je določena ze z algoritmom detekčije. Ce poleg tega učenje omejimo na predmete ene kategorije, lahko ze manjši slovar opiše značilne dele objektov (slika 3). Slikovno matriko X sestavimo iz normaliziranih in-tenzitetnih vektorjev x, ki opisujejo posamezne regije v generični smeri. Posamezen vektor xj lahko predstavimo z linearno superpozičijo več izvorov bj, N Xj = ajj bj (2) j= i utezeno s koefičienti ajj. Matrično obliko enačbe 2 zapisemo kot x = Ab. (Če z u označimo izvore, ki jih rekonstruiramo na podlagi opazovanja vidnih vzorčev, potem preslikavo x v u zapišemo kot u = Wx, kjer je W = A-i, če je A invertibilen linearni sistem. Z analizo neodvisnih komponent pa izračšunamo W in b tako, da pogojujemo statisično neodvisnost izvorov bj. Za izračun slovarja uporabimo algoritem FastICA [5]. Slika 3 je primer slovarja petih filtrov po učenju iz prototipne slike kategorije. Lokalne regije Kj dodelimo razredu w Kj = m, kije določen z indeksom filtra wm z najvišjo absolutno vrednostjo odziva w Kj = argmax |Xm|; u = W x. (3) 2.3 Grucenje Gestalt Lokalne znacilke, ki so osredišcene na robnih tockah, tipično nastopajo v redundantnih, gostih grucah. Redun-dantnost zmanjšamo z grucenjem robnih regij na podlagi principov Gestalt. Algoritem implementira princip Slika 4. Značilke H0, pridobljene po gručenju Ki. Figure 4. H0 features after grouping of K blizine (grucijo se le znacilke v omejenem obmocju), podobnosti (grucijo se le znacilke, ki pripadajo istemu razredu) in skupne usode (grucijo se le znacilke, katerih smeri tvorijo kongruenten kot a radianov). Slika 4 prikazuje rezultat grucenja in pridobljene znacilke. Na podlagi grucenja so nove znacilke H0 izpeljane iz lastnosti gruc K tako, da podedujejo razred odziva na slovar ICA w H0 = wKj, smer in velikost znacilke pa se izracunata iz geometrijskih lastnosti gruce. 2.4 Hierarhično združevanje Zdruzevanje znacilk poteka prek vec hierarhicnih nivojev. Znacilke postopoma pridobivajo dodatno informacijo o relativni geometrijski konfiguraciji. Ker so geometrijske relacije podane relativno in na lokalni ravni, so znacšilke neodvisne od globalnega koordinatnega sistema, lokalni proces zdruzševanja pa je popolnoma neodvisen od drugih procesov. Proces zdruzevanja se zacne s korakom H0 ^ H1 in se naceloma lahko izvede za poljubno stevilo nivojev. Na vsakem nivoju se n znacilk v lokalnem obmocju zdruzi v n-terico. Ker zdruzevanje vecjega sštevila znacšilk hitro privede do prevelike informativnosti znacilk, hierarhija zdruzuje znacilke le v pare. Par znacilk uredimo glede na velikost regij, rHk > rHk ter ga opišemo z atributi relativne velikosti sHk+1, razdalje 'Hk+1, kotov ai Hk+1 in a2Hk+1 med smerjo regij in povezovalno daljico in z oznako medsebojne lege smernih vektorjev or Hk+1: i^k + l / r Ufc M1+# / ||C HkC Hk || 2 1Hk+1 = log 1+" iHk j '2 aiHk+1 = Z(oHk, CHk CHk) a2Hk+1 = z(oHk, CHk CHk) orHk+1 G {0,1,2,3} Input: Hk, Hk, Fk, inner, outer, f Output: Hk+1 Hk+1, Fk+1 foreach F^ = { (hk, Hk) } do rMin = rHk * inner rMax = rHk * outer A = |H k : CH k £ RF (rMin, rMax) j while card a) < f A rMin > 0 do if soseššina znotraj slike then | rMax = rMax + eps else |_ rMin = rMin — eps update a) Ck+1 = bind(A, Hk) RF = convexHull a) preslikaj RF v RF A = { Hm : (Cnm £ RF) A (3 H n e A : (H n,Hm) £ Fk)} Ck+1 = bind(A, Hk) Fk + 1 = Fk+1 U match ^ C, c) Hk+1 = Hk+1 U k Cm^1 : Cm+1 £ Fk+1} Hk+1 = Hk+1 U k C^i1 : C^i1 £ Fk+1 j Algoritem 1: Hierarhično zdruzevanje, iskanje ujemanj in inhibičija. Algorithm 1: Hierarčhičal binding, matčhing and inhibition. opišemo z diskretnim opisnikom GHk: [ Qs(sHk), Qi('Hk), Qa(a1 Hk), Qa(a2 Hk), Hk ] , kjer Q( • ) pomeni kvantizacijo. Naj Hk ^ Hk+1 oznacuje nivoje zdruzevanja. Znacilke na vsakem od nivojev lahko opišemo z diskretnim zaporedjem, ki popolnoma opisuje podrejeni znacšilki ter geometrijska razmerja med njima: H0 D Hk + 1 Hm w ho G Hk + 1 Hm Hk (4) 'H; k> 0 . (5) Ker so distribucije geometrijskih parametrov na posameznih nivojih hierarhije odvisne od strukturnih lastnosti objektov, lahko kvantizacijo prilagodimo posameznemu prototipnemu modelu. Model pridobimo s hierarhicšnim zdruzevanjem prototipa s samim seboj. Tako pridobljene distribucije parametrov so unimodalne, zato lahko kvan-tizacijo prilagodimo na podlagi statisticnih momentov. 2.5 Sinhrono združevanje, iskanje ujemanj in inhibičija Naj bodo Hk znacilke prototipa, Hk znacilke interpretirane slike, Fk pa indeks ujemanj Fk Atribute predstavimo v diskretiziranem geometricšnem konceptualnem prostoru (GKP), ki ustreza psiholoskim modelom zaznavanja [7]. Geometricne atribute para Hk H k II k i , Hj dh k D Hk . Zdruzevanje poteka tako, da za vsak par iz mnozice ujemanj Fk aktiviramo receptivno polje Hk, v katerem številom ujemanj pri kompleksnih objektih, saj naučen geometrični konceptualni prostor prilagodi iskanju preprostih oblik, kar tudi do določene mere preprečuje "haluciniranje" preprostih oblik v kompleksnih objektih. Slika 8 prikazuje prvih pet objektov z najvišjim številom ujemanj na H5. Vidimo lahko, da ujemanja na višjih nivojih hierarhije opisujejo konsistentne strukturne podobnosti med objekti ter da so objekti iste kategorije praviloma med tistimi z največjim številom ujemanj na H5. Slika 5. Sinhrono združevanje H1 ^ H2. Figure 5. Sychronous matching H1 ^ H2. Slika 6. Sinhrono združevanje H4 ^ H5. Figure 6. Sychronous matching H4 ^ H5. poiščemo f kandidatov. Del receptivnega polja, ki vsebuje te kandidate, nato preslikamo na nivo k interpretirane slike, kjer prav tako poisčemo in zdruZimo kandidate za ujemanja. Lokalna ujemanja na Hk+1 ohranimo, druge značilke pa zavrzemo. Postopek opisuje algoritem 1. Izhod iz algoritma so značilke Hk+1, Hk+1 ter indeks ujemanj Fk+1. Slika 5 ponazarja zdruzene značilke po prvem koraku H0 ^ H1, slika 6 pa ponazarja končni rezultat, če predvidevamo pet nivojev zdruzševanja. 3 Eksperimentalni rezultati Model smo preizkusili na problemu kategorizačije se-gmentiranih objektov v zbirki ETH80. Vsaka od osmih kategorij je predstavljena s prototipnim objektom v ka-nonični orientačiji. Zaradi manjšega števila detektiranih lokalnih regij učimo slovar ICA filtrov na več slikah iste kategorije, ki pa niso hkrati tudi v testni mnoziči slik. Za vsakega od prototipov se naučšimo kvantizačije geo-metričšnega končeptualnega prostora. Slika 7 prikazuje povprečno stevilo ujemanj vsakega od prototipov z vsemi drugimi slikami objektov v isti ka-noničšni orientačiji na vsakem od petih nivojev hierarhije. Na desni strani grafikonov so prikazani prototipi kategorij, urejeni po padajočem številu ujemanj na H5. Vsi prototipi generirajo najvisje število ujemanj z objekti lastne kategorije, medtem ko dobijo tudi strukturno zelo podobne kategorije v povprečju manj glasov. Iskanje ujemanj s preprostimi predmeti se končša z bistveno manjsšim Slika 7. Povprečna števila ujemanj na nivojih H1 - H5. Figure 7. Average number of matches at levels H1 - H5 Q W-' Slika 8. Prvih pet objektov po številu H5 ujemanj. Figure 8. The five exemplars with the highest numbers of H5 matches. 4 Sklep Predstavili smo nov model kategorizačije objektov s postopnim iskanjem lokalnih in strukturnih ujemanj s prototipom, kjer se ujemanja konstruirajo v hierarhičšnem sosledju lokalnega zdruzševanja, iskanja ujemanj in inhibi-čije. Rezultati dokazujejo uporabnost metode za katego-rizačijo objektov v kanoničšnem pogledu. Pomembno je ; H tudi, da metodo lahko uporabimo za detekcijo potencialnih ujemanj med objekti na vec nivojih podrobnosti, kar dosezemo z analizo nizkonivojskih ujemanj, na katerih temeljijo visokonivojska ujemanja. Pokazali smo tudi, da lahko objekte na slikah ucinkovito kategoriziramo z uporabo prototipne predstavitve, ki ne zahteva ekstenzivnega ucenja na obseznih ucnih mnozicah. Metoda omogoca le prepoznavanje v kanonicnem pogledu, vendar pa je bila razvita za implementacijo v siršem kognitivnem sistemu, kjer bi lahko z uporabo kon-tekstnega procesiranja, vecmodalnosti in aktivnega zaznavanja dosegli ucšinkovito kategorizacijo poljubnih objektov. 5 Literatura [1] S. Belongie, J. Malik, & J. Puzicha, Shape matching and object recognition using shape contexts. IEEE Trans. Pattern Anal. Mach. Intell., 24(4):509-522, 2002. [2] L. Fei-Fei, R. Fergus, & P. Perona, Learning generative visual models from few training examples. In Computer Vision and Pattern Recognition Workshop, 2004 Conference on, pp. 178-178, 2004. [3] S. Fidler, M. Boben, & A. Leonardis, Similarity-based cross-layered hierarchical representation for object categorization. In CVPR, 2008. [4] S. Fidler, & A. Leonardis, Towards scalable representations of object categories: Learning a hierarchy of parts. In Computer Vision and Pattern Recognition, 2007. CVPR '07. IEEE Conference on, pp. 1-8, 2007. [5] A. Hyvarinen & P. Hoyer, Emergence of complex cell properties by decomposition of natural images into independent feature subspaces. In Artificial Neural Networks, 1999. ICANN 99. Ninth International Conference on (Conf. Publ. No. 470), Vol. 1, pp. 257-262vol.1, 1999. [6] Y. Jin & S. Geman, Context and hierarchy in a probabilistic image model. In Computer Vision and Pattern Recognition, 2006IEEE Computer Society Conference on, Vol. 2, pp. 2145-2152, 2006. [7] G. A. Kelly, The Psychology of Personal Constructs. Ro-utledge, 1991. [8] J. Krivic & F. Solina, Part-level object recognition using superquadrics, Computer Vision and Image Understanding, 95(1):105-126, 2004. [9] B. Leibe, A. Leonardis, & B. Schiele, Robust object detection with interleaved categorization and segmentation. International Journal of Computer Vision, 77(1-3):259-289, 2008. [10] T. Lindeberg & J. Eklundh, Scale detection and region extraction from a scale-space primal sketch. In Computer Vision, 1990. Proceedings, Third International Conference on, pp. 416-426, 1990. [11] D. Lowe, Object recognition from local scale-invariant features. In Proc. of the International Conference on Computer Vision, Corfu, IEEE Computer Society, 1999. [12] D. Marr, Vision. W. H. Freeman, San Francisco, CA, 1982. [13] B. A. Olshausen & D. Field, Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, (381):607-609, 1997. [14] M. Riesenhuber & T. Poggio, Models of object recognition. Nature Neuroscience Supplement, 3:1199— 1203, 2000. [15] E. Rosch, Natural categories. Cognitive Psychology, 4:328-350, 1973. [16] A. Shokoufandeh, et. al, The representation and matching of categorical shape. Computer Vision and Image Understanding, 103(2):139-154, 2006. [17] E. Sudderth, A. Torralba, W. Freeman, & A. Willsky, Learning hierarchical models of scenes, objects, and parts. In Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, Vol. 2, pp. 1331-1338Vol.2, 2005. [18] S. Todorovic & N. Ahuja, Extracting subimages of an unknown category from a set of images. In Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, Vol. 1, pp. 927-934, 2006. Matjaž Jogan je asistent na Fakulteti za racunalništvo in informatiko v Ljubljani. Raziskovalno se ukvarja s hierarhicnimi modeli procesiranja vidne informacije. Je avtor in soavtor številnih raziskav s podrocšij umetne zaznave prostorske informacije, samodejnega kartografiranja za lokalizacijo in navigacijo mobilnih sistemov, robustnega in sprotnega ucenja, ukvarja pa se tudi z uporabo umetnega vida v interaktivnih sistemih.