ELEKTROTEHNI ˇ SKI VESTNIK 78(4): 177–180, 2011 EXISTING SEPARATE ENGLISH EDITION Emotivne lastnosti latentnih faktorjev v priporoˇ cilnih sistemih za slike Marko Tkalˇ ciˇ c, Andrej Koˇ sir, ˇ Stefan Dobravec, Jurij Tasiˇ c Univerza v Ljubljani, Fakulteta za elektrotehniko, Trˇ zaˇ ska 25, 1000 Ljubljana, Slovenija E-poˇ sta: marko.tkalcic@fe.uni-lj.si Povzetek. V tem prispevku smo analizirali povezavo med latentnimi faktorji, ki nosijo najveˇ c variance in emotivnimi lastnostmi teh faktorjev v bazi priporoˇ cilnega sistema za slike. S pomoˇ cjo matriˇ cnega razcepa smo poiskali dva najpomembnejˇ sa faktorja v matriki ocen. S pomoˇ cjo emotivnih oznak vsebin smo poiskali emotivne lastnosti vsebin, ki leˇ zijo na ekstremih prvih dveh faktorjev. Rezultati so pokazali, da je prvi faktor moˇ cno koreliran z valenco in dominanco, vzburjenje pa nima oˇ citne povezave s prvim faktorjem. Drugi faktor ne izkazuje relacije z nobeno od treh dimenzij emocij. Kljuˇ cne besede: priporoˇ cilni sistemi, emotivno raˇ cunalniˇ stvo, matriˇ cni razcep, latentni faktorji Emotional properties of latent factors in an image recommender system In this paper we analyze the relations between the latent factors with high variance description and affective parameters in an image recommender system. Using the matrix factorization approach we identify the main two factors in the user-item rating database. We exploit the affective metadata related to each item to identify relations between the main factors and the affective metadata. Results show that the first latent factor is strongly related with the valence and dominance while the arousal does not appear to be related. The second factor, however, shows no relation with the affective parameters. 1 UVOD Priporoˇ cilni sistemi za multimedijske vsebine so sistemi, ki na podlagi poznavanja uporabnikovih nagnjenj (profil uporabnika) in poznavanja lastnosti multimedijskih vse- bin (profil vsebine) predlagajo omejen nabor multimedij- skih vsebin po okusu uporabnika. Ti sistemi so ˇ ze prera- sli testna okolja in si utrli pot v trˇ zne aplikacije. Spletni portal Amazon, na primer, uporablja tovrstne reˇ sitve za priporoˇ canje izdelkov v svoji spletni trgovini [5]. Razvoj priporoˇ cilnih sistemov poteka predvsem v dveh smereh: (i) razvoj in izboljˇ sava postopkov priporoˇ canja in (ii) iskanje znaˇ cilk, ki kar najbolje predstavijo objekte in subjekte v priporoˇ cilnih sistemih. Prvi postopki priporoˇ canja so bili preprosti vsebinski (ang. content-based recommenders - CBR) [6] in sku- pinski (ang. collaborative filtering - CF) [1]. Na nateˇ caju Netflix (http://www.netflixprize.com/) pa se je izkazalo, da postopek matriˇ cnega razcepa privede do bistveno boljˇ sih rezultatov kot drugi pristopi v priporoˇ cilnih sis- temih [2], [3]. Trenutno pristop z uporabo matriˇ cnega Prejet 26. avgust, 2011 Odobren 25. september, 2011 razcepa velja za najboljˇ sega v primerih, ko je uˇ cna mnoˇ zica dovolj velika. Po drugi strani pa je bila predmet raziskav tudi nadgradnja profila uporabnika in profila vsebin z novimi znaˇ cilkami, ki nosijo kar najveˇ c informacije za uspeˇ sno napoved relevantnih vsebin. Kot prve znaˇ cilke so se uporabljali generiˇ cni metapodatki, na primer ˇ zanr, igral- ska zasedba, reˇ ziser itn. [7], [1]. Postopki priporoˇ canja so se hitro razvili to te mere, da so te metapodatke popolnoma izkoristili, zato so se raziskave usmerile k iskanju drugaˇ cnih znaˇ cilk, ki bi izboljˇ sale uˇ cinkovitost priporoˇ cilnih sistemov. V naˇ sih predhodnih raziskavah smo pokazali, da emotivni metapodatki pojasnijo znaten del variance v uporabniˇ skih podatkih in s tem izboljˇ sajo uspeˇ snost vsebinskega priporoˇ cilnega sistema [10]. Uvedba pristopa z uporabo postopka matriˇ cnega raz- cepa je pomenila zamenjavo predhodno ˇ cloveku razu- mljivih znaˇ cilk (kot je na primer ˇ zanr) z latentnimi znaˇ cilkami, ki obiˇ cajno niso ˇ cloveku razumljive. Tako se je za podatkovni nabor Netflix izkazalo, da prva la- tentna faktorja pomenita delitev glede na intelektualnost oziroma moˇ skost/ˇ zenskost [3], [2]. Tak postopek, torej interpretacija lastnosti glavnih latentnih faktorjev, je raziskovalno zanimiv pristop, saj odpira drugaˇ cen pogled na uporabnikova nagnjenja in njihovo modeliranje. 1.1 Predstavitev problema Glavni cilj prispevka je raziskava lastnosti glavnih latentnih faktorjev nabora podatkov priporoˇ cilnega sis- tema z vidika emocij, ki jih vsebine vzbudijo v konˇ cnih uporabnikih. Problem, predstavljen v prispevku, teme- lji na dveh predpostavkah: (i) da postopek matriˇ cnega razcepa identificira glavne latentne faktorje, ki opisujejo varianco ocen, ki so jih uporabniki pripisali vsebinam, ter (ii) da se emotivni parametri vsebin (parametri, ki opisujejo emocijo, vzbujeno v uporabniku) spreminjajo 178 TKAL ˇ CI ˇ C, KO ˇ SIR, DOBRA VEC, TASI ˇ C vzdolˇ z glavnih osi, doloˇ cenih z latentnimi faktorji. Na podlagi danih predpostavk ˇ zelimo s pomoˇ cjo eksplana- torne faktorske analize identificirati emotivne parametre, ki predstavljajo vsebine na skrajnih koncih osi, kot je to predstavljeno v sliki 1. Gruˇ cam teh vsebin smo dodelili oznakeG 1:1 ;G 1:2 ;G 2:1 inG 2:2 . Rezultat je vizualizacija in interpretacija teh parametrov. Prvi latentni faktor Drugi latentni faktor Gruča 1.1 Gruča 2.1 Gruča 2.2 Gruča 1.2 Slika 1: Vsebine (predstavljene s trikotniki) so razprˇ sene v prostoru, doloˇ cenem z latentnimi faktorji. V gruˇ ce vsebin G1:1;G1:2;G2:1 in G2:2 so zdruˇ zene vsebine na skrajnih koncih osi dveh glavnih latentnih faktorjev. 2 POSKUS Potek poskusa je prikazan na sliki 2. V fazi pridobivanja podatkov smo pripravili matriko ocen, ki so jih realni uporabniki prisodili izbranim vsebinam. S postopkom matriˇ cnega razcepa smo nato izloˇ cili glavne latentne faktorje. Sledila je statistiˇ cna obdelava vsebin, ki so se nahajale na skrajnih oseh ravnine, doloˇ cene z dvema glavnima latentnima faktorjema. Zajem podatkov Matrika ocen Matrični razcep Glavni faktorji Faktorska analiza Predstavitev rezultatov Slika 2: Potek poskusa 2.1 Nabor podatkov Pripravili smo polno matriko ocen (ponazorjena v tabeli 1). V postopku je sodelovalo 52 uporabnikov, oznaˇ cenih z u 2 f1::: 52g, ki so ocenili 70 slik, oznaˇ cenih z i2f1::: 70g. Oceno, ki jo je uporabnik u prisodil slikii, smo oznaˇ cili kotr(u;i)2f1::: 5g. Slike so bile izbrane iz veliko veˇ cjega nabora slik IAPS [4], v katerem so slike oznaˇ cene z metapodatki, ki opisujejo emocijo, vzbujeno v uporabniku. Emocije smo oznaˇ cili z razˇ sirjenimi in pogosto uporabljenimi parametri: valenca (ang. valence), vzburjenje (ang. arousal) in dominanca (ang. dominance) [8]. Valenca loˇ ci emocije na pozi- tivne (npr. veselje) in negativne (npr. ˇ zalost), vzburjenje opisuje intenzivnost opazovane emocije, dominanca pa ovladovanje (npr. pomirjenost) oziroma neobvladovanje (npr. moˇ cna jeza) emocije. Vsaki sliki i je bila tako pripisano povpreˇ cje valence, vzburjenja in dominance, ki jih je vzbudila naboru uporabnikov, kot trojica vrednosti md(i) = fv; a; dg. Pri tem se nabor uporabnikov, uporabljen za izraˇ cun povpreˇ cij, razlikuje od nabora uporabnikov, ki so sliki prisodili oceno. Podrobnejˇ se informacije o naboru podatkov so na voljo v virih [11]. H H H H u i 1 2 3 ... 70 1 r(1;1) r(1;2) r(1;3) r(1;70) 2 r(2;1) r(2;2) r(2;3) r(2;70) 3 r(3;1) r(3;2) r(3;3) r(3;70) ... 52 r(52;1) r(52;2) r(52;3) r(52;70) Tabela 1: Matrika ocen vsebin: vsebuje ocene r(u;i) 2 f1:::5g, ki so jih uporabniki u 2 f1:::52g, prisodili vsebinam i2f1:::70g. 2.2 Matriˇ cni razcep Pristop z uporabo matriˇ cnega razcepa identificira pro- stor latentnih faktorjev, v katerem se vhodni podatki opiˇ sejo na bolj zgoˇ sˇ cen naˇ cin. V naˇ sem primeru so vhodni podatki zdruˇ zeni v matriko ocen vsebin (glej tabelo 1). ˇ Ceprav je metoda singularnih vrednosti (ang. singular value decomposition - SVD) bolj priljubljena, je za uporabo v priporoˇ cilnih sistemih neuporabna iz dveh razlogov: (i) redke posejanosti podatkov ter (ii) ve- likosti prostora podatkov (veliko uporabnikov in vsebin). Zato smo glavne latentne faktorje izraˇ cunali s pogosto uporabljenim stohastiˇ cnim gradientnim postopkom (ang. stochastic gradient descent algorithm) [2], [3], [9]. Pri postopku matriˇ cnega razcepa je vsak uporabnik opisan z vektorjem latentnih faktorjev uporabnikap u , prav tako je vsaka vsebina opisana z vektorjem latentnih faktorjev vsebine q i . Profil uporabnika, ki opisuje uporabnikova nagnje- nja, je tako v obliki vektorja latentnih lastnosti p u . Vrednosti v vektorju odsevajo stopnjo uporabnikovega nagnjenja k ustrezni latentni znaˇ cilki. V podatkovnem naboru Netflix, na primer, prvi latentni faktor kaˇ ze na (ne)intelektualnost. Visoka vrednost prvega faktorja pro- fila uporabnika bi tako pomenila nagnjenost uporabnika k intelektualnim vsebinam. Po enakem razmisleku vrednosti v profilu vsebine q i odsevajo stopnjo prisotnosti ustrezne latentne lastnosti v dani vsebini. V podatkovnem naboru Netflix bi tako visoka vrednost prvega faktorja v profilu vsebine pome- nila, da gre za intelektualno vsebino. EMOTIVNE LASTNOSTI LATENTNIH FAKTORJEV V PRIPORO ˇ CILNIH SISTEMIH ZA SLIKE 179 gruˇ ca ˇ stevilo vsebin v gruˇ ci G 1:1 31 G 1:2 13 G 2:1 15 G 2:2 24 Tabela 2: ˇ Stevilo vsebin v vsaki od ˇ stirih opazovanih gruˇ c Vektorja imata enako dolˇ zino F , ki pomeni ˇ stevilo uporabljenih znaˇ cilk. Naloga priporoˇ cilnega sistema je, da predvidi oceno, ki bi jo izbrani uporabnik u dodelil doloˇ ceni vsebinii. Napoved ocene ^ r(u;i) je izraˇ cunana kot skalarni produkt obeh vektorjev ^ r(u;i) =p u q T i . V fazi uˇ cenja stohastiˇ cni gradientni postopek uˇ ci vrednosti znaˇ cilk v vektorjih p in q z minimizacijo srednje kva- dratiˇ cne napake (ang. root mean sqare error - RMSE) med pravo oceno r(u;i) in napovedano oceno ^ r(u;i): argmin X u;i (r(u;i) p u q T i ) + (kq i k 2 +kp u k 2 ) (1) kjer je regularizacijski faktor, ki sluˇ zi prepreˇ cevanju prekomernega prileganja (ang. overfitting). Stohastiˇ cni gradientni postopek smo izvedli v veˇ cjem ˇ stevilu zapo- rednih uˇ cnih ciklov. Uspeˇ snost napovedi ocen z vidika RMSE smo opa- zovali ob uporabi razliˇ cnega ˇ stevila znaˇ cilk F 2 f1::: 300g in razliˇ cnega ˇ stevila uˇ cnih ciklov e 2 f1::: 500g. Pri doloˇ citvi dveh glavnih latentnih faktorjev smo uporabili opisani postopek matriˇ cnega razcepa z uporabo dveh faktorjev F = 2 in e = 2000 uˇ cnimi cikli. Vsak uporabnik in vsaka vsebina je tako predstavljena z vektorjem dveh znaˇ cilk, na podlagi katerih izraˇ cunamo napovedano oceno ^ r(u;i) = (q i;1 ;q i;2 ) (p u;1 ;p u;2 ); (2) kjer vrednosti znaˇ cilk q i;1 ;q i;2 ;p u;1 in p u;2 pomenijo vrednosti prvih dveh latentnih faktorjev uporabnikau in vsebine i. 2.3 Razporejanje v gruˇ ce V vsako gruˇ co vsebin smo razporedili tiste vsebine, ki so imele vrednost ustrezne znaˇ cilke nad 70 % ma- ksimalne vrednosti za gruˇ ci G 1:1 in G 2:1 ter manj kot 30 % maksimalne vrednosti za gruˇ ci G 1:2 in G 2:2 . Tak pristop je v gruˇ ce razporedil razliˇ cno ˇ stevilo vsebin, kot je prikazano v tabeli 2. 3 REZULTATI Kot zanimiv stranski rezultat poskusa smo najprej opa- zovali uspeˇ snost postopka matriˇ cnega razcepa (v smislu RMSE) v odvisnosti ˇ stevila uporabljenih znaˇ cilkF (glej sliko 3) ter v odvisnosti od ˇ stevila uˇ cnih ciklov e 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1 2 3 4 5 6 7 8 9 10 15 20 30 40 50 100 200 300 500 100 50 10 Slika 3: RMSE (y os) kot funkcija ˇ stevila uporabljenih znaˇ cilk F (x os) pri izbranem ˇ stevilu uˇ cnih ciklov e 2 f10;50;100;500g 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1 10 50 100 200 300 400 500 100 features Slika 4: RMSE (y os) kot funkcija ˇ stevila uˇ cnih ciklov e (x os) pi izbranem ˇ stevilu uporabljenih znaˇ cilk (F = 100) (glej sliko 4). Uporabili smo desetkratno navzkriˇ zno preverjanje. Slike od 5 do 7 prikazujejo porazdelitev emotivnih parametrov valenca, vzburjenje in dominanca v ˇ stirih opazovanih gruˇ cah v obliki grafikona kvantilov. Na vsa- kem grafikonu kvantilov so prikazani: srednja oznaka, ki pomeni mediano, robova okvirja, ki pomenita percentili 25 in 75, zunanja kraka, ki sta skrajni vrednosti brez upoˇ stevanja zunanjih toˇ ck (ang. outliers), ter zunanje toˇ cke, ki so prikazane individualno z oznako +. 4 SKLEP Rezultati kaˇ zejo, da sta parametra valenca in dominanca vezana na prvi latentni faktor, ki pojasnjuje veˇ cino variance v ocenah uporabnikov. Ugotovimo lahko tudi, da parameter vzburjenje dosega visoke vrednosti v gruˇ ci G 1:2 , medtem ko so v gruˇ ciG 1:1 vrednosti enakomerno porazdeljene. Izkaˇ ze pa se, da med drugim latentnim faktorjem (gruˇ ci G 2:1 in G 2:2 ) in emotivnimi parametri ni vidne povezave. V prispevku smo prepoznali emotivne lastnosti vse- bin, ki leˇ zijo na skrajnih delih osi, doloˇ cenih z glavnima latentnima faktorjema, ter pojasnjujejo veˇ cino variance v ocenah uporabnikov. 180 TKAL ˇ CI ˇ C, KO ˇ SIR, DOBRA VEC, TASI ˇ C 2 3 4 5 6 7 8 11 12 21 22 valence Slika 5: Porazdelitev parametra valenca v ˇ stirih opazovanih gruˇ cah 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 11 12 21 22 arousal Slika 6: Porazdelitev parametra vzburjenje v ˇ stirih opazovanih gruˇ cah ZAHVALA Delo je bilo izvedeno s podporo Javne agencije za raziskovalno dejavnost Republike Slovenije po pogodbi P2-0246. Avtorji se zahvaljujejo dijakom in osebju Gimnazije Poljane za sodelovanje pri pripravi nabora podatkov, ter sodelavcem iz Laboratorija za digitalno obdelavo podatkov, slik in videa za pomoˇ c pri izvedbi poskusa. LITERATURA [1] Gediminas Adomavicius and A. Tuzhilin. Toward the next generation of recommender systems: a survey of the state-of-the- art and possible extensions. IEEE Transactions on Knowledge and Data Engineering, 17(6):734–749, June 2005. [2] Simon Funk. Netflix Update: Try This at Home, 2006. 0 1 2 3 4 5 6 7 8 11 12 21 22 dominance Slika 7: Porazdelitev parametra vzburjenje v ˇ stirih opazovanih gruˇ cah [3] Yehuda Koren, Robert Bell, and Chris V olinsky. Matrix Fac- torization Techniques for Recommender Systems. Computer, 42(8):30–37, August 2009. [4] Peter J Lang, M M Bradley, and B N Cuthbert. International affective picture system (IAPS): Affective ratings of pictures and instruction manual. Technical Report A-8. Technical report, University of Florida, 2005. [5] G. Linden, B. Smith, and J. York. Amazon.com recommendati- ons: item-to-item collaborative filtering. IEEE Internet Compu- ting, 7(1):76–80, January 2003. [6] Matevz Pogacnik, Jurij Tasic, Marko Meza, and Andrej Kosir. Personal Content Recommender Based on a Hierarchical User Model for the Selection of TV Programmes. User Modeling and User-Adapted Interaction: The Journal of Personalization Research, 15(5):425–457, 2005. [7] Matevz Pogacnik, Jurij Tasiˇ c, and Andrej Koˇ sir. Optimization of Multi-attribute User Modeling Approach. AEU - International Journal of Electronics and Communications, 58(6):402–412, 2004. [8] Jonathan Posner, James a Russell, and Bradley S Peterson. The circumplex model of affect: an integrative approach to affective neuroscience, cognitive development, and psychopathology. De- velopment and psychopathology, 17(3):715–34, January 2005. [9] Yue Shi, Martha Larson, and Alan Hanjalic. Mining mood- specific movie similarity with matrix factorization for context- aware recommendation. Proceedings of the Workshop on Context-Aware Movie Recommendation, pages 34–40, 2010. [10] Marko Tkalˇ ciˇ c, Urban Burnik, and Andrej Koˇ sir. Using affective parameters in a content-based recommender system for images. User Modeling and User-Adapted Interaction: The Journal of Personalization Research, pages 1–33–33, September 2010. [11] Marko Tkalˇ ciˇ c, J Tasiˇ c, and Andrej Koˇ sir. The LDOS-PerAff- 1 Corpus of Face Video Clips with Affective and Personality Metadata. Proceedings of Multimodal Corpora: Advances in Capturing, Coding and Analyzing Multimodality (Malta, 2010), LREC, page 111, 2009. Marko Tkalˇ ciˇ c je raziskovalec na Fakulteti za elektrotehniko Univerze v Ljubljani. Raziskovalna podroˇ cja obsegajo emotivno raˇ cunalniˇ stvo, uporabniˇ sko modeliranje, priporoˇ cilne sisteme in interakcija ˇ clovek- raˇ cunalnik. Andrej Koˇ sir je izredni profesor na Fakulteti za elektrotehniko Univerze v Ljubljani. ˇ Stefan Dobravec je raziskovalec na Fakulteti za elektrotehniko Uni- verze v Ljubljani. Jurij Tasiˇ c je redni profesor na Fakulteti za elektrotehniko Univerze v Ljubljani.