OBTEŽENA POVPREČJA IN PARADOKS PRIJATELJSTVA BRIGITA FERČEC1,2 IN NIKO TRATNIK3 1Fakulteta za energetiko, Univerza v Mariboru 2Center za uporabno matematiko in teoretično fiziko, Univerza v Mariboru 3Fakulteta za naravoslovje in matematiko, Univerza v Mariboru Math. Subj. Class. (2010): 91D30 Članek obravnava zanimiv pojav, ki ga lahko opazimo na mnogih področjih življenja, tj. paradoks prijateljstva. Povezan je s posebno vrsto obteženih povprečij. Zato na začetku opǐsemo koncept obteženih povprečij skupaj s primeri situacij, v katerih se pogostokrat pojavi, in si ogledamo del pripadajoče matematične teorije. V zadnjem delu je opisan paradoks prijateljstva v kontekstu družabnih omrežij. Navedena je povezava z obteženimi povprečji kot tudi povezave z nekaterimi drugimi področji. WEIGHTED AVERAGES AND THE FRIENDSHIP PARADOX The paper describes an iteresting phenomenon which appears in many areas of life and is known as the friendship paradox. The latter is connected with a special type of weighted averages in mathematics. Thus, in the beginning the concept of weighted averages is described as well as its applications and a mathematical interpretation. The last part describes the friendship paradox as it appears in the context of social networks. The connection with weighted averages and connections with some other areas are stated. Uvod Večina ljudi je seznanjena z idejo računanja povprečja oz. aritmetičnega pov- prečja neke množice števil. Preprosto seštejemo vse elemente v tej množici in jih delimo s številom elementov množice. Vendar to deluje samo tedaj, ko so vsi elementi množice enakovredni oz. obteženi enako. Kot primer vzemimo povprečje mesečnega računa za elektriko za preǰsnje leto. Sešte- jemo vrednosti dvanajstih položnic za elektriko za preǰsnje leto in dobljeno vrednost delimo z 12, saj so obračuni narejeni mesečno. Sedaj pa recimo, da smo opravljali izpit pri predmetu Matematika, ki je sestavljen iz treh delov: pisnega dela izpita, domačih nalog in ustnega dela izpita. Pri večini šolskih predmetov ti trije deli različno prispevajo h končni oceni, zato je v tem primeru primerno uporabiti obteženo povprečje. Obteženo povprečje lahko opǐsemo kot povprečje, kjer nekatere vrednosti prispevajo več kot druge. Pri navadnem aritmetičnem povprečju pa so, drugače kot pri obteženem, vse vrednosti enakovredne. Formula za obteženo povprečje se uporablja za izračun povprečne vrednosti določene množice Obzornik mat. fiz. 63 (2016) 1 1 Brigita Ferčec in Niko Tratnik števil z različnimi stopnjami pomembnosti oz. relevance. Relevanca vsakega števila se imenuje utež števila. Vzemimo preprost primer množice števil {1, 2, 3, 4} in izračunajmo pov- prečje teh števil kot povprečje = 1 + 2 + 3 + 4 4 = 2,5. Če bi v tem primeru dali vsakemu številu utež, bi v zgornjem primeru vsak element množice {1, 2, 3, 4} dobil utež 25% (0,25) in bi povprečje lahko izračunali kot povprečje = 0,25 · 1 + 0,25 · 2 + 0,25 · 3 + 0,25 · 4 0,25 + 0,25 + 0,25 + 0,25 = 2,5. Sedaj pa spremenimo uteži in recimo, da število 1 dobi utež 0,1, število 2 dobi 0,2, število 3 utež 0,15 in število 4 dobi utež 0,55. Vsota uteži je 1 in vrednost povprečja je povprečje = 0,1 · 1 + 0,2 · 2 + 0,15 · 3 + 0,55 · 4 1 = 3,15. Iz zgornjega zelo preprostega primera vidimo, da se tedaj, ko nekatere vre- dnosti dobijo večje uteži kot druge, spremeni povprečje, ki se približa vre- dnosti z večjo utežjo. Koncept obteženih povprečij se veliko uporablja tudi v ekonomiji, še po- sebej v poslovni in finančni ekonomiji. Kot preprost primer lahko navedemo investitorja, ki bi rad določil dobiček treh investicij, ki jih imenujmo investi- cija A, investicija B in investicija C. Recimo, da vloži 25 % svojega denarja v investicijo A, 25 % v investicijo B in 50 % vloži v investicijo C. Stopnja dobička za investicijo A je 5 %, za investicijo B 6 % in za investicijo C je 2 %. Če sedaj izračunamo obteženo povprečje glede na navedene podatke, dobimo povprečni dobiček (izračunan v deležu vloženega denarja) 0,25 · (5 %) + 0,25 · (6 %) + 0,50 · (2 %) 0,25 + 0,25 + 0,50 = 3,75 %. Če bi investitor uporabljal običajno aritmetično povprečje, potem bi bilo povprečje 4,33 %. Ta preceǰsnja razlika v izračunu obeh povprečij nam kaže, kako pomembno je uporabiti pravo formulo za natančno analizo v podjetjih, kjer je pomembno vedeti, kako donosne so investicije. Obtežena povprečja pa so tista, ki se velikokrat skrivajo za različnimi matematičnimi paradoksi. Primer v statistiki zelo znanega paradoksa je Simpsonov paradoks, ki se pogosto pojavlja v družbenih in zdravstvenih ve- dah. Le-ta včasih povzroči, da podatki, ki jih gledamo po nekih skupinah, 2 Obzornik mat. fiz. 63 (2016) 1 Obtežena povprečja in paradoks prijateljstva kažejo popolnoma drugačen trend, kot če te podatke gledamo združene sku- paj. Eden izmed bolj znanih primerov tega paradoksa se je zgodil leta 1973 na Univerzi v Berkeleyju. Ko so analizirali vpis na univerzo, so ugotovili, da so bili moški, ki so se prijavili na študij, sprejeti v 44 % primerov, medtem pa je bilo pri vpisu uspešnih le 35 % žensk. Univerza je bila deležna številnih obtožb, povezanih s spolno diskriminacijo, saj so podatki kazali, da imajo moški večje možnosti, da so sprejeti na študij. Ko so se lotili analize po po- sameznih oddelkih, pa so ugotovili, da na nobenem oddelku moški niso bili bistveno bolj uspešni. Ravno nasprotno, na večini oddelkov so bile pri vpisu malo bolj uspešne ženske. Bistvo se je skrivalo v tem, da različni oddelki oz. študiji niso bili enako priljubljeni. Izkazalo se je, da so se ženske v veliki večini prijavljale na zelo priljubljene študije (npr. na angleščino), moški pa večinoma na manj priljubljene (npr. tehnika in kemija), to pa je bil razlog, da so bili skupno pri vpisu bolj uspešni. Takih primerov navideznih paradoksov, kjer so v ozadju obtežena pov- prečja, je še veliko. V drugem poglavju si bomo ogledali še en paradoks, ki se da pojasniti z obteženimi povprečji. To je paradoks prijateljstva. V predzadnjem poglavju pa se bomo seznanili še s posplošenim paradoksom prijateljstva. Še prej pa se na kratko seznanimo z matematično razlago obteženih povprečij. Obteženo povprečje neprazne množice podatkov {x1, x2, . . . , xn} je x = ∑n i=1wixi∑n i=1wi = w1x1 + w2x2 + · · ·+ wnxn w1 + w2 + · · ·+ wn , kjer je wi utež, ki pripada podatku xi. Zato podatki z večjo utežjo prispevajo več k obteženemu povprečju kot pa podatki z manǰso utežjo. Uteži niso nikoli negativne, nekatere, vendar ne vse (zaradi deljenja z nič), so lahko nič. Formula je enostavneǰsa, če so uteži normalizirane, tako da je njihova vsota 1, tj. ∑n i=1wi = 1. Za takšne normalizirane uteži je obteženo povprečje preprosto x = n∑ i=1 wixi = w1x1 + w2x2 + · · ·+ wnxn. Opazimo, da lahko uteži vedno normaliziramo s transformacijo uteži w′i = wi∑n j=1 wj , saj je x = ∑n i=1wixi∑n i=1wi = ∑n i=1wixi∑n j=1wj = n∑ i=1 wi∑n j=1wj xi = n∑ i=1 w′ixi, kar je navadno obteženo povprečje. 1–9 3 Brigita Ferčec in Niko Tratnik Zgoraj navedeno obteženo povprečje je posplošitev aritmetičnega pov- prečja in se zato imenuje tudi aritmetično obteženo povprečje. Pri aritme- tičnem povprečju dobi vsak element enako utež. Če vzamemo neprazno množico {x1, . . . , xn} in za vsak element xi utež wi = 1 n , dobimo x = ∑n i=1 1 n xi∑n i=1 1 n = 1 n (x1 + x2 + · · ·+ xn) 1 = x1 + x2 + · · ·+ xn n , kar je znana formula za aritmetično povprečje. Obstajata pa tudi obteženo geometrijsko povprečje in obteženo harmo- nično povprečje, ki vsako zase izhajata iz geometrijskega povprečja in har- moničnega povprečja. Paradoks prijateljstva Dandanes ljudje veliko svojega časa namenimo družabnim omrežjem in po- vezovanju z ljudmi preko le-teh. Velika večina ljudi pa lahko opazi, da ima na teh omrežjih manj prijateljev kot večina njihovih prijateljev. Če ste med njimi tudi sami, potem ne skrbite, saj enako velja tudi za večino vaših pri- jateljev. To na primer potrjuje tudi obsežna študija Facebooka [3], kjer so raziskovalci ugotovili naslednji zanimiv rezultat. Najprej so pogledali, koliko ljudi ima manj prijateljev kot povprečno njegovi/njeni prijatelji. In izkazalo se je, da to velja za veliko večino uporabikov oziroma za kar 93 odstot- kov vseh uporabnikov Facebooka. Merili pa so tudi povprečja na celotnem Facebooku in ugotovili, da imajo uporabniki v povprečju 190 prijateljev, medtem ko imajo njihovi prijatelji v povprečju 635 prijateljev. Kako točno so izračunali povprečje prijateljev od prijateljev, bomo videli v zgledu v nadaljevanju. Tudi raziskave nevirtualnih družabnih omrežij kažejo enak trend. Ta pojav je namreč že leta 1991 odkril sociolog Scott L. Feld, ko internetna družabna omrežja še niso obstajala. Tako imamo tudi v nevirtualnem svetu večinoma manj prijateljev kot naši prijatelji. To pa seveda nima nikakršne povezave z osebnostmi, temveč sledi iz matematike. Za katerokoli omrežje, kjer ima nekaj ljudi več prijateljev kot drugi, velja, da je povprečno število prijateljev od prijateljev vedno večje kot povprečno število prijateljev. To trditev bomo v nadaljevanju strogo dokazali. Seveda bomo vedno predpo- stavljali, da so prijateljstva vzajemna. Opisani pojav so poimenovali »paradoks prijateljstva« (v angleščini »the friendship paradox«). Njegova razlaga temelji na posebni vrsti obteženih povprečij, ki povzročajo različne navidezne paradokse tudi v mnogih drugih situacijah. Da bomo lažje razmǐsljali, si za začetek zamislimo zelo preprost primer družabnega omrežja, ki ga sestavljajo samo štiri osebe. Dajmo jim nasle- 4 Obzornik mat. fiz. 63 (2016) 1 Obtežena povprečja in paradoks prijateljstva dnja imena: Marko, Vid, Rok in Miha. Recimo, da ima Marko samo enega prijatelja – Vida. Vid naj bo prijatelj z vsemi preostalimi, Rok in Miha pa naj bosta prijatelja še med seboj. Tako dobimo družabno omrežje, predsta- vljeno na sliki 1. Slika 1. Primer družabnega omrežja. Sedaj za vsakega posebej zapǐsimo, koliko prijateljev ima in koliko pri- jateljev imajo njegovi prijatelji. Oseba Število Število prijateljev Povprečno število prijateljev od prijateljev prijateljev od prijateljev Marko 1 3 3 Vid 3 1; 2; 2 1,67 Rok 2 3; 2 2,5 Miha 2 3; 2 2,5 Takoj opazimo, da ima večina (Marko, Rok in Miha) manj prijateljev, kot imajo v povprečju prijateljev njegovi prijatelji. Le Vid, ki je bolj »pri- ljubljen«, ima več prijateljev od svojih prijateljev. Da bomo lahko to v splošnem pojasnili, označimo z A povprečno število prijateljev ljudi v omrežju (povprečje števil v drugem stolpcu tabele) in z B povprečno število prijateljev od prijateljev (povprečje števil v tretjem stolpcu tabele). Izračunajmo povprečji A in B za dani primer. A = 1 + 3 + 2 + 2 4 = 2 B = 3 + (1 + 2 + 2) + (3 + 2) + (3 + 2) 8 = 2,25 Opazimo, da za dani primer družabnega omrežja velja A < B. V nada- ljevanju pa bomo dokazali, da ta neenakost velja za čisto vsako družabno 1–9 5 Brigita Ferčec in Niko Tratnik omrežje, v katerem nimajo vsi enakega števila prijateljev. Dejstvo, da je povprečno število prijateljev strogo manǰse od povprečja prijateljev od pri- jateljev, je razlog za nastanek omenjenega pojava, saj ima zaradi tega večina ljudi manj prijateljev kot povprečno njihovi prijatelji. Preden pa se lotimo strogega dokaza, poskušajmo zgornjo neenakost razložiti intuitivno. V ta namen zapǐsimo povprečje B nekoliko drugače. Ker ima Vid 3 prijatelje, ga bodo tudi trije omenili kot prijatelja in zato se bo v števcu števila B trikrat pojavilo število 3, torej 3 ·3 = 32. Podobno ima Rok 2 prijatelja, zato bosta tudi dva omenila število 2, ko bosta naštevala, koliko prijateljev imajo njuni prijatelji, in tako se bo v števcu pojavil člen 22. Podobno pa bo tudi Miha prispeval 22 in Marko 12. Tako je B = 32 + 22 + 22 + 12 8 . V povprečju B števila prijateljev pred seštevanjem še kvadriramo, s tem pa damo dodatno težo velikim številom, in zato je B > A. Povprečje B je torej obteženo povprečje z utežmi, ki so kar enake vrednostim, katerih povprečje računamo, saj velja B = 3 · 3 + 2 · 2 + 2 · 2 + 1 · 1 3 + 2 + 2 + 1 . Takoj opazimo še, da je v imenovalcu števila B vsota števila prijateljev vseh oseb (v našem primeru 1+3+2+2 – vsota števil v prvem stolpcu). Očitno bo to vedno res. Končno se lotimo še splošnega primera, ko imamo v družabnem omrežju n ljudi. Ugotovitev zapǐsimo kot izrek. Izrek 1. V poljubnem družabnem omrežju, v katerem nimajo vsi enakega števila prijateljev, označimo z A povprečno število prijateljev, z B pa pov- prečno število prijateljev od prijateljev. Potem velja 0 < A < B. Dokaz. Naj ima družabno omrežje n ljudi. Prvi naj ima x1 prijateljev, drugi x2 prijateljev in tako naprej vse do zadnjega, ki ima xn prijateljev. Povprečje prijateljev A v splošnem primeru zlahka izračunamo in dobimo A = x1 + x2 + · · ·+ xn n . S pomočjo že znanih razmislekov pa ugotovimo tudi, da je povprečno število prijateljev od prijateljev B = x1 2 + x2 2 + · · ·+ xn 2 x1 + x2 + · · ·+ xn . 6 Obzornik mat. fiz. 63 (2016) 1 Obtežena povprečja in paradoks prijateljstva Seveda je A > 0 in B > 0, saj je povprečje pozitivnih števil vedno pozitivno. Zapǐsimo naslednji račun. (x1 −A) 2 + (x2 −A) 2 + · · ·+ (xn −A) 2 n = = x1 2 + x2 2 + · · ·+ xn 2 n − 2A · x1 + x2 + · · ·+ xn n +A2 = = x1 2 + x2 2 + · · ·+ xn 2 n −A2. Če izraz (x1−A) 2+(x2−A)2+···+(xn−A)2 n , ki ga v statistiki imenujemo varianca, označimo z Var(x), dobimo x1 2 + x2 2 + · · ·+ xn 2 n = A2 +Var(x). To enakost delimo z A in dobimo B = A+ Var(x) A . Ker je vedno Var(x) ≥ 0 (in Var(x) = 0 samo tedaj, ko je x1 = x2 = · · · = xn), za vsako družabno omrežje, kjer nimajo vsi enakega števila prijateljev, velja A < B. Opazimo, da lahko paradoks prijateljstva formuliramo na dveh nivojih: za posameznika in za družabno omrežje. Paradoks prijateljstva za družabno omrežje smo zapisali v zgornjem izreku. Na nivoju posameznika pa para- doks velja, če ima posameznik manj prijateljev kot povprečno njegovi/njeni prijatelji. Omenili pa smo že, da na nivoju posameznikov paradoks velja za veliko večino članov omrežja. Seveda si lahko vsako družabno omrežje naravno predstavimo z grafom, kjer vozlǐsča grafa (točke) predstavljajo ljudi, pri tem pa sta dve vozlǐsči sosednji (to pomeni, da je med njima povezava), ko sta ustrezni osebi med seboj prijatelja. Graf družabnega omrežja, ki smo ga obravnavali prej, vi- dimo na sliki 2. Pri tem je očitno, da stopnja vozlǐsča (število sosedov vozlǐsča) pomeni število prijateljev ustrezne osebe. Paradoks prijateljstva v jeziku teorije grafov torej pove, da je povprečna stopnja vozlǐsč v grafu, v ka- terem nimajo vsa vozlǐsča iste stopnje, vedno manǰsa kot povprečna stopnja njihovih sosedov. Tudi raziskovalci, ki so proučevali Facebook, so opazovali lastnosti njegovega grafa. Ugotovili so na primer tudi, da kar 99,91 odstotka njegovih vozlǐsč (ljudi) pripada isti povezani komponenti. To pomeni, da lahko med temi za poljubna dva najdemo pot v grafu, ki ju povezuje. 1–9 7 Brigita Ferčec in Niko Tratnik Slika 2. Graf, ki prikazuje družabno omrežje s slike 1. Posplošeni paradoks prijateljstva Paradoks prijateljstva torej obravnava eno značilnost posameznikov, to je število njihovih prijateljev, oziroma stopnjo vozlǐsča v ustreznem grafu. Ven- dar pa imajo posamezniki tudi druge karakteristike, kot so na primer spol, starost, poklic ipd. Zato so v članku [1] paradoks prijateljstva posplošili tako, da ga lahko formuliramo za poljubno značilnost vozlǐsč, ki se da iz- raziti s številom. Kadar za značilnost izberemo stopnjo vozlǐsča, pa kot poseben primer dobimo paradoks prijateljstva. To posplošitev so poimeno- vali posplošeni paradoks prijateljstva. Nato so proučevali še mrežo znanstve- nih člankov in prǐsli do podobnih rezultatov kot pri običajnem paradoksu prijateljstva. Ugotovili so, da imajo na primer vaši soavtorji zelo verjetno več soavtorjev, več citatov in tudi več objav kot vi. Oglejmo si posplošeni paradoks prijateljstva bolj natančno. Vozlǐsča v grafu bodo označena z naravnimi števili, karakteristika voz- lǐsča i naj bo xi, njegova stopnja pa di. Posplošeni paradoks prijateljstva bomo zdaj obravnavali na nivoju posameznika in ne več na nivoju omrežja. Pravimo, da posplošeni paradoks prijateljstva velja za vozlǐsče i, če je izpol- njen naslednji pogoj: xi < ∑ j∈N(i) xj di , (1) kjer je N(i) množica vseh sosedov vozlǐsča i. Takoj opazimo, da če izbe- remo xi = di, posplošeni paradoks prijateljstva postane običajni paradoks prijateljstva. V nadaljevanju bomo na kratko pogledali verjetnost in statistiko v omrež- ju soavtorstev, kot so to naredili v članku [1]. V ta namen bomo s P (d, x) označili verjetnost, da vozlǐsče s stopnjo d in karakteristiko x zadošča enačbi (1). Seveda velja, da se pri fiksnem d z večanjem vrednosti x verjetnost P (d, x) manǰsa. Raziskovalci so proučevali dve informacijski bazi: Physical 8 Obzornik mat. fiz. 63 (2016) 1 Obtežena povprečja in paradoks prijateljstva Review journals (PR) in Google Scholar profile dataset of network scienti- sts (GS). Za vozlǐsča v grafu so vzeli vse avtorje, pri tem pa med dvema avtorjema obstaja povezava, če sta skupaj napisala kakšen članek. Omrežje PR je vsebovalo 242592 vozlǐsč, omrežje GS pa 29968. Pri tem so opazovali naslednje karakteristike vozlǐsč: število soavtorjev, število citatov, število objav in povprečno število citatov na objavo. Raziskovalci so podatke obdelali statistično, pri tem pa so med drugim računali, kolikšna je povprečna verjetnost H, da posplošeni paradoks prija- teljstva velja (pri tem so torej upoštevane vse verjetnosti P (d, x)). Ugotovili so, da je za vsako izmed proučevanih karakteristik ta verjetnost zelo velika, kar pomeni, da posplošeni paradoks prijateljstva velja za veliko večino vo- zlǐsč v omrežju. Na primer za število soavtorjev je ta verjetnost 0,934, za število citatov je 0,921, za število objav pa 0,912. Le za povprečno število citatov na objavo je ta verjetnost nekoliko manǰsa, in sicer 0,720. S tem so torej ugotovili, da kot pri običajnem paradoksu prijateljstva, tudi za druge karakteristike velja, da imajo pri veliki večini vozlǐsč manǰso vrednost kot pri njihovih sosedih. Uporaba v praksi Kot mnoge matematične ideje je tudi ta paradoks pripeljal do zanimivih praktičnih aplikacij. Nedavno je vzpodbudil sistem zgodnjega opozarja- nja za odkrivanje izbruhov nalezljivih bolezni. V študiji, ki so jo opravili na Harvardu v času pandemične gripe leta 2009, sta znanstvenika Nicholas Christakis in James Fowler spremljala status gripe v veliki skupini naključno izbranih študentov in njihovih prijateljev. Nenavadno, prijatelji so zboleli dva tedna pred naključno izbranimi študenti, domnevno zato, ker so bili na splošno bolj povezani znotraj družabne mreže, kar tudi pričakujemo iz para- doksa prijateljstva. V drugih okolǐsčinah je lahko dva tedna dolgo prehodno obdobje, kot je bilo to, zelo koristno, da organi za javno zdravje načrtujejo odziv na okužbe, preden le-te napadejo množice. LITERATURA [1] Young-Ho Eom, Hang-Hyun Jo, Generalized friendship paradox in complex networks: The case of scientific collaboration, Scientific Reports 4, 4603 (2014). [2] Scott L. Feld, Why your friends have more friends than you do?, American Journal of Sociology 96 6, (1991) 1464–1477. [3] J. Ugander et al., The Anatomy of the Facebook Social Graph, arXiv:1111.4503v1 (2011). [4] S. Strogatz, Friends You Can Count On, The New York Times (2012), http: //opinionator.blogs.nytimes.com/2012/09/17/friends-you-can-count-on/, ogled: 28. 1. 2016. [5] Friendship paradox, Wikipedia, https://en.wikipedia.org/wiki/Friendship_ paradox, ogled: 28. 1. 2016. 1–9 9