49 ZVEZNE BAYESOVE NEVRONSKE MREŽE INFORMATICA 2/91 Keywords: machine learning, artificial neural networks, artificial intelligence, naive Bayes, Hopfield's model Igor Kononenko Univerza v Ljubljani Fakulteta za elektrotehniko in računalništvo Tržaška 25, Ljubljana POVZETEK V prispevku je opisana posplošitev Bayesovih nevronskih mrež na zvezna stanja nevronov, analogno Hopfieldovi posplošitvi. Podane so posplošene prehodne funkcije in dokazana stabilnost izvajanja zvezne Bayesove nevronske mreže, ki temelji na verjetnosti in zvezne Bayesove nevronske mreže, ki temelji na razmerju verjetnosti. Opisane so prednosti zveznih Bayesovih nevronskih mrež pred diskretnimi. CONTINUOUS BAYESIAN NEURAL NETWORKS In the paper the Bayesian neural network model is generalized to continuous states of neurons, analogously to Hopfield's generalization. The generalized transition functions are given together with the proof of convergence of execution for the continuous Bayesian neural network based on probability and for the continuous Bayesian neural network based on probability ratio. The advai&ges of continuous Bayesian neural network models are discussed. 1 Uvod V (Kononenko 1990) so opisane diskretne Bayesove nevronske mreže, ki temeljijo na verjetnosti (BNM-p), in diskretne Bayesove nevronske mreže, ki temeljijo na razmerju verjetnosti (BNM-odds). Celotna kombinacijska funkcija za izračun novega stanja Sj in s tem izhoda nevrona v BNM-p je definirana z: — = • • • i $n)) (1) kjer je P{Sj\Si,... ,Sn) = = p (sj =. i) n p{sL7olll\71} (2) verjetnost, da je j-ti nevron aktiven, pri danih indeksih aktivnih nevronov in 1, če X>P{Sj = 1) Dj{X) = Sy, Se X = P{S}- = 1) (3) [o, če X < P(5y = 1) pragovna odločitvena funkcija. Pri tem so Si, i = 1..JV trenutna stanja vseh nevronov v mreži in P(S}- = 1) apriorna verjetnost aktivnega stanja j-tega nevrona. Če je izračunana verjetnost večja od apriorne verjetnosti, potem je novo stanje enako 1, če je enaka apriorni verjetnosti, potem se stanje nevrona ne spremeni, in če je izračunana verjetnost manjša od apriorne verjetnosti, potem 50 je novo stanje nevrona enako 0. Celotna kombinacijska funkcija za izračun novega stanja odds{S,- = 1) Dqf{X) = | Sit če X= odds(Sj = 1) [0, Ze X < odds(Sj = 1) (6) pragovna odločitvena funkcija. Pri tem so Siy i = 1..N trenutna stanja vseh nevronov v mreži in odds(Sj) apriorna verjetnost stanja 1 j-tega nevrona deljena z apriorno verjetnostjo nasprotnega stanja. Če je izračunano razmerje verjetnosti večje od apriornega razmerja, potem je novo stanje enako 1, če je enako apriornemu razmerju, potem se stanje nevrona ne spremeni, in če je izračunano razmerje verjetnosti manjše od apriornega, potem je novo stanje nevrona enako 0. Ker stanja BNM-p in BNM-odds lahko zavzemajo samo diskretni vrednosti 0 in 1, jim pravimo diskretni. V (Kononenko 1990) je dokazana stabilnost asinhronega izvajanja za obe vrsti mrež iz poljubnega začetnega stanja, z uporabo funkcij podobnosti odvisnih samo od stanja mreže. Le te z asinhronim izvajanjem monotono padajo. Ker je možnih stanj diskretne nevronske mreže končno mnogo, nam to garantira prihod v fiksno točko v končnem številu iteracij. Oglejmo si še enkrat funkciji podobnosti za BNM-p in BNM-odds. Naslednja funkcija definira podobnost med aktivacijskimi nivoji nevronov in njihovimi trenutnimi stanji v BNM-p: Sim(Si,..., Stf) = " ,iii m) (J Podobnost je večja, če je aktivacijski nivo (izračunana verjetnost, da je nevron aktiven) večji od apriorne verjetnosti, daje nevron aktiven in obratno. Za BNM-odds je funkcija podobnosti enaka, le da produkt teče preko vseh nevronov (ni pogoja 5,- = 1). V tem prispevku je podana generalizacija večsmernih BNM na zvezna stanja nevronov analogno Hopfieldovemu (1984) zveznemu modelu nevronske mreže. Namesto diskretnih stanj 0 in 1 je stanje nevrona v zvezni BNM predstavljeno z realno vrednostjo na intervalu [0,1]. Stanje nevrona bo proporcionalno verjetnosti, da je nevron trenutno aktiven. V naslednjem razdelku je na kratko opisan Hopfieldov zvezni model nevronske mreže. V nadaljnjih dveh razdelkih sta opisana zvezna modela večsmerne BNM-p in BNM-odds. V zadnjem razdelku prikazane prednosti in slabosti zveznih modelov. 2 Hopfieldov zvezni model nevronske mreže Hopfield (1984) za zvezni model uporablja isto topologijo kot pri diskretni nevronski mreži, t.j. vsak nevron je povezan z vsakim. Kombinacijska funkcija diskretnega modela je podana z enačbo (Hopfield 1982): E Tii + Ii = Y,SiTH + I: (8) V Hopfieldovem modelu so 2),- elementi spominske matrike, dobljene kot vsota zunanjih produktov učnih vzorcev, ki so popravljeni tako, da so vrednosti komponent 0 spremenjene v -1. Ij predstavlja konstanten vhod v j-ti nevron. Model BNM brez povratnih povezav (t ^ j) ustreza spominski matriki z ničelno diagonalo (Tu — 0 za vse i = 1... N). S{ ima lahko vrednosti 0 in 1 kot v originalnem Hopfieldovem modelu, čeprav učno pravilo Hopfieldovega modela uporablja vrednosti -1 in 1. 51 Kombinacijska funkcija zveznega Hopfield-ovega modela je analogna. Dinamika zveznega modela je opisana z naslednjima enačbama (Hopfield 1984): Ci du,- _ dt ».»V/ m Ri u,- + J, = --A (9) R}- si = 9jM (10) kjer je 5,- stanje oziroma izhod »-tega nevrona, ttj vhod (aktivacijski nivo) j-tega nevrona in I j, Rji C j konstante, g j je izhodna funkcija, ki definira relacijo med vhodom in izhodom, in je odvedljiva in sigmoidna z asimptotama 0 in 1. Iz enačbe (9) sledi, daje hitrost spremembe Uj proporcionalna razliki med trenutnim in novim Uj, izračunanim po enačbi (8). V originalni Hopfieldovi (1984) enačbi je izpuščen pogoj t j, ker za Hopfieldovo pravilo učenja velja, da so vsi Ta = 0. Stabilnost zveznega modela pokaže Hopfield tako, da definira "energijsko" funkcijo stanja sistema: i i (u) ki s časom monotono pada, ker velja: dE dt < 0 (12) in dE n w. dSj n 3 Zvezna Bayesova nevronska mreža, ki temelji na verjetnosti Informacijski prispevek t-tega nevrona za aktivnost j-tega nevrona je v diskretni BNM-p dobimo z logaritmiranjem enačbe (2) in je podan z logi • Bolj splošna definicija informacijskega prispevka je podana z Si X log2 P(Sj\Sj) P(Sj) kjer Si predstavlja trenutno stanje t-tega nevrona. Si lahko zavzema poljubno vrednost na intervalu [0,1] in ustreza verjetnosti, daje t-ti nevron aktiven. Posplošen logaritem enačbe (2) vsebuje vsoto po vseh nevronih in ne samo po aktivnih nevronih: -log2P{Sj\S1,...,SN) = -log2P(Sj)-Z^ixlog2^^j (13) Z antilogaritmiranjem dobimo kombinacijsko funkcijo zvezne BNM-p, ki je posplošena enačba (2): P{Sj\Su. -,SN) = P(Sj)*[[ Posplošitev pogojne verjetnosti P (Sj \ Si = 1), pri negotovi evidenci, da je 5,- = 1, je podana z Si X P[Sj\Si = 1) (Diara 1987). Ta posplošitev vodi do drugačne definicije enačbe (14), kjer lahko več nevronov predstavlja isti atribut. Enačba (14) je smiselna posplošitev, če se vplivi različnih nevronov, čeprav mogoče predstavljajo isti atribut, obravnavajo neod- visno. Če v enačbi (13) namesto —/og^-P^ISi, ..., Sjv) pišemo Aj, namesto —log2P{Sj) pišemo I j in namesto —log pišemo Tji, dobimo enačbo (8), t.j. kombinacijsko funkcijo Hopfieldovega modela. Zato lahko za opis dinamike zvezne BNM-p uporabimo enačbi (9) in (10). Dokaz stabilnosti je ekvivalenten Hopfieldovemu dokazu (glej razdelek 2). Posplošena funkcija podobnosti (7) na zvezna stanja je torej: 52 Mft.....^"np^)'5^)" (15) Če enačbo (16) logaritmiramo in namesto —/o<72odcfa(5y|5i,...,n) pišemo A}-, namesto —log2odds(S}-) pišemo 7y in namesto pišemo TjlY, dobimo: 4 Zvezna Bayesova nevronska mreža, ki temelji na razmerju verjetnosti Težo evidence stanja Si t-tega nevrona za aktivnost /-tega nevrona v diskretni BNM-odds dobimo z logaritmiranjem enačbe (5) in je podana z log2 ^odd»^^!) • splošna definicija teže evidence je podana z Si x log2 (1 - Si) x log2 odds(Sj = l|g,- = 1) odds(S}- = 1) + oddsjSj = 1| Sj = 0) odda{Sj = 1) kjer Si predstavlja trenutno stanje t-tega nevrona. 5,- lahko zavzema poljubno vrednost na intervalu [0,1] in ustreza verjetnosti, da je »-ti nevron v stanju 1 (oziroma 1 minus verjetnosti, da je nevron v stanju 0). Posplošena kombinacijska funkcija (5) za zvezne BNM-odds je sledeča: odds[Sj\Sit... ,Sjf) — = odds{S) = 1) II W lodds{Sj = l\Sj = l)yix odds(S}- - 1) ( oddsfà = l\Sj = 0)\ 1_5i V odds{Sj = 1) J (16) Ustrezna posplošena funkcija podobnosti je pri zvezni BNM-odds različna od funkcije podobnosti zvezne BNM-P: =n i Sim(Si,... ,Sn) = (P{S, = l\Su.~tSn)\a' y v m = 1) J ( p(S,=o) \P{Si = 0\Su...>Sn)J (17) A,- = (18) Če zgoraj definirani aktivacijski nivo nevrona Aj uporabimo v enačbi (9) dobimo enačbo za opis dinamike zvezne BNM-odds. Ker nova enačba ni enaka enačbi za zvezno BNM-P, dokaz stabilnosti ni tako očiten. Iz dokaza stabilnosti Hopfieldovega modela podanega v razdelku 2 je razvidno, da je za stabilnost pri enačbi (11) zadosten pogoj: dEi _ y- ( dsi A y dt dt, (19) Če v enačbi (1| uporabimo za E\ naslednji izraz: E,{SU..., 5//) = +lZE(SjSiT^ + Si(l-Si)T}?+ 1 i W (l-^^+a-^ii-^0) (20) potem je pogoj (19) izpolnjen, ker velja: dEx dt _ f dE\ dSj \ y [ds,- dt ) ■ ÇfiN (21) S tem je stabilnost zveznega modela BNM-odds dokazana. 53 5 Zaključki Bayesove nevronske mreže so lahko diskretne ali zvezne ter lahko temeljijo na verjetnosti ali na razmerju verjetnosti. Razlika med Hopfiel-dovim modelom in BNM je v učnem pravilu. Za učenje BNM zadošča osnovno Hebbovo pravilo (Hebb 1949), za katerega je precej nevrofiziološke evidence, da se po tem pravilu učijo biološki nevroni. Uteži na sinap-sah ustrezajo apriornim verjetnostim, da sta povezana nevrona aktivna. Hopfieldov model uporablja posplošeno Hebbovo pravilo. Uteži na sinapsah ustrezajo razliki med verjetnostjo, da sta povezana nevrona v istem stanju, in verjetnostjo, da sta povezana nevrona v različnem stanju. Zato uteži Hopfieldovega modela vsebujejo manj informacije kot uteži pri BNM. Kompleksnost učenja in izvajanja je pri obeh modelih enaka, po klasifikacijski pravilnosti pa BNM daleč presega Hopfieldov model (Kononenko 1990). Za opis stanja modela Hopfield uporablja energijsko funkcijo, ki je analogna funkciji podobnosti za opis stanja BNM. Logaritem funkcije podobnosti lahko interpretiramo kot entropijo ali informacijsko vsebino sistema. Iz tega sledi, da je fiksna točka stanje sistema z lokalno minimalno entropijo. Prednost zveznih BNM je v večji fleksibilnosti predstavitve znanja. Vhodni podatki so lahko "mehki" in nezanesljivi. Dani primer ima lahko več vrednosti za isti atribut, ki jim je možno določiti zaupanje. Tudi odgovor zvezne BNM je zato lahko bolj fleksibilen. BNM-P ima prednost pred BNM-odds, ker se lahko entropija direktno posploši na več kot dva disjunktna dogodka. BNM-P je zato bolj prožna in računsko manj zahtevna. BNM-odds je primerna samo za binarne atribute in razrede in je manj primerna za predstavitev manjkajočih podatkov. V diskretni BNM-odds je lahko manjkajoči podatek predstavljen z apriornim razmerjem verjetnosti (odds) samo med učenjem, medtem ko je v zvezni BNM-odds lahko predtavljen z apriornim razmerjem verjetnosti, tako med učenjem kot med izvajanjem. Interpretacija izvajanja BNM-P je bolj naravna (prispevek informacije v bitih) kot interpretacija BNM- odds (teža evidence). Po drugi strani pa BNM-odds potrebuje bistveno manj nevronov za predstavitev istega problemskega prostora kot BNM-P. Z nadaljnjimi raziskavami bo potrebno eksperimentalno testiranje zveznih BNM. Potrebno bo preveriti prednosti zveznih BNM na realnih problemih. Poleg bolj fleksibilne predstavitve znanja omogočajo zvezne BNM, z asinhronim izvajanjem, ki služi kot globalnainformacija, bolj zanesljivo delovanje. Namreč zaradi asinhronosti bodo nevroni, katerih spremembe stanj so bolj zanesljive, prej spremenili svoje stanje, kar bo vplivalo na spremembe stanj ostalih nevronov, preden le-ti uspejo spremeniti svoje stanje. Spremembe niso diskretne (torej niso drastične) ampak majhne z majhnimi vplivi in ne prehudimi posledicami. Reference Hebb, D.O. (1949) The Organization of Behavior. New York: Wiley. Hopfield J.J. (1982) Neural networks and physical systems with emergent collective computational abilities. Proc. of the National Academy of Sciences 79:2554-2558. Hopfield J.J. (1984) Neurons with graded response have collective computational properties like those of two-state neurons. Proc. of the National Academy of Sciences 81:4586-4590. Ihara J. (1987) Extension of conditional probability and measures of belief and disbelief in a hypothesis based on uncertain evidence. IEEE Trans, on Pattern Analysis and Machine Intelligence, Vol. PAMI-9, no.4, pp. 561-568. Kononenko, I. (1990) Bayesove umetne nevronske mreže, Informático, letnik 14, št. 3, str.72-86.