Andrej F. Gubina Borut Kozan Blaž Kladnik Tomi Medved MODELIRANJE ELEKTROENERGETSKEGA TRGA Z INTELIGENTNIMI AGENTI m o d e l i r a n j e elektroenergetskega trga z inteligentnimi agenti 1. izdaja av to r j i : Andrej Ferdo Gubina × Borut Kozan × Blaž Kladnik × Tomi Medved g l av n i urednik: Andrej Ferdo Gubina r ec e n z e n ta : Boštjan Slivnik × Robert Pašićko j e z i kov n i pregled: Nataša Pregl o b l i kova n j e in prelom: Urša Rogelj i lu s t r ac i j e in naslovnica: Urša Rogelj in vecteezy.com z a lož n i k : Založba Univerze v Ljubljani (University of Ljubljana Press) z a založbo: Gregor Majdič, rektor Univerze v Ljubljani i z da jat e l j : Založba Fakultete za elektrotehniko Univerze v Ljubljani z a izdajatelja: Gregor Dolinar, dekan Fakultete za elektrotehniko Univerze v Ljubljani t i s k : Založba Fakultete za elektrotehniko Univerze v Ljubljani n a k l a da : 200 k r a j in leto izdaje: Ljubljana, 2022 c e n a : 19,90 EUR To delo je ponujeno pod licenco Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna licenca. This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. Prva e-izdaja. Publikacija je v digitalni obliki prosto dostopna na https://ebooks.uni-lj.si/ d o i : 10.51935/9789617128437 c i p – kataložni zapis o publikaciji Narodna in univerzitetna knjižnica, Ljubljana t i s k a n a knjiga c o b i s s .s i -i d =108244739 i s b n : 978-961-7128-41-3 e -knjiga c o b i s s .s i -i d =108344579 i s b n : 978-961-7128-43-7 Modeliranje elektroenergetskega trga z inteligentnimi agenti Andrej F. Gubina, Borut Kozan, Blaž Kladnik, Tomi Medved Ljubljana, 2022 KAZALO VSEBINE // Predgovor 1 1 Uvod 3 1.1 Modeliranje in modeli 4 1.2 Agentno modeliranje 5 1.3 Prednosti agentnega modeliranja 5 1.3.1 AM za porajajoče se pojave 6 1.3.2 AM in naraven opis sistema 7 1.3.3 Prilagodljivost AM 8 1.3.4 Področja uporabe 8 1.4 Težave z AM 9 2 Trendi v energetiki 11 2.1 UvoD 12 2.2 Dekarbonizacija proizvodnje električne energije 12 2.2.1 Samooskrba 14 2.2.2 Elektrifikacija ogrevanja in hlajenja 14 2.2.3 Elektrifikacija transporta 15 2.3 Načrtovanje distribucijskih omrežij 16 2.3.1 Faktor istočasnosti 16 2.3.2 Faktor prekrivanja 17 2.3.3 Omejitve prenosnih zmogljivosti 18 2.3.4 Energetske skupnosti 20 3 Trg z električno energijo 21 3.1 UVOD 22 3.1.1 Splošno o elektroenergetskem trgu 22 3.1.2 Ponudbe proizvajalcev 25 3.1.3 Povpraševanje odjemalcev 26 3.1.4 Iskanje tržnega ravnovesja 27 3.2 Trgi z električno energijo 30 3.3 Elastičnost odjema 32 3.3.1 Izvajanje ukrepov DSM in elastičnost odjema 33 3.3.2 Oblikovanje povpraševanja pri elastičnem in neelastičnem odjemu 34 3.4 Prožnost 35 3.5 Lokalni trgi 38 4 Modeliranje trga z električno energijo 43 4.1 Uvod 44 4.2 Optimizacijski modeli 45 4.2.1 Privzeta cena električne energije 45 4.2.2 Cena električne energije kot funkcija odločanja podjetja 46 4.3 Ravnotežnostni modeli 47 4.3.1 Cournotova konkurenca 47 4.3.2 Ponudbe ravnotežnostne krivulje 48 4.4 Simulacijski modeli 49 4.4.1 Simulacijski ravnotežnostni modeli 49 4.4.2 Agentni modeli 49 5 Inteligentni agenti 51 5.1 Uvod 52 5.2 Agentno modeliranje 52 5.2.1 Agent in okolje 53 5.2.2 Lastnosti in zgradba agentov 55 5.2.3 Večagentni sistemi 57 5.3 Agentna orodja na elektroenergetskem trgu 61 6 Učenje agentov 65 6.1 Uvod 66 6.2 Okrepljeno učenje 66 6.3 Učenje z uteženim povprečjem 69 6.4 Q-učenje 70 6.5 SA-Q učenje in njegovo izboljšanje 73 6.5.1 Raziskovanje ali izraba znanja 74 6.5.2 Izboljšava SA-Q učenja 76 6.6 Posplošeno Q-učenje 83 7 Vloge agentov na elektroenergetskem trgu 87 7.1 Proizvajalec 88 7.1.1 Uvod 88 7.1.2 Ponudbene krivulje pri agentih proizvajalcih 89 7.2 Odjemalec 91 7.3 Agregator in dobavitelj 92 7.4 Organizator trga 93 7.5 Ostale vrste agentov 94 7.5.1 Informator 94 7.5.2 Trgovec 95 7.5.3 Regulator trga 95 7.5.4 Sistemski operater prenosnega in distribucijskega omrežja 95 8 Proizvajalec 97 8.1 Uvod 98 8.2 Učenje z uteženim povprečjem 98 8.2.1 Predstavitev 98 8.2.2 Primer učenja z uteženim povprečjem 102 8.3 SA-Q učenje 104 8.3.1 Predstavitev 104 8.3.2 Zgradba agenta 104 8.4 Ostali simulacijski parametri 109 8.4.1 Definicija Q-matrike 109 8.4.2 Vrednost spremenljivk pri SA-Q učenju 110 8.5 Primerjava učinkovitosti učenja 111 8.5.1 Uvod 111 8.5.2 Model z uteženim povprečjem 112 8.5.3 Primerjava tržne cene in dobička elektrarn 115 8.5.4 SA-Q učenje 117 8.5.5 SA-Q učenje v večjem sistemu 123 8.5.6 Primerjava učenja z uteženim povprečjem, SA-Q in SA-QI učenja 124 9 Odjemalec/dobavitelj 127 9.1 Uvod 128 9.2 Adaptivni agentni model 129 9.2.1 Enoagentni sistem 130 9.2.2 Večagentni sistem 130 9.2.3 Merjenje uspešnosti agentov odjemalcev 130 9.3 Zgradba agenta odjemalca 131 9.3.1 Stanja agenta odjemalca 132 9.3.2 Ukrepi agenta odjemalca 133 9.3.3 Iskalna tabela agenta odjemalca 134 9.3.4 Nagrada agenta odjemalca 135 9.3.5 SA-Q učenje agenta odjemalca 135 9.3.6 Normalizacija in denormalizacija parametrov 137 9.3.7 Diagram poteka za agenta odjemalca 138 9.4 Primer delovanja agenta odjemalca 139 9.4.1 Diagram poteka za heterogeni agentni sistem odjemalcev in proizvajalcev 140 10 Agregator 143 10.1 Uvod 144 10.2 Hierarhično vodenje distribucijskega sistema 145 10.3 Sistem semaforja (TLS) 151 10.3.1 Uvod 151 10.3.2 Enostavni TLS sistem 153 10.3.3 Napredni TLS sistem 154 10.3.4 Inteligentni sistem TLS 156 10.4 Vodenje agregatorjevega portfelja prožnosti 157 10.4.1 Uvod 157 10.4.2 Načrtovanje voznih redov PE glede na trg za dan vnaprej (DA) 160 10.4.3 Preverjanje voznih redov in aktivacije prožnih enot 161 10.4.4 Načrtovanje voznih redov PE glede na trg znotraj dneva in izravnalni trg 164 10.5 Algoritmi za vodenje prožnih enot 165 10.5.1 Ekonomska optimizacija 167 10.5.2 Energijska optimizacija 170 10.6 Izbira optimizacijskega kriterija 175 10.7 Izbira učnega algoritma agenta AO 177 10.8 Posplošeno Q-učenje (PQL) 178 10.8.1 Uvod 178 10.8.2 Uporaba PQL 179 10.8.3 Predpostavke 181 10.9 Učenje agenta s posplošenim Q-učenjem 181 10.10 Simulacijsko okolje 184 10.10.1 Testni sistem 184 10.10.2 Rezultati ekonomske in energijske optimizacije 186 10.10.3 Zelena premija 187 10.11 Rezultati posplošenega Q-učenja 188 10.12 Dvostopenjsko posplošeno Q-učenje 192 10.12.1 Izbira najboljše poti do konca dneva 192 10.12.2 Logistična regresija 195 10.12.3 Rezultati dvostopenjskega učenja agenta 197 10.12.4 Rezultati dvostopenjskega učenja agenta 197 10.12.5 Nadaljnji razvoj dvostopenjskega PQL učenja 202 // Sklep 203 // Literatura 205 Predgovor // 1 Naša družba se srečuje z mnogimi izzivi, ki jih pred nas postavljajo podnebne in socialne spremembe. Naš čas zaznamujejo tehnološki trendi, kot so nove tehnologije, internet stvari, računanje v oblaku, veriženje blokov in sprotno modeliranje, družbene spremembe pa se kot rezultat odražajo v ekonomiji, ekologiji, pa tudi v energetiki. Uvedba trgov z elektriko ob prelomu tisoč- letja je v panogi oskrbe z energijo s tradicionalno visokimi investicijami in dolgimi investicijskimi cikli povzročila revolucijo. Elektrika je postala tržno blago, trgi pa so v mnogočem spremenili strukturo in način oskrbe z energijo. Z razvojem informacijsko komunikacijskih tehnologij in hitro rastjo računske moči se razvijajo tudi tehnologije in koncepti vodenja elektroenergetskega sistema, kot so na primer pametna omrežja. Priča smo hitri rasti deleža proizvodnje elektrike iz obnovljivih virov, še posebej iz malih, razpršenih elektrarn, pa tudi baterijski hranilniki so vse bolj cenovno dostopni tudi gospo-dinjstvom. Govorimo o demokratizaciji oskrbe z energijo, o kateri se namesto na ravni države odloča potrošnik, ki lahko sam proizvaja energijo glede na svoje želje in potrebe in tudi aktivno sodeluje na trgu z elektriko. Končno je tehnologija dovolj zrela, da omogoča prožnost porabe, porazdeljeno proizvodnjo in hranjenje elektrike, pa tudi individualno in skupnostno samooskrbo potrošnikov, s čimer lahko v veliki meri postanejo energetsko samozadostni. Obvladovanje tega razvoja ter snovanje tržnih strategij akterjev v novih razmerah presegata analitične zmožnosti človeškega uma. Preplet trgov z vse krajšimi časovnimi koraki in obvladovanje tveganj na njih zahtevajo vse hitrejši odziv, optimizacije v večdimenzionalnem problemskem prostoru pa vedno bolj kompleksne modele. Tradicionalne metode modeliranja zdaleč ne za-doščajo več, zato analitiki uporabljajo nove metode, ki vključujejo strojno učenje in podatkovno rudarjenje. Umetna inteligenca omogoča pridobivanje znanja iz raznolikih informacij, ki izvirajo iz ogromnih podatkovnih množic. Razumevanju teh procesov je namenjena naša knjiga, ki prikazuje uporabo agentnega modeliranja kot enega najnaprednejših orodij umetne inteligence v konkretnih primerih. V nadaljevanju tako predstavljamo tehnike, ki so nam lahko v pomoč pri obvladovanju omenjenih izzivov. Knjiga obsega tri vsebinske sklope: v poglavjih 1–5 predstavljamo splošno agentno modeliranje, trg z elektriko in ostale trende v energetiki, in osnove modeliranja trga z elektriko. Poglavja 6–8 predstavljajo inteligentne agente, koncepte njihovega učenja in splošni pregled njihovih vlog na elektroenergetskem trgu. V tretjem delu pa gremo globlje in si podrobneje ogledamo agentne modele treh ključnih akterjev na trgu: proizvajalca, odjemalca/dobavitelja in agregatorja. 2 1 Uvod 01 3 1.1 MODELIRANJE IN MODELI Za boljše razumevanje procesov, ki se odvijajo v stvarnosti, lahko uporabimo modele, ki skušajo zajeti znanje in vedenje o procesu in omogočajo ustrezno analizo. Ker proces določajo odnosi med vhodnimi in izhodnimi podatki, lahko model lahko zajame proces ali sistem, v katerem proces poteka. Pomembno je, da zajame tudi modele podsistemov, njihove bistvene povezave in soodvisnosti. Vendar pa je zaradi obsežnosti velike sisteme težko zajeti, zato je pogosto treba uvesti ekvivalente za njihove posamezne dele. Z ekvivalenti delov sistema je mogoče zajeti njihove bistvene lastnosti, zato lahko posamezni parametri podsistema izostanejo. Za dodatno vklju- čitev pomembnega parametra ali elementa podsistema je seveda nujno model razširiti. S tem se zagotovi, da odziv celotnega sistema izpolni želene cilje, kar je mogoče doseči s preverjanjem pri različnih delovnih pogojih in začetnih stanjih. Za doseganje izbranih ciljev je pomemben dober izbor kriterija, ki je lahko enostaven ali pa sestavljen. Tudi z njim je mogoče preverjati kakovost izbranega modela. Kriterij poleg modela včasih lahko ponuja izbor določene metode, ki je ni vedno nujno izbrati, npr. zaradi trajanja izračunov ali želene natančnosti rezultatov. Dokončno oblikovani model obsega vrsto enačb in parametrov, ki dovolj učinkovito odražajo dinamiko procesa v različnih delovnih pogojih, na razpolago pa so tudi neparametrični modeli, ki lahko omogočijo zelo dobre rezultate pri izračunih obnašanja modela v različnih stanjih. Med neparametrične modele sodijo nevronska omrežja, metode mehkih množic, genetski algoritmi in agentni modeli, kar pa zadeva tudi izbiro metode izračuna odziva mvodela. Nekatere metode, kot npr. nevronska omrežja, zahtevajo učenje o obnašanju modela pod različnimi delovnimi pogoji, da lahko nudijo kakovostne rezultate. Modeli procesov v elektroenergetskem sistemu so lahko zelo obsežni, če pa se upoštevajo še pogoji obratovanja sistema pri upoštevanju trga z električno energijo z množico proizvajalcev, dobaviteljev in odjemalcev s svojimi različnimi potrebami, pa se model še dodatno širi. Pojavi se lahko tudi množica različnih kriterijev in ciljev. Množica udeležencev na trgu električne energije s svojimi različnimi cilji je še zlasti tista, ki zahteva primeren način obravnave, primerne kriterije in skrbno obravnavo rezultatov. Izkaže se, da je do ustreznega rezultata mnogokrat mogoče priti le s simulacijo različnih stanj sistema. 4 01 1.2 AGENTNO MODELIRANJE Agentno modeliranje (AM) je zmogljiva tehnika simulacijskega modeliranja, ki se v zadnjih letih pogosto uporablja tudi pri praktičnem modeliranju realnih procesov. Uporablja namreč računsko moč sodobnih računalnikov za simulacijsko raziskovanje dinamike procesov, ki jih zaradi kompleksnosti ni mogoče matematično ponazoriti. Agentni model sestavlja zbirka samostojnih osebkov, imenovanih agenti, ki so sposobni samo-stojnega odločanja. To poteka v diskretnih korakih, v katerih vsak agent oceni svoj položaj in na podlagi te ocene z uporabo sklopa pravil sprejme odločitve o naslednjem koraku. V modelu so definirana tudi njihova medsebojna razmerja. Agenti se lahko vedejo različno, skladno z vlogo, ki jo v sistemu igrajo, npr. proizvodnja, poraba ali prodaja. Značilno je ponavljajoče se sodelovanje med konkurenčnimi agenti. Že preprost agentni model lahko izkazuje zapletene vzorce vedenja in daje dragocene informacije o dinamiki realnega sistema, ki ga posnema. Poleg tega se agenti lahko razvijajo in tako omogočajo nepričakovano vedenje. Napreden agentni model lahko včasih vključuje nevronska omrežja, evolucijske algoritme ali druge učne tehnike, ki omogočajo realistično učenje in prilagajanje. Agentno modeliranje je priljubljeno, ker predstavlja za uporabo enostavno tehniko modeliranja, a čeprav je agentni model preprosto sprogramirati, koncepti pogosto niso preprosti in potrebujejo poglobljeno razumevanje. 1.3 PREDNOSTI AGENTNEGA MODELIRANJA Agentno modeliranje ima v primerjavi z drugimi tehnikami modeliranja tri poglavitne prednosti: tri poglavitne prednosti: sposobno je zajeti porajajoče se pojave (ang. Emergent Phenomena), omogoča uporabo naravnega opisa modeliranega sistema in je prilagodljivo. Pri tem je najpomembnejša prav sposobnost AM za obvladovanje porajajočih se pojavov. Pri tem je najpomembnejša prav sposobnost AM za obvladovanje porajajočih se pojavov. 5 1.3.1 AM ZA PORAJAJOČE SE POJAVE Porajajoči se pojavi so posledica medsebojnih odnosov posameznih enot v sistemu. Po definiciji porajajočega se pojava ni mogoče zreducirati in opazovati na delih sistema, saj je zaradi njihovega medsebojnega vpliva pojav kot celota večji kot vsota delnih pojavov. Porajajoči se pojav ima lahko lastnosti, ki so drugačne od lastnosti delnega pojava. Zastoj na cesti, ki je posledica vedenja posameznih voznikov in njihovega sovpliva, se lahko na primer giblje v nasprotni smeri od smeri gibanja avtomobilov, ki ga povzročajo. Porajajoče se pojave je zato težko razumeti, napovedovati in jih dojemati kot neintuitivne. AM po svoji naravi uporablja kanoničen način modeliranja porajajočih se pojavov: v AM se modelira in simulira vedenje sestavnih enot sistema, torej agentov, in njihove povezave, s čimer pri simulaciji zajema pojav od spodaj navzgor. Vedenje skupine je tak porajajoči se pojav. Otroške igre, kot sta npr. Gnilo jajce ali Kdo se boji črnega moža, kažejo, kako lahko preprosta pravila vodijo do urejenega vedenja skupine, kako lahko majhne spremembe v dinamiki močno vplivajo na vedenje skupine in kako težko je intuitivno sklepati na rezultate, ko sistemi presegajo sorazmerno nizko stopnjo zapletenosti. Če tako skupino oseb modeliramo s pomočjo preprostega modela, v katerem vsako osebo predstavlja avtonomni agent, je dejansko lahko napovedati porajajoče se obnašanje skupine. Čeprav se v tem preprostem primeru vedenje posameznika s časom ne spreminja, AM omogoča tudi modeliranje bolj zapletenih vedenj, vključno z učenjem in prilagajanjem. Agentni modeli so pogosto uporabni, ko je mogoče pričakovati porajajoče se pojave, npr. pri: — nelinearnem vedenju posameznika, ki ga lahko zaznamujejo pragovi, pravila »če-potem« ali nelinearno povezovanje. Diferencialne enačbe tako vedenje težko opišejo, saj poleg nelinearnosti vsebujejo tudi nezveznosti. — Posameznem vedenju, ki kaže spomin, odvisnost od izbrane poti, histerezo, ne-Markovo vedenje ali časovne korelacije, vključno z učenjem in prilagajanjem. — Raznolikem sodelovanju agentov, ki lahko povzroči omrežne učinke. Enačbe agregatnega toka običajno predvidevajo globalno homogeno mešanje, vendar lahko topologija sodelujočega omrežja privede do pomembnih odstopanj od predvidenega agregatnega vedenja. — Pojavih, pri katerih povprečenja ne moremo uporabiti. Agregirane diferencialne enačbe navadno gladijo nihanja, AM pa tega ne stori. To je pomembno, ker se pod določenimi pogoji nihanja lahko ojačajo, ne oslabijo: sistem je npr. stabilen v linearnem območju okrog delovne točke, a postane nestabilen pri večjih motnjah. 6 01 Ker AM ustvarja porajajoče se pojave od spodaj navzgor, se zastavlja vprašanje, kako lahko razlo- žimo tak pojav. AM skupnost zagovarja nov način modeliranja družbenih, tehniških in tehnolo- ških pojavov, vendar ne s tradicionalnega vidika modeliranja, ampak z vidika popolne redefinicije znanstvenega procesa. AM spreminja način pojmovanja razlage v družbenih vedah. Pri razlagi opazovanega družbenega tehniškega ali tehnološkega pojava nastane vprašanje, kako ga razložiti ali včasih celo, kako ga ustvariti. 1.3.2 AM IN NARAVEN OPIS SISTEMA AM je pogosto najbolj primeren za opis in simulacijo zapletenega sistema, sestavljenega iz »ve-denjskih« entitet. AM se približa realnosti ne glede na to, ali poskuša opisati prometni zastoj, borzo, volivce ali delovanje organizacije. Z AM je lažje in naravneje opisati npr. gibanje kupcev v supermarketu, kot pa dinamiko številnih kupcev zajeti z enačbami. Enačbe namreč izhajajo iz vedenja kupcev, AM pa bo uporabniku omogočil tudi preučevanje njihovih združenih lastnosti. AM omogoča tudi polno izrabo potenciala podatkov, ki jih ima o svojih strankah, saj npr. rezultati anket in podatki o nakupih s kartic zvestobe podajajo informacije o dejanskem obnašanju resničnih ljudi. Poznavanje dejanske nakupovalne košarice kupca omogoča ustvarjanje navideznega agenta s to nakupovalno košarico namesto modeliranja množice ljudi s sintetično nakupovalno košarico in omogoča izračun npr. na podlagi povprečnih nakupovalnih podatkov. AM je primerno uporabiti, če se sistem opisuje z vidika dejavnosti njegovih sestavnih enot, kadar: — obnašanja posameznikov ni mogoče jasno opredeliti s povprečnimi vrednostmi; — je obnašanje posameznika zapleteno in je mogoče vse opisati z enačbami, kompleksnost diferencialnih enačb pa eksponentno raste s kompleksnostjo vedenja. Opisovanje zapletenega vedenja posameznika z enačbami lahko hitro postane nerešljivo; — so dejavnosti bolj naraven način opisa sistema kot procesi; — sta potrjevanje in umerjanje modela s strokovno presojo ključnega pomena. AM je pogosto najprimernejši način za opis dejanskega dogajanja v resničnem svetu, strokovnjaki pa se zlahka »povežejo« z modelom in ga »posvojijo«; — je za opis sistema pomembno, da se agenti lahko vedejo stohastično. Z AM se naključni procesi kot viri negotovosti uporabljajo točno na ustreznih mestih, v nasprotju s šumom, ki se v agregirani enačbi lahko dodaja bolj ali manj poljubno. 7 1.3.3 PRILAGODLJIVOST AM Prilagodljivost AM je mogoče opazovati v več dimenzijah. Enostavno je npr. dodati več agentov v agentni model. AM ponuja tudi naravni okvir za uravnavanje zapletenosti dejavnikov: spreminjajo se lahko njegovo vedenje, stopnja racionalnosti, sposobnost učenja in razvijanja ter pravila povezovanja. Prilagodljivost AM se kaže tudi v sposobnosti sprememb ravni opisa in združevanja: posamezne agente, združene nadomestne agente, podskupine agentov in njihove različne kombinacije je mogoče enostavno uporabiti v enem modelu. AM je uporabno tudi, ko ustrezna raven opisa ali zapletenosti procesa ni vnaprej znana in če je za to potrebno nekaj razmisleka in izkušenj. 1.3.4 PODROČJA UPORABE Številni primeri porajajočih se pojavov nastopajo v družbenih, političnih in ekonomskih znano-stih. Postopoma se v znanosti uveljavljajo ugotovitve, da je nekatere pojave težko napovedati ali razložiti. V poslovnem okviru lahko takšne razmere nastopijo na štirih področjih: 1. pretoki: evakuacija, promet in upravljanje pretoka strank. 2. tržna dinamika: borza, trgovski roboti, programski agenti in strateška simulacija; 3. organizacije: simulacija operativnega tveganja in organizacijske zasnove; 4. difuzija: difuzija inovacij in dinamika sprejemanja. Uporaba družbene simulacije v poslovnem kontekstu je prav tako lahko zelo koristna. Vse jasneje postaja, da je AM lahko zelo koristen, če se uporablja za človeške sisteme, in sicer: — če so povezave med agenti zapletene, nelinearne, nezvezne ali diskretne, npr. kadar lahko vedenje agenta dramatično ali celo nezvezno spremenijo drugi agenti; — če je prostor omejen in položaji agentov niso fiksni, npr. požarne stopnice, tematski park, supermarket, promet; — če je populacija heterogena, ko je vsak posameznik drugačen, kar velja skoraj vedno; — če je topologija odnosov heterogena in zapletena. Če so namreč odnosi homogeni, ni potrebe po agentni simulaciji: družbena omrežja so redko homogena, saj imajo značilne gruče ali skupine, katerih vedenja odstopajo od povprečja; — kadar se agenti obnašajo zapleteno, vključno z učenjem in prilagajanjem, npr. borzni indeks NASDAQ, ponudniki internetnih storitev idr. 8 01 1.4 TEŽAVE Z AM Pri uporabi AM v družbenih, političnih in ekonomskih vedah obstaja nekaj težav. Skupna te- žava vseh tehnik modeliranja je, da mora model služiti svojemu namenu, zato nikoli ni mogoče uporabiti kar splošnega modela. Zajeti mora ravno dovolj podroben opis problema, da še zadošča svojemu namenu, kar še vedno ostaja umetnost. Druga težava je povezana z naravo sistemov, ki se jih z AM modelira v družbenih vedah: člo-veški agenti v modelih se lahko vedejo iracionalno, se odločajo subjektivno in imajo zapleteno psihologijo. Te mehke dejavnike je težko izmeriti, umeriti in včasih celo utemeljiti. Čeprav to pogosto predstavlja glavni vir težav pri razlagi rezultatov simulacij, je AM v večini primerov preprosto edini ustrezni način za obravnavo teh stanj. Treba je biti previden pri uporabi AM, saj ni mogoče sprejemati odločitev na podlagi kvantitativnih rezultatov simulacij, ki bi jih razlagali zgolj kvalitativno. Čeprav se v literaturi začenjajo pojavljati rešitve, ki združujejo tehnike agentnega modeliranja in optimizacije, še vedno ne upoštevajo vedenjske, socialne in organizacijske dinamike, ki bi lahko obstajala v okolju skupnosti. Prav tako so v znanstveni literaturi še vedno redki modeli, v katerih agenti igrajo različne vloge in imajo različne želje in nasprotujoče si cilje, medtem ko sobivajo v istem sistemu. Zadnje večje vprašanje za AM je praktične narave, ker po definiciji ne obravnava sistema kot celote, temveč na ravni njegovih sestavnih enot. Čeprav bi celovit sistem morda lahko opisali le z nekaj enačbami, opis nižje stopnje zahteva opis vedenja potencialno številnih sestavnih enot sistema. Taka simulacija vedenja vseh enot je lahko računsko zelo zahtevna in zato dolgotrajna. Čeprav se računalniška moč še vedno povečuje z izjemno hitrostjo, visoke računske zahteve AM ostajajo težava pri modeliranju velikih sistemov. 9 10 2 Trendi v energetiki 02 11 2.1 UVOD Današnje okolje se sooča z globalnim segrevanjem, ki je v veliki meri posledica izpustov toplogrednih plinov. Ti nastajajo ob zgorevanju fosilnih goriv za zadostitev energetskih potreb, ki naraščajo zaradi večanja števila prebivalstva, razvoja tehnologije in digitalizacije družbe. Po energetskem načrtu 2050 naj bi skupina držav EU zmanjšala emisije toplogrednih plinov na 80 do 95 % ravni iz leta 1990, dolgoročni cilj pa je seveda popolna dekarbonizacija energetike in 100 % proizvodnja energije iz obnovljivih virov energije (OVE) [126]. Električna energija je univerzalen vir energije, saj lahko nadomesti vse ostale vire, ki se trenutno uporabljajo pri pridobivanju toplote ali mehanske energije, vključno s transportom. Univerzal-nost elektrike je glavni razlog za dejstvo, da se dekarbonizacija družbe tako pogosto povezuje s proizvodnjo električne energije. Brez uporabe fosilnih goriv se električno energijo lahko proizvede na različne načine – od izkoriščanja energije sonca, vetra, morja (valov, plima-oseka), geo-termalne energije in biomase do jedrske energije, s čimer se lahko pomembno zmanjša količine izpustov toplogrednih plinov. 2.2 DEKARBONIZACIJA PROIZVODNJE ELEKTRIČNE ENERGIJE Rezultat spodbujevalnih politik EU za OVE je veliko povečanje proizvodnje elektrike iu obnovljivih virov, predvsem s proizvodnjo iz vetra in sončnih elektrarn (PV), kar so države spodbujale z različnimi subvencijami [40]. Zaradi večjih inštaliranih moči posamezne vetrnice, ki lahko znaša od 0,5 MW do preko 12 MW, je večina vetrnih elektrarn na kopnem ali na morju (te imajo lahko tudi po več sto vetrnic) priključenih na prenosno omrežje visokih napetosti, npr. 400 ali 110 kV. Takšno omrežje ima načeloma zadostne prenosne zmogljivosti, vendar so se ob večanju števila vetrnih elektrarn tudi na prenosnem omrežju začele pojavljati zamašitve prenosnih vodov, posledično pa je prišlo do omejevanja proizvodnje ter celo do izklopov vetrnih elektrarn [19]. Povečana spremenljiva proizvodnja sončne in vetrne energije hkrati prinaša nove izzive pri izravnavanju energetskega siste-12 02 ma za sistemske operaterje prenosnega omrežja v EU ter sproža potrebo po razvoju kratkoročnih izravnalnih trgov in platform, ki bi omogočili čezmejno trgovanje s sistemskimi storitvami [110]. Vključevanje manjših enot OVE v elektroenergetski sistem (EES) je izziv zlasti za sistemske operaterje distribucijskih omrežij (DSO), saj je več kot 90 % vseh novih, manjših in razpršenih enot OVE priključenih na distribucijsko omrežje [57]. Večino teh enot predstavljajo enote PV, ki imajo precej manjšo moč kot vetrne in se priključujejo na nizkonapetostno distribucijsko omrežje. Današnja distribucijska omrežja v preteklosti niso bila načrtovana in grajena za vključevanje proizvodnje na radialne vode, zato DSO-ji omrežja tradicionalno ne vodijo aktivno, kot je potrebno ob vključevanju spremenljive proizvodnje OVE v njihov sistem vodenja. Vključevanje PV v nizkonapetostna distribucijska omrežja je tako omejeno zaradi težav s kakovostjo napetosti, zlasti ko prihaja do prenapetosti in neuravnotežene obremenitve med fazami, ki lahko nastanejo kot posledica velike količine proizvodnje razpršenih enot PV. ) 250 250 250 250 250 250 300 Število PV 250 ana moč (MW 250 talir 200 Inš 150 250 100 250 50 0 Leto 2010 2011 2012 2013 2014 2015 2016 2017 2018 Slika 2.1: Potek razvoja inštalirane moči in števila PV v Sloveniji V Sloveniji smo bili v letih 2007–2013 priča t.i. »investicijskemu PV balonu«, ki je nastal kot posledica ugodnih subvencij za OVE. V tem obdobju se je moč inštaliranih PV v Sloveniji pove- čala s približno 1 MW na 255 MW [22], s spremembo subvencij pa se je rast ustavila in obdobje v letih 2014–2018 bi lahko imenovali »sončni mrk«, saj je bilo takrat inštaliranih samo 5 MW novih sončnih elektrarn, slika 2.1. 13 2.2.1 SAMOOSKRBA Podoben razvoj PV kot v Sloveniji je imela tudi večina drugih EU držav. Za ponovno obuditev razvoja PV in doseganje zadanih ciljev OVE so države uvedle nove oblike subvencioniranja, med drugim tudi sistem neto merjenja porabe elektrike (ang. Net Metering), ki je podlaga za samooskrbo z elektriko. Odjemalec s samooskrbo po principu neto merjenja porabe na koncu obračun-skega obdobja plača samo razliko med porabljeno in proizvedeno električno energijo. Če je bila proizvodnja večja od odjema v danem časovnem obdobju, odjemalec plača samo del stroškov za omrežnino, ki vključujejo strošek obračunske moči in strošek prispevka OVE + SPTE, tj. soproi-zvodnja elektrike in toplote z nadpovprečnim izkoristkom, katerih višina je vezana na priključno moč odjemalca. Če pa proizvodnja iz OVE ne pokrije odjema, mora odjemalec doplačati razliko. Slovenija je že leta 2015 sprejela Uredbo o samooskrbi z električno energijo iz obnovljivih virov energije [128], ki je omogočila dogovor med dobaviteljem energije in odjemalcem – lastnikom male enote OVE, da se proizvedena energija iz te enote OVE poravna s prevzeto električno energijo v obračunskem obdobju enega leta. Uredba je bila dopolnjena marca 2019, ključne no-vosti pa se nanašajo na pravice do samooskrbe večstanovanjskih hiš, poslovnih stavb in energetskih skupnosti [127]. Pomembna novost je tudi nova definicija največje priključne moči enote OVE, ki jo omejuje z 0,8-kratnikom priključne moči (v kWh) odjema merilnega mesta. 2.2.2 ELEKTRIFIKACIJA OGREVANJA IN HLAJENJA Energija za ogrevanje in hlajenje predstavlja polovico vse porabljene energije v EU, vendar le 18 % te energije prihaja iz OVE. Za ogrevanje se trenutno porabi 68 % celotnega uvoza plina v EU, zato je EU leta 2016 pripravila posebno strategijo za ogrevanje in hlajenje, v kateri so opisani različni ukrepi za spodbudo inovacij in razvoja bolj učinkovitega gretja in hlajenja [42]. Eden od ukrepov je tudi povečanje števila energijsko učinkovitih toplotnih črpalk, saj trend rasti trga toplotnih črpalk traja že štiri leta zapored z več kot 10 % povečanjem na leto. V Evropskem združenju proizvajalcev toplotnih črpalk (EHPA) predvidevajo, da se bo ta rast najverjetneje nadaljevala in da je pričakovati podvojitev obsega evropskega trga toplotnih črpalk do leta 2024. Po podatkih Ministrstva za infrastrukturo in Ministrstva za javno upravo v Sloveniji za ogrevanje stavb porabimo približno tretjino vse porabljene energije. V gospodinjstvih poraba energije za gretje in hlajenje predstavlja 86,2 % celotne porabe energije gospodinjstva [86]. Ocenjeni tržni potencial toplotnih črpalk in trendi stanovanjskih gradenj za Slovenijo kažejo na veliko prilož- nosti za nameščanje toplotnih črpalk [28]. Po podatkih Geodetske uprave Republike Slovenije 14 02 je približno 523.000 hiš, večinoma zgrajenih v času socializma po letu 1945, predimenzioniranih in s slabšo izolacijo, zato bi nameščanje toplotnih črpalk omogočalo dodatne prihranke [28]. Vgradnja toplotnih črpalk se večinoma izvaja v novogradnjah ali ob prenovi starih hiš, ki dobijo nove lastnike. Slovenija spodbuja energetsko učinkovite ukrepe tudi s subvencijami Eko sklada, ki jih prikazuje tabela 2.1. Trend rasti investicij v toplotne črpalke v zadnjih letih se ujema s svetovnimi napovedmi [86]. Tabela 2.1: Število naložb v toplotne črpalke 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 žb e 83 331 3165 5164 5439 3768 2365 3191 3724 5140 črpalk Št. nalo tne v toplo Vsekakor je pričakovati, da se bo z ozaveščanjem ljudi o energetski učinkovitosti in ob narašča-jočih stroških ogrevanja iz fosilnih virov trend vgrajevanja toplotnih črpalk nadaljeval. 2.2.3 ELEKTRIFIKACIJA TRANSPORTA Elektrifikacija transporta, e-mobilnost, v zadnjih letih doživlja zelo velik napredek in že skoraj vsi večji svetovni proizvajalci avtomobilov imajo v načrtih tudi prehod na elektriko. Slovenija je že izdelala Strategijo na področju razvoja trga za vzpostavitev ustrezne infrastrukture v zvezi z alternativnimi gorivi v prometu [126]. Ključna cilja strategije sta: — od leta 2025 dalje bo v Sloveniji omejena prva registracija osebnih vozil in lahkih tovornih vozil (kategorij M1, MG1 in N1), katerih skupni ogljični odtis po deklaraciji proizvajalca je večji od 100 g CO na km; 2 — po letu 2030 prva registracija avtomobilov z notranjim izgorevanjem na bencin ali dizel s skupnim ogljičnim odtisom avtomobila nad 50 g CO na km ne bo več dovoljena. 2 Za zadostitev potreb po polnjenju električnih in hibridnih vozil bo treba povečati tudi število polnilnic tako na avtocestah kot tudi v preostalih bolj urbanih delih države. Slovenija je bila med prvimi v Evropi, ki je na svojem avtocestnem križu v sklopu razvoja omrežja hitrih polnilnic EU TEN-T postavila e-polnilnice visokih moči [25]. Zelo pomemben je tudi enostaven 15 dostop do polnjenja avta. Republika Slovenija predvideva, da bo za notranji promet leta 2030 treba postaviti 22.300 polnilnic običajne moči [126], to pa zahteva bistveno okrepitev distribucijskega omrežja in proizvodnje elektrike. 2.3 NAČRTOVANJE DISTRIBUCIJSKIH OMREŽIJ Današnja elektroenergetska omrežja v EU so bila večinoma zgrajena v elektrifikaciji in obnovi po drugi svetovni vojni. Elektroenergetski sistem je več kot 100 let prenašal elektriko od velikih elektrarn po prenosnem in distribucijskem omrežju do končnega uporabnika. Postopek načrtovanja omrežij ima tehnični in ekonomski del [72]. Pri tehničnem delu se na podlagi tehničnih analiz in simulacij omrežja preveri, ali omrežje zadostuje tehničnim kriterijem načrtovanega omrežja. Pri izvedbi simulacij v sklopu analiz se upoštevajo različni vhodni podatki, kot so npr. geografska lega s prostorskimi omejitvami, gospodarski razvoj, napoved obremenitev in statistika izpadov. Kakovost električne energije, ki jo je DSO dolžan zagotavljati odjemalcu, je določena s standardom SIST EN 50160 [72], ki opredeljuje vrednosti parametrov, kot so: — odkloni napajalne napetosti, — odstopanje omrežne frekvence, — jakost flikerja (migotanje), — harmonske napetosti in — neravnotežje napajalne napetosti. Pri dimenzioniranju omrežja sta zelo pomembna dva faktorja, faktor istočasnosti in faktor prekrivanja, ki definirata načrtovano maksimalno moč omrežja [72], [11]. 2.3.1 FAKTOR ISTOČASNOSTI Diagram porabe posameznega odjemalca je odvisen od različnih parametrov, kot so na primer število ljudi v gospodinjstvu, dan v tednu in število naprav. V času največje izgradnje omrežja okoli leta 1980 je bilo tipično gospodinjstvo opremljeno s povprečno tremi napravami, danes pa ima okoli 25 naprav [86]. 16 02 Konična poraba odjemalca nikoli ne doseže vsote inštaliranih moči vseh naprav, saj nikoli niso vse naprave vključene istočasno. Pri načrtovanju omrežja je v pomoč faktor istočasnosti fi, ki pove, za koliko je inštalirana moč večja od konične porabe: (2.1) 𝑃��� predstavlja maksimalno moč odjema oz. konico, 𝑃� pa inštalirano moč odjemalca. Bližje kot je f� vrednosti 1, manj »rezerve« ima odjemalec pri vključevanju dodatnih naprav, zato se približuje nevarnosti presega inštalirane moči in izklopa zaradi delovanja zaščite. Povprečni faktor istočasnosti za več uporabnikov lahko zapišemo kot: (2.2) kjer je fi� faktor istočasnosti enega odjemalca j, n pa število vseh odjemalcev na izvodu. Najbližje skupni inštalirani moči so mestna naselja hiš in podeželske hiše. Na teh področjih so tudi najbolj verjetne lokacije za namestitev toplotnih črpalk in hišnih polnilnic za električne avtomobile, ki bi faktor istočasnosti še bolj približal inštalirani moči. 2.3.2 FAKTOR PREKRIVANJA Obremenitev vodov in transformatorja je enaka vsoti moči vseh odjemalcev, ki so priključeni vzdolž voda. Obremenitveni diagrami posameznih odjemalcev so si lahko bolj ali manj podobni in so med seboj časovno zamaknjeni. Čim večje je število odjemalcev, bolj je obremenitveni diagram izravnan. Pri načrtovanju omrežja se tako uporablja tudi faktor prekrivanja, ki podaja razmerje med maksimalno močjo posameznega gospodinjskega odjemalca v posameznem intervalu z vsoto maksimalnih moči vseh odjemalcev na tem vodu: (2.3) 𝑃���� predstavlja moč odjemalca z največjim odjemom, Σ�j₌₁ 𝑃� pa vsoto moči j odjemalcev v izbranem intervalu. Faktor prekrivanja za daljše obdobje se izračuna po enačbi (2.4): 17 (2.4) kjer je fp� faktor prekrivanja posameznega časovnega intervala odjema za j odjemalcev, n pa predstavlja število časovnih intervalov. Pri projektiranju se je pri velikem delu omrežja za faktor prekrivanja uporabljalo spodnjo enačbo [101]: (2.5) Tu n predstavlja število odjemalcev na izvodu, fp� pa faktor prekrivanja za neskončno število odjemalcev glede na njihovo elektrificiranost. Po takratnih standardih je bila pri projektiranju po uporabi faktorja istočasnosti in prekrivanja upoštevana moč ene hiše okoli 2 kW. Zato danes nastajajo problemi vključevanja novih tehnologij, saj je omrežje poddimenzionirano in prihaja do nekakovosti napajanja, predvsem s pod- in prenapetostnimi problemi. Faktorja istočasnosti in prekrivanja se še posebej povečujeta pri fotonapetostnih virih (PV), saj sonce sije ob istem času na isti geografski lokaciji s skoraj enako močjo na vse PV-panele, hkrati pa se faktorji istočasnosti in prekrivanja povečujejo tudi zaradi vse večjega vključevanja toplotnih črpalk in klimatskih naprav. Danes se nova omrežja projek-tirajo na podlagi novih zahtev. Za eno hišo upoštevajo okoli 8 kW moči, kar je kar štirikrat več kot v preteklosti. 2.3.3 OMEJITVE PRENOSNIH ZMOGLJIVOSTI V Evropi je pravica do elektrike splošna dobrina. Zmogljivost distribucijskega omrežja se zato regulira kot javna dobrina, ki jo odlikujeta dve lastnosti [63]: — ni rivalstva: uporaba te dobrine s strani enega uporabnika ne zmanjša možnosti in količine uporabe iste dobrine s strani drugega uporabnika; — ni izključevanja: vsi uporabniki morajo imeti dostop do te dobrine. S povečanjem števila OVE, toplotnih črpalk in električnih avtomobilov bodo distribucijska omrežja vse bolj obremenjena. Zamašitve lahko opredelimo kot stanje, v katerem se vsi fizični tokovi energije, ki nastanejo kot posledica trgovine med udeleženci na trgu z istega območja ne morejo prenesti po omrežju [61]. Tako bodo v določenih trenutkih in na določenih lokacijah dobavitelji tekmovali med seboj za uporabo prenosnih zmogljivosti distribucijskih omrežij, medtem 18 02 ko bo dostop do omrežja ostal neomejen. Ti dve značilnosti začasno zmanjšujeta prenosno zmogljivost distribucijskega omrežja iz javne dobrine v dobrino skupnega vira, saj se pojavi rivalstvo za prenosne zmogljivosti. Lastnosti skupnega vira so: — obstaja rivalstvo: uporaba te dobrine s strani enega uporabnika zmanjša možnost in količino uporabe iste dobrine s strani drugega uporabnika; — ni izključevanja: vsi uporabniki morajo imeti dostop do te dobrine. Slika 2.2 prikazuje dobrine glede na dosegljivost vira in zalogo vrednosti, ki pogojuje rivalstvo. je ni rivalstvo rivalstva ni Privatne Naravni izključevanja dobrine monopol je Skupni Javna izključevanje vir dobrina Slika 2.2: Primerjave dobrin glede na lastnosti [66] Dobrine skupnega vira so nagnjene k t.i. »tragediji skupnih dobrin« [58] (ang. Tragedy of Commons), ki napoveduje, da bo dobrina prekomerno rabljena, če velja: — razpoložljivost dobrine je omejena, — dostop do dobrine ni omejen, — povpraševanje je večje od ponudbe in — vsak posameznik maksimira svojo osebno korist, ne da bi upošteval katere koli zunanje učinke, ki jih povzroča. Glede na trenutni razvoj tehnologij in preteklega načrtovanja distribucijskih omrežij je zelo verjetno, da se bodo v prihodnosti pojavili vsi štirje pogoji za »tragedijo skupnih dobrin«, povezano s prenosno zmogljivostjo distribucijskih omrežij. Če pride do prekomerne uporabe, to lahko povzroči nestabilnost omrežja in izpade električne energije, zmanjšanje zanesljivosti oskrbe ter ekonomske izgube. 19 Poraja se vprašanje, kako učinkovito upravljati dobrine skupnega vira? Ekonomska teorija ponuja tri splošne načine [94], [122] in vsak od njih ima drugačno osrednjo upravljavsko idejo: — vladno ureditev, — privatizacijo in nadaljnje upravljanje s strani zasebnih podjetij in — samoupravljanje s strani skupnosti. Trenutne prenosne zmogljivosti distribucijskih omrežij danes upravljajo distribucijska podjetja z redkimi izjemami privatnih industrijskih omrežij (Petrol – Ravne na Koroškem). Težave z zamašitvami večinoma rešujejo v smeri ojačitve omrežja in povečanja prenosnih zmogljivosti, kar pa je zelo drago in ponekod celo neizvedljivo zaradi ostalih infrastrukturnih objektov, npr. v mestih. Rešitev se kaže predvsem v t.i. pametnih ali naprednih omrežjih (ang. Smart Grids). 2.3.4 ENERGETSKE SKUPNOSTI Eden od načinov vodenja dobrine skupnega vira pri omejenih distribucijskih prenosnih zmogljivostih se kaže v modelu samoupravljanja s strani skupnosti [18]. To idejo podpira tudi EU, ki je v sklopu zadnjega energetskega paketa (Čista energija za vse Evropejce [39]) definirala energetske skupnosti in jih označila za enega pomembnih gradnikov pri razvoju energetskega sistema prihodnosti [45]. 20 3 Trg z električno energijo 03 21 To poglavje na kratko predstavlja elektroenergetski trg ter sodelovanje proizvajalcev in odjemalcev na trgu. Na njem je pomembno predvsem iskanje tržnega ravnovesja, ki določa tržne cene električne energije, sem pa sodita tudi elastičnost odjema in natančnejša predstavitev različnih modelov za elastično povpraševanje odjemalcev na trgu električne energije. 3.1 UVOD 3.1.1 SPLOŠNO O ELEKTROENERGETSKEM TRGU Eden od ciljev deregulacije elektroenergetske industrije je bil tržnim mehanizmom omogočiti večjo vlogo na področju obratovanja in načrtovanja EES. Spremembe naj bi povečale učinkovitost delovanja in znižale cene električne energije brez negativnega vpliva na zanesljivost EES. Vzpostavitev konkurenčnega boja med proizvajalci električne energije na eni strani in možnost odjemalcev do proste izbire dobavitelja električne energije na drugi sta dva poglavitna vzroka za deregulacijo v elektroenergetiki. Posledica tega je vzpostavitev trga na debelo in trga na drobno [96]. Deregulacija poleg tega zajema regulirano dejavnost vodenja omrežja, oblikovanje podjetij za dobavo električne energije in agregatorjev, ki namesto majhnih odjemalcev nastopajo na trgu na debelo, ter ustanovitev regulatorjev trga, ki skrbijo za spoštovanje tržnih pravil. Elektroenergetski trg naj bi se čim bolj približal idealnemu trgu z naslednjimi lastnostmi [64]: — na trgu je zelo veliko število prodajalcev in kupcev, med katerimi mora imeti vsak tako majhno moč, da s svojimi dejanji ne more vplivati na dogajanje na njem. — Vstop na trg ali izstop iz njega je za udeležence preprost in ni pogojen z znatnimi stroški ali čakalnimi obdobji. — Vsi udeleženci imajo popolne informacije o ceni, količini, kakovosti in drugih pomembnih lastnostih dobrin, s katerimi se trguje. — Vsi udeleženci se obnašajo ekonomično, pri čemer želijo prodajalci prodajati po čim višjih cenah, kupci pa kupovati po čim nižjih cenah. — Vsi udeleženci se na podlagi tržne cene odločajo o količinah, ki jih bodo bodisi ponudili na trgu bodisi po njih povpraševali. — Dobrina na trgu je popolnoma homogena in se po kakovosti in drugih bistvenih lastnosti ne razlikuje glede na ponudnike. 22 03 Upoštevati je treba določene lastnosti, ki jih ima električna energija kot tržno blago [67]: — povpraševanje in ponudba morata biti na trgu v vsakem trenutku usklajena. — Trenutno zaradi visoke nestanovitnosti njene dnevne in znotrajdnevne cene električne energije še ni mogoče ekonomsko učinkovito in v zadostnih količinah ekonomsko upravičljivo shranjevati. — Trg električne energije pri redkih proizvodnih enotah v primerjavi s številom odjemalcev teži k monopolu. — Prožnost prilagajanja ponudbe proizvajalcev in povpraševanja odjemalcev je omejena. — Parametri EES omejujejo zmožnost prenosa neomejenih količin električne energije na velike razdalje. Elektroenergetski trg zaradi prve lastnosti najverjetneje ne bo imel vseh lastnosti idealnega trga. Vse lastnosti bistveno vplivajo na vzpostavljanje trga, pravila njegovega delovanja in njegove produkte. Proizvodnja in poraba električne energije se spreminjata in morata biti hkrati vsak trenutek uravnoteženi. Trgovanje za dobavo ob določeni uri določenega dne mora biti vedno, tako v fazi trgovanja kot tudi v fazi izravnave, zaključeno pred dejansko dobavo električne energije [59]. Rezultat trgovanja so vozni redi, ki jih Odgovorni iz bilančne skupine1 po fazi trgovanja in pred fazo izravnave posreduje sistemskemu operaterju, ta pa je zadolžen za izravnavo odstopanj med voznimi redi ter proizvodnjo in porabo, s tem pa tudi za zanesljivost obratovanja EES. Elektroenergetski trg na debelo se deli v več sklopov, slika 3.1: — trg z različnimi produkti služi za dobavo električne energije v določenem trenutku v prihodnosti. — Izravnalni trg služi za izravnavo odstopanj dejanske proizvodnje in porabe v sistemu od voznih redov. — Trg sistemskih storitev služi zagotavljanju zadostnih količin energije in moči za sistemske storitve. 1 Bilančna skupina je skupina odjemalcev in proizvajalcev, pri kateri je vodja skupine odgovoren za uravnavanje odstopanj dejanskega skupnega odjema in proizvodnje od skupnih pogodbenih vrednosti. 23 TEMSKIH V o VNALNI GIJE ansk G SIS vanje IZRA TRG TR STORITE TRG ENER vostrD Trgo g gije an tr vanje ganizir poljubno erminskimi Or električne enr Trgo s t pogodbami 1 leto a borz 1 leto g tedenski, mesečni, vni tr četrtletni, letni bloki Čas g Dne rni trU 24 ur 24 ur 24 ur 36 ur t = 0 Izravnava Sigurnost in SOPO odstopanj zanesljivost Slika 3.1: Elektroenergetski trg na debelo [96] Trgovanje na trgu električne energije na debelo poteka dvostransko (ang. Bilateral Trading) ali pa na organiziranem trgu – na borzi. Trg na debelo sestavljata sprotni trg2 (ang. Spot Market) in terminski trg3 (ang. Futures Market). Sprotni trg predstavlja dnevni trg električne energije (ang. Day-Ahead Market)4, kjer se trguje za fizično dobavo za naslednji dan. Nekatere borze omogočajo 2 Na sprotnem trgu se sklepajo posli s takojšnjo dobavo blaga. 3 Na terminskem trgu se sklepajo posli, ki pomenijo dobavo blaga enkrat v prihodnosti za ceno, ki je dogovorjena ob sklenitvi posla. 4 Produkti na dnevnem trgu so pri večini borz urni bloki s količino 1 MWh. 24 03 tudi trgovanje znotraj dneva (ang. Intra-Day Marke t), ki udeležencem omogoča dodatno uravnoteženje med proizvodnjo in porabo v sistemu ter že sklenjenimi pogodbenimi obveznostmi [96]. Ker cena na dnevnem trgu in na urnem trgu močno niha, so udeleženci tega trga z nakupom ali prodajo podvrženi visokemu cenovnemu tveganju, ki ga s sodelovanjem na terminskem trgu lahko obvladujejo [59]. Čeprav se fizično trgovanje v večini dereguliranih EES izvede zunaj dnevnega trga, npr. z dvo-stranskimi pogodbami, pa je dnevni trg bistvenega pomena, saj tržna cena, ki se oblikuje na dnevnem trgu, služi kot javni signal za referenco vsem drugim oblikam trgovanja [50]. V imenu odjemalcev sicer na trgu na debelo nastopajo dobavitelji, ki namesto odjemalcev prevzamejo količinska in cenovna tveganja. Na trgu električne energije na debelo nastopajo proizvajalci na eni strani in dobavitelji, ki imajo vlogo odjemalcev na trgu na debelo, na drugi strani. Zaradi poenostavitve celotno poglavje obravnava samo proizvajalce in odjemalce [67], [112]. Zgornje ne velja za trg električne energije na drobno, na katerem nastopajo dobavitelji in končni odjemalci, in ki ga podrobneje predstavlja poglavje 3.3. 3.1.2 PONUDBE PROIZVAJALCEV Posamezen proizvajalec ima običajno v lasti več generatorjev, na katerih temelji modeliranje. Proizvedena električna energija posameznega generatorja je odvisna od proizvodnih stroškov. Za oblikovanje ponudbe je veliko primernejša uporaba inverzne generatorske proizvodne funkcije, t.i. stroškovne proizvodne krivulje G: (3.1) kjer C� predstavlja strošek delovne moči posameznega generatorja v časovni enoti, 𝑃� predstavlja delovno moč, G pa funkcijsko povezavo med njima, medtem ko j označuje zaporedno številko generatorja. Slika 3.2 prikazuje stroškovno proizvodno krivuljo za generator, ki je podana kot kvadratna funkcija [112]. 25 [€/h] C� 𝑃� [€/h] Slika 3.2: Stroškovna proizvodna krivulja [67] Prodaja in nakup energije na trgu potekata na podlagi ponujene cene električne energije, ki so jo odjemalci pripravljeni plačati. Proizvajalci morajo torej ponudbe oblikovati tako, da si vsaj povrnejo strošek proizvedene energije. Odvod stroškovne proizvodne krivulje C� po proizvedeni moči, 𝑃�, daje prirastno cenovno krivuljo ponudbe g: (3.2) kjer je λ� prirastni strošek proizvedene MWh. Pri določeni količini proizvedene energije pokaže, kolikšen je strošek dodatne proizvedene MWh [55], [67]. 3.1.3 POVPRAŠEVANJE ODJEMALCEV Količina in cena električne energije, po kateri določen odjemalec povprašuje, daje prirastno stro- škovno krivuljo odjemalca, vendar ima drugačno, padajočo obliko: (3.3) kjer je C� odjemalčev strošek v časovni enoti in 𝑃� moč, po kateri povprašuje, F pa funkcijska povezava med njima, medtem ko i označuje zaporedno številko odjemalca, slika 3.3. 26 03 C� [€/h] 𝑃� [€/h] Slika 3.3: Stroškovna krivulja povpraševanja [67] Za nekatere odjemalce je to funkcijsko odvisnost lažje, za nekatere pa težje ugotoviti. Predstavlja jo funkcija f, ki je odvod funkcije F po moči 𝑃�, in je padajoča. Odjemalec je določeno količino energije pripravljen plačati po neki ceni, če pa se cena električne energije poveča, je prisiljen zmanjšati količino povpraševanja. To je prirastna cenovna krivulja povpraševanja, ki se zapiše kot: (3.4) kjer je λ� sprejemljiva cena električne energije, ki je odvisna od odjemne moči, 𝑃�, f pa predstavlja funkcijsko povezavo med njima, medtem ko i označuje zaporedno številko odjemalca. Ima pomembno ekonomsko predstavitev: pri določeni količini odjemne energije (moči) določa strošek dodatne porabljene megavatne ure (megavata) [67]. 3.1.4 ISKANJE TRŽNEGA RAVNOVESJA Tržno ravnovesje na dnevnem trgu električne energije določa tržno ali ravnovesno ceno elektrike na trgu. Cene na dnevnih trgih kljub majhni količini sklenjenih poslov služijo kot referenca za vse ostale oblike trgovanja. Proces vodi organizator trga. To je pravna oseba, ki zbira ponudbe proizvodnje in povpraševanje za nakup električne energije ter z usklajevanjem ponudbe in povpraševanja določi tržno ceno. Na nekaterih borzah sistemski operater prevzame vlogo organizatorja trga. Do določene ure v dnevu morajo proizvajalci in odjemalci organizatorju trga poslati svoje ponudbe in povpraševanja. Organizator trga zbere ponudbe in povpraševanja za vsako uro posebej. Iz ponudbenih krivulj, ki imajo obliko kot v enačbi (3.2), oblikuje združeno prirastno cenovno ponudbeno krivuljo, ki je monotono naraščajoča funkcija. Podobno iz vseh krivulj povpraševanja, ki imajo obliko kot v 27 enačbi (3.4), oblikuje združeno prirastno cenovno krivuljo povpraševanja, ki je monotono padajoča funkcija. Kjer se ti dve funkciji sekata, se uravnotežita cena ponudbe, λ�, in cena povpraševanja, λ�, in nastane tržno ravnovesje (ang. Market Equilibrium) [100]. Tržno ravnovesje je mogoče obrazložiti tudi tako [67]: — ravnovesna količina (ang. Equilibrium Quantity) je tista, pri kateri je cena, ki so jo odjemalci pripravljeni plačati, enaka ceni, ki jo za isto količino proizvedene energije pričakujejo odjemalci. — Tržna cena ali ravnovesna cena (MCP, ang. Market Clearing Price ali Equilibrium Price) predstavlja količino energije, ki so jo pripravljeni proizvesti proizvajalci, in je enaka količini energije, ki so jo pripravljeni porabiti odjemalci. Tržno ravnovesje prikazuje slika 3.4. Tržna cena med proizvajalci in odjemalci je najvišja cena od vseh sprejetih ponudb in hkrati najnižja cena od vseh sprejetih povpraševanj [112]. Označena je z λ� ravnovesna količina moči v tej uri (in torej energije) pa s 𝑃�. Dispečirane proizvodne enote so tiste, katerih ponudbene krivulje se nahajajo levo od presečišča, ki določa tržno ravnovesje; to pomeni, da so energijo ponujale po ceni med 0 in λ� [55]. Enote, ki so svojo energijo v tisti določeni uri ponujale po višji ceni, je niso uspele prodati. Vse dispečirane enote za to dobijo plačilo λ�. Iz tega sledi, da vse enote, razen mejne, ki določa ceno λ�, s prodajo ponujene energije ustvarijo dobiček ob predpostavki, da vso energijo ponujajo po prirastni cenovni krivulji ponudbe. λ [€/MWh] λ� 𝑃� 𝑃 [MW] Slika 3.4: Iskanje tržnega ravnovesja [100] Odjemalci, katerih povpraševanja so nahajajo levo od presečišča, so bili pripravljeni kupiti energijo po ceni, ki je višja ali enaka λ�, in so glede na svoje povpraševanje dobili najnižjo mogočo 28 03 ceno, ki je enaka λ�. Odjemalci, katerih povpraševanje se nahaja desno od tržnega ravnovesja, so bili za zahtevano energijo pripravljeni plačati premalo in je v dani uri niso uspeli nakupiti, slika 3.5. Presečišče združenih prirastnih cenovnih krivulj proizvodnje in odjema ponuja tudi možnost ponazoritve več različnih ekonomskih kazalcev. Bruto presežek Neto presežek proizvajalcev proizvajalcev λ [€/MWh] λ [€/MWh] λ� λ� 𝑃� 𝑃 [MW] 𝑃� 𝑃 [MW] Slika 3.5: Bruto in neto presežek (dobiček) proizvajalcev [100] Bruto presežek odjema pomeni celotno vrednost dobavljene količine električne energije in jo prikazuje levi graf na sliki 3.6, vendar določen del celotne vrednosti dobavljene količine električ- ne energije pade na proizvajalce, kar pomeni, da je neto presežek odjema ustrezno manjši in ga prikazuje desni graf na sliki 3.6. Izračun neto presežka odjema je v praksi zelo težaven, saj je izra- čun označene ploščine zaradi nepoznavanja prirastnih cenovnih krivulj povpraševanja nemogoč. Odjemalci namesto pojma neto presežek običajno uporabljajo samo presežek, namesto pojma bruto presežek pa dobrobit. Če združimo neto presežka proizvajalcev in odjemalcev, dobimo družbeno dobrobit. Ta predstavlja celotno dobrobit, ki izhaja iz trgovanja, in vključuje dobiček proizvajalcev in presežek odjemalcev, slika 3.7. Družbena dobrobit je največja, ko trgu omogoča svobodno delovanje in kjer tržno ceno določa presečišče združenih prirastnih cenovnih krivulj proizvajalcev in odjemalcev [67], [100]. 29 Bruto presežek Neto presežek odjema odjema λ [€/MWh] λ [€/MWh] λ� λ� 𝑃� 𝑃 [MW] 𝑃� 𝑃 [MW] Slika 3.6: Bruto in neto presežek odjema [100] Družbena dobrobit λ [€/MWh] λ� 𝑃� 𝑃 [MW] Slika 3.7: Družbena dobrobit [100] 3.2 TRGI Z ELEKTRIČNO ENERGIJO Trg z električno energijo se razlikuje od drugih trgov zaradi nezmožnosti shranjevanja večjih količin energije in izkoriščanja njenih zalog ob poljubnem in za trgovca najbolj ugodnem času. Proizvedena energija mora biti vsak trenutek usklajena s porabo, zato mora tudi trgovanje z izbranimi produkti slediti tej dinamiki. Odstopanja se pokažejo v odstopanju frekvence od na-zivne vrednosti, in jih je treba v najkrajšem času odpraviti. Slika 3.8 prikazuje časovni potek trgovanja terminskega trga do trenutka dobave, pa tudi obdobje izravnave odstopanj po dobavi. 30 03 FINANČNI TRG ZA TRG IZRAVNALNI PORAVNAVA (TERMINSKI) DAN ZNOTRAJ TRG ODSTOPANJ TRG VNAPREJ DNEVA Leta, meseci, tedni in dnevi pred dobavo Dan pred dobavo Znotraj dneva dobave Znotraj ure dobave Po dobavi Zaprtje trgovanja Zaprtje trgovanja Dobava za dan vnaprej znotraj dneva Slika 3.8: Struktura trgovanja z električno energijo glede na časovni potek Z izvedenimi finančnimi instrumenti (ang. Derivatives) se trguje na terminskem trgu. Pri trgovanju se ti produkti večinoma uporabljajo za zavarovanje tveganja dviga ali padca cen ter predstavljajo obdobje od več let vnaprej do enega dneva pred dejansko dobavo. Pod finančne produkte spadajo naslednji izvedeni finančni instrumenti: — standardizirani terminski produkti – terminske pogodbe (ang. Futures), — nestandardizirani terminski produkti – terminski posli (ang. Forwards), in — opcije (ang. Options). Trgovanje s standardiziranimi finančnimi produkti poteka na organiziranih trgih, med katerimi so v EU največji EEX, EPEX Spot in Nord Pool. Pri trgovanju z električno energijo nastopajo različne kombinacije glavnih parametrov: — časovno obdobje dobave (leto, kvartal, mesec, teden, vikend), — dnevni profil produkta (base, peak, off-peak, ura), — moč (MW), — cena (€/MWh), — območje dobave, — trgovalna platforma. Agencija za sodelovanje energetskih regulatorjev (ACER) [1], ki je po uredbi REMIT [41] zadolžena za nadzor trgovanja na veleprodajnih trgih z elektriko in plinom, je identificirala že več kot 8.000 različnih standardiziranih finančnih produktov [2]. Trgovanje na sprotnem trgu v času od enega dneva do dobave obsega: — trgovanje za dan vnaprej: D-1 do zaključka avkcije. — Trgovanje znotraj dneva: čas do dobave med 24 h in 1 h. — Izravnalni trg: čas do dobave < 1 h. 31 Eden od ciljev EU je tudi enotni trg z električno energijo, ki zahteva, da se dnevne avkcije za vse borze zaključijo ob istem času (ob 12h), s čimer bi preprečili potencialne arbitraže med trgi. Hkrati bi enotni trg podpiral tudi razvoj algoritma Euphemia, ki z upoštevanjem prenosnih zmogljivostih celotnega EU omrežja določi enotno ceno električne energije za dan vnaprej za celotno EU. Druge dejavnosti vključujejo združevanje trgov (ang. Market Coupling) in cenovno združevanje regij (ang. Price Coupling of Regions, PCR). Veleprodajni trgi z električno energijo so bili vzpostavljeni še pred razmahom OVE in ostalih novih tehnologij in so zato zasnovani za tradicionalni sistem, kjer veliki proizvajalci svojo energijo prodajajo večjim trgovcem ali bilančnim skupinam, zato ima večina borz za standardni produkt definirano najmanjšo moč 1 MW. To predstavlja oviro za manjše proizvodne enote OVE in prožne enote aktivnih odjemalcev v razponu [10, 100] kW. Šele zadnjih nekaj let so na najrazvitejših trgih najmanjšo moč znižali na 0,1 MW [37], predvsem pri trgovanju za dan vnaprej in znotraj dneva, kar omogoča pogostejše trgovanje in možnost izravnave odstopanj še pred začetkom dobave. 3.3 ELASTIČNOST ODJEMA Ukrepi vodenja porabe (ang. Demand Side Management – DSM) imajo učinke tako na delovanje elektroenergetskega sistema kot tudi na trg elektrike. Najpomembnejši učinek nanj pa je elastič- nost odjema na cene električne energije. Na trgu električne energije na drobno nastopajo dobavitelji in končni odjemalci. Dobavitelji energijo kupujejo na trgu na debelo in jo prodajajo končnim odjemalcem. Veliki odjemalci lahko na trgu na debelo nastopajo individualno, v imenu ostalih odjemalcev pa na dnevnem trgu nastopajo dobavitelji. Pri tem dobavitelji nase prevzamejo vsa tržna tveganja, vključno s količinskim tveganjem, tveganjem dobave in cenovnim tveganjem, končni odjemalec pa zato poleg cene na debelo dobavitelju plača tudi maržo. Izvajanje DSM povečuje elastičnost odjema, velja pa tudi obratno, da je za izvajanje in uspešnost DSM nujna elastičnost odjema, saj vsak GW elastičnega odjema lahko pomeni velike prihranke 32 03 na letni ravni [27]. Vprašanje je, za koliko se povpraševanje odjema zmanjša, če se cena poveča, in obratno, koliko se povpraševanje odjema poveča, če se cena zmanjša. V skladu z ekonomsko teorijo elastičnost, ki definira relativno spremembo sprejemljive cene električne energije pri relativni spremembi odjemne moči [15], [68], [100], lahko zapišemo: (3.5) kjer ε pomeni elastičnost, 𝑃� povpraševanje po določeni količini odjemne moči, odjemno moč, Δ𝑃� spremembo povpraševanja po moči, λ� sprejemljivo ceno za odjemno moč in Δλ� spremembo sprejemljive cene. 3.3.1 IZVAJANJE UKREPOV DSM IN ELASTIČNOST ODJEMA Vrsta projektov je preučevala elastičnost različnih skupin odjemalcev in izsledki so zbrani v po-ročilu delovne skupine CIGRE C6.09 [27]. Splošne ugotovitve so: — elastičnosti ni mogoče doseči, če se odjemalcem to cenovno ne splača. Brez informacij o cenah in porabi odjemalci nimajo razloga za spremembo oblike svojega odjemnega diagrama [21], [49]. — Elastičnost ima majhen, a zaznaven vpliv na vsesplošno znižanje porabe električne energije [47]. — Odzivnost pri industrijskih odjemalcih je lažje doseči kot pri gospodinjskih odjemalcih, saj cene električne energije vplivajo na stroške proizvodov [27]. — Veliki odjemalci se bodo pogosteje odločali za DSM, mali odjemalci pa redkeje [47], vendar se odzivajo na cenovne signale, pri čemer je ključno ozaveščanje [27]. — Avtomatsko izvajanje omejevanja moči je učinkovitejše od neavtomatskega, saj mora biti za slednjega odjemalec prisoten, da lahko sam omeji moč [47]. — Odjemalci povezujejo različne tarifne sisteme obračunavanja porabljene električne energije s priložnostjo za zmanjšanje stroškov porabljene električne energije [80]. — Če se odjemalec odloči za sodelovanje, se redko zgodi, da se ne bi odzval na poziv pri izvajanju DSM [80]. — Elastičnost odjema obstaja, vendar ni tako obetajoča, kot bi lahko bila, zato so potrebne raziskave in izboljšanje ukrepov [27]. 33 3.3.2 OBLIKOVANJE POVPRAŠEVANJA PRI ELASTIČNEM IN NEELASTIČNEM ODJEMU Pred uvedbo trga električne energije je bila električna energija razumljena kot dobrina, ki je na razpolago v vsakem trenutku v želenih količinah, cena pa je regulirana in veliko nižja. Večina odjemalcev tako ni bila pozorna na njeno rabo razen pri redukcijah. Neelastičen odjem v določeni uri ponazarja levi graf, slika 3.9. Z vse večjo rastjo porabe se odjemalci zavedajo, da električne energije ni vedno na pretek. Veliko je takih odjemalcev, ki so svoje proizvodne in delovne procese pa tudi bivanjske navade prilago-dili spreminjajočim se cenam in razmeram v ESS skozi dan, teden in sezone. Pri modeliranju je treba neelastičen model odjema pretvoriti v elastičnega, pri čemer je nujno ugotoviti, izmeriti, privzeti ali izračunati funkcijsko povezavo med ceno in močjo povpraševanja, ki pri neelastičnem odjemu ne obstaja, slika 3.9. V strokovni literaturi se pojavlja več različnih načinov oblikovanja elastičnega povpraševanja odjemalcev [7], [20], [34], [70], [119], [136], kadar podatki o prirastni cenovni krivulji povpraševanja niso na voljo. Neelastičen Elastičen odjem odjem 𝑃� ≠ f (λ) 𝑃� = f (λ) λ [€/MWh] λ [€/MWh] 𝑃� [MW] 𝑃� [MW] Slika 3.9: Elastičen in neelastičen odjem Prirastne cenovne krivulje proizvajalcev določijo obratovalni parametri posameznih agregatov. Podobno bi za odjemalce morali vključevati tudi podatke o trgih, na katerih različni industrijski odjemalci tržijo svoje proizvode, povezavo med vrednostjo proizvoda in za to porabljeno električ- no energijo; za odjemalce iz poslovne in storitvene dejavnosti bi morali poznati povezavo med vrednostjo storitev in za to porabljeno električno energijo; za gospodinjske odjemalce pa npr. povezavo med kakovostjo bivanja in ceno električne energije [67], [112]. 34 03 Za analizo učinka elastičnega odjema, slika 3.10, se izbere ura v času koničnih obremenitev, ko je napovedan odjem 𝑃�₁ sorazmerno velik. Če je povpraševanje neelastično, se odjemalci ne morejo odzvati in zaradi velikega povpraševanja 𝑃�₁ so dispečirane tudi zelo drage enote. Rezultat je visoka tržna cena λ₁. Če je povpraševanje elastično, se odjemalec lahko odzove na visoko ceno in ustrezno prilagodi svoj odjem oz. svoje povpraševanje. Rezultat je relativno zmanjšanje cene, veliko večje od relativnega zmanjšanja povpraševanja. λ [€/MWh] λ₁ Δλ λ₂ Δ𝑃 𝑃�₁ 𝑃�₂ 𝑃 [MW] Slika 3.10: Učinki elastičnega odjema na tržno ravnovesje [70] 3.4 PROŽNOST Prožnost elektroenergetskega sistema definiramo kot njegovo sposobnost prilagajanja na spreminjajoče se obratovalne razmere zaradi spremenljive narave OVE. Potrebe po prožnosti z leti naraščajo, večajo pa se tudi zahteve po hitri odzivnosti, saj so nihanja proizvodnje sistema zaradi obnovljivih virov vse večja in hitrejša. Definicija prožnosti za sistemske storitve vsebuje moč in energijo v določenem času, poleg moči pa definira tudi čas, v katerem mora enota doseči zahtevano moč, t.i. odziv [36]. 35 𝑃 oličina simalna k acije aktiv etek 6 Minimalna in mak Zač 1 Pripravljena peroida 2 Rampiranje 5 Obdobje dekativacije 𝑡 3 Polni čas aktivacije 4 Udobje nudenja zahtevane energije Slika 3.11: Primer definicije standardnega prožnega produkta V elektroenergetskem sistemu to prožnost zagotavlja sistemski operater prenosnega omrežja (TSO) s sistemskimi storitvami [48], med katere sodi tudi regulacija frekvence, ki se je včasih delila na primarno, sekundarno in terciarno. V Sloveniji se regulacija frekvence z novim poime-novanjem deli na: — rezervo za vzdrževanje frekvence – RVF (staro poimenovanje: primarna regulacija frekvence), — avtomatsko rezervo za povrnitev frekvence – aRPF (staro poimenovanje: sekundarna regulacija frekvence), — ročno rezervo za povrnitev frekvence – rRPF (staro poimenovanje: terciarna regulacija frekvence) in — nadomestno rezervo – RN (staro poimenovanje: ročna rezerva). V preteklosti so te sistemske storitve v večini zaotavljale večje elektrarne s sinhronskimi generatorji, predvsem plinske elektrarne ali hidroelektrarne, ki so lahko hitro spreminjale moč proizvodnje. Z večanjem potreb po prožnosti in razvojem novih tehnologij se pojavljajo možnosti za sodelovanje aktivnih odjemalcev in novih odzivnih enot pri zagotavljanju sistemskih storitev ter s tem ohranjanju energetskega ravnovesja v EES. Slovenski sistemski operater prenosnega omrežja ELES že nekaj let omogoča možnost izvajanja ročne rezerve za povrnitev frekvence z vodenjem odjema in razpršene proizvodnje. Naštete sistemske storitve se zagotavljajo na nivoju prenosnega omrežja, do problemov z za-mašitvami zaradi razpršenih OVE pa prihaja tudi na distribucijskem omrežju, na katerega je 36 03 priključenih več kot 90 % OVE. Trg sistemskih storitev za DSO trenutno še ne obstaja, se pa o tem veliko razmišlja, saj je lokalne zamašitve mogoče reševati samo z lokalnimi viri. Vidik lokacije prožnostnega vira tako postaja vse pomembnejši dejavnik pri oceni vpliva posameznega vira in njegovega prispevka k reševanju problemov v omrežju. Tudi sama vloga DSO-ja se spreminja iz pasivnega operaterja omrežja, ki ni imel virov proizvodnje ali možnosti spreminjanja odjema, v aktivnega operaterja omrežja, ki lahko aktivno izkorišča nove vire za reševanje težav. Na voljo so različne sistemske storitve za DSO [54], ki bi jih lahko ponujali ali prožne enote same ali pa agregator. Med te storitve spadajo: — regulacija napetosti, — zmanjšanje zamašitev vodov, — odprava neuravnotežene napetosti med fazami in — zagotavljanje rezerve moči. Obstoječi potencial odziva aktivnega odjemalca ali proizvodnih enot obsegajo nekatere tipične vzorce uporabe in tehnične omejitve, različne nabore ukrepov vodenja, različne stopnje razvitosti sistemov vodenja in štiri načine nadzora nad prožnimi enotami: Enote odjema, katerih vodenje bi lahko povzročilo zmanjšanje Nevodljive udobja ali prekinitev tekočih aktivnosti. To so npr. razsvetlja-prožne enote va, pisarniška in zabavna oprema, kuhalni aparati. Enote odjema, ki so termostatsko nadzorovane in omogočajo Programirljive časovno programirljivo nastavitev termostata, s čimer upo-prožne enote rabniku ne zmanjšajo udobja in ne povzročajo nelagodja ali nevšečnosti. To so npr. hladilne naprave, klimatske naprave in električni grelniki vode. Prekinitvene Enote odjema, ki se jih lahko izključi za kratek čas, ne da bi prožne enote se pri tem zmanjšala kakovost storitve ali njihovega delovanja. To so npr. hladilne naprave, klimatske naprave in električni grelniki vode. Premakljive prožne Enote odjema, katerih delovanje je mogoče odložiti ali pred-enote videti glede na vzorec odjema končnega uporabnika, npr. polnjenje EV, hišne baterije. Poleg tehničnih zmožnosti naprav in procesov lahko na razpoložljivost prožnosti vplivajo tudi drugi dejavniki [13], [33], [29]. Tako je raziskava [120] ugotovila, da stopnja zasedenosti gospodinjstev vpliva na napovedovanje časovno odvisnih krivulj povpraševanja po električni energiji 37 in posledično vpliva na razpoložljivost prožnih enot. Rezultati raziskave kažejo tudi na to, da lahko razlike v socialnem vedenju odjemalcev vplivajo na primernost različnih načinov za izrabo prožnosti. Eden od dejavnikov, ki vplivajo na razpoložljivost količine prožnosti, so tudi vremenski pogoji. Zaradi večjih potreb po gretju pozimi in zaradi dodatnega bremena klimatskih naprav poleti se poveča število razpoložljivih prožnih enot, ki se uporabljajo za gretje oziroma hlajenje. Prožne enote so bile najpogosteje predmet krmiljenja: pralni stroj, grelnik vode, električni šte-dilnik in toplotna črpalka. Rezultati testiranja so potrdili sezonsko odvisnost količine razpolo- žljivosti in veliko boljše rezultate samodejnega aktiviranja prožnih enot kot pa ročnih aktivacij na poziv končnim uporabnikom. Končni uporabniki imajo raje samodejno vodenje naprav kot signale za premikanje porabe ali podobne sheme, vendar bi ohranili možnost prevzema nadzora nad napravo. 3.5 LOKALNI TRGI Cenovni signal v vse bolj decentraliziranem elektroenergetskem sistemu ne odraža lokalnih razmer veleprodajnih trgov, ker so področja dobave večinoma definirana glede na pristojni TSO. Zaradi tega prihaja do zamašitev omrežja in posledično do omejitve proizvodnje iz OVE ter redispečiranja konvencionalnih proizvodnih enot. Tako omejevanje proizvodnje OVE kot tudi njeno redsipečiranje povzročata dodatne stroške, ker je večina velikih enot OVE vključenih v sistem prednostnega dispečiranja in dobi proizvodnjo plačano ne glede na to, ali proizvaja ali ne, pri redsipečiranju pa nastajajo stroški zaradi potrebnega obratovanja dražjih konvencionalnih enot. V letu 2015 so samo v nemški regiji Schleswig-Holstein omejili za 2,9 TWh proizvodnje OVE, kar predstavlja 14,4 % vse proizvodnje regije, za kar so lastnikom OVE plačali 295 milijonov € kompenzacij in približno dodatnih 200 milijonov € stroškov za redispečiranje [106]. Končni uporabniki in manjši udeleženci so zaradi manjših moči, zakonodajnih omejitev in za-konskih določil večinoma izključeni iz veleprodajnih energetskih trgov. Eden od načinov reševanja teh problemov se kaže v vzpostavitvi regionalnih ali celo lokalnih trgov, ki bi omogočali boljše izkoriščanje potenciala OVE in prožnosti končnih odjemalcev. 38 03 Ideje in koncepti lokalnih energetskih trgov so se začeli pojavljati okoli leta 2000. Razlog za povečanje števila raziskav je razvoj novih tehnologij blokovnega veriženja (ang. Blockhain) in kriptovalut, ki bi se lahko uporabile za neposredno trgovanje med končnimi uporabniki brez posrednikov, t.i. P2P trgovanje (ang. Peer to Peer Trading), s čimer bi dosegle oblikovanje naprednejših lokalnih trgov [97], [81]. Možnosti lokalnih energetskih trgov se večinoma osredotočajo na reševanje omrežnih omejitev, socialno zadovoljstvo kupcev, ekonomsko uspešnost vseh deležnikov, elastičnost cen, pravično porazdelitev stroškov in družbeno vključenost [85]. Pri nadaljnjem razvoju lokalnih trgov bi kazalo upoštevati medsektorsko povezovanje, ki bi vključevalo energetske sektorje, vključno s toploto, plinom in električno energijo ter drugimi storitvami energetskih skupnosti. Za reševanje zgoraj omenjenih problemov v hamburški regiji v okviru projekta »Energija severne Nemčije« (ang. Northern German Energy Transition, New 4.0) razvijajo nov koncept lokalne plat-forme za prožnost ENKO [106], ki uvaja regionalno dražbo za trgovanje z energijo na način, da se preprečijo zamašitve, ki so ocenjene na podlagi odjema regij in voznih redov za dan vnaprej. Koncept ENKO temelji na DSO-jevi napovedi zamašitev omrežja, izračunanih na podlagi napovedi odjema in proizvodnje električne energije za naslednji dan. Te napovedane zamašitve prejmejo udeleženci trga in jih posredujejo ponudnikom prožnosti, kot so enote za soproizvo-dnjo toplote in energije (SPTE), kombinirane toplarne in elektrarne, enote aktivnega odjema ali vetrne elektrarne, nato pa na podlagi njihovih posebnih urnikov in stroškov prožnosti ponudijo svoje prožnostne zmogljivosti na lokalnem prožnostnem trgu. Obstajata dva različna načina za odpravljanje težav v omrežju z izkoriščanjem prožnosti: tržni način in DSO integrirani način. Glavna razlika je v načinu aktiviranja prožnih enot: — DSO integrirani način (slika 3.12): aktivacija enot se izvede na podlagi pravnih ali pogodbenih sporazumov, ki temeljijo na dvostranskih pogodbah med DSO-jem in ponudnikom prožnosti, te pa opredeljujejo pogoje njenega aktiviranja. V nekaterih državah so udeleženci tudi pravno obvezani, da DSO-ju zagotovijo prožnost. — Tržni način (slika 3.13): aktivacija prožnih enot se izvede na podlagi rezultatov trga, kjer se ponudniki odzovejo na povpraševanje DSO-jev in aktivirajo prožnost v skladu s tržnimi pravili in rezultati. Udeleženci na trgu lahko prožnost ponujajo spontano in neodvisno od posebnih zahtev DSO-jev. 39 Razliko med načinoma prikazujeta spodnji dve sliki. 3 1. Pošiljanje meritve DSO-ju DSO 2. Zbiranje in spremljanje meritev Pravni ali DSO Platforma pogodbeni 2 SCADA 4 za pamet. 3. Pošiljanje podatkov na platformo za pametna omrežja sporazum omrežja 4. Izračun potrebe po prožnosti 5. Pošiljanje signalov za aktivacijo prožnosti Meritve 1 Signali 5 aktivacij PV, toplotne črpalke, Pametni Kontrolni hladilne števci elementi naprave Slika 3.12: Primer DSO integriranega načina za aktiviranje prožnosti DSO 1 1. Napoved mrežnih razmer 2. Povpraševanje po prožnosti Povpra- 3. Ponudbe prožnosti agregatorjev 2 Ponudbe 3 ševanje 4 4. Tržno izbrane ponudbe agregatorjev 5. Pošiljanje signalov za aktivacijo prožnosti Agregatorji Signali 5 aktivacij Gospodinjstva – zmanjšanje odjema, hibridne plinsko-električne Odjemalci enote, industrijski procesi, baterije, shranjevalniki toplotne energije, EV Slika 3.13: Primer tržnega načina za aktiviranje prožnosti 40 03 Lokalni trgi rešujejo različne probleme, ki trenutno zavirajo njihov razvoj in predstavljajo izzive za prihodnost: — majhno število, majhne kumulativne moči in zmogljivosti prožnih enot ter njihova kratkoročna razpoložljivost. — Negotovost v zvezi s prihodnjim razvojem zmogljivosti in razpoložljivosti PE, predvsem glede njihove velikosti in točne lokacije, saj manjše enote niso strateško načrtovane in umeščene v EES tako kot večje proizvodne enote. — Negotovost glede sistemskih storitev, ki jih bodo prožne enote lahko zagotavljale zaradi svojih omejenih zmogljivosti in razmeroma nizke zanesljivosti delovanja. — Omejena prepoznavnost prožnih enot pri trenutnem vodenju prenosnega in distribucijskega omrežja. — Pomanjkanje cenovnih signalov, ki bi odražali lokacijsko specifične stroške sistema in negotovost glede cenovnega nivoja kompenzacije aktivacije prožnosti. — Neustrezna ali pomanjkljiva obstoječa orodja za načrtovanje in vodenje omrežja, ki bi pravilno upoštevala operativne učinke aktivnega odjema in prožnosti, ki jo lahko zagotavljajo. — Nejasna vloga DSO-jev in pomanjkanje finančnih spodbud za zagotavljanje prožnosti. — Možnost izkrivljanja trga zaradi skoncentrirane tržne moči, ker na lokalnih trgih ni dovolj ponudbe. Spremembe, ki bi utegnile pospešiti razvoj lokalnih in prožnostnih trgov, so: — vse hitrejši razvoj področja in potencialno ogromno število prožnih enot, kot so baterije, EV, toplotne črpalke in ostale vodljive enote v sklopu »naprednega doma«. — Vedno več držav se odloča za bolj »zeleno ekonomijo«, politiko razogljičenja družbe in vključevanja OVE ter s tem večje potrebe po prožnosti. — Sprememba obračunavanja omrežnine iz t.i. sistema »poštne znamke« v lokacijsko odvisni obračun. — Kompenzacija prožnosti, ki bi upoštevala tudi podnebne dobrobiti, ti. dvojna dividenda. — Subvencije v prožne vire namesto v drago nadgradnjo omrežja. — Vzpostavitev distribucijskih platform, ki bi združevale tržne in operativne funkcije. Pomemben vpliv bi imeli tudi sprememba financiranja DSO-jev, kjer bi kot kazalnike uspešnosti dodali tudi čim večje izkoriščanje prožnosti in zmanjšanje konic, in prihodki iz storitvenih dejavnosti in platformnih storitev. 41 42 4 Modeliranje trga z električno energijo 04 43 4.1 UVOD V zadnjih desetletjih je okvir delovanja elektroenergetskega sistema doživel korenite spremembe, kot sta deregulacija in uvedba tržnih načel za izboljšanje njegove ekonomske učinkovitosti. Najbolj očitna posledica deregulacije je bila vzpostavitev trga z električno energijo. V novem okolju je poslovanje proizvajalcev postalo neodvisno od države ali od podjetja, ki centralno vodi sistem. Novi cilj posameznega proizvajalca ali povezane skupine proizvajalcev je maksimiranje dobička na trgu, kjer tekmuje z ostalimi proizvajalci ali skupinami proizvajalcev pri prodaji elektrike vsem kupcem na trgu. Na trgu so se oblikovala nova podjetja, ki so izpostavljena finančnim tveganjem, kar je povzročilo razvoj in povpraševanje po analitskih orodjih za podporo pri odločanju o njihovem obvladovanju. Zanimanje za taka orodja je nastalo tudi pri regulatorjih trga, ki ga nadzorujejo v skladu s pravili delovanja vseh udeležencev iz več zornih kotov. Modeli elektroenergetskega trga so najpogosteje zasnovani s stališča proizvodnje elektrike, ker je bila proizvodnja prva deregulirana. Proizvajalci so bili sposobni na trgu na debelo prilagajati ponudbe, poraba elektrike pa je bila sprva privzeta kot nespremenljiva. Z odpiranjem trga na drobno, ki je sledilo kako desetletje kasneje, so se dobavitelji energije odcepili od DSO-jev. Dobavitelji so začeli prožno povpraševati po energiji na trgu na debelo in jo prodajati končnim odjemalcem, s čimer se je pojavila potreba po modelih dobavitelja/odjemalca. Tretja revolucija pa je povezana z razvojem informacijske in komunikacijske tehnologije, kjer agregator prožnost zajema kjer koli v distribucijskem omrežju in z njo lahko vpliva na trg na debelo. V knjigi predstavljamo te tri nivoje modeliranja. Tradicionalni modeli za analizo in simulacije v novih okoliščinah ne ustrezajo več, saj so bili izdelani za centralizirano delovanje. Novo raziskovalno področje, ki bi analiziralo vse tržne udeležence in povezave med njimi, že obstaja na drugih področjih, zato je bilo pričakovati uporabo podobnih modelov, modelov z drugih področij pa ni bilo mogoče naravnost uporabiti zaradi posebnosti, ki jih s seboj prinese elektrika kot tržno blago. Njena glavna posebnost je, da je ni mogoče ekonomsko učinkovito shranjevati v velikih količinah, njen prenos pa zahteva omejene fizične povezave z električnimi vodi, zato se je razvilo veliko različnih modelov, namenjenih reševanju določenega problema. 44 04 Modele za simulacijo trga z električno energijo se lahko razvršča na tri glavne načine [124]: — optimizacijski modeli, ki spremljajo delovanje in dobiček enega podjetja, — ravnotežnostni modeli, ki zajemajo vse udeležence trga in njihove strategije pri oblikovanju ponudbe na trgu, ter — simulacijski modeli, ki se uporabljajo zaradi kompleksnosti v ravnotežnostnem modelu. Slika 4.1 prikazuje možno razdelitev vrst modelov. MODELIRANJE TRGA ELEKTRIČNE Optimizacijski Ravnotežnostni Simulacijski ENERGIJE modeli modeli modeli Cena kot Cena kot Ravnotežna Ravno- zunanji funkcija Cournotovo funkcija težnostni Agentni parameter proizvodnje/ ravnotežje ponudbe modeli modeli odjema Slika 4.1: Delitev modelov za simulacijo trga z električno energijo 4.2 OPTIMIZACIJSKI MODELI Optimizacijski modeli upoštevajo vse pomembne obratovalne značilnosti proizvodnih enot, ki jih upravlja podjetje, hkrati pa tudi ceno električne energije. Rezultat je optimalno obratovanje posamezne enote glede na ceno na trgu. Ti modeli lahko ceno električne energije na trgu privzamejo kot zunanjo spremenljivko za vhodni parameter ali pa upoštevajo ceno kot funkcijo lastne proizvodnje oziroma odjema. 4.2.1 PRIVZETA CENA ELEKTRIČNE ENERGIJE Če je cena električne energije zunanji parameter, akcije udeleženca na trgu nanjo ne vplivajo. V optimizacijskem programu je tržna cena zato vhodni parameter. Prihodek proizvodnega podjetja 45 postane linearna funkcija količine proizvedene elektrike, kar je glavna kriterijska spremenljivka pri teh modelih. Tradicionalno modeli za iskanje rešitve uporabljajo linearno programiranje oziroma mešano-celoštevilčno linearno programiranje, žal pa zmorejo dovolj dobro predstaviti samo trge s kvazi-popolno konkurenčnostjo. Določanje cene se razdeli še na dve podpodročji: deterministične ali pa stohastične modele. Model z deterministično obravnavo cen omogoča razstavitev optimizacijskega problema na več podproblemov z uporabo Lagrangeve relaksacije [53]. Ob predpostavki popolne konkurence, privzete cene in konveksnosti stroškov se oblikuje optimalna strategija ponudbe na trgu, ki sledi prirastnim stroškom posameznega proizvajalca. Deterministični izbor tržne cene je mogoče izboljšati s stohastičnimi modeli z vpeljavo negotovosti pri privzeti ceni [16], [104], [44], [99] in z rešitvijo problema samoangažiranja v okolju negotovosti cen električne energije [104]. Kriterijska funkcija je lahko maksimizacija dobička ob upoštevanju cene električne energije in rezerv moči v vsakem vozlišču. Rešitev problema se poenostavi z ugotovitvijo, da je samoangažiranje mogoče obravnavati za vsak generator posebej. Rešitev se nato poišče z uporabo obrnjenega dinamičnega programiranja. Veliko razvitih modelov pa predstavlja ceno električne energije kot vhodno verjetnostno spremenljivko, ki vpliva na odločitve o delovanju generatorja kot tudi na ukrepe obvladovanja tveganj. Z verjetnostno napovedjo cen na trenutnem trgu se lahko analizira obvladovanje srednjeročnih tveganj proizvajalcev na trgu z električno energijo [44]. Največji izziv predstavljajo modeliranje cen električne energije in dotokov rek ter njihova korelacija. Model je mogoče izboljšati z uvedbo dodatnega vrednote-nja tveganja na podlagi indeksa pogojnega tveganja vrednosti portfelja [99]. 4.2.2 CENA ELEKTRIČNE ENERGIJE KOT FUNKCIJA ODLOČANJA PODJETJA Drugi modeli obravnavajo udeleženca trga kot dovolj veliko podjetje, da njegove akcije vplivajo na tržno ceno. Podjetja lahko dosežejo maksimalen dobiček z upoštevanjem krivulje povpraševanja in ponudbene krivulje ostalih tekmecev. Tak način se v mikroekonomiji imenuje določevalec cene (ang. Leader-in-Price) [122]. V njem je količina energije, ki jo podjetje lahko proda na trgu, odvisna od funkcije preostalega povpraševanja (ang. Residual-Demand Function), ki se imenuje funkcija preostalega odjema (ang. Effective Demand Function). Ta nastane, če se od skupne ponudbene krivulje vseh ponudnikov odšteje krivulja povpraševanja. Pri tem so modeli lahko dveh vrst, deterministični ali stohastični. 46 04 Modeliranje trga električne energije z deterministično funkcijo preostalega povpraševanja se uporablja npr. pri optimalnem angažiranju proizvodnih enot na trgu [62]. V optimizacijskem procesu so uporabili linearno funkcijo preostalega povpraševanja s sektorsko linearizirano kva-dratno funkcijo prihodkov glede na proizvodnjo. Če ponudniki bistveno ne spreminjajo ponudbenih krivulj, je rezultat optimizacije podoben rezultatom na realnem trgu. Lahko pa se namesto definicije optimalne proizvodnje izračuna optimalno obliko ponudbene krivulje podjetja [8]. Pri tem je treba upoštevati negotovo obnašanje ponudbe in povpraševanja na trgu, zato se funkcija preostalega odjema predstavi z verjetnostno porazdelitvijo. To predstavlja zanimivo začetno točko za nadaljnje raziskave o načinih obvladovanja tveganj pri kratkoročnih negotovostih na trgu z elektriko. Izboljšave modela vključujejo podrobno modeliranje proizvodnje, kjer ponudbene krivulje v različnih urah niso neodvisne [12]. 4.3 RAVNOTEŽNOSTNI MODELI Tržno ravnotežje je vsako ravnotežje, kjer so vsi udeleženci trga zadovoljni z doseženim polo- žajem. Ravnotežnostni modeli (ang. Equilibrium Models) upoštevajo tržno ravnotežje znotraj tradicionalnega matematičnega programskega okolja. Najbolj pogosto uporabljeno ravnotežje temelji na Cournotovi konkurenci, kjer podjetja tekmujejo pri prodaji energije. Najbolj kompleksen pristop v tej skupini je modeliranje ponudbene ravnotežnostne krivulje (ang. Supply Function Equilibrium approach – SFE), pri katerem podjetja med seboj tekmujejo z različnimi ponudbenimi krivuljami, ki jih spreminjajo tako po ceni kot tudi po količini. Pri Cournotovi konkurenci podjetja ponudbeno krivuljo spreminjajo samo po cenovni komponenti krivulje, medtem ko jo pri načinu SFE spreminjajo po cenovni in količinski komponenti. Oba načina temeljita na Nashovem ravnotežju, ki išče najboljšo strategijo glede na uporabljene strategije ostalih udeležencev na trgu. 4.3.1 COURNOTOVA KONKURENCA Pri nepopolni konkurenci na trgu se lahko v modelu uporablja Cournotov model konkurence iz leta 1813, in ima nekaj pomembnih predpostavk. Na trgu naj obstajata dve ali več vodilnih podjetij z enakim produktom. Vstop novih podjetij na trg je onemogočen, podjetja pri nastopu 47 na trgu med seboj ne sodelujejo in lahko imajo tržno moč. Podjetje pri svojih odločitvah spreminja samo količino ponudbe na trgu in upošteva, da njegova odločitev ne bo vplivala na odločitve konkurentov. Cena na trgu je znana skupna funkcija proizvodnje. Z Nashevim ravnotežjem se določi točka, pri kateri nihče od ponudnikov na trgu ne želi spremeniti svojega odziva oziroma svoje strategije ponujanja. Ta model se največkrat uporablja za analizo tržne moči [30]. Pomanjkljivost Cournotovega modela je, da izračun temelji na privzeti obliki odjema in je zato občutljiv na način njegove predstavitve. Za odpravo te pomanjkljivosti se uporabi verjetnostni odklon (ang. Conjectural Variations) [125], kjer se verjetnost tržne cene ali količine, ki jo ponudniki pričakujejo, spremeni glede na odziv njihovih tekmecev. Na ta način se izboljša napoved dosežene cene na trgu z električno energijo z upoštevanjem Cournotovega ravnotežja [46], [32]. Verjetnostni odklon se lahko uporabi pri izračunu funkcije preostalega povpraševanja [46] ali pa se predpostavi, da podjetja uporabijo verjetnostni odklon pri oceni ponudbenih krivulj njihove konkurence [32]. Pri modeliranju trga se tak način imenuje verjetnostna (domnevna) ponudbena funkcija (ang. Conjectured Supply Function). 4.3.2 PONUDBE RAVNOTEŽNOSTNE KRIVULJE Če za tržnega udeleženca ni negotovosti pri nastopu konkurentov (npr. tržna količina in cena), to hkrati pomeni, da mu je vseeno, ali spreminja svojo ponudbeno krivuljo po ceni ali po koli- čini, ker vedno išče rešitev glede na preostali odjem [71]. Pri razponu različnih možnih krivulj preostalega odjema udeleženec sprejme optimalno odločitev glede na oba ponudbena parametra: količino in ceno. Reševanje ponudbe ravnotežnostne krivulje zahteva reševanje nabora diferencialnih enačb namesto nabora algebrajskih enačb, kot je običajno pri ravnotežnostnih modelih. Zaradi obsežnosti izračuna je omejitev te metode tudi računska sledljivost. Opis preučevanega sistema je običajno posplošen, saj v nasprotnem primeru zadene ob računske omejitve. Kljub pomanjkljivostim so metodo ponudbene ravnotežnostne krivulje uporabili pri analizah tržne moči in izračunu cene električne energije [52], pri čemer so računsko potratnost zmanjšali tudi z linearizacijo [51]. 48 04 4.4 SIMULACIJSKI MODELI Ravnotežnostni modeli trga so strogo matematično definirani s sistemom algebrajskih ali diferencialnih enačb. Z enolično matematično definicijo se vnese omejitve za posamezne udeležence na trgu, vendar tak sistem enačb vsebuje veliko omejitev v obliki tehničnih lastnosti sistema, zato ga je pogosto težko rešiti ali pa je celo nerešljiv. Za odpravo teh omejitev so razvili simulacijske modele. Ti vsakega udeleženca trga običajno predstavljajo kot agenta, ki se obnaša skladno s svojo strategijo v dinamičnem okolju in nenehno spreminja svoje odločitve glede na dosežke v preteklih simulacijah in predvidevanja o bodočih stanjih okolja. Največja prednost tovrstnih simulacijskih orodij je prilagodljivost, saj omogočajo uporabo kakršnega koli algoritma, ki oponaša strateško obnašanje posameznega udeleženca, od-prtost modelov pa zahteva dobro teoretično obrazložitev razvitega tipa obnašanja. 4.4.1 SIMULACIJSKI RAVNOTEŽNOSTNI MODELI Simulacijski modeli so v številnih primerih tesno povezani z ravnotežnostnimi modeli. Ko je treba privzeti strategijo odločanja na podlagi ponujene količine na trgu, se lahko uporabi Cournotov model, kot je na primer model za optimizacijo dobička posameznega proizvodnega podjetja z upoštevanjem tehničnih omejitev hidroelektrarn in termoelektrarn [95]. Odločitev podjetja o oblikovanju ponudbe na trgu se za vsak dan posebej izračuna iterativno v dveh nivojih. Najprej vsako podjetje odda svojo ponudbo na trg, kjer se za izračun tržne cene uporabi Cournotovo ravnotežje. Izračunana tržna cena se uporabi pri ponovni optimizaciji ponudbe, čemur pa sledi ponovni izračun Cournotovega tržnega ravnotežja. Za izračun optimalne ponudbene krivulje in vpliva na tržno moč so razvili model trga Anglije in Walesa (ang. England & Wales Electricity Market, EWEM) [31]. Model uporablja način SFE, le da je bolj prilagodljiv in omogoča uporabo dejanskih prirastnih stroškov ter značilnosti med seboj povezanih večlastniških proizvodnih podjetij. Rezultati na podlagi ravnotežnostnega modela SFE in pa s pomočjo unikatnega optimizacijskega procesa EWEM, ki išče najboljšo obliko ponudbe, so si med seboj podobni. 4.4.2 AGENTNI MODELI Agentni modeli omogočajo največjo prilagodljivost za raziskovanje vplivov različnih udeležencev drug na drugega, na rezultat trga in njegov razvoj. Statični modeli ne upoštevajo dejstva, da 49 agenti svoje odločitve sprejemajo na podlagi svojih preteklih odločitev in vseh zgodovinskih podatkov do tistega trenutka. Agent se uči iz preteklih dogodkov in svoje odločitve sprejema na podlagi naučenega in predvidevanj o bodočih stanjih okolja. Izoblikovalo se je mnenje, da bo razvoj agentnih modelov omogočal raziskovanje lastnosti trga, ki jih s statičnimi modeli ni mogoče analizirati. Agentni modeli proizvajalcev na trgu elektrike se glede na način vključevanja novih proizvodnih enot delijo na endogene in eksogene modele. Endogeni modeli izračunajo velikost, lokacijo in čas umestitve nove enote v sistem, eksogeni modeli pa glede na vnesene podatke o energetskem sistemu izračunajo tržno ceno, ekonomiko in druge tržne parametre. Z eksogenim modelom je mogoče določiti tudi vplive okoljskih omejitev na načrtovanje obratovanja elektrarn [77]. Problem tovrstnih modelov je, da so večkrat slabo opisani, saj gre za komercialne programske pakete. 50 5 Inteligentni agenti 05 51 5.1 UVOD Kadar je na razpolago nepopoln nabor informacij, enolično matematično definirani ravnote- žnostni modeli hitro postanejo neuporabni ali pa dajejo rezultate na podlagi okvirnih predpostavk. V takem primeru se je treba zateči k drugačnim rešitvam, ki lahko na podlagi nepopolnih informacij o sistemu s pomočjo agentnega modeliranja in tehnik strojnega učenja postrežejo z zadovoljivimi rezultati. Agentno modeliranje udeležencev na trgu električne energije se uveljavlja v zadnjih letih namesto ravnotežnostnih modelov, ki strateškega obnašanja tržnih udeležencev ne morejo dobro ponazoriti. Določenega udeleženca na trgu se predstavi s pomočjo agenta, ki je sposoben samostojno delovati, opazovati razmere in obnašanje ostalih udeležencev na trgu in na podlagi lastnih ciljev določati svoje ravnanje. Agenti so se skozi čas sposobni učiti iz preteklih izkušenj. Na podlagi predstavljenega delovanja pridejo do nekaterih spoznanj, do katerih bi veliko težje prišli z uporabo običajnih modelov. Pri modeliranju trga so agentni sistemi najpogosteje razviti za proizvajalce in uporabo v praksi. 5.2 AGENTNO MODELIRANJE Čeprav agentno modeliranje izhaja s področja umetne inteligence (ang. Artificial Intelligence), ki tradicionalno ni tesno povezano z elektroenergetiko, tudi tu pridobiva na veljavi. Najpogostejša področja uporabe so diagnosticiranje napak, nadzorovanje stanja elementov v elektroenergetskem sistemu (EES), vzpostavitev EES po razpadu, nadzorovanje stanja sistema in avtomatiza-cije ter nenazadnje, simuliranje elektroenergetskega trga [84]. Agentno modeliranje omogoča visoko prilagodljivost za raziskovanje sovplivov različnih udeležencev na trgu, njihovega obnašanja in razvoja. Agenti so svoje odločitve sposobni sprejemati na podlagi izkušenj iz preteklosti, vgrajene logike in predvidevanj o okolju, v katerem delujejo. Podobno se vedejo tudi udeleženci na elektroenergetskih trgih v realnosti, saj svoje obnašanje v skladu z razmerami na trgu in glede na druge udeležence ves čas prilagajajo in ne ostajajo nujno pri neki vnaprej določeni strategiji. 52 05 5.2.1 AGENT IN OKOLJE Modeliranje sistema poskuša čim bolje predstaviti osebke – člane sistema in njihove medsebojne odnose. V nadaljevanju so zato v ospredju gradniki agentnega modela sistema: lastnosti agenta, agentnega okolja in medsebojnih odnosov med njimi. Agent deluje kot računalniški program, ki se nahaja v določenem okolju in se je sposoben odzivati na spremembe v njem. Je avtonomen ali neodvisen, če je sposoben na podlagi opazovanja okolja in sprememb v njem neodvisno izbrati in izvesti določen ukrep. Pri tem sam sprejema odločitve glede na zaznave iz svojih senzorjev in z aktuatorji povratno vpliva na okolje, da bi dosegel zastavljeni cilj [84], [114]. Druga pomembna lastnost je prilagodljivost, če ima agent možnost skozi čas prilagajati in izboljševati svoje odločitve. To privede do izkušenega agenta, sposobnega boljših odločitev in doseganja boljših rezultatov, saj se lahko prilagodi kratkotrajnim spremembam v okolju, lahko pa ima tudi sposobnost zaznavanja dolgoročnih sprememb in prilagajanja nanje. Okolje je vse, kar obkroža agenta, in lahko obstaja na fizičnem ali pa podatkovnem nivoju. Agent na okolje vpliva s fizičnim ukrepom, npr. z izklopom stikala, ali pa z ukrepom na nivoju podatkov, npr. z osvežitvijo podatkovnega niza. Za to lahko uporablja preproste in redke senzorje ali pa njihovo množico z zahtevnimi medsebojnimi povezavami [84]. Slika 5.1 prikazuje povezavo med agentom in okoljem v enoagentnem sistemu [114]. AGENT cilji, ukrepi, LJE ala področje KO zaznav O delovanja izvršitvene enote Slika 5.1: Agent in okolje [114] Agent in okolje sta medsebojno vedno povezana, zato je včasih težko določiti mejo med njima. Okolje agentu v vsakem časovnem intervalu ponuja zanj pomembne informacije. 53 Z agentnim modelom je mogoče preučevati okolje, v katerem se lahko nahajajo eden ali več agentov in v katerem agenti zaznavajo, razmišljajo in delujejo. Skupno informacijo o okolju v nekem časovnem intervalu označimo z I. Stanje, v katerem se okolje v trenutku 𝑡 nahaja, lahko označimo kot s�, nabor vseh mogočih stanj okolja pa običajno označimo kot množico S. Od narave problema je odvisno, ali je neko okolje diskretno s končnim številom stanj ali pa zvezno s pogojno neskončnim številom stanj. S pomočjo agentov (npr. robotov) bi lahko simulirali nogometno tekmo. Stanje okolja – nogo-metnega igrišča določajo podatki, kot so trenutni položaj, smer in hitrost gibanja agenta ali žoge. Te podatke posamezni agenti lahko poznajo drug o drugem. Podatke o okolju sestavljajo tudi drugi parametri, ki so pomembni za odločanje o njihovem delovanju, kot je npr. pretekli čas od začetka tekme ali trenutni rezultat tekme. Agent lahko pridobi popolno informacijo o okolju, če pa je sposoben zaznati le delček slike celotnega stanja okolja, gre za pogojno verjetnost, da agentova informacija dejansko odraža stanje v tem okolju. Okolje je popolnoma merljivo za agenta, če trenutno zaznavanje tega agenta (o�) popolnoma prikazuje trenutno stanje okolja (s�): (5.1) Pri deloma merljivem okolju se zazna le delček slike trenutnega stanja okolja. V takem primeru velja model pogojne verjetnosti 𝑃(s�|o�), kjer je s� pravilno stanje okolja in velja: (5.2) (5.3) Spremenljivka s� je naključna spremenljivka, ki lahko zavzame vse vrednosti iz niza S z neko verjetnostjo 𝑃(s�|o�). Obstajata dva glavna razloga, ki bi lahko privedla do delne merljivosti okolja. Prvi je šum ali napaka na agentovih zaznavalih v okolju, drugi pa je prekrivanje zaznavanja, kar pomeni, da sta lahko dve različni stanji za agenta popolnoma enaki. Koristno je dejstvo, da stanje okolja v nekem časovnem intervalu v večini primerov omogoča popoln opis preteklosti [10]. 54 05 5.2.2 LASTNOSTI IN ZGRADBA AGENTOV Nekatere lastnosti agentov so osnovne in jih mora imeti vsak agent, saj mu omogočajo delovanje v okolju, druge pa so socialne narave in ne omogočajo le komunikacije med agentom in okoljem, ampak tudi med agenti v okolju. Ostale napredne lastnosti so odvisne od zahtevnosti in kompleksnosti delovanja agenta in okolja, značilne pa so za posamezen problem. Tabela 5.1 prikazuje nekatere najpomembnejše lastnosti agentov [84]. Tabela 5.1: Lastnosti inteligentnih agentov Vrste lastnosti Lastnost Opis Avtonomnost Neodvisno in samostojno ukrepanje kot odziv na stanje v okolju Osnovne Odzivnost Odziv na spremembe v okolju in ukrepanje na podlagi zaznanih sprememb Sposobnost Na podlagi izmenjave podatkov agentu omogoča tudi sodelovanje komunikacije in sposobnost pogajanja z drugimi agenti Socialne Sposobnost sodelovanja Sodelovanje s sorodnimi agenti za dosego skupnega cilja Prilagodljivost Učenje in napredovanje za izboljšanje lastnega delovanja na podlagi izkušenj Sposobnost sklepanja Odziv na abstraktne zahtevane naloge Napredne Mobilnost Premikanje po svojem okolju v fizičnem in abstraktnem smislu Zavzetost Ciljno usmerjeno vedenje, sposobnost spremembe delovanja za dosego cilja Osebnost Oponašanje navad živalskega ali človekovega obnašanja Agenti so lahko aktivni in pasivni. Aktivni agenti so sposobni prilagajati svoj odziv glede na spremembo stanja okolja in skladno z določeno vgrajeno strategijo, pasivni agenti pa se sicer odzivajo na stanje okolja, a je njihov odziv vedno enak in predvidljiv. Zgradbe različnih agentov se lahko močno razlikujejo med seboj, predvsem glede na obravnava-no naravo problema. Osnovni sestavni deli agenta so zaznavalna enota (senzor), kontrolna enota (odločanje) in delovna enota (aktuator), slika 5.2, skupaj s funkcijami, ki jih agent lahko opravlja [114]. 55 AGENT Delovna enota: DELOVANJE Kontrolna enota: ODLOČITVEV O KOLJE Zaznavalna enota: OPAZOVANJE Slika 5.2: Preprosta zgradba agenta Podrobnejša predstavitev zgradbe agenta na sliki 5.3 vsebuje več različnih funkcijskih enot in njihovih povezav. Avtonomni model agenta sestavlja naslednjih osem enot [109]: — zaznavalna enota (ang. Perception Unit) vsebuje zaznavala in bere podatke iz okolja. Vsebuje tudi nabor stanj, ki opisujejo okolje in predstavljajo agentovo notranjo sliko okolja. Nabor stanj v tej enoti se lahko tudi spreminja. Zaznavalna enota kontrolni enoti pošilja prejete informacije iz okolja, vključno z mogočimi spremembami nabora stanj. — Procesna enota (ang. Process Unit) vsebuje informacijo o ciljih agenta in povezavah s sosedi. Vsebuje tudi informacije o ciljih ostalih agentov v okolju. — Kontrolna enota (ang. Control Unit) odloča o dejanjih, ki jih mora agent izvesti za dosego posameznega cilja. Posreduje jih računski enoti, ki jih opredeli (kvantificira). Ko zaznavalna enota kontrolni enoti sporoči spremembe stanj, se ta nanje odzove. — Delovna enota (ang. Action Unit): vsebuje nabor nalog in z njimi povezanih ukrepov, ki jih je agent sposoben opravljati. — Razumska enota (ang. Knowledge Unit) vsebuje znanje agenta, ki se uporablja za reševanje problemov. Procesna enota razumski enoti posreduje informacije o ciljih agenta. Vsebuje tudi vedenje o delovanju ostalih agentov v okolju. — Podatkovna enota (ang. Data Unit) definira mehanizme dostopa do posameznih podatkov in ustrezne podatke posreduje računski enoti. — Računska enota (ang. Compute Unit): v računski enoti so definirane funkcije in algoritmi za izbor optimalnih delovanj. Ta enota na podlagi informacij vseh ostalih enot in odločitve kontrolne enote določi optimalna dejanja, ki jih je treba izvesti. — Izvršitvena enota (ang. Execution Unit): izvršuje ukaze, določene v računski enoti, s katerimi povratno vpliva na okolje, v katerem se nahaja agent. 56 05 AGENT DELOVNA DATKOVN enota A PO enota KONTRO RAČUNSKA L ZAZNAVALNA NA IZVRŠITVENA e e e n n ota ota n e o nota ta O KOLJE RAZUMEVANJE enota za PROCESNA enota Slika 5.3: Podrobnejša zgradba agenta Enoagentni sistem lahko na elektroenergetskem trgu predstavlja le enega samega proizvajalca, ki je sposoben spreminjati ponudbo na trgu v skladu z razmerami, vsi ostali udeleženci na trgu pa bi se vedli v skladu z neko stalno, vnaprej določeno strategijo (npr. ponujanje energije po prirastnih proizvodnih stroških). Enoagentni sistem bi lahko predstavljal tudi združen (celoten) odjem na trgu, okolje pa bi predstavljali proizvajalci, ki ne bi spreminjali svoje ponudbe. Tak model ima preveč omejitev, da bi lahko realistično ponazoril delovanje elektroenergetskega trga, zato je na tem področju primernejša uporaba večagentnih sistemov. 5.2.3 VEČAGENTNI SISTEMI Večagentni sistemi se uporabljajo pri modeliranju zahtevnih računalniških iger, pri reševanju transportnih in grafičnih problemov, v geografskem informacijskem sistemu (GIS) ter na številnih drugih področjih, če problem vsebuje veliko število dejavnikov z različnimi, tudi nasprotujo- čimi si cilji in zasebnimi informacijami. Tako področje je tudi trg z elektriko. Večagentni sistemi spadajo v domeno razpršene umetne inteligence (ang. Distributed Artificial Intelligence), ki se med drugim ukvarja z načini konstrukcije sestavljenih (večagentnih) sistemov 57 in z usklajevanjem njihovega delovanja [84]. Slika 5.4 navaja več različnih razlogov za vpeljavo večagentnih sistemov [114]. RAZLOGI ZA UPORABO VEČAGENTNIH SISTEMOV Geografska Narava razpršenost problemov Enostavnejše elementov, na mnogih Robustnost programiranje udeležencev, področjih podsistemov Preučevanje inteligence Vzporednost Možnost Cenovna razširljivosti posameznih učinkovitost podsistemov Slika 5.4: Razlogi za uporabo večagentnih sistemov V večagentnem sistemu imajo agenti lahko možnost medsebojne komunikacije ali pa te mož- nosti nimajo. To je pogojeno z večjo dinamičnostjo okolja in posledično z večjo kompleksnostjo problema. V večagentnem okolju so agenti sposobni tudi modelirati cilje in ukrepe drug drugega. Ali znajo med seboj komunicirati neposredno ali pa je ta komunikacija posredna z zaznavanjem nepredvi-dljivih sprememb okolja, ki so posledice delovanja drugih agentov. Z agentovega zornega kota je glavna razlika med eno- in večagentnim sistemom ta, da so pri večagentnem sistemu spremembe v okolju lahko posledica aktivnosti ostalih agentov in ne le lastnega delovanja, kar ga seveda ovira. Eden od kriterijev za izbiro večagentnih sistemov je že omenjeni obstoj ali neobstoj neposredne medsebojne komunikacije. Agenta na sliki sliki 5.5 med seboj lahko izmenjata informacije ena-kega ali različnega značaja, kar nakazujeta različni obliki puščic na sliki. Večagentni sistemi se poleg tega delijo na homogene in heterogene. V obeh vrstah je v sistemu več agentov, vendar imajo v homogenih sistemih vsi agenti identično strukturo – zaznavala, delovne enote, področje delovanja, cilje in odločitvene funkcije. Razlikujejo se le v tem, da se nahajajo na različnih mestih v sistemu ter po vhodih in izhodih, ki jih iz okolja/v okolje posredujejo z zaznavali/delovnimi enotami. Če se agenti v homogenih sistemih 58 05 ne razlikujejo na ta način, jih je treba združiti v enotnega agenta in ne bi smeli uporabljati večagentnega sistema. Heterogene sisteme sestavljajo agenti z različno strukturo – imajo različna zaznavala, delovne enote in področje delovanja, predvsem pa različne cilje in odločitvene funkcije. Različno vplivajo tudi na okolje. Heterogenost na sliki 5.5 predstavljajo različni stili pisav in črt puščic ter različne barve. AGENTI cilji, ukrepi, ala področje zaznav delovanja LJE KO izvršitvene enote O zaznavala izvršitv A ene eno cilji, G t E e ukrepi, N področje T delovanja I Slika 5.5: Heterogeni večagentni sistem z možnostjo komunikacije med agenti [114] V heterogenih sistemih so lahko različni agenti naklonjeni ciljem drug drugega ali pa so konkurenčni, kar pomeni, da drug drugemu preprečujejo doseganje ciljev. Tipičen primer konkurenč- nih agentov je trg električne energije, kjer si npr. agenti proizvajalci prizadevajo, da bi dosegli čim višjo prodajno ceno za svojo proizvedeno energijo, agenti odjemalci pa, da bi bila cena porabljene električne energije čim nižja. Skupna zajeta informacija iz okolja se med posameznimi agenti deli glede na različne načine njenega zaznavanja, prostorsko in časovno komponento ter način njene predstavitve. Zaradi tega stanja okolja avtomatično postajajo deloma merljiva s stališča vsakega posameznega agenta in različno vplivajo na njihovo odločanje. Dodatni problem predstavlja izmenjava podatkov zaznaval. Vprašanje je, kako najbolje kombini-rati zaznavanje posameznih agentov za kolektivno doseganje popolne slike okolja. Razlika med 59 večagentnim sistemom in enoagentnim sistemom je decentralizacija upravljanja. To pomeni, da ne obstaja centralni proces, ki bi zbiral vse podatke vseh agentov in se na podlagi teh podatkov odločil, kaj bo posamezni agent storil. Odločanje vsakega agenta je torej v največji meri odvisno od njega samega. V večagentnih sistemih lahko vsak posamezni agent uporabi znanje, ki ga imajo tudi drugi agenti in se na podlagi tega odloča [6], zato je pomemben koncept javnega znanja. Vsak agent pozna neko dejstvo in ve, da tudi vsi drugi agenti poznajo to dejstvo. Komunikacija v večagentnih sistemih je dvosmeren proces, kjer so lahko vsi agenti potencialni prejemniki ali pa pošiljatelji neke informacije. Vprašanje je, katere protokole uporabljati, da bi poslane informacije zanesljivo in ob pravem času prišle na poslano mesto. Pri heterogenih agentih je pomemben tudi jezik za sporazumevanje in izmenjavo informacij, Če se veliko število agentov odloča v istem trenutku, je za vsakega od njih pomembno neznano ravnanje drugih agentov, saj je njegovo ukrepanje odvisno od tega. Odločanje agentov v večagentnih sistemih lahko opiše teorija iger, ki skuša razumeti in pojasniti obnašanje agentov, med katerimi obstajajo medsebojne povezave. Glede njihovega odločanja o svojem delovanju obstajata dve vrsti iger, strateške in ekstenzivne. — V strateških igrah ima vsak agent svojo strategijo, vendar na začetku igre vsi simultano sprejemajo odločitve, — v ekstenzivnih igrah pa imajo agenti možnost, da se med potekom igre ponovno odločijo o svoji strategiji. Pomembno je tudi poznavanje zornega kota posameznega agenta, ki vključuje druge agente. Tak zorni kot je lahko popoln ali pa nepopoln. Agenti se odločajo za svoje ukrepe, ki oblikujejo skupni rezultat. Ta predstavlja doseženi rezultat agentovega ukrepa in je podlaga za vrednotenje njegove uspešnosti. Čeprav so rezultati uspešnosti agentov javno znani, ni vsak agent seznanjen z naborom izbranih ukrepov ostalih agentov, ki so pripeljali do objavljenega rezultata, zato skuša predvideti ukrepe drugih agentov in rezultat igre, ki temelji na predpostavki, da so vsi agenti racionalni in da razmišljajo strateško [105]. 60 05 5.3 AGENTNA ORODJA NA ELEKTROENERGETSKEM TRGU V strokovni in znanstveni literaturi je veliko agentnih orodij za simulacijo elektroenergetskega trga in nekatere od njih predstavlja naslednji spisek: — PowerWeb: model Univerze Cornell, Ithaca, ZDA, je razvit za razumevanje različnih trgov s »človeškimi« odločevalci, ki med seboj komunicirajo po spletnem vmesniku. Vsak generator predstavlja agent trgovec, odjem na dnevnem trgu elektrike pa je nespremenljiv. Cena se določa z dvostransko avkcijo. Model ne omogoča simuliranja aktivnega ali neaktivnega agenta trgovca. Urni in terminski trg nista upoštevana [135]. — Agentbuilder: proizvod podjetja Acronymics, Inc., ZDA, uporablja teorijo odločanja ter tri strategije nakupa in prodaje električne energije. Uporablja gladke monotono naraščajoče/ padajoče krivulje, ki ponazarjajo obnašanje agenta. Med simulacijo agenti ne morejo spreminjati ali osveževati svojega obnašanja. Sistem za določanje tržnega ravnovesja uporablja nizozemsko avkcijo5 [3]. — SEPIA (Simulator za agente v elektroindustriji, ang. Simulator for Electrical Power Industry Agents) Univerze Minnesota, ZDA, uporablja adaptivne ciljno orientirane agente, ki so sposobni zaznati vzorce v svojem okolju. Model uporablja prirastne genetske algoritme in ne omogoča obravnave kompleksnih scenarijev, povezanih z zamašitvami v prenosnem sistemu, ampak le simuliranje terminskega trga. — MSCEM (Večagentni simulacijski sistem za deregulirane trge električne energije, ang. Multi Agent Simulation System for Competitive Electricity Markets) z Univerze v Portu uporablja odprto agentno arhitekturo6 za ustvarjanje sistema, ki temelji na pravilih. Strategije agentov uporabljajo monotono naraščajoče/padajoče funkcije [102]. — EMCAS (Kopleksni adaptivni sistem trge električne energije, ang. Electricity Market Complex Adaptive System) iz raziskovalnega centra Argonne National Laboratory, ZDA, uporablja kompleksen adaptiven način za ponazarjanje agentnega učenja. Je eden od najbolj uveljavljenih in je sposoben preverjanja regulatornih okvirov s pomočjo genetskih algoritmov. Cilje agentov opisujejo krivulje koristi. Slabost tega modela je pomanjkanje sposobnosti napovedovanja dinamike trga [28]. 5 Nizozemska avkcija je tip avkcije, pri kateri se dobrina prvotno ponuja po zelo visoki ceni, precej višji od tiste, ki bi jo želel prodajalec. Ta cena se postopoma znižuje do cene, po kakršni je eden od kupcev dobrino pripravljen kupiti. 6 Odprta agentna arhitektura (OAA, ang. Open Agent Architecture) se osredotoča na gradnjo skupnosti agentov, kjer je agent definiran kot program, ki služi ciljem celotne družbe OAA. 61 — MAIS (Večagentni inteligentni simulator, ang. Multi Agent Intelligent Simulator) z Inštituta za rudarstvo in tehnologijo, Socorro, ZDA. Agente ima razvite za proizvajalce, velike odjemalce, organizatorja trga, sistemskega operaterja in regulatorja. Sposoben je napovedovati nihanje cene električne energije in numerični vpliv zamašitve v omrežju na tržno ceno [115]. Pregled obstoječih simulacijskih agentnih modelov za trgovanje na trgih električne energije na debelo [133] obravnava različne adaptivne agentne modele, ki uporabljajo: — model z lastno logiko adaptivnosti, — genetske algoritme, — Erev-Rothovo okrepljeno učenje, — Nizozemska avkcija je tip avkcije, pri kateri se dobrina prvotno ponuja po zelo visoki ceni, precej višji od tiste, ki bi jo želel prodajalec. Ta cena se postopoma znižuje do cene, po kakršni je eden od kupcev dobrino pripravljen kupiti. — Odprta agentna arhitektura (ang. Open Agent Architecture, OAA) se osredotoča na gradnjo skupnosti agentov, kjer je agent definiran kot program, ki služi ciljem celotne družbe OAA. — Q-učenje, — algoritme za razvrščanje s kombinacijo okrepljenega učenja in genetskih algoritmov, — optimizacijo funkcij, ki opisujejo ponudbene krivulje. Poleg zgoraj naštetih kategorij so opisali tudi velike nacionalne agentne simulatorje trga električ- ne energije, kot so EMCAS. Pregled skupno 31 modelov je pokazal, da so v največji meri osredotočeni na nastopanje proizvajalcev na trgu, hkrati pa tudi, kako sistem določitve cene vpliva na ponudbe proizvajalcev in tržne cene. Velika večina modelov v svoji definiciji ne upošteva omrežja in povpraševanje obravnava kot stalno in neobčutljivo na ceno, samo trije pa privzemajo aktivnejšo vlogo odjemalcev in zato agente odjemalce obravnavajo kot aktivne. Avtorji v [23] agente odjemalce modelirajo kot agente dobavitelje ali kot skupine odjemalcev. Omogočajo uporabo terminskega trga z energijo in preučujejo možnost izrabljanja tržne moči proizvajalcev na trgih. Uporabljajo avkcijo »plačilo po ponudbi« (ang. Pay as Bid Auction), si-mulirajo pa tudi izravnavo odstopanj. V modelu tako proizvajalci kot tudi dobavitelji poskušajo iztržiti čim več, pri čemer se skušajo izkoristiti razliko med ceno na terminskem trgu in ceno za izravnavo odstopanj. Uporabljajo zaprtokodno modelu lastno učenje, ki se ga ne da točneje ka-tegorizirati. Težava modela je, da ne simulira dnevnega trga električne energije, ampak agenti na 62 05 podlagi razlike med napovedanimi cenami za odstopanja in doseženimi cenami na terminskem trgu iščejo strategije za povečanje svojega dobička. Dobiček je razlika cen na teh dveh trgih in presežek/primanjkljaj energije, kar pa ni dejanski dobiček ali dobrobit zaradi prevzemanja tveganja s trgovanjem na trgu, ampak zaradi arbitraže glede razlike v ceni med dvema časovno zamaknjenima trgoma. Avtorji v [79], [90] agente odjemalce prav tako modelirajo kot agente dobavitelje, ki jih obravnavajo tudi kot skupine odjemalcev. Pri tem privzamejo dobiček, ki ga pridobijo s prodajo kupljene električne energije končnim odjemalcem, jo pomnožijo s ceno na prirastni cenovni krivulji ter tako določijo par cene in količine. Za analizo uporabljajo zelo majhen in enostaven testni sistem treh generatorjev in treh enakih dobaviteljev, kjer preučujejo možnost izvajanja tržne moči bodisi proizvajalcev bodisi odjemalcev s ponudbami in povpraševanji. Za določitev tržne cene uporabljajo dvostransko avkcijo. Agenti za učenje uporabljajo genetske algoritme. Težava modela agentov je, da je dobrobit predpostavljena, saj so predpostavljene cene in količine povpraševanja ter hkrati tudi ponudbe. Gre torej samo za testni sistem z nekaterimi lastnimi definicijami, ki omogoča raziskovanje, kdo od udeležencev na trgu in s kakšnimi ukrepi lahko izrablja tržno moč. Zaradi svoje specifičnosti ni razširljiv na ostale sisteme. Avtorji v [89] podobno kot v prejšnjem načinu modelirajo majhen sistem s šestimi proizvajalci in tremi odjemalci, definirajo krivulje dobrobiti za vse ter primerjajo pojav naravne tržne moči in tržne moči zaradi agentnega učenja. Agenti oblikujejo ponudbe in povpraševanja ter uporabljajo Erev-Rothov učni algoritem, pri čemer privzamejo prirastne cenovne krivulje. Težava tega modela je v privzemanju dobrobiti odjemalcev skozi cenovne krivulje in v potencialni razširljivosti majhnega testnega sistema na ostale sisteme. Med agentnimi modeli z odjemalci, ki ne spada v obravnavani nabor, je tudi model avtorjev [92], ki odjemalce razdelijo na neprekinljive in prekinljive. Prekinljivim odjemalcem lahko glede na določen kriterij znižajo količino dobave, če je to potrebno s stališča sistema, npr. v času previsoke konične porabe. Če te potrebe ni, se oba tipa odjemalcev obnašata enako. Model definira izpelja-vo optimalnih funkcij povpraševanja za oba tipa odjemalcev, ki jih določa agentno modeliranje. 63 64 6Učenje agentov 06 65 6.1 UVOD Ena od najpomembnejših lastnosti agentov je njihova prilagodljivost, sposobnost izboljšanja rezultatov zaradi učenja iz preteklih izkušenj in možnost sklepanja. To velja tudi na trgu električne energije. Agente uvajajo zato, da bi raziskali možnosti uporabe novih strategij pri posameznem tržnem udeležencu in skozi čas izboljšali njegovo delovanje. Deterministični modeli namreč omogočajo optimiranje potez v znanih obratovalnih stanjih. V neznanih stanjih, ki so zunaj vseh znanih omejitev, pa lahko pomagajo samo neparametrične metode ocenjevanja, kot so metode strojnega učenja. Ker mednje spadajo tudi agentni modeli, omogočajo simulacijo možnih obratovalnih stanj v težko predvidljivih kombinacijah okoliščin, ki jih sicer ne moremo deterministično opisati s sistemom enačb in optimirati. To je ena od ključnih lastnosti predvsem agentov proizvajalcev in odjemalcev električne energije. Pri agentnem modeliranju trga se uporabljajo tehnike strojnega učenja (ang. Machine Learning), med katerimi so najpogostejše tehnike učenja umetne-ga nevronskega omrežja, genetsko programiranje, induktivno logično programiranje, evolucijsko učenje, učenje z regresijskimi drevesi, rojenje in okrepljeno učenje. 6.2 OKREPLJENO UČENJE Okrepljeno učenje (ang. Reinforcement Learning) je cikličen proces, slika 6.1 [91]. Pri tem je agent hkrati učenec in odločevalec, okolje pa je vse, s čimer pride agent v stik. Agent lahko okolje zaznava s svojimi vhodi in v njem izvršuje določene ukrepe, vendar ne ve, kakšen učinek bodo ti ukrepi imeli. Poleg informacij iz okolja od učitelja prejema nagrade, ki mu podajajo informacijo o učinku njegovih ukrepov. Kako naj agent izbira svoje ukrepe, da bo maksimiral prejete nagrade? Učno pravilo agentov je najti strategijo, ki bo njegove vhode in ukrepe povezala, da bo postopoma maksimiral prejete nagrade. Agent lahko pravo strategijo poišče s poskušanjem, predvideva-njem ter pomnjenjem izkušnje uspehov in neuspehov. Agent in okolje sodelujeta v vsakem od časovnih korakov 𝑡 ∈ T, ko se agent znajde v stanju okolja s�, s� ∈ S in je S nabor možnih stanj. Agent nato izbere ukrep a�, a� ∈ A(s�), A(s�) je nabor mogočih ukrepov v tem stanju, okolje pa se nanje odziva in ustvarja nove situacije. Iz okolja izhajajo tudi nagrade, ki so poseben signal, njegovo vrednost pa si agent prizadeva kar najbolj povečati. Agent 66 06 za vsak opravljen ukrep dobi numerično nagrado r�, r�₊₁ ∈ R, hkrati pa se premakne v stanje s�₊₁. Agent ima izdelan nabor stanj S in določeno verjetnost izbire posameznih ukrepov v posameznih stanjih, kar poimenujemo strategija agenta. ukrep a� AGENT OKOLJE stanje s� nagrada r� Slika 6.1: Ciklični proces okrepljenega učenja Za vsak časovni korak 𝑡 ima agent izdelano matriko stanj in verjetnosti izbire posameznih mo- žnih ukrepov, ki izhajajo iz teh stanj. Taka shema je strategija agenta in se označuje s simbolom ψ�, kjer je ψ�₍��₎ verjetnost, da je a� = a, če je s� = s. Metode okrepljenega učenja določajo, kako agent na podlagi izkušenj spreminja svojo strategijo. Njegov cilj je kar najbolj povečati končno vrednost nagrad, ki jih zbira v daljšem časovnem obdobju. Opisano ogrodje je abstraktno in precej prilagodljivo, zato ga je mogoče na različne načine uporabiti pri številnih problemih. Ni nujno, da časovni koraki pomenijo določene intervale resnične-ga časa, lahko gre za poljubne zaporedne stopnje pri odločanju in delovanju. Ukrep je lahko preprosto, nizkonivojsko vodenje in podobno so tudi »stanja« lahko različna. Lahko so v celoti odvisna od nizkonivojskih/preprostih zaznav, kot je neposredno odčitavanje z zaznavala, ali pa so bolj kompleksna in abstraktna, kot so simbolični opisi predmetov v prostoru. Stanje se lahko deloma zasnuje tudi na spominski vrednosti preteklih zaznav ali pa je v celoti mentalno oziroma subjektivno. Agent se lahko znajde v stanju, ko ni prepričan, kje se nek predmet nahaja, ali pa v stanju, ko je presenečen nad nečim jasno določenim. Podobno so ukrepi lahko v celoti mentalni ali računski. Nekateri ukrepi lahko na primer določijo, o čem bo agent razmišljal ali na kaj se bo osredotočil. V splošnem so ukrepi lahko vse odločitve, ki jih sprejema, stanja pa vse poznano, kar lahko pri tem pomaga. 67 Napačno bi si bilo predstavljati, da je meja med agentom in okoljem tam, kjer robot ali telo živali fizično ne obstajata več. Običajno je meja nekoliko bližje agentu. Splošno pravilo se glasi, da se vse, česar agent ne more poljubno spreminjati, nahaja zunaj njega in tako tvori del okolja. Nagrade v odnosu do agenta pojmujemo kot zunanje, čeprav se predvidoma izračunavajo znotraj fizičnega telesa naravnih in umetnih učečih se sistemov. Pri tem pa ni predpostavke, da je okolje agentu v celoti neznano. Agent sorazmerno dobro ve, na kakšen način je njegova nagrada odvisna od njegovih ukrepov in tudi stanj, v katerih pride do ukrepov. Vseeno velja predpostavka, da se nagrada določa izven agenta; od nagrade je namreč odvisna agentova naslednja naloga, zato mora biti zunaj agentovega vpliva. Včasih lahko agent podrobno pozna delovanje okolja, a se kljub temu znajde pred zahtevnim izzivom okrepljenega učenja. Podobno je jasno, kako deluje Rubikova kocka, a jo je kljub temu težko pravilno sestaviti. Meja med agentom in okoljem je meja agentovega absolutnega vpliva in ne njegovega znanja. Očitno meja med agentom in okoljem ni v vseh primerih na istem mestu. V sklopu kompleksnega robota lahko istočasno deluje več agentov, vsak znotraj svojih meja. En agent tako opravlja visokonivojske odločitve, ki tvorijo del stanj, s katerimi se sooča nizkonivojski agent, ki izvede visokonivojske odločitve. V praksi je meja med agentom in okoljem določena z izbiro stanj, ukrepov in nagrad ter z določitvijo procesa odločanja. Ogrodje okrepljenega učenja predstavlja abstrahirano obliko ciljno usmerjenega učenja z inte-rakcijo. Ne glede na specifike senzorne, spominske ali nadzorne naprave ter ne glede na cilj, ki ga skušamo doseči, je mogoče vsak problem pri učenju ciljno usmerjenega vedenja reševati na osnovi treh signalov, ki dvosmerno potujejo med agentom in njegovim okoljem: 1. agentove izbire (ukrepi), 2. temelj, na katerem je te izbire zasnoval (stanja), 3. agentov namen (nagrade). S takim ogrodjem morda ni mogoče na uporaben način predstaviti vseh problemov učenja z odločanjem, vendar se je kljub temu izkazalo kot nadvse koristno in uporabno [116]. Predstavitve stanj in ukrepov se seveda med primeri uporabe bistveno razlikujejo, kar pomembno vpliva na učinkovitost. Tovrstne izbire pri okrepljenem učenju in drugih oblikah učenja so bolj v domeni umetnosti kot znanosti. 68 06 Pomembna zahteva pri okrepljenem učenju je, da ima okolje lastnost Markova. Stohastični proces ima to lastnost, če je pogojna porazdelitev verjetnosti prihodnjih stanj procesa pogojena tako s preteklimi kot s sedanjimi vrednostmi, odvisna pa je samo od trenutnega stanja in hkrati prihodnost ni odvisna od preteklosti, ne glede na sedanjost. Proces s to lastnostjo je proces Markova, kamor sodijo Brownovo gibanje in verige Markova. Če ima okolje tako lastnost, se lahko nagrada pri dinamičnem simuliranju predvidi glede na trenutno izbrani ukrep in trenutno stanje okolja. Z uporabo okrepljenega učenja se lahko pri iteracijah dinamičnega učenja učni algoritem nauči, katera dejanja so najboljša glede na celotno zgodovino prejetih nagrad, saj so zajeta v trenutnem stanju [17]. 6.3 UČENJE Z UTEŽENIM POVPREČJEM Metode stopenjskega učenja z zahtevanimi Markovimi lastnostmi so ustrezne v stacionarnem okolju. V energetiki je okolje stacionarno le, če ne pride do vstopa novih udeležencev na trg, sprememb pravil trga oziroma drugih bistvenih sprememb. Do takih sprememb praviloma pride pri simulaciji daljših časovnih obdobij, kar v elektroenergetiki običajno predstavlja pet ali več let. Takrat se mora učni proces začeti znova ali pa ga je treba oblikovati z zajemom take spremembe. Učenje z uteženim povprečjem kot ena od najbolj preprostih učnih metod upošteva vse nagrade pri posameznih ukrepih. Tako je nagrada r izračunana kot povprečje vseh dosedanjih nagrad: (6.1) Metoda ne upošteva, da se lahko okolje bistveno spremeni. Ob spremembi je treba izločiti nagrade, ki so se zgodile pred spremembo oziroma utežiti nagrade, ki so časovno bližje. Zato ena od komponent metode učenja z uteženim povprečjem za agente proizvajalce upošteva le zadnje nagrade, ki so tudi ustrezno utežene [76]. 69 6.4 Q-UČENJE Med zelo razširjene in pogosto uporabljane načine strojnega učenja na različnih področjih energetskih trgov spada t.i. Q-učenje, ki je oblika okrepljenega učenja brez modelov [91], [132]. Razumeti jo je mogoče tudi kot metodo asinhronega dinamičnega programiranja. Agentu omogoča, da se nauči optimalnega delovanja v markovskih okoljih na podlagi izkušenj, ki jih pridobi z izvajanjem različnih ukrepov, učenje pa poteka podobno kot pri metodah časovnih razlik [116]. Čeprav je enostavno, se Q-učenje lahko uporablja kot podlaga za veliko bolj izpopolnjene učne strategije. Q-učenje je preprost algoritem, v katerem se agenti učijo v območju Markove domene. Ta algoritem je eden najpogosteje uporabljenih med okrepljenimi učenji in ne potrebuje eksplicitnega modela okolja. Agent se skozi svoja zaznavala nauči prepoznati okolje, ki se lahko med učenjem spreminja. Delovanje agenta temelji na sprotnem izboljševanju in analizi posameznih ukrepov a� v posameznem stanju s�, ki se npr. pri agentu proizvajalcu običajno definira kot nivo odjema ali dobička. Nivoji različnih stanj morajo biti vnaprej določeni ali napovedani v učnem procesu, ker se agent na njihovi podlagi odloča, kakšen ukrep bo izvedel v naslednjem koraku. Agent tako pri učenju uporablja iskalno tabelo, ki vsebuje Q-vrednosti. To so pari stanja in pripadajočega ukrepa. Splošen primer Q-matrike prikazuje tabela 6.1, kjer so kot stanja definirani nivoji odjema. Tabela 6.1: Primer Q-matrike Stanje Ukrep 1 (a₁) Ukrep 2 (a₂) Ukrep 3 (a₃) ... Ukrep 𝐧 (𝐚�) Odjem 1 (s₁) q₁₁ q₁₂ q₁₃ ... q₁ₙ Odjem 2 (s₂) q₂₁ q₂₂ q₂₃ ... q₂ₙ ... ... ... ... ... ... Odjem n (s₁) qₙ₁ qₙ₂ qₙ₃ ... qₙₙ Pri ukrepu, ki vodi v spremembo stanja npr. agenta proizvajalca, je Q-vrednosti mogoče uporabiti na različne načine. Lahko se uporabijo za premik ponudbene krivulje agenta proizvajalca v smeri cenovne osi. Lahko se uporabi premik ponudbene krivulje po ceni oziroma po količini. Ker se je treba pri vsakem ukrepu odločiti za izvedbo ene vrste, so rezultati takih ukrepov vedno različni. 70 06 Za poenostavitev se lahko privzame, da se kot identične obravnava rezultate, ki ne odstopajo za več kot 1 %. V izogib stohastičnemu procesu izbire ukrepa se tu definira le premik ponudbene krivulje v smeri cenovne osi med časoma 𝑡 in 𝑡+1: (6.2) S preprostim množenjem vrednosti ponudbene krivulje s Q-vrednostjo se krivulja premika navzgor oziroma navzdol glede na začetno definirano stanje in obliko ponudbene krivulje. Slika 6.2 prikazuje premikanje ponudbene krivulje. λ [€/MWh] � 𝑃 [MW] Slika 6.2: Premik osnovne ponudbene krivulje Normirana Q-vrednost q�(s,a) se izračuna za vsak par stanje-ukrep v času 𝑡 (6.3). V času 𝑡 se pripadajoča vrednost q�(s,a) v stanju s posodobi glede na (6.3), kjer je α� učni koeficient in r� dose- žen dobiček – nagrada agenta kot izbrani učni parameter. Na ta način se Q-vrednosti shranjujejo in odražajo vrednosti preteklih doseženih dobičkov, zato naučeni agent ob enakih ukrepih tudi v prihodnosti lahko pričakuje podobne dobičke. (6.3) Po agentovem mnenju je privzet najboljši ukrep V�₋₁(y), (6.4), ki ga lahko izvede v pod-stanju y. Če se V�₋₁(y) in definicijo podstanj izpusti, se izgubi stohastična definicija problema [131]. (6.4) Q-vrednosti se posodobijo samo za stanja, v katerih se agent nahaja v tistem dnevu (6.3). Ostale Q-vrednosti ostanejo nespremenjene. Učni koeficient α� je zasnovan tako, da je odvisen od dejanj 71 in je obratno sorazmeren številu obiskov posameznih dejanj ν� v vsakem stanju s (6.5). Tukaj je v vsakem stanju samo eno možno dejanje. Kvocient dobička in stroškov, povečan za vrednost ena, se izbere kot učni parameter r, ki se v nadaljevanju imenuje nagrada. Na ta način se nagrado enostavneje grafično ponazori in se jo lažje primerja med proizvodnimi podjetji. Dobiček π se definira kot prihodek, ki je razlika proizvodne in tržne cene, zmanjšan za stroške C� v vsaki simulacijski periodi 𝑡 (6.6). Stroški se za izbrano periodo definirajo kot vsota kratkoročnih prirastnih stroškov C����, pomnoženih s proizvodno močjo 𝑃����, in dolgoročnih prirastnih stroškov C����, pomnoženih z maksimalno močjo 𝑃� (6.6). (6.5) (6.6) r = 1 + (6.7) C Agentove izkušnje pri Q-učenju sestavljajo niz diskretnih stanj ali epizod. Agent v 𝑡-ti epizodi: — zazna trenutno stanje s�, — izbere Q-vrednosti za vsako napovedano stanje in ponudbo spremeni skladno s (6.2), — izbere in izvede ukrep a�, — zazna podstanje y�, če je definirano, — pridobi takojšnjo nagrado r� skladno s (6.7), — osveži Q-vrednosti q�₋₁, pri čemer uporabi učni faktor α� glede na enačbo (6.3). Snovalec agenta mora izbrati začetne Q-vrednosti za vsa stanja, Q₀(s,a), in nabor ukrepov. V zgo-dnjih stadijih učenja Q-vrednosti najverjetneje ne bodo odražale vrednosti, ki jo implicitno definirajo. Najpomembnejši pogoj za konvergenco k optimalnim Q-vrednostim in s tem za učenje je, da mora biti število obiskov posameznih stanj za vsako posamezno stanje in ukrep neskončno ali vsaj zelo veliko. Čim manjše je število obiskov posameznih stanj, toliko večja je verjetnost, da se agent znajde v suboptimalnem stanju. Število stanj S je prav tako prepuščeno snovalcu agenta in mora biti izbrano tako, da je število obiskov določenega stanja čim večje in da čim bolje opiše med seboj pomembno različna stanja. 72 06 Pri določanju stanj je treba narediti diskretizacijo neznanega in neskončnega prostora, kar za snovalca predstavlja velik izziv: več kot je stanj, daljše je učenje, saj mora agent večkrat obiskati isto stanje in v njem izvesti drugačen ukrep, da se nauči izbrati najprimernejši ukrep zanj. Pri pre-majhnem številu stanj pa nastane tveganje, da neko stanje zajema preširoko množico rezultatov in da isti ukrep vodi v različno nagrado, kar zmede učečega se agenta. Med prednosti Q-učenja sodijo: — Q-učenje je zaporedje preprostih računskih operacij, ki omogočajo robusten računski algoritem in njegovo izvedbo s stabilnim in hitrim računalniškim programom [132]. — Q-učenje se med učnimi algoritmi uporablja najpogosteje, še posebej pri agentih na trgu električne energije [133]. — Agent med procesom učenja spoznava okolje, zato za uporabo Q-učenja ne potrebuje eksplicitnega modela okolja [6]. — Q-učenje je učinkovito pri sprejemanju preprostih in preglednih ukrepov pri agentnem modeliranju sistemov z veliko vplivnimi parametri in kompleksnimi relacijami med gradniki sistema, kot so npr. elektroenergetski trgi [103]. Pomanjkljivosti Q-učenja pa so: — potreba po neskončnem prostoru ali velikemu številu stanj sistema in s tem povezana diskretizacija prostora. — Časovno potraten način učenja, saj agent potrebuje dolgotrajno časovno obdobje, da se nauči uporabnih povezav v modelu. — Nezmožnost prepoznavanja podobnih stanj sistema. — Velika uporaba računalniškega spomina pri večjih modelih ali modelih z veliko stanji. 6.5 SA-Q UČENJE IN NJEGOVO IZBOLJŠANJE Učni algoritem agenta Q-učenje se lahko nadgradi v SA-Q učenje, ki je eden od pogosto uporabljenih načinov v agentnih modelih trga z električno energijo in so ga prvotno uporabili pri robotskem učenju [117], [87], [88]. 73 6.5.1 RAZISKOVANJE ALI IZRABA ZNANJA Agent se mora vedno znova odločati med n različnimi možnimi ukrepi. Po vsaki odločitvi skladno z nespremenljivo verjetnostno porazdelitvijo prejme nagrado glede na ukrep, ki ga je izbral. V določenem obdobju, npr. na vsakih 1.000 odločitev, želi maksimirati pričakovano celotno nagrado. Ena iteracija pri izbranem ukrepu je igra ali simulacijsko obdobje. Gre za izvirno obliko problema t. i. »n-rokega bandita«, ki sledi analogiji iz slikovitega poime-novanja igralnega avtomata, znanega kot »enoroki bandit«, ki takoj po potegu ročice prikaže tri sličice. Cilj igre je pridobiti tri enake sličice in s tem različno visoke denarne nagrade. Pri tem matematičnem problemu pa ročica ni le ena, pač jih je n. Izbira posamezne agentovega ukrepa je podobna potegu ročice igralnega avtomata, omenjene nagrade pa so vzporedne denarnemu izpla- čilu, kadar zadene veliko nagrado. Pri ponavljajočih se igrah naj bi maksimiral svoje zadetke tako, da vedno igra le z zmagovalnimi ročicami. Pri n-rokem banditu za vsak izbrani ukrep obstaja pri- čakovana, povprečna nagrada, imenovana tudi vrednost ukrepa. Za znano vrednost posameznega ukrepa bi bilo reševanje problema n-rokega bandita preprosto: vsakič izbrati ukrep z največjo vrednostjo. Točne vrednosti posameznih ukrepov niso znane, morda pa so na razpolago ocene. Pri znanih ocenah vrednosti ukrepov v vsakem trenutku obstaja najmanj en ukrep z največjo ocenjeno vrednostjo – pohlepni ukrep. Na izbiro sta dve možnosti: — pri pohlepnem ukrepu se izkoristi trenutno znanje o vrednosti posameznih ukrepov. — Pri izbiri enega od nepohlepnih ukrepov se raziskuje, s čim je mogoče izboljšati oceno njegove vrednosti. Izkoriščanje obstoječega znanja je prava izbira za maksimiranje pričakovane nagrade v določeni igri, vendar se lahko na dolgi rok doseže večjo nagrado z uporabo raziskovanja, saj se s tem po-veča verjetnost doseganja globalnega optimuma. Če je znana točna vrednost pohlepnega ukrepa, se več drugih ukrepov z veliko mero negotovosti ocenjuje kot primerljive vrednosti. Velika negotovost nakazuje, da je vrednost najmanj enega od drugih ukrepov najbrž večja od vrednosti pohlepnega ukrepa, le da ta ukrep ni znan. Če obstaja še veliko iger, je morda najbolje, da se raziščejo nepohlepni ukrepi, ki imajo večje vrednosti od pohlepnega. Med raziskovanjem bo nagrada sicer lahko manjša, dolgoročno pa bo zagotovo večja, ker se bodo pojavili ukrepi z večjo vrednostjo in s tem tudi uporabno novo znanje. Pri odločanju za posamezni ukrep je nemogoče hkrati raziskovati in uporabljati obstoječe znanje, ker to govori o »konfliktu« med raziskovanjem in uporabo trenutnega znanja. 74 06 V vsakem posameznem primeru je odločitev, ali je bolje raziskovati ali izkoriščati obstoječe znanje, odvisna od kompleksnega prepleta točnih vrednosti ocen, negotovosti in števila preostalih iger. Za uravnoteženje raziskovanja in izkoriščanja znanja v posameznih matematičnih izpe-ljankah problema n-rokega bandita in sorodnih problemov obstajajo številne metode. Večina jih temelji na predpostavkah o nespremenljivosti in predhodnem znanju, ki ne držijo ali pa jih je v celotnem problemu okrepljenega učenja nemogoče preveriti. Potreba po uravnoteženju raziskovanja in izkoriščanja znanja je značilen izziv okrepljenega učenja. Ravnovesje med raziskovanjem še neuporabljenih strategij in izkoriščanjem pridobljenega znanja je predmet mnogih raziskav. Med njimi obstajata dva glavna postopka [56], [116]. Prva rešitev je preprosta ε-pohlepna strategija [116]. Vrednost ε, ki se nahaja v intervalu 0 < ε < 1, definira verjetnost izbire raziskovanja. Če je ta vrednost visoka, se agent večkrat odloči raziskovati še neuporabljene strategije. Primerjava takega algoritma z algoritmom brez raziskovanja (ε = 0) pokaže, da raziskovanje doseže boljši rezultat, izboljšana metodologija pa dokazuje, da je raziskovanje pozitivno na začetku učenja, ko agent spoznava okolje, skozi celotno učno obdobje pa ni tako pomembno [56]. Drugi postopek je kriterij Metropolis in Q-učenje, kar ga spremeni v t.i. SA-Q učenje. Spremenjeni algoritem omogoča raziskovanje na začetku simulacij in raziskovanje zmanjšuje skladno s padajočim parametrom temperature (6.10), kot se pojavlja pri ohlajanju kovin (ang. Simulated Annealing – SA). Rezultati kažejo, da SA-Q učenje konvergira hitreje kot Q-učenje, prav tako pa se doseže globalni optimum, kar pri učenju brez raziskovanja ni zagotovljeno. Kriterij Metropolis zagotavlja optimalno doseganje rezultatov agentov [56], [131]. SA-Q učenje s kriterijem Metropolis se lahko zapiše kot: 1. naključni izbor ukrepa a'�. 2. Izbor a'� glede na pohlepno strategijo, kjer se izbere najvišja Q-vrednost. (6.8) Generira se naključno vrednost ξ ∈ (0,1) in izbere ukrep glede na (6.9). (6.9) 75 Temperatura (Temp�) je faktor, ki zagotavlja njeno počasno zmanjševanje v SA-Q učenju. Faktor hitrosti zmanjševanja temperature φ je običajno konstanta, manjša od 1 (npr. 0,99) (6.10). (6.10) 6.5.2 IZBOLJŠAVA SA-Q UČENJA Osnovno SA-Q učenje ima tudi nekatere pomanjkljivosti, ki jih odpravlja izboljšani model SA-Q učenja (SA-QI). Glavne pomanjkljivosti so nezadostno razlikovanje med dobrimi in slabimi ukrepi, neuravnoteženost učnega koeficienta in učnega parametra, različna definiranost stanj in ukrepov ter napačna smer raziskovanja boljših strategij. SA-QI-učenje želi pospešiti in izboljšati postopek tako, da agent išče možne rešitve za izboljšanje strategij. 6.5.2.1 URAVNOTEŽENJE UČNEGA PARAMETRA IN Q-VREDNOSTI Pri SA-Q učenju je zelo pomemben učni parameter r, ki vpliva na velikost Q-vrednosti. To definira linearna kombinacija učnega parametra in predhodne vrednosti Q, kar sledi iz (6.3). Kot učni parameter agenta na trgu se običajno uporablja doseženi dobiček ali kombinacija dose- ženega dobička in želenega obratovanja [88], [117], [87], [117]. Ta parameter se lahko opiše na različne načine: kot absolutna vrednost, npr. v denarni enoti €, relativno kot normirani dobiček glede na prihodek ali kako drugače. Ker se Q-vrednosti in učni parameter r običajno gibljejo v različnih intervalih, je treba oba parametra najprej normirati. Da bi določili interval normiranja, je najprej nujno opraviti testne simulacije in na njihovi podlagi določiti največje in najmanjše pričakovane vrednosti obeh parametrov. Te vrednosti se nato normirajo na interval [0; 1], kjer 0 predstavlja najmanjšo, 1 pa največjo vrednost. Čeprav gre za matematično preprost izračun, sledi podroben primer, ki želi pokazati, da ta postopek v celoti ne zadovolji ciljev učenja. Enak primer se za primerjavo nato izračuna z uporabo postopka SA-QI učenja agenta. Kako potrebno je normiranje, prikazuje naslednji primer. Dobiček podjetja naj bo kot učni parameter r, ki se giblje v intervalu r ∈ [-10.000; 10.000], in Q-vrednost, ki predstavlja premik ponudbene krivulje po y-osi (ceni) in se giblje v intervalu Q ∈ [0,8; 2]. Ob predpostavki, da je dobiček r = 5000 €, je skladno s (6.3) in učnim koeficientom α mogoče izračunati novo Q-vrednost, kot kaže enačba (6.11). 76 06 (6.11) Rezultat s stališča cene ni smiseln in za več razredov presega okvir vrednosti Q. Tak sistem je nestabilen in praviloma zavzema ekstremne položaje, zato se uporabi linearno normiranje obeh parametrov, slika 6.3. Normirana vrednost 0,75 tako ustreza absolutni vrednosti dobička 5000 €, absolutni vrednosti Q = 1 pa ustreza normirana vrednost q = 0,17. Za posodobitev vrednosti q� se normirane vrednosti vstavijo v enačbo (6.3) in dobimo naslednjo rešitev (6.12). (6.12) Rešitev ima normirano Q-vrednost, ki znaša q = 0,46. To vrednost se preslika nazaj v absolutno vrednost iz simulacije. Relativni vrednosti q = 0,46 sledi absolutna vrednost Q = 1,35. Na prvi pogled se zdi, da je težava neuravnovešenega učenja rešena. 2 10000 r Q 1,9 8000 1,8 6000 ednost Q 1,7 vr 4000 Dobiček [€] 1,6 2000 1,5 1,4 0 1,3 -2000 1,2 -4000 1,1 -6000 1 -8000 0,9 0,8 -10000 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Normirana vrednost Q, r Slika 6.3: Absolutne in normirane vrednosti Q in r Problem se pojavi pri nelinearni odvisnosti nagrade in vrednosti Q, ko dobiček od določene vrednosti navzgor močneje vpliva na naraščanje določene vrednosti Q. Cilj je lahko, da pozitiven dobiček vpliva na rast vrednosti Q nad vrednost 1 in da izguba povzroča padec vrednosti Q pod vrednost 1. Če se obe vrednosti linearno preslikata na interval [0; 1], takega rezultata ni. Stanje je potem Q = 1 in dobiček je 0 €. Rezultat je relativna vrednost q = 0,335, kar ustreza absolutni vrednosti Q = 1,18. 77 (6.13) Za izpolnitev te zahteve je treba eno od linearnih preslikav prevesti v odsekoma linearno. Relativna vrednost obeh mora biti enaka pri referenčnih vrednostih, pri katerih druga na drugo ne vplivajo. Tako preslikavo prikazuje slika 6.4. Za absolutni vrednosti Q = 1 in r = 0 € se uporabi enak postopek kot pri prejšnjih dveh primerih, rezultat pa je q = 0,17, kar ustreza Q = 1. Tako določimo normalizirane referenčne vrednosti obeh parametrov, ki definirata medsebojni vpliv. 2 10000 r 1,9 Q 8000 1,8 6000 ednost Q 1,7 vr 4000 Dobiček [€] 1,6 2000 1,5 1,4 0 1,3 -2000 1,2 -4000 1,1 -6000 1 -8000 0,9 0,8 -10000 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Normalizirana vrednost Q, r Slika 6.4: Absolutne in normirane vrednosti Q in r z upoštevanjem referenčnih vrednosti Tako določimo normirano vrednost parametra r, ki se preslika v r���, in parametra Q, ki se preslika v q. Za izračun relativnih parametrov potrebujemo maksimalne (Q���, r���), minimalne (Q���, r���) in referenčne vrednosti (Q���, r���) obeh absolutnih parametrov. Ker je eden od parametrov vedno preslikan linearno, se določi normirano referenčno vrednost, ki je za oba parametra enaka (q��� = r���.���). Postopek normiranja opisujeta enačbi (6.14) in (6.15). (6.14) (6.15) 78 06 6.5.2.2 IZBOLJŠANJE MEDSEBOJNEGA RAZLIKOVANJA SLABIH IN DOBRIH UKREPOV Ko učni algoritem ugotovi, da se v določenem stanju lahko iztrži dobiček, se mora čim hitreje odzvati in premakniti ponudbeno krivuljo. Glede na uporabljeni učni algoritem se Q-vrednosti spreminjajo skladno z doseženim dobičkom in preteklo vrednostjo Q (6.3). Slika 6.5 prikazuje gibanje Q vrednosti q ∈ [0,8; 2] in dobička r ∈ [0,8; 1,8] za eno od stanj, učenje pa je relativno počasno, saj Q relativno konstantno vrednost zavzame šele po 50 obiskih posameznega para, tj. stanje in ukrep. Če so stanja definirana kot nivo odjema, se agent z učnim algoritmom prave reakcije nauči po najmanj petdesetih obdobjih učenja za določeno stanje pri predvidevanju, da agent to stanje zavzame v vsakem simulacijskem obdobju. Ker je v Q-matriki običajno veliko število definiranih stanj, je verjetno, da agent ne obišče vseh. Pri redko obiskanih stanjih se zgodi, da se agent najboljšega odziva nauči šele po mnogo več kot petdesetih simulacijskih obdobjih, kar v praksi slabša finančni rezultat, ki pa je merilo uspešnosti. 1,8 dobiček , Q] Q-vrednost 1,7 1,6 ednost [r 1,5 1,4 1,3 dobiček, Q-vr 1,2 1,1 1 0,9 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 Simulacijsko obdobje Slika 6.5: Dobiček in Q-vrednosti pri eni od simulacij Originalni algoritem v (6.3) razlikuje le med dobičkom in izgubo, a obenem je razlikovanje med podobno velikimi pozitivnimi dobički neznatno. Večjo občutljivost se doseže, če se doseženi do-biček primerja še s predhodno doseženim dobičkom. Ko se vključi še ta komponenta, izboljšani algoritem v enačbi (6.16) v učenje vnese merjenje spremembe dobička, ki pospeši učni proces. (6.16) 79 Slika 6.6 prikazuje gibanje dobička in vrednosti Q v istem stanju kot slika 6.5 pri originalnem algoritmu (6.3) in pri novem algoritmu (6.16). Novi algoritem v prvih trenutkih veliko hitreje reagira na doseženi dobiček kot obstoječi, kar pomeni doseganje višjih Q-vrednosti in s tem višjega dobička. 1,9 Dobiček Q-učenje , Q] Q-vrednosti 1,8 Dobiček SA-QI 1,7 Q-vrednosti, SA-QI ednost [r 1,6 1,5 1,4 dobiček, Q-vr 1,3 1,2 1,1 1 0,9 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 Simulacijsko obdobje Slika 6.6: Dobiček in Q-vrednosti pri SA-Q in SA-QI algoritmu 6.5.2.3 DEFINIRANOST Q-MATRIKE IN UČNEGA PARAMETRA Ena od pomembnejših stvari v učnem procesu je ustrezna definiranost stanj in ukrepov v Q-matriki. Stanja so enodimenzionalni vektor in predstavljajo parameter, na podlagi katerega se agent uči in izvaja svoje nadaljnje ukrepe. Ukrepov je lahko več in sestavljajo dvodimenzionalno matriko, kjer je število vrstic enako številu stanj, število stolpcev pa številu ukrepov. Tabela 6.1 prikazuje eno od možnih Q-matrik. Uporabo tega učnega algoritma so prvotno razvili za učenje gibanja robotov, zato so ukrepi definirali premike različnih delov robota. V strokovni literaturi o simuliranju trga z električno energijo, kjer se Q-učenje uporablja kot algoritem za agenta proizvajalca, je ukrep praviloma definiran kot koeficient, ki spremeni položaj ponudbene krivulje. Pri tem so avtorji uporabili spremembo linearne ponudbene krivulje po količini ali po ceni. Slika 6.7a prikazuje premik osnovne ponudbene krivulje po ceni, kjer se lahko spreminja le naklon krivulje, slika 6.7b pa spremembo po količini, kjer se krivulja premika vzporedno. Definirati je mogoče tudi druge spremembe ukrepa, ki ustrezno spreminja ponudbeno krivuljo. 80 06 Problem pri učnem algoritmu je izbira ustreznega ukrepa ali kombinacije ukrepov, ko se doseže določeno stanje. Eden od ukrepov v stanju je običajno naključno izbran, kar nas pri simuliranju istega sistema privede do različnih rezultatov. Lahko velja, da je učni algoritem robusten, če pri poljubnem številu ponovitev rezultati med seboj minimalno odstopajo (< 1 %). W] W] [€/M [€/M cena cena a.) b.) 𝑃 [MW] 𝑃 [MW] Slika 6.7: Sprememba ponudbene krivulje po ceni (a) oziroma po količini moči (b) V izogib opisanim problemom pri uporabi več ukrepov pri posameznem stanju je bila sprejeta odločitev, da bo ukrep le eden: premikanje ponudbene krivulje navzgor oziroma navzdol z mno- ženjem s Q. Večje razlike se pojavljajo pri definiciji stanj, ki so pri različnih avtorjih različna, kot npr. nivo odjema, dobička ali cene. Pri izbiri parametra stanja se je treba zavedati, da ga je treba napovedovati za naslednje simulacijsko obdobje. To zahteva učni algoritem, saj na podlagi napovedanih stanj izbere ukrep. Če se pri učenju za učni parameter izbere npr. nivo dobička, lahko nastane težava, če tudi stanje definira nivo dobička. Ker učni algoritem zahteva napovedovanje nivoja dobička, lahko nastane nejasna zanka, kaj je napoved in kaj je rezultat ukrepa, saj bi lahko bil rezultat učenja že kar sama napoved nivoja dobička. Kot parameter stanja se vzame nivo odjema energije [76], ker je napoved odjema zelo zanesljiva in so napovedi za dan vnaprej točne. Poleg te lastnosti je pomembno, da napovedani parameter stanja ni hkrati soroden parametru, ki se ga uporablja kot učni parameter. 6.5.2.4 IZBOR PRAVILNE SMERI RAZISKOVANJA PRI KRITERIJU METROPOLIS Ključna stvar pri SA-Q učenju je zmanjševanje obsega raziskovanja skozi čas. V enačbi (6.9) na zmanjševanje obsega raziskovanja vplivata parametra Ω = Ω�₋₁(s,a') − Q�₋₁(s,a'') in Temp�. Ker je za vsako stanje s možen le en ukrep a, bi bila vrednost Ω vedno enaka nič in raziskovanja ne 81 bi bilo. Zato se namesto naključne vrednosti a�' pri stanju s izbere a�' v naključnem stanju s, s čimer se vzpostavi možnost raziskovanja drugih vrednosti, a se spremeni tudi območje vrednosti parametra Ω. Novo območje gibanja parametra Ω je tako v intervalu Ω ∈ [-1; 1], če se predpostavi normirane vrednosti q ∈ [0; 1], in ne v intervalu Ω ∈ [-1; 0], kot je to veljalo v osnovnem SA-Q učenju. Parameter Temp od začetne vrednosti nekje okoli vrednosti 1 pada proti vrednosti 0, kjer vrednost enačbe (6.3) definira parameter Ω. Dokaz podaja enačba (6.17). Če je Ω > 0, gre vrednost eksponentne funkcije preko vseh meja, kar je več od naključne vrednosti ξ ∈ (0, 1). Algoritem z uporabo enačb e (6.9) kot ukrep izbere naključno vrednost a'� je Ω < 0, algoritem izbere optimalno vrednost a'�. (6.17) S konvergenco vrednosti Temp k vrednosti 0 se torej ne doseže zmanjševanja raziskovanja skozi čas, ampak je to odvisno le od vrednosti Ω. Za zmanjševanje mora vrednost parametra Temp postopoma naraščati. To se doseže s spremembo parametra φ z vrednosti, manjše od 1, na vrednost, večjo od 1 (npr. 1,01). S to spremembo del enačbe (6.3) konvergira proti vrednosti 1, kar dokazuje enačba (6.18). (6.18) Če se spremeni le parameter φ, bodo kot rešitev enačbe (6.3) nastale vse večje verjetnosti raziskovanja, saj bo φ vedno večji kot naključna spremenljivka ξ ∈ (0; 1). Da bi zmanjševali raziskovanje skozi čas, se mora smer neenačaja spremeniti v (6.9). Ali je smer raziskovanja pričakovana? Pri postavitvi ponudbenih krivulj je smiselno raziskovati s preizkušanjem višjih ponudbenih krivulj. Pri tej strategiji je intuitivno pričakovati tudi višji dobiček. Za tak učinek mora biti naključna vrednost glede na (6.9) a' manjša od a'', kar pomeni, da bomo z nižjimi ponudbenimi krivuljami dosegli višji dobiček. Problem se reši z zamenjavo predzna-ka iz Ω v -Ω, kar povzroči, da so izbrane naključne vrednosti ukrepov z višjimi Q vrednostmi. Če se opisane spremembe združijo, nastane končna oblika nove enačbe Izboljšanega SA-Q učenja (SA-QI) (6.19). 82 06 (6.19) 6.5.2.5 IZBOLJŠANO SA-Q UČENJE, SA-QI Izboljšani algoritem vsebuje vse doslej opisane spremembe in vključuje naslednje korake: — Q-matriko definira kot dvodimenzionalno matriko. V prvem stolpcu so zapisani nivoji odjema, ki predstavljajo stanja, v drugem pa Q-vrednosti, ki predstavljajo ukrepe. — Vsak proizvajalec napove odjem za dan vnaprej. — Za vsako napovedano stanje se izbere normirana Q-vrednost in se shrani kot a'�. — Glede na enačbo (6.19) se izbere a'� ali a'�. — Na tak način se normirano Q-vrednost pretvori v absolutno. — Ponudbeno krivuljo se spremeni skladno s (6.2). — Nagrado r se opazuje glede na (6.7) in se jo normira. — Normirano Q-vrednost q se nadgradi glede na (6.16). 6.6 POSPLOŠENO Q-UČENJE Agent ima pri vseh vrstah Q-učenja dva načina delovanja: raziskovanje, ko se uči, in izkoriščanje naučenega znanja. V načinu raziskovanja agent izbere različne ukrepe v vsakem stanju, tako da razišče koristi ali nagrade, ki mu jih ukrep prinaša. Ko razišče vsa stanja in s tem povezane ukrepe, agent preneha z učenjem in vstopi v način izkoriščanja. Sedaj agent izbere ukrep, za katerega ve, da prinaša največjo nagrado. Dolžino učnega obdobja agenta opredeljuje učni parameter N��, ki se določi naključno. Absolutnega časa za učenje agenta ni mogoče določiti vnaprej, saj se ustavi, ko so rezultati dovolj dobri za izkoriščanje naučenega znanja. Med največjimi pomanjkljivostmi osnovnega Q-učenja je potreba po diskretizaciji neskončnega prostora stanj, ki vodi v časovno potratnost učenja. Agent mora namreč čim večkrat obiskati vsa možna stanja, da se nauči uporabnih povezav med stanji in ukrepi. Pri trgovanju na elektroenergetskih trgih v povezavi s stanjem v elektroenergetskem omrežju je to še posebej velik problem, ker vseh možnih stanj ni mogoče določiti. 83 Drugačen model okrepljenega učenja, imenovan posplošeno Q-učenje (PQL), se temu izogne. Ideja za PQL povzema primer agentnega igranja računalniške igre Pac-Man z uporabo strojnega učenja. Metoda PQL je skupaj s konvolucijskim nevronskim omrežjem v zadnjih letih pridobila veliko pozornosti predvsem zaradi uspešne izvedbe avtomatiziranega računalniškega igranja starih verzij igre na računalniku Atari, kjer so algoritmi v večini primerov dosegli ali celo presegli človeško raven igranja. Raziskovalci ameriške Univerze Stanford so najprej razvili program z uporabo Q-učenja in agent je potreboval dolgo časa, da je obiskal vsa stanja. Med raziskavo so opazili, da so si določena stanja podobna in da bi lahko učenje pospešili tako, da bi v posamezno stanje preslikali že naučeno znanje iz podobnega stanja. Tako so namesto diskretizacije vhodnih spremenljivk in tako dobljenega končnega števila stanj za opisovanje sistema PQL uporabili linearno funkcijo s poljubnim številom n značilk f, uteženih s povezanimi utežmi w. Značilke f so vhodni podatki ali informacije o okolju ali stanju, s katerimi razpolaga agent. Agent za vsako stanje s izračuna Q-vrednosti za vse možne ukrepe a . Q-vrednost agentu predstavlja predvideno nagrado izbranih ukrepov z različnimi Q-vrednostmi. Izbere tistega z največjo vrednostjo, ki hkrati predstavlja tudi največjo nagrado v naslednjem koraku. Vrednost Q se izračuna s pomočjo naslednje linearne enačbe (6.20). (6.20) Vsaki značilki f�, n = 1… N se dodeli utež w�, ki nosi informacijo o pomembnosti, t.i. rang značilke f�, in njen prispevek k nagradi ukrepa. Uteži se posodabljajo vsak učni cikel glede na prejeto nagrado, člen b = 1 pa se doda kot zunanja značilka in deluje kot odmik za izboljšanje učinkovitosti učenja. Pri Pacmanu so bile glavne značilke oddaljenost od stene, oddaljenost od sovražne figurice, oddaljenost do »tablete neranljivosti« in število preostalih tablet v okolju. Pomembno je poudariti, da je treba značilke f pri PQL izbrati na podlagi ekspertnega znanja o okolju ter preceniti, katere od njih sploh vplivajo na rezultat ukrepov in pripadajočo nagrado in katere ne. S predizborom značilk se je mogoče izogniti vnosu »šumov« ali nepotrebnih informacij v določanju pričakovane Q-vrednosti, zmanjšanja učinkovitosti učenja in delovanja agenta. Algoritem PQL uporablja vhodne podatke, ki so na voljo, da lahko svojo Q-funkcijo prilagodi tudi napakam v vhodnih podatkih. Agent bi se pri negotovih vhodnih podatkih načeloma naučil previdnejšega izogibanja nevarnemu območju negotovega izida. Ko bi se v »širšem območju« iz-84 06 ognil kazni, bi se agent lahko odrekel tudi nekaterim dobičkonosnim ukrepom, kar bi teoretično lahko zmanjšalo njegov dobiček. Algoritem učenja PQL bi v splošnem lahko opisali z naslednjimi koraki: 1. Določitev začetnega stanja za agenta in naključna izbira prvega ukrepa, ki se uporabi samo na začetku učenja. Prvi ukrep agenta se izbere naključno ne glede na stanje okolja. 2. Izračun pričakovanih 𝗤-vrednosti za vse ukrepe, ki so na voljo agentu: izračun Q-vrednosti za vsak ukrep, ki mu je v danem stanju na voljo. Vsak ukrep lahko spremeni vrednost značilke f, zato se značilke spreminjajo v vsaki iteraciji učenja. Vrednosti Q tako odražajo nove vrednosti vseh značilk f agenta v naslednjem ciklu. 3. Izbira ukrepa s pomočjo optimalne Bellmanove enačbe s potencialnimi 𝗤* vrednostmi: ko agent izbere ukrep a, se njegovo stanje spremeni in preide v stanje s'. Tu se vpelje novo vrednost Q* (s', a), ki je odvisna od izbranega ukrepa in novega stanja. Agent najprej izbere niz ukrepov glede na najvišjo pričakovano nagrado ali najvišjo Q* vrednost v naslednjem koraku. Nato izbere najboljši ukrep na podlagi Bellmanove enačbe za optimalnost (6.21) [65]. (6.21) 4. N� predstavlja število vseh ukrepov, ki vodijo v neko novo stanje s'. Optimalno vrednost Q* (s', a) definirata največja vrednost vsote nagrade R (s', a), ki jo agent prejme za izbrani ukrep a v stanju s, in utežena vrednost Q* (s', a) v vseh možnih prihodnjih stanjih s', pomnoženih z verjetnostjo, da izbere ukrep a, označen s p (s'|s, a). Verjetnosti se izračunajo z Boltzmannovo metodo raziskovanja [65], ki jo določajo enačbe (6.22)–(6.24). S to metodo agent izbira med ukrepi, ki so mu na voljo, glede na verjetnost pričakovane nagrade. (6.22) (6.23) (6.24) 85 BT označuje parameter Boltzmannove temperature, ΔBT spremembo parametra BT, parameter N�� pa predstavlja dolžino obdobja agentovega učenja oziroma število časovnih korakov raziskovanja. Na začetku učenja ima parameter BT veliko vrednost in vsi ukrepi imajo enako verjetnost izbire. BT se skozi obdobje učenja postopoma niža, s čimer se zmanjšuje tudi Boltzmannova temperatura raziskovanja, zato imajo ukrepi, za katere se predvideva višja nagrada, večjo verjetnost izbire. Agent tako postopoma prehaja iz raziskovanja v obdobju učenja v izkoriščanje znanja v obdobju delovanja. Diskontni parameter γ predstavlja agentovo izbiro trenutne vrednosti Q v primerjavi z vrednostmi Q v prihodnjih ukrepih. Z nižjimi vrednostmi diskontnega parametra γ se agent osredotoča na kratkotrajne nagrade, z višjimi vrednostmi γ pa ima raje dolgotrajne nagrade. Izračun nagrade glede na trenutno stanje okolja: izbira pravilne funkcije nagrajevanja R (s, a) je ena od najpomembnejših stvari pri strojnem učenju, saj se agent uči izbirati ukrepe v smeri večanja nagrade, ki jo prejme za svoje delovanje. Funkcija nagrajevanja mora biti zasnovana tako, da agenta uči večanja dobička in zmanjševanja tveganja odzivov okolja oziroma dobička. 5. Posodobitev uteži značilk: v enem koraku agent posodobi le utež f� > 0 po enačbi časovnih razlik, enačba (6.25). (6.25) Parameter α predstavlja hitrost učenja in pove, kakšen vpliv ima ΔQ na posodobitev uteži. Višja vrednost α predstavlja hitrejše učenje agenta, saj imajo mlajše iteracije večji vpliv kot tiste, ki so se zgodile daleč nazaj. Pomanjkljivost hitrega učenja je, da lahko že nekaj učnih primerov, ki zelo odstopajo, poruši dolgotrajen proces učenja. Q(s′) predstavlja predvidene vrednosti v naslednjem stanju ss′. 6. Izvedba ukrepa, proces se ponovi: ko agent izvede ukrep, se cikel ponovi. Učna iteracija dovoljuje le en zajem stanja okolja na časovni korak. 86 7 Vloge agentov na elektroenergetskem trgu 07 87 Vsakega udeleženca ali skupino udeležencev na trgu električne energije lahko predstavlja avtonomni agent. Med nujno potrebne za delovanje trga spadajo: — agent organizator trga, — agent proizvajalec, — agent dobavitelj ali odjemalec, v zadnjem času pa tudi — agent agregator, npr. razpršenih virov prožnosti. Ostali agenti, ki lahko nastopajo pri agentnem modeliranju trga električne energije, so: agent trgovec, agent regulator, agent distributer in agent, ki informacije zbira iz okolja. Lastnosti vsakega od naštetih agentov opisuje nadaljevanje, tri od njih (agenta proizvajalca, odjemalca in dobavitelja/agregatorja) pa podrobneje obdelujejo ločena poglavja. 7.1 PROIZVAJALEC 7.1.1 UVOD Proizvajalci so v strokovni literaturi največkrat obravnavani kot agenti. Njihov cilj je proizvajati električno energijo in jo s čim večjim dobičkom prodati. To dosegajo z ustreznim oblikovanjem ponudb in njihovim nenehnim prilagajanjem, za kar so razvili številne strategije glede na vrsto proizvodnih enot ter njihove tehnične in ekonomske značilnosti. Pasivnemu agentu je prirastna stroškovna krivulja posameznega proizvajalca izhodišče za ponudbe proizvajalcev in je ne spreminjajo, aktivni agenti proizvajalci pa od tega izhodišča dinamično odstopajo skladno z izbrano strategijo. Najbolj pasiven nastop na trgu imajo jedrske elektrarne, ki zaradi zahteve po čim enakomernejši proizvodnji in nizkih obratovalnih stroških lahko svojo energijo na trgu ponujajo po ceni nič. Hidroelektrarne svojo proizvodnjo optimirajo glede na zmožnost akumulacije vode in predvidene cene na trgu z električno energijo za vsak dan, teden oziroma daljše obdobje. Najbolj dinamičen način oblikovanja ponudbene krivulje imajo termoelektrarne, ki za gorivo uporabljajo fosilna goriva. Imajo veliko prilagodljivost obratovanja, hkrati pa so njihovi obratovalni stroški v veliki meri odvisni le od porabe goriva in porabljenih emisijskih kuponov. Agenti proizvajalci se nau- čijo prepoznati tudi odzive drugih agentov proizvajalcev, s čimer se ustvarjata tekmovalnost in konkurenca [6]. 88 07 Na trgu je smiselna aktivnejša vloga pri ponujanju energije agentov proizvajalcev, ki imajo znat-ne spremenljive stroške pri proizvodnji energije in svoje energije ne ponujajo po ceni blizu nič, kot to običajno počnejo proizvajalci, ki energijo pridobivajo iz OVE, in proizvajalci z jedrskimi elektrarnami. Glavno vlogo pri oblikovanju ponudb imajo torej agenti proizvajalci s termoelek-trarnami. 7.1.2 PONUDBENE KRIVULJE PRI AGENTIH PROIZVAJALCIH Ponudbene krivulje se razlikujejo glede na tehnične in ekonomske značilnosti elektrarn in se lahko v grobem razdelijo v tri sklope: termoelektrarne, hidroelektrarne in jedrske elektrarne. Gorivo termoelektrarne je premog ali zemeljski plin, za obratovanje pa morajo porabljati tudi emisijske kupone CO . Jedrska elektrarna je poseben tip termoelektrarne, ki za svoje obratovanje 2 ne potrebuje emisijskih kuponov. 7.1.2.1 PONUDBE TERMOELEKTRARN Posebna tehnična značilnost termoelektrarn je njihova nezmožnost obratovanja s poljubno moč- jo. Ponudbene krivulje termoelektrarn pogosto predstavlja linearna ali kvadratična funkcija [75]. Ponudbeno krivuljo sestavljata dve linearni funkciji, ki zajemata ekonomske in tehnične značilnosti elektrarne. Elektrarne imajo minimalno moč 𝑃���, pod katero ne morejo obratovati. Zaradi tehničnega minimuma termoelektrarne do te moči upoštevajo ponudbeno krivuljo C����, ki pokrije le spremenljive stroške. Na tak način enote ne ustavljajo tudi v urah, kjer cena ne pokriva vseh stroškov obratovanja, s čimer se elektrarna izogne nepotrebnim stroškom zaradi ponovnega zagona. Od 𝑃��� do 𝑃��� se krivulja ponudbe dviga, saj morajo termoelektrarne pokriti tudi dolgoročne stroške (C����) in poleg tega ustvariti še zaslužek. Vsaka elektrarna ima svoje posebnosti, zato se obravnavajo ločeno. Osnovna oblika krivulje se v novo razvitem modelu spreminja glede na cilj učnega algoritma. Slika 7.1 prikazuje osnovno ponudbo termoelektrarne. λ [€/MW] C���� + 2 C���� C���� 𝑃��� 𝑃��� 𝑃 [MW] Slika 7.1: Ponudbena krivulja termoelektrarne 89 7.1.2.2 PONUDBE HIDROELEKTRARN Prednost hidroelektrarn (HE) je v prilagodljivosti obratovanja, saj lahko hitro spremenijo svojo proizvodnjo v širokem obsegu. Zaradi omenjenih tehničnih lastnosti in zmožnosti akumulacije energije so bile HE v reguliranem sistemu namenjene proizvajanju vršne energije. V tržnih razmerah se to ni spremenilo. V urah z visoko ceno električne energije je tudi obseg angažiranih elektrarn večji. Za razliko od termoelektrarn je proizvodnja iz hidroelektrarn posebej podvržena tudi naravnim faktorjem, zato se obratovanje optimira glede na ceno električne energije v dolo- čenem dnevu z upoštevanjem statistično obdelanih hidrologij. Vključitev hidroelektrarne v dnevno optimizacijo je naravna, ker elektrarne v simulacijskem modelu ne zmorejo večje akumulacije. Pri večji zmožnosti akumulacije je delovanje treba optimirati na mesečni ali letni osnovi. Za določitev optimalnega delovanja verig in določitve optimalnega delovanja (𝑃₀) se uporablja optimizacijski model [113]. Rezultat optimizacije služi za oblikovanje ponudbene krivulje. Slika 7.2 prikazuje obliko ponudbene krivulje hidroelektrarne za določe-no uro, ko je optimalna točka delovanja 𝑃₀ in dolgoročni proizvodni stroški C��. λ [€/MW] C�� 𝑃₀ 𝑃 [MW] Slika 7.2: Ponudbena krivulja hidroelektrarne 7.1.2.3 PONUDBE JEDRSKIH ELEKTRARN Jedrske elektrarne (JE) za razliko od konvencionalnih termoelektrarn celotno moč ponujajo po pasivni ponudbi pri konstantnem obratovanju in nizkih variabilnih stroških. JE je zato primerna za pokrivanje pasovne energije in teži k čim boljši izrabi primarne energije ter konstantnemu obratovanju. Čeprav novejši tipi JE omogočajo tudi prilagajanje višine proizvodnje tržnim signa-lom, je s stališča trga za JE dolgoročno najugodnejše, da ponujajo ceno s pasivno ponudbo. Slika 7.3 prikazuje ponudbeno krivuljo jedrske elektrarne. 90 07 λ [€/MW] C�� 𝑃��� 𝑃 [MW] Slika 7.3: Ponudbena krivulja jedrske elektrarne 7.2 ODJEMALEC Cilj agentov odjemalcev je nakup želene količine električne energije po čim nižji ceni. Ker jih je na trgu zelo veliko, posamezni agenti na nivoju trga ne predstavljajo posameznega odjemalca, ampak posamezno skupino odjemalcev, npr. gospodinjstva, trgovine ali industrijo. Področje modeliranja aktivnih agentov odjemalcev še ni podrobno raziskano, saj je bilo raziskovanje v preteklosti usmerjeno večinoma v agente proizvajalce, ki so nekatere razvite algoritme lahko tudi preizkusili na praktičnih primerih. Za odjem je veljalo, da je statičen in cenovno neodziven. Poleg tega v literaturi ni kriterija za obnašanje agentov odjemalcev. Za večji del odjema običajno ni stroškovne funkcije, s katero bi določili odjemalčev dobiček, kot pri proizvajalcih. Prav tako ne poznamo prirastnih cenovnih krivulj odjemalcev. Pasivni agenti odjemalci se praviloma modelirajo z neprožno krivuljo povpraševanja. Slika 7.4 prikazuje krivuljo povpraševanja, ki se v razponu moči Δ𝑃=𝑃��� -𝑃���spremeni iz vrednosti ne-dobavljene energije (VOLL), do vrednosti nič. VOLL je tako maksimalna vrednost, po kateri so odjemalci pripravljeni plačati energijo, da bi se izognili prekinitvi dobave energije [123]. 91 λ [€/MW] VOLL 𝑃��� 𝑃��� 𝑃 [MW] Slika 7.4: Krivulja povpraševanja Agenti odjemalci se pri nakupu odločajo glede na količino energije, ki jo potrebujejo, in glede na njeno ceno. Aktivni agenti odjemalci lahko svoje povpraševanje po energiji prilagajajo v skladu z določenim kriterijem, za pasivne pa je značilno, da je njihovo povpraševanje neprožno in ima določeno neko stalno, nespremenljivo prožnost. Da agent odjemalec lahko nastopa neposredno na trgu na debelo, ga je treba na nek način združiti z agentom dobaviteljem ali pa se agenta dobavitelja zaobide. 7.3 AGREGATOR IN DOBAVITELJ Agent agregator in agent dobavitelj dopolnjujeta agenta odjemalca. Agenta dobavitelja ali agenta agregatorja pogosto združujejo z agentom odjemalcem. Dobavitelj prodaja in kupuje električno energijo, agregator pa prodaja in kupuje sposobnost prilagajanja odjemalcev. Agregator kupuje prožnost odjemalcev električne energije, jo združi v primerno ponudbo in proda ostalim udele- žencem. Oba morata dobro poznati lastnosti odjemalcev, prejeti njihove zahteve o odjemu in z njimi vzajemno delovati. Z uvedbo agentov agregatorjev ali dobaviteljev je treba trg električne energije razdeliti na trg na debelo in trg na drobno, oba pa predstavljata vmesna člena med obema trgoma. Vloga agenta agregatorja je v oblikovanju »paketov prožnosti«, to prožnost pa mu zagotavljajo odjemalci. Prodati jo mora po čim višji ceni, med tem pa se mora truditi, da z ustrezno ceno ali drugimi nagradami motivira odjemalce, ki mu bodo prožnost zagotovili. Agenti agregatorji imajo lahko različne strategije: nekateri dajo v svojem portfelju prednost odjemalcem s posebnimi 92 07 značilnostmi odjema in navadami, drugi se lahko specializirajo na določene ponudbe ali pa lahko ponujajo svoje produkte le na določenih trgih. Agenti agregatorji poleg tega lahko kupujejo različne »pakete prožnosti« od ostalih agregatorjev, s čimer si izboljšajo svoj portfelj. Neaktiv-ni agregatorji združujejo povpraševanje odjemalcev na trgu na drobno in ga nespremenjenega predstavijo na trgu na debelo. Agenti dobavitelji kupujejo električno energijo na trgu na debelo in jo prodajajo odjemalcem na trgu na drobno ali pa drugim udeležencem trga na debelo. Pri tem lahko aktivno oblikujejo tarife za odjemalce in jih prilagajajo tako, da z njimi spodbujajo rabo energije ter s tem obliko obremenitvenega diagrama, ki dobaviteljem najbolj ustreza. S pravočasnim nakupom in prodajo električne energije skušajo povečevati svoj dobiček. Agenti dobavitelji združujejo povpraševanje odjemalcev na trgu na drobno in zanj skušajo zagotoviti ustrezne količine z nakupom energije na trgu na debelo. Dobiček ustvarjajo tako, da skušajo energijo kupiti čim ceneje in jo prodajajo odjemalcem za daljše obdobje po vnaprej dogovorjenih cenah. 7.4 ORGANIZATOR TRGA Agent organizator trga zbira ponudbe proizvajalcev in povpraševanja odjemalcev. Te ponudbe ovrednoti in izračuna tržno ravnovesje, s čimer določi tržno ceno električne energije za vsak časovni segment avkcije, npr. za vsako uro za naslednji dan. Za proizvodne enote izbere sprejete ponudbe in s tem določi količine, ki jih bodo posamezni proizvajalci prodali na trgu po tržni ceni, za odjemalce pa izbere sprejeta povpraševanja in s tem določi količine energije, ki jih bodo posamezni odjemalci lahko kupili na trgu po tržnih cenah. Agent lahko obdeluje več različnih trgov, za katere izračunava cene. Pri modeliranju se najpogosteje uporabljajo naslednji trgi z električno energijo: trgovanje za dan vnaprej, sprotni trg, terminski trg in trg s sistemskimi storitvami. Agent določa pravila trgovanja in organizira trgovanje. Njegov rezultat za posamezni časovni segment sta dosežena tržna cena električne energije in količina trgovane energije v tem segmentu, skladno s sprejetimi ponudbami in povpraševanji. Agent organizator trga lahko določene trge povezuje, npr. združi dnevni trg in trg sistemskih storitev ter ju skupno optimira. Najpogosteje se zaradi preprostosti osredotoči le na dnevni trg električne energije. Metode za določanje tržnega ravnovesja določa agent regulator trga. 93 Agent organizator trga na evropskih trgih navadno uporablja princip dvostranske avkcije. Za vsako simulacijsko periodo, ki odgovarja enemu dnevu, vsak proizvajalec i na dan pred avkcijo (𝑡-1) odda ponudbeno krivuljo (K) za dan vnaprej, sestavljeno za vsako uro posebej (7.1). Vsaka urna ponudbena krivulja K definira matriko parov cene (λ) in količine (𝑃) za vsako uro h [1; 24] in vsak dan simulacije 𝑡 = 1, 2 ... T, enačba (7.1) (7.1) Vse ponudbene krivulje so monotono naraščajoče in odsekoma linearne funkcije, sestavljene iz n segmentov, ki jih opisujejo zgoraj podani pari količina – cena (7.2). (7.2) Krivulje povpraševanja imajo enake lastnosti in strukturo kot ponudbene krivulje, le da so funkcije monotono padajoče. Agent organizator trga sestavi ponudbene krivulje in krivulje povpra- ševanja posameznih proizvajalcev in odjemalcev v skupno krivuljo povpraševanja in ponudbe. V posameznem simulacijskem obdobju se izračun tržne cene opravi za vseh 24 ur hkrati. Tržna cena (MCP) λ* definira presečišče med funkcijama K in D, kjer se določi količina proizvodnje in odjema 𝑃*, njena cena pa λ* (7.3). (7.3) 7.5 OSTALE VRSTE AGENTOV 7.5.1 INFORMATOR Ta agent predstavlja neko vrsto oglasne deske, saj razpolaga z vsemi dostopnimi informacijami o vseh udeležencih na trgu. Lahko se predstavi kot posrednik, ki mu udeleženci trga posredujejo informacije o svojem trenutnem delovanju, on pa išče informacije, da bi ocenil svoje bodoče delovanje. Poleg pomembnosti v komunikaciji skrbi tudi za zbiranje podatkov od udeležencev na trgu in za to, da so podatki jasni in pregledni. 94 07 7.5.2 TRGOVEC Agent trgovec lahko dopolnjuje agenta proizvajalca, katerega cilj je bodisi iskanje čim boljše kombinacije nakupa in prodaje energije za doseganje čim večjega dobička, bodisi umestitev svojega proizvodnega portfelja na trgu v smislu njegove čim večje dobičkonosnosti. Za to ima tovrstni agent pogosto kompleksnejšo zasnovo z možnostjo lastnega simuliranja trga, predvidevanja potez ostalih udeležencev, napovedovanja porabe itd. Njegov glavni cilj je doseganje ma-ksimalnega dobička pri omejenem tveganju poslovanja. Ti lahko uporabljajo interne simulacije, ki temeljijo na pridobljenem znanju in opaženem obnašanju ostalih udeležencev. Da bi predvidel prihodnji odjem in s tem tudi ceno, ta agent včasih uporablja nevronsko omrežje. Prav tako lahko uporablja evolucijsko računsko simulacijo, s katero načrtuje prihodnost in tako izvede optimalno strategijo za širjenje poslov in določanje cen. 7.5.3 REGULATOR TRGA Agent regulator trga določa pravila za sodelovanje vseh tržnih udeležencev in način določanja tržne cene. Ob slabem delovanju trga lahko skuša s spreminjanjem pravil aktivno zagotoviti večjo preglednost, konkurenčnost in likvidnost. Po potrebi lahko uvede ukrepe, s katerimi običajno zaščiti odjemalce pred previsokimi cenami, ki bi se pojavile kot posledica izkoriščanja tržne moči. Prevzame lahko tudi poljubne druge naloge nadzora in kaznovanja. Agent regulator spada med zelo napredne agente in je zato navadno redko aktiven v agentnih modelih. 7.5.4 SISTEMSKI OPERATER PRENOSNEGA IN DISTRIBUCIJSKEGA OMREŽJA Včasih je za povečanje verodostojnosti rezultatov v model trga treba vključiti tudi model EES, ki je običajno poenostavljen in modelira le kritične vode, na katerih bi lahko prišlo do zamašitev ter s tem do onemogočanja dobave električne energije odjemalcem. To lahko stori uvedba agenta sistemskega operaterja, ki v delovanje trga vnaša dodatne omejitve prenosnega ali distribucijskega sistema. Ostale udeležence obvešča o prenosnih zmogljivostih omrežja in skrbi, da niso prekoračene. Širjenje omrežja izvaja s pomočjo funkcij, s katerimi se ga stroškovno optimira in s tem omogoči dobiček ostalim udeležencem. Če agent trgovec teži k maksimiranju dobička, agent sistemski operater skrbi izključno za zanesljivost dobave električne energije odjemalcem. Modeliranja aktivnih agentov sistemskih operaterjev, ki bi skrbeli za ojačitve omrežij na mestih zamašitev in ojačitve omrežja oz. prenosnih poti, v strokovni literaturi še ni. 95 Naslednja poglavja bodo podrobneje opisala tri najpomembnejše agente na elektroenergetskem trgu: agenta proizvajalca, agenta odjemalca/dobavitelja in agenta agregatorja. Za vsakega od njih bodo prikazani še primer izbire učnega pravila in rezultati. 96 8Proizvajalec 08 97 8.1 UVOD Pri modeliranju trga z električno energijo je pomembno obnašanje agenta proizvajalca električne energije na trgu, kjer so ključne negotovosti cena goriva in cena emisijskih dovolilnic. Nenehno se morajo prilagajati okoliščinam na trgu in se nanje odzivati z oblikovanjem ustreznih ponudbenih krivulj, da dosežejo konkurenčnost. Pomembno je, da se znajo učiti iz zaznanih tržnih okoliščin, za kar potrebujejo ustrezen algoritem učenja. Ta mora doseči dovolj dobička in zadostiti ostalim kriterijem proizvajalca na trgu, kot je npr. želeni vozni red obratovanja posameznih proizvodnih enot. Za učni algoritem agenta proizvajalca se lahko uporabi okrepljeno učenje, ki je zaradi preprostih povezav med vzroki in posledicami najbolj pregledno, po drugi strani pa je mogoče oblikovati dovolj kompleksne algoritme, ki omogočajo izvedbo ciljev proizvajalcev. Obstajata dva učna algoritma za oblikovanje ponudbene krivulje, ki temeljita na okrepljenem učenju: učenje z uteženim povprečjem in izboljšano SA-Q učenje. Opisana sta v nadaljevanju. 8.2 UČENJE Z UTEŽENIM POVPREČJEM 8.2.1 PREDSTAVITEV Naj agent sodeluje na dnevnem trgu, kjer vsak dan pripravlja avkcijsko ponudbo za vsako od 24 ur za prihodnji dan. V časovnem intervalu 𝑡, ki je pri nas enak dnevu, pripravi ponudbo iz 24-urnih ponudbenih krivulj. Učenje z uteženim povprečjem uporablja nagrade r, ki jih agent pridobi z izvajanjem ukrepov enačba (6.1). Agent proizvajalec v učnem algoritmu kot nagrado upošteva dve veličini: — pridobljeni dobiček (π) in — stopnjo načrtovane dnevne proizvodnje (u). Stopnja načrtovane proizvodnje u je razmerje med proizvodnjo 𝑃� in maksimalno proizvodnjo 𝑃���� v določeni uri (8.1). (8.1) 98 08 Proizvajalci, ki kot gorivo uporabljajo premog ali plin, praviloma načrtujejo izkop ali nakup ener-genta za srednjeročno ali dolgoročno obdobje, s čimer si zadajo tudi ciljno količino proizvedene energije v določenem časovnem obdobju. S tem lahko načrtujejo pokrivanje proizvodnih stro- škov in načrtujejo dobiček, zato mora učni algoritem kot enega od ciljev upoštevati tudi načrtovano vrednost proizvodnje. Stopnja načrtovane ali pričakovane dnevne proizvodnje lahko velja tudi kot zahtevana stopnja minimalne dnevne proizvodnje, ki podjetju lahko pokrije dolgoročne prirastne stroške. Vsak proizvajalec i stremi k maksimizaciji dobička. V posamezni uri h je dobiček πh definiran v (8.2) in predstavlja razliko med tržno ceno λh��� s proizvodnjo 𝑃h� in stroški obratovanja Ch. Slednji so vsota produkta kratkoročnih in dolgoročnih prirastnih stroškov ter inštalirane moči (𝑃����). Kriterij maksimizacije dobička opisuje enačba (8.3), pogoj načrtovane proizvodnje pa enačba (8.4), kjer u��� predstavlja stopnjo minimalne ali načrtovane dnevne proizvodnje. (8.2) (8.3) (8.4) Algoritem izračuna vse vrednosti po vsakem simulacijskem intervalu 𝑡. Stremeti mora k realiza-ciji obeh kriterijev, če je to le mogoče. Ker agent proizvajalec deluje na dnevnem trgu, je treba oba kriterija upoštevati v vsaki uri h za vsakega proizvajalca i. Kadar si kriterija maksimizacije dobička in zahteve po minimalnem obratovanju nasprotujeta, mora agent poiskati kompromis med obema. V ta namen uporabi faktor korekcije ponudbene krivulje BAF, (8.5), ki se za vsako uro dneva h izračuna kot aritmetična sredina faktorjev kh in uh: — kh: faktor zajema cilj maksimizacije dobička πh; — uh: faktor zajema kriterij minimalne proizvodnje v posameznem dnevu. (8.5) 99 Agentu kot njegov ukrep skladno z obema pogojema določa premik ponudbene krivulje navzgor ali navzdol s predhodno izračunanim faktorjem korekcije BAF (8.6). Slika 8.1 prikazuje tak premik referenčne ponudbene krivulje z vrednosti λ��� med dvema časovnima intervaloma, kjer se cena v intervalu (𝑡+1) izračuna kot zmnožek λ��� in BAF v prejšnjem intervalu 𝑡. (8.6) ��� λ [€/MWh] BAF 𝑃��� 𝑃��� 𝑃 [MW] Slika 8.1: Premik ponudbene krivulje s pomočjo koeficienta BAF Pri izračunu koeficienta BAF za posamezno uro h = 1 ... 24 se upošteva zadnjih M = 30 vrednosti koeficientov k in u, ki se jih linearno uteži z vektorjem m = [1; 30], pri čemer imajo najnovejši dogodki najvišjo utež m = 30, najstarejši pa m = 1. S tem agent doseže ustrezno učenje ne glede na spremembe okolja. — Dobiček π pri učnem algoritmu upošteva parameter k, ki ga določa enačba (8.5). Vsako novo, 30. vrednost k₃₀ v tem vektorju določa kot aritmetično sredino vsote uteženih vrednosti vektorja 29 preteklih vrednosti parametra k, h kateri je prištet produkt zadnje vrednosti k29, pomnožene z utežjo 30 in s faktorjema α ali β, α > 1, β < 1. Agent opazuje dobičke iz dveh predhodnih simulacijskih obdobij (𝑡-1) in (𝑡-2), na podlagi katerih se zadnjo vrednost k29 odloči pomnožiti z α ali β. Vrednosti parametrov α ali β se določi izkustveno, pri čemer njihova velikost določa hitrost spremembe ponudbe na trgu električne energije. Učni algoritem se uporabi ločeno za delovne dni, vikende in dela proste dneve. — Faktor α se uporabi, če je dobiček v intervalu (𝑡-1) večji od tistega v intervalu (𝑡-2), π�₋₁ > π�₋₂. — Faktor β se uporabi, če je π�₋₁ ≤ π�₋₂ (8.7). 100 08 Vrednost k₃₀ je tako večja, če se poveča dobiček glede na preteklo simulacijsko obdobje, in manjša, če se dobiček relativno zmanjša. (8.7) Minimalno obratovanje elektrarne določa faktor uh���. Algoritem učenja za parameter u poteka podobno kot za parameter k. Razlika glede na parameter k se pojavi pri odločitvi, kdaj zmanj- šati oziroma povečati zadnjo vrednost u₂₉. Če se v predhodnem simulacijskem obdobju (𝑡-1) doseže manjši obseg obratovanja od u���, se vrednost u₃₀ zmanjša z množenjem s faktorjem β. Če je doseženi u večji od u���, se vrednosti u₃₀ pripiše vrednost 1, pomnožena z utežjo 30 (8.8). (8.8) Agent za izračun BAFh uporabi parametra k in u, s čimer poskuša doseči maksimalen dobiček pri zahtevani minimalni proizvodnji. Učenje v morebitnem skrajnem primeru ne sme zavzeti nemogoče, ekstremne vrednosti, zato se BAF omeji z zgornjo in spodnjo maksimalno mejo. Ta meja je izkustvena glede na simulacije in proizvodni sistem. Celoten postopek spreminjanja ponudbe agenta je naslednji: — če je dobiček v periodi (𝑡-1) manjši kot v periodi (𝑡-2), se zadnja vrednost k pomnoži z β, sicer se pomnoži z α. — Če obratovanje doseže u���, se zadnji vrednosti u₃₁ določi vrednost 1, sicer se pomnoži z β. — Z enačbama (8.7) in (8.8) se izračunata vrednosti u in k ter iz njiju še BAF (8.5). — Če BAF pade izven prej določenih meja, se ga popravi na najnižjo oziroma največjo vrednost. — Cenovna komponenta ponudbene funkcije p��� se pomnoži z vrednostjo BAFh�. 101 8.2.2 PRIMER UČENJA Z UTEŽENIM POVPREČJEM Naj agent proizvajalec uporablja zgoraj opisani postopek spremembe ponudbene krivulje. Njegovo učenje se opazuje za eno od ur h v dnevu, zato se ta indeks izpusti. Proizvajalec si je zadal, da bo obratoval minimalno u��� = 0,6. V postopku izračuna se uporabi vektorja 𝐮 in 𝐤 z vrednostmi iz preteklih 𝑡 = 1 ... 19 intervalov. Faktorja za premikanje zadnjih vrednosti u in k imata vrednost α = 1,2 in β = 0,9. Tabela 8.1 prikazuje naslednje vrednosti po stolpcih: — številko simulacije (m), — vrednost parametra u, — uteženo vrednost parametra u glede na njegov položaj v zgodovini, — vrednost parametra k, — uteženo vrednost parametra k glede na njegov položaj v zgodovini, — BAF, — ali je bil izpolnjen pogoj u > u���, — ali se je dobiček glede na preteklo obdobje spremenil. Izračun vrednosti k in u za dan 20 opisujeta enačbi (8.9) in (8.10.). (8.9) (8.10) 102 08 Tabela 8.1: Vrednosti parametrov u, k in BAF v dvajsetih simulacijskih periodah Simulacija (m) u Utežni u k Utežni k BAF u > u��� Dobiček 1 1,00 1,00 1,00 1,00 1,00 DA enak 2 1,00 2,00 1,00 2,00 1,00 DA enak 3 1,00 3,00 0,90 2,70 0,95 DA manjši 4 1,00 4,00 1,00 4,01 1,00 DA večji 5 1,00 5,00 0,91 4,57 0,96 DA manjši 6 1,00 6,00 0,99 5,96 1,00 DA večji 7 1,00 7,00 1,02 7,15 1,01 DA večji 8 1,00 8,00 1,03 8,26 1,02 DA večji 9 1,00 9,00 1,04 9,36 1,02 DA večji 10 0,96 9,64 0,97 9,70 0,97 NE manjši 11 0,96 10,52 1,02 11,25 0,99 NE večji 12 0,98 11,79 1,03 12,41 1,01 DA večji 13 0,99 12,82 1,04 13,50 1,01 DA večji 14 0,99 13,81 1,04 14,58 1,01 DA večji 15 0,96 14,43 0,99 14,87 0,98 NE manjši 16 0,96 15,33 1,03 16,51 1,00 NE večji 17 0,98 16,62 1,04 17,65 1,01 DA večji 18 0,98 17,64 1,04 18,73 1,01 DA večji 19 0,98 18,62 1,04 19,79 1,01 DA večji 20 0,96 19,23 1,00 20,07 0,98 NE manjši 103 8.3 SA-Q UČENJE 8.3.1 PREDSTAVITEV Zanimiv je adaptivni večagentni sistem za proizvajalce električne energije, ki za učni algoritem agentov uporablja SA-Q učenje. Za proizvajalce so stroškovne krivulje dobro znane v vsakem elektroenergetskem sistemu, kriterij za učenje agentov proizvajalcev pa je dobiček od prodaje proizvedene električne energije. Proizvajalci na trgu so si med seboj različni, zato je treba za zadovoljivo modeliranje zanje uporabiti model večagentnega sistema. Ker bodo sistem sestavljali aktivni in pasivni agenti, bi modeliranje vneslo veliko prostostnih stopenj in s tem mogočih stanj ter zahtevalo preveč računske moči. Proizvajalce, ki bodo zagotovo obratovali, se zato modelira kot pasivne agente, saj se ne pričakuje spreminjanja njihove ponudbe. Kot aktivne agente, ki so sposobni svoje ponudbe spreminjati v skladu z razmerami na trgu, se modelira le tiste proizvajalce, ki so s svojimi ponudbami blizu prirastne cene in prirastne količine, ki določata tržno ravnovesje. Ti bodo morali svojo ponudbo ves čas prilagajati stanju na trgu, saj s tem zagotovijo svoje obratovanje. V določenih periodah svojo energijo lahko prodajo, v drugih periodah pa je njihova ponudba previsoka in ne obratujejo. Če aktivni agent proizvajalec s ponudbo v določeni uri ne uspe prodati energije, bo njegov cilj ponudbo toliko znižati, da bo sprejeta. Če proizvajalec uspe s prodajo, pa bo njegov cilj ponudbo toliko zvišati, da bo prav on mejni proizvajalec, ki bo določal tržno ceno, povečal svoj dobiček in še uspel prodati svojo proizvedeno energijo. 8.3.2 ZGRADBA AGENTA Izbrano SA-Q učenje za agente proizvajalce zahteva definicijo parametrov agentnega modela, zato je treba v nadaljevanju definirati: — stanja agenta p, — ukrepe agenta, — nagrade agenta proizvajalca in — SA-Q postopek za učenje. 104 08 8.3.2.1 STANJA AGENTA Stanja okolja, sj,p, opisujejo vse možne okoliščine, v katerih se znajde agent. Za j-tega agenta proizvajalca so za stanja v sezoni p izbrani nivoji napovedanega odjema 𝑃� na trgu za naslednji dan [75]. Ti podatki so dostopni vsem proizvajalcem, saj jih za realne trge objavlja sistemski operater, za testne sisteme pa se odjem navadno definira za celotno simulacijsko obdobje vnaprej (npr. 1 dan, 1 leto). Nabor vseh možnih nivojev odjema znotraj ene sezone p se razdeli na območja različne širine tako, da so vsa stanja znotraj sezone obiskana približno enako pogosto. Širino n-tega stanja d�j,p (kjer je 0 < n < N) pa omejujeta zgornji in spodnji nivo odjema, 𝑃j,p ���� in 𝑃j,p ����. Stanje n je v določeni uri obiskano, če velja: (8.11) 8.3.2.2 UKREPI AGENTA Agent lahko v vsakem posameznem stanju opravi cel nabor ukrepov, vendar se tudi za agente proizvajalce za vsako posamezno stanje, s�j,p, definira en sam ukrep, a�j,p. Q-vrednosti Q�j,p se uporabijo za vertikalno pomikanje prirastne ponudbene krivulje v pripadajočem stanju. Ta sprememba se doseže z množenjem Q-vrednosti z začetno vrednostjo ali prostim členom prirastne stroškovne krivulje. (8.12) Konstanta Dj je prosti člen v kvadratni funkciji, ki opisuje stroškovno krivuljo vsakega agenta proizvajalca. V splošni obliki je prirastna stroškovna krivulja (8.13) v kvadratni obliki: (8.13) Če je Q�j,p > 1, bo j-ti agent zvišal ponudbo in bo svojo ponudbeno krivuljo prestavil višje po abscisni osi, če pa je Q�j,p < 1, bo agent znižal ponudbo tako, da jo bo po abscisni osi prestavil nižje od izhodiščne lege, ki jo določa prirastna stroškovna krivulja. Omejitev j-tega agenta je v tem, za kolikšen odstotek lahko dviguje in spušča svojo ponudbo. To lahko počne na intervalu [Dj���, Dj���], ki ga zanj definirata vrednosti Qj���in Qj���. 105 Izvedbo ukrepa za j-tega agenta v m-tem stanju prikazuje slika 8.2, kjer se vidi, da je učni algoritem predlagal zmanjšanje napovedanega odjema, torej tržnega povpraševanja, in je pripadajoča Q-vrednost v tem primeru manjša od 1. Ali je ponujanje energije za proizvajalca pod prirastno stroškovno ceno nespametno? Kadar je proizvajalec tisti, ki določa prirastno ceno, se lahko zgodi, da v posameznih urah njegove ponudbe ne bi bile sprejete in bi moral ustaviti proizvodnjo. Če bi to naredila termoelektrarna, bi potrebovala več ur, imela pa bi tudi velike stroške z zaustavitvijo in ponovnim zagonom, kar bi močno vplivalo na skrajšanje njene življenjske dobe. Zato je občasno in za kratek čas električno energijo bolj smotrno prodajati »pod ceno«, kot pa ne obratovati. [€/h] Cj* ... Z učenjem prilagojen prosti člen π Cj ... Prosti člen stroškovne krivulje Cj��� Cj* Cj Cj��� 𝑃� [MW] Slika 8.2: Izvedba ukrepa za j-tega agenta proizvajalca v n-tem stanju 8.3.2.3 ISKALNA TABELA AGENTA PROIZVAJALCA Vsak agent proizvajalec pri učenju uporablja iskalno tabelo s pari stanja in pripadajočega sklopa ukrepov, v njih pa se nahajajo zadnje, v učnem procesu določene Q-vrednosti, ki se osvežijo z vsakim ponovnim obiskom določenega stanja. Začetne Q-vrednosti v iskalni tabeli določi snovalec agenta in so v našem primeru vse enake 1, torej nevtralne. Stanja opisuje višina napovedanega urnega odjema, ukrep pa je sprememba ponudbene cene (zviševanje/zniževanje). Tabela 10.2 prikazuje primer iskalne tabele za j-tega agenta proizvajalca, ki za vsako stanje definira en sam ukrep. Možen bi bil tudi nabor več ukrepov, med katerimi bi lahko agent izbiral tistega, ki je v določenem stanju zanj najboljši. 106 08 Tabela 8.2: Iskalna tabela agenta proizvajalca Stanje Ukrep 1 Ukrep 2 … Ukrep n Nivo napovedanega Sprem. ponudbene cene … … … urnega odjema (povečanje/zmanjšanje) s₁j,p Q₁₁ Q₁₂ Q₁₃ Q₂� s₂j,p Q₂₁ Q₂₂ Q₂₃ Q₂� ... ... ... ... ... s�j,p Q�₁ Q�₂ Q�₃ Q�� 8.3.2.4 NAGRADA AGENTA PROIZVAJALCA Dobršen del agentnih modelov kot kriterij uspešnosti delovanja za proizvajalce uporablja dobi- ček od prodaje proizvedene električne energije [56], [60], [87]. Za j-tega proizvajalca dobiček π� v vsaki uri definira razlika med prihodki od prodaje, β�, in stroški proizvedene količine električne energije, C� [100]. Indeks G označuje, da gre za proizvajalca. Vse enačbe se nanašajo na izbrano uro h in izbranega proizvajalca j, zato sta ta indeksa zaradi preglednosti izpuščena. (8.14) Če se v enačbi (8.14) π� zamenja z nagrado R� in prihodke zapiše kot produkt proizvedene moči 𝑃� in cene električne energije λ�, stroške pa s pomočjo integrala kot ploščino pod stroškovno krivuljo, nastane [100]: (8.15) Funkcijo g definira enačba (8.13). Enačba (8.15) velja v obiskanem stanju n, zato za to stanje velja: (8.16) 8.3.2.5 SA-Q UČENJE ZA AGENTA PROIZVAJALCA Za potrebe učenja agentov proizvajalcev se uporabi osnovna enačba Q-učenja iz enačbe (6.3), pri čemer je γ = 0, in sledi: 107 (8.17) V sezoni p se agent proizvajalec j znajde v n-tem stanju s�. Za zadnji ukrep, ki ga je v 𝑡-tem obisku tega stanja izvršil, izračuna nagrado r�. Kot linearno kombinacijo zadnje normirane Q-vrednosti q� in nagrade r� izračuna novo Q-vrednost q��⁺�, ki jo bo uporabil pri odločitvi za novi ukrep v (𝑡+1)-obisku stanja s�. (8.18) (8.19) Q-vrednosti se posodobijo le za obiskano stanje. Faktor α, ki je na začetku učenja enak 1, predstavlja utež v linearni kombinaciji zadnje Q-vrednosti q� in nagrade r�. Agent na začetku nima izkušenj oz. preteklih Q-vrednosti, zato se celotna utež na začetku izračuna iz trenutno pridobljene nagrade r�. Z vsakim naslednjim obiskom se faktor α zmanjšuje skladno s faktorjem u. Več kot imamo izkušenj, manj teže dobivajo trenutne nagrade. 1. Kadar agent proizvajalec poleg Q-učenja doda kriterij Metropolis (SA-dodatek), ta poteka znotraj določenega stanja pred določitvijo ukrepa an (8.18) v naslednjih korakih: 2. naključni izbor ukrepa a�' pomeni neko naključno Q-vrednost med Qj��� in Qj���. 3. V skladu s pohlepno strategijo izberemo ukrep a�''. To pomeni izbor tiste Q-vrednosti, pri uporabi katere je agent med dosedanjim učenjem v trenutnem stanju dobil največjo nagrado. 4. Naključno število ξ ∈ (0,1) sledi iz enačbe: (8.20) 5. Izbrani ukrep os v kriteriju Metropolis posledično spremeni Q-vrednost q�j,p,� v enačbi (8.18), preden se izračuna q�j,p,�⁺�. 6. Parameter Temp je temperatura v SA-Q učenju, ki se postopoma zmanjšuje skladno s faktorjem φ, ki skozi čas zmanjšuje raziskovanje in je običajno malo manjši od 1 (npr. 0,98). 108 08 (8.21) Pred učenjem je treba nagrade in Q-vrednosti normirati na zaprti interval [0,1] in potem pred izvedbo ukrepa zopet denormirati v realni red velikosti, zato enačbe učenja zapisujemo z malima črkama r in q, ki označujeta normirane parametre. 8.4 OSTALI SIMULACIJSKI PARAMETRI 8.4.1 DEFINICIJA Q-MATRIKE Q-matriko v poglavju 8.5.1 definira kombinacija stanj in pripadajočih ukrepov. Za stanja so izbrane višine odjema električne energije. Ker gre za simulacijo sistema, v katerem se odjem giblje med 𝑃� ∈ [𝑃����, 𝑃����] = [580, 1970] MW, naj bo število stanj ali višin odjema n = 21. Število n je prilagojeno učnemu postopku tako, da agent po učnem algoritmu dovolj pogosto izračuna Q-vrednosti. Če je stanj preveč, se agent prepočasi uči za redko izbrana stanja, s čimer manj uspešno dosega cilje, če pa je stanj premalo, lahko agent za očitno različna stanja uporablja enake ukrepe in posameznih priložnosti ne izkoristi dovolj, kar spet slabša učenje. Velikost posameznega stanja ali višine odjema (ds) daje enačba (8.22). (8.22) Ker so stanja nivoji odjema električne energije v sistemu, so izhodiščne Q-matrike identične za vse proizvajalce, tabela 8.3. Začetne Q-vrednosti se postavijo na vrednost 1, saj pred simulacijo ni jasno, katere Q-vrednosti bi lahko veljale za posamezno stanje. Ta vrednost predstavlja osnovno ponudbeno krivuljo, ki jo določajo tehnično-ekonomske značilnosti posamezne elektrarne. 109 Tabela 8.3: Q-matrika, uporabljena v simulacijah Stanje [MW] Začetni ukrep V(𝑡 = 0) 580−649,5 1 649,5−719 1 719−788,5 1 ... 1 1.900,5−1.970 1 8.4.2 VREDNOST SPREMENLJIVK PRI SA-Q UČENJU Pri simulacijah se absolutno vrednost spremenljivke Q in nagrado r normira na interval r, Q ∈ [0; 1]. Intervali absolutnih vrednosti obeh spremenljivk se določijo s testnimi simulacijami. V njih se razpon vrednosti spremenljivk nastavi za razred večji od pričakovanih vrednosti. Spodnjo mejo parametra Q se postavi na Q = 0, kar predstavlja ponudbo po 0 €/MW, zgornjo mejo pa na 20, kar predstavlja 20-kratnik obratovalnih stroškov elektrarne. Poleg parametra Q je treba določiti še nagrado r. V normalnih pogojih obratovanja so pričakovane vrednosti r ∈ [0,9; 1,2], pri čemer r = 0,9 predstavlja vrednost prihodka, ki je za 10 % manjši od obratovalnih stroškov, r = 1,2 pa za 20 % večji od obratovalnih stroškov in prinaša dobiček. V testnih simulacijah so te vrednosti znotraj intervala r ∈ [0,5; 3]. S temi omejitvami simulacij je treba opazovati nove vrednosti Q in r. Izkaže se, da testne simulacije zasedejo Q-vrednosti v intervalu Q ∈ [0,7; 1,8], vrednosti r pa r ∈ [0,8; 1,5]. Glede na gibanje obeh parametrov se začetni testni interval obeh spremenljivk zmanjša na Q ∈ [0,5; 2] ter r ∈ [0,7; 2]. Spodnjo mejo parametra r se lahko določi tudi glede na najmanjši želeni dobiček. Če je ta meja nastavljena previsoko, se zahteva previsok dobiček in elektrarna lahko postane nekonkurenčna na trgu, posledično pa pride do njenega izklopa. 110 08 8.5 PRIMERJAVA UČINKOVITOSTI UČENJA 8.5.1 UVOD Za primerjavo učinkovitosti različnih učnih algoritmov za agenta proizvajalca je treba uporabiti nekatere privzetke, s katerimi se poenostavi realnost. Učni algoritmi so testirani na modelu izo-liranega elektroenergetskega sistema brez neželenih vplivov sosednjih sistemov, ki ne uporabljajo učenja. Ti so glede na uporabljeni sistem zasnovani kot togi, saj se lahko samo tako vidi neposre-dna vzročna zveza med dogajanjem na trgu in učenjem. Tabela 8.4 podaja podatke o elektrarnah, uporabljenih v modelu elektroenergetskega sistema. Tabela 8.4: Inštalirane moči, minimalne moči, emisijski faktorji in kratkoročni ter dolgoročni stroški elektrarn v modelu Šifra enote HE 2 HE 2 HE 3 JE TE 1 TE 2 TE 3 TE 4 𝑃���� [MW] 136 153 575 670 779 124 312 188 𝑃��� [MW] 0 0 0 383 343 17,5 37 88 Emisijski faktor [𝑡�� �/MWh] 0 0 0 0 1,1 0,9 0,6 0,5 ₂ C���� [€/MW ����/h] 15 21 20 19 C���� [€/MWh] 37 32 45 37 Minimalno obratovanje (u���) [%] 60 60 60 60 Učenje se izvede le za spreminjanje ponudbenih krivulj termoelektrarn (TE), ki imajo možnost prilagodljivega obratovanja, saj bi bilo nesmiselno za enote, ki tega ne zmorejo. Termoelektrarne hkrati običajno določajo ceno na trgu in tekmujejo tudi v količini proizvedene energije. Jedrska elektrarna (JE) ne more uporabljati učenja, saj na trgu nastopa s pasivno ponudbo, ki ji zagotavlja maksimalno obratovanje, za hidroelektrarne (HE) pa je tradicionalno ključna optimizacija pretoka vode glede na napovedane cene električne energije, zato se njihovo obratovanje simulira brez agenta. 111 8.5.2 MODEL Z UTEŽENIM POVPREČJEM Uteženo povprečje iz poglavja 8.3 temelji na predpostavki, da se agent proizvajalec odloča o ponudbi glede na uro v dnevu. Vsak proizvajalec pričakuje približno enako obnašanje drugih udeležencev in približno enake značilnosti odjema v posamezni uri dneva. Slika 8.3 prikazuje odjem med 6. in 12. aprilom 2009. Na njej so z rdečim stolpcem označene vrednosti odjema v uri 1, z zelenim pa v uri 10. Za uro 1 je v obravnavanem obdobju povprečna vrednost odjema 930 MW, minimalna vrednost je 875 MW, maksimalna pa 978 MW. Relativna razlika med povprečno in skrajnima vrednostma torej znaša manj kot 5 %, pri uri 10 pa je ta razlika manjša od 3 %, kar pomeni, da je ura dneva za proizvajalca ustrezen parameter za odločanje o tem, kakšno ponudbo bo oddal. V posamezni uri so možna tudi večja trenutna odstopanja, zlasti zaradi hitrih vremenskih sprememb. Učni algoritem se zaradi velikih odstopanj odjema med delovnimi dnevi in vikendi uporablja ločeno za delovne dni in za vse ostale dela proste dni, npr. vikende in praznike, tipe dneva pa se lahko razdeli tudi na delovnike, nedelje in praznike ter sobote z dnevi med prazniki in delovnimi dnevi. ] 1600 Ura 1 Ura 10 1400 Odjem 1200 Odjem [MV 1000 800 600 400 200 0 1 5 9 13 17 21 1 5 9 13 17 21 1 5 9 13 17 21 1 5 9 13 17 21 1 5 9 13 17 21 1 5 9 13 17 21 1 5 9 13 17 21 Ura Slika 8.3: Vrednost odjema med 6. in 12. aprilom 2009 ter v uri 1 in 10 med delovniki Učenje z uteženim povprečjem spremlja dobiček v posamezni uri. Koeficient BAF, s katerim se pomnoži cenovno komponento ponudbene krivulje, določa agentovo ponudbo in s tem obratovanje elektrarne. Slika 8.4 prikazuje dobiček, proizvodnjo in BAF termoelektrarne TE 2 za tipičen dan. Čeprav je odjem enakomeren, BAF in nivo proizvodnje nista. Najbolj predvidljiv parameter pri tej enoti je nivo proizvodnje, saj enota TE 2 podnevi z izjemo ure 16 deluje približno na 90 % svoje zmogljivosti, v ostalih urah pa približno na 75 % zmogljivosti, kar pomeni, da TE 112 08 2 večino časa verjetno ni tista, ki določa tržno ceno. Če bi TE 2 določala tržno ceno, bi lahko nastala popolna korelacija med proizvodnjo in dobičkom. Dobiček in BAF imata dokaj razpršene vrednosti. Vzrok za take razlike v dobičku pri podobni količini obratovanja je dosežena cena na trgu. Ko enota enkrat pokrije svoje obratovalne stroške, vsak naslednji evro zanjo predstavlja neposreden dobiček tiste ure. Od osmih zjutraj do 18. ure zvečer (z izjemo 16. ure) sta tako dobiček kot tudi nivo obratovanja elektrarne visoka. Faktor BAF ima zato vrednosti med BAF ∈ [1,1; 1,2], kar pove, za koliko je TE 2 povišala svojo ponudbeno krivuljo. Podobni rezultati so tudi za ostale proizvajalce. Analiza posameznih proizvajalcev je zanimiva zlasti s stališča primerjave njihovega obratovanja in dobička. 180 1,4 BAF 160 1,2 Dobiček [€] 140 1 120 100 0,8 80 0,6 60 0,4 40 0,2 20 Dobiček BAF 0 0 Proizvodnja Ura Slika 8.4: Dobiček, proizvodnja in BAF TE 2 Poleg spreminjanja ponudbene krivulje v različnih urah je zanimiva tudi dinamika gibanja faktorja BAF v posamezni uri skozi simulacijske intervale, tj. dni. Če se je faktor BAF od ure do ure v posameznem dnevu precej spreminjal, je slika drugačna, če se izbere uro v dnevu skozi več dni. Slika 8.5 prikazuje dobiček enote TE 2 v uri 10 za tri zaporedne tedne. Graf ločeno prikazuje vrednosti BAF med tednom in med vikendom, ker je bil učni algoritem uporabljen ločeno za delovne in nedelovne dneve. Vrednost BAF se glede na srednjo vrednost kljub nihanju dobička ne spreminja veliko. Razlog je linearno uteževanje BAF z rezultati iz zadnjih 30 simulacij. Dobiček kaže na to, da je agent uspel dvigniti ponudbeno krivuljo in s tem doseči boljši rezultat. 113 Ker gre pri večagentnih simulacijah za igro več udeležencev, je za posameznega udeleženca težko točno določiti, kakšen vpliv na njegov uspeh imajo posamezni udeleženci. Proizvajalci običajno dvigujejo ponudbeno krivuljo, dokler zaradi tega ne začne trpeti njihov uspeh na trgu. Ta uspeh se meri s stopnjo angažiranosti ali stopnjo dnevne proizvodnje u, ki pove, kolikšen del dneva elektrarna proizvaja. Ob nedelovnih dneh se zgodi, da je poleg nizkega urnega dobička taka tudi stopnja dnevne proizvodnje u. Za neprekinjeno obratovanje agent proizvajalec v situacijah spusti ponudbeno krivuljo pod svoje obratovalne stroške. Stroški zaustavitve in ponovnega zagona so izjemno visoki, obenem pa tak postopek za termoelektrarno traja več ur, zato se TE skušajo izogniti takim situacijam. Kljub ponudbeni krivulji, ki ne dosega lastnih stroškov obratovanja, proizvajalec vseeno lahko nekaj zasluži v obdobjih, ko je cena višja od njegovih obratovalnih stroškov in torej ne določa tržne cene, temveč jo določa eden od preostalih agentov proizvajalcev. 350 1,4 BAF 300 1,2 Dobiček [€] 250 1 200 0,8 150 0,6 100 0,4 Dobiček – ura 10 BAF delovni dan 50 0,2 BAF vikend Povprečje 0 0 Povprečje vikend 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 Dan Slika 8.5: Dobiček in BAF za enoto TE 2 v treh zaporednih tednih Učni algoritem zahteva tudi minimalno stopnjo dnevne proizvodnje u. Če proizvajalci proizva-jajo manj od nje, algoritem spusti njihovo ponudbeno krivuljo in tako spet začnejo proizvajati več. Brez te omejitve bi agenti proizvajalci lahko začeli umikati svojo proizvodnjo s trga, kar bi zvišalo ceno energije na trgu in posledično tudi njihove dobičke, omejitev pa to prepreči. V praksi so elektrarne obvezane proizvajati, če le imajo ekonomske in tehnične pogoje, nad katerimi bdi regulator trga. Če katera v posameznem obdobju zmanjša svojo proizvodnjo brez utemeljenega razloga, jo regulator trga lahko kaznuje zaradi izkrivljanja pravil trga. 114 08 8.5.3 PRIMERJAVA TRŽNE CENE IN DOBIČKA ELEKTRARN Raziskovalci v združenju IEEE si že nekaj let prizadevajo za vzpostavitev modela, ki bi omogo- čal mednarodno preverljivost algoritmov in rezultatov. Kljub temu primerjava razvitega učenja z učnimi algoritmi drugih raziskovalcev še ni mogoča, ker še ni standardnega tehnično-ekonomskega testnega modela za primerjalne teste, zato sta v tem poglavju za prikaz prednosti modelov med seboj primerjana dva scenarija: — stalni scenarij, v katerem se agenti ne učijo in vsak dan oddajo enako ponudbeno krivuljo, ki ustreza realnim stroškom, in — učni scenarij, v katerem agenti uporabljajo učni algoritem. Simulacije ne upoštevajo cen emisijskih dovolilnic, potekajo pa pri privzeti višini sistemskega odjema 13.452 GWh. Opazovani parametri so: proizvodnja elektrarne, doseženi dobiček in cena na trgu z električno energijo. Tabela 8.5 prikazuje rezultate elektrarn na trgu takrat, ko se agenti učijo z algoritmom z uteženim povprečjem in takrat, ko se ne učijo. Tako pri JE kot tudi pri HE ni razlik v količini proizvodnje v obeh primerih, saj njihove ponudbene krivulje v nobenem trenutku ne določajo tržne cene. Na trgu so le pasivni tržni udeleženci, ki jim tržna cena določi prihodke in dobiček. Višino dobička teh enot tako določajo termoelektrarne. Termoelektrarne v scenariju brez učenja praviloma dosegajo izgubo, kar je posledica prenizko nastavljene ponudbene krivulje in njenega neprilagajanja stanju na trgu. V praksi ni primera, ko bi proizvajalci za vse leto nastavili eno ponudbeno krivuljo, saj proizvajalci svoje ponudbe pogosto spreminjajo celo večkrat na dan. Največjo spremembo pri dobičku in hkrati tudi pri proizvodnji doživijo termoelektrarne. Enote TE 1, TE 2 in TE 3 v stalnem scenariju beležijo slabši finančni rezultat kot v učnem scenariju, saj v slednjem dosežejo v povprečju višjo ceno na trgu, višji dobiček oziroma nižja izguba pa za vse enote ne pomenita, da so tudi več proizvajale. Proizvodnja TE 3 in TE 4 se zmanjša za 8 do 11 odstotkov, kljub temu pa se dobiček poveča za od 37 do 55 odstotkov. Tako finančno boljši rezultat kot tudi večjo proizvodnjo beležita enoti TE 1 in TE 2, katerima učni algoritem zaradi konkurenčnejših stroškov obratovanja pomaga proizvajati več, s čimer se izboljša njun položaj na trgu. To pomeni, da lahko večje elektrarne z nižjimi stroški obratovanja z vidika proizvodnje s trga izrinejo manjše enote. Regulator trga bi lahko uvedel posebna pravila, če bi menil, da tako ravnanje izkrivlja trg. 115 Tabela 8.5: Proizvodnja, dobiček in tržna cena v scenariju z in brez uporabe učenja PROIZVODNJA [GWh] HE 2 HE 2 HE 3 JE TE 1 TE 2 TE 3 TE 4 Brez učenja 433 557 2.559 2.940 4.128 615 1.100 1.120 Učenje z uteženim povprečjem 433 557 2.559 2.940 4.274 683 976 1.030 Sprememba 0 0 0 0 146 68 -124 -90 Sprememba [%] 0 0 0 0 4 11 -11 -8 DOBIČEK [mio €] Brez učenja 11,9 14,9 100,2 97,8 -11,2 -5,3 -31,3 -5,9 Učenje z uteženim povprečjem 16,5 20,9 130,8 128,5 36,2 3,8 -28,2 2,8 Sprememba 4,6 6 30,6 30,7 47,9 9,1 8,4 9,2 Sprememba [%] 39 40 31 31 53 56 55 37 TRŽNA CENA SKUPAJ SISTEM Brez učenja 58,79 Učenje z uteženim povprečjem 69,22 Sprememba 10,43 Sprememba [%] 18 Profil proizvodnje in cen za eno od termoelektrarn prikazuje slika 8.6 skupaj z odjemom, proizvodnjo enote TE 1 in doseženo ceno na trgu. V učnem scenariju je proizvodnja enote nekoliko višja kot v stalnem scenariju, cena na trgu pa je nekoliko bolj spremenljiva. Pri ceni je pomembno zlasti njeno znižanje v času manjšega odjema in zvišanje v času konic. Parameter BAF v urah nizkega odjema znižujeta tako dobiček s parametrom k kot tudi nivo obratovanja s parametrom u. Posledica je nižja ponudbena krivulja, ki vpliva na znižanje cene. Nižja oddana krivulja očitno ne pomeni zmanjšanja proizvodnje za vse udeležence, saj proizvodnjo zmanjšajo le enote z visokimi obratovalnimi stroški. 116 08 2.000 90 1.800 80 Cena [€] odnja[MW] 1.600 70 oizv 1.400 60 1.200 50 Odjem, pr 1.000 40 800 30 600 20 400 200 10 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Ura Odjem Cena – brez učenja Cena – z učenjem Proizvodnja TE1 – brez učenja Proizvodnja TE1 – z učenjem Slika 8.6: Odjem v omrežju, proizvodnja TE 1 in cena v scenariju z in brez učenja 8.5.4 SA-Q UČENJE SA-Q učenje se testira na enakem modelu kot algoritem učenja z uteženim povprečjem. Primerjava rezultatov simulacij originalnega SA-Q učenja in SA-QI učenja pokaže prednosti slednjega, glej poglavje 8.5.2. Glede na to, da so najpomembnejše pomanjkljivosti SA-Q učenja počasen odziv glede na parameter r in posledično drugačne Q-vrednosti, morebitna napačna smer raziskovanja in slabši finančni izid, so rezultati teh kazalnikov zanimivi. Slika 8.6 prikazuje hitrost spremembe Q-vrednosti novega algoritma glede na tržno ceno in učni parameter r, zaradi hitrej- šega odziva pa posamezni agent lahko dolgoročno doseže drugačne in višje Q-vrednosti, s tem v nadaljnjih simulacijah izkoristi tržni položaj in spremeni tržno ceno. 117 Slika 8.7 primerja Q-vrednosti in cene na trgu z električno energijo pri SA-Q učenju in pri SA- -QI učenju. Algoritem čez dan, ko je odjem običajno višji, izračuna višje Q-vrednosti, s tem pa dodatno dvigne ceno na trgu, medtem ko izboljšano SA-Q učenje v času nižjega odjema izračuna Q-vrednosti, ki so enake kot pri osnovnem SA-Q učenju, v nekaterih primerih pa so celo nižje. V splošnem je mogoče reči, da se z upoštevanjem parametra r in sprememb parametra r glede na prejšnje stanje dobi odzive na trgu, ki so hitrejši in povzročajo večje nihanje cen. Ko izboljšani algoritem opazi priložnost za povečanje cene in dobička, bo to hitro izkoristil, ko pa opazi, da te možnosti nima, se bo postavil enako ali pa še konzervativnejše kot osnovni SA-Q-algoritem. 2,5 130 ednost 2,3 110 Q-vr 2,1 Tržna cena [€] 90 1,9 70 1,7 50 1,5 30 1,3 1,1 10 0,9 0 50 50 50 50 50 51 51 51 51 51 51 52 52 52 52 52 52 53 53 53 53 53 53 54 54 54 54 54 54 55 55 55 55 55 55 56 56 56 56 56 56 Dan Q-vrednost SA-QI učenje Q-vrednost SA-Q učenje Cena SA-QI učenje Cena SA-Q učenje Slika 8.7: Q-vrednosti TPP 1 in tržna cena za en teden pri SA-Q in SA-QI učenju Ta dinamični proces prikazujejo Q-vrednosti, ki jih termoelektrarne uporabijo za spremembo svoje ponudbene krivulje. Slika 8.8 prikazuje Q-vrednosti za vse štiri termoelektrarne za simulirano leto. Splošna značilnost je, da so Q-vrednosti poleti nižje zaradi nižjega odjema v sistemu in hkrati zaradi večjih pretokov rek ter proizvodnje hidroelektrarn. Q-vrednosti ne presežejo vrednosti 1,9, kar je nekoliko manj od predvidene zgornje meje. Q-vrednosti imajo pri vseh elektrarnah podobno dinamiko, vendar so v nadaljevanju vrednosti različne. 118 08 2 Q – TE1 Q – TE2 ednost Q – TE3 1,8 Q-vr Q – TE4 1,6 1,4 1,2 1 0,8 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 Ura Slika 8.8: Q-vrednosti za vse TE v letu 2010 Zanimivi deli učnega procesa so začetek učenja in točke, ko se v sistemu pojavi bistvena sprememba ali motnja. Slika 8.9 prikazuje Q-vrednosti za termoelektrarne v prvem tednu simulacij. Učni algoritem se prve tri dni uči in privaja na odzive, ki mu prinašajo višje dobičke, od tretjega dneva naprej pa so odzivi že podobni normalnim odzivom, pri katerih je Q-vrednost čez dan višja in ponoči nižja. Hitrost prilagajanja je s SA-QI učenjem večja, vendar je tudi odvisna od števila stanj, ki jih ima učni algoritem na razpolago. 119 1,6 Q – TE1 Q – TE2 ednost 1,5 Q – TE3 Q-vr Q – TE4 1,4 1,3 1,2 1,1 1 0,9 0 20 40 60 80 100 120 140 160 180 Ura Slika 8.9: Q-vrednosti vseh TE na začetku simulacije Slika 8.10 prikazuje Q-vrednosti v tednu simulacij med dnevoma 70 in 76. Q-vrednosti odražajo odjem v posamezni uri dneva. Zanimiva je skoraj identična dinamika spreminjanja Q-vrednosti posameznih termoelektrarn. V stanjih, ki se jih agent dobro nauči, se oblikuje Q-vrednost, s katero doseže točno določen dobiček ter razmerje med lastno proizvodnjo in ceno na trgu. Če ima ponudba konstantno ceno, se izkaže, da agenti ponudbeno krivuljo dvignejo točno do tržne cene, s čimer ne ogrozijo stopnje svoje proizvodnje. S takim načinom ohranijo stopnjo proizvodnje in hkrati tržni delež ter določijo dovolj visoko tržno ceno [104]. Na sliki so tudi posamezni agentovi poskusi izboljšanja lastnega položaja z visokimi Q-vrednostmi pri izboljšanem algoritmu. V tem delu učenja agent raziskuje v področju višjih Q-vrednosti, kar na spodnji sliki označujejo rdeče točke. Pri originalnem SA-Q učenju je raziskovanje potekalo v področju z nižjimi Q-vrednostmi, s katerimi praviloma ni mogoče doseči boljših rezultatov. 120 08 1,8 Q – TE1 Q – TE2 ednost 1,7 Q – TE3 Q-vr Q – TE4 1,6 1,5 1,4 1,3 1,2 1,1 1 0,9 560 580 600 620 640 660 680 700 720 740 Ura Slika 8.10: Q-vrednosti vseh TE v tednu med 70. in 76. dnevom Slika 8.11 prikazuje tržno ceno, doseženo pri izboljšanem algoritmu. Nekajkrat na leto se pojavi-jo cenovne konice, ki so v tem primeru omejene na 300 €/MWh. Cene tudi v obdobjih nizkega odjema oziroma visoke proizvodnje hidroelektrarn nikoli ne padejo pod 50 €/MWh. Najmanjša dosežena tržna cena je posledica lastnosti sistema in uporabljenega učnega algoritma ter ni omejitev simulacije. Pri obratovanju najcenejše enote ob privzetih minimalnih Q-vrednostih bi bila tržna cena 16 €, najvišje cene pa bi se gibale okoli 150 €/MWh brez upoštevanja posameznih cenovnih konic. Razlago za spodnjo in zgornjo mejo je mogoče iskati v učnem algoritmu in zna- čilnostih sistema. Proizvajanje pod ceno 50 € nobenemu od udeležencev ne bi povečalo dobička. 121 300 ednost 250 Q-vr 200 150 100 50 0 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 Ura Slika 8.11: Tržna cena, dosežena v simulacijskem letu Kot pri originalnem algoritmu so tudi v tem poglavju pomembne spremembe rezultatov SA- -QI učenja v primerjavi s SA-Q učenjem. Tabela 8.6 prikazuje proizvodnjo in dobiček za oba algoritma učenja. Zaradi lažje primerjave so tu tudi spremembe opazovanih parametrov (v %). Hidroelektrarne in jedrska elektrarna ne spremenijo svoje proizvodnje, kar je pričakovan rezultat. Termoelektrarne z manjšimi stroški svojo proizvodnjo povečajo na račun TE 3, ki z višjimi stro- ški ni konkurenčna. Kljub spremembam pri proizvodnji se dobiček vseh udeležencev poveča na račun višje dosežene povprečne tržne cene, ki jo kaže tabela 8.6. Cena se ne zviša sorazmerno v vseh trenutkih, temveč se zviša v trenutkih večjega odjema in zniža v trenutkih manjšega odjema. 122 08 Tabela 8.6: Proizvodnja, dobiček in tržna cena pri SA-Q in SA-QI učenju PROIZVODNJA [GWh] HE 2 HE 2 HE 3 JE TE 1 TE 2 TE 3 TE 4 Brez učenja 433 557 2.559 2.941 3.886 699 1.312 1.068 Učenje z uteženim povprečjem 433 557 2.559 2.941 3.939 704 1.248 1.072 Sprememba 0 0 0 0 53 5 -63 4 Sprememba [%] 0 0 0 0 1 1 -5 0 DOBIČEK [mio €] Brez učenja 18.7 24.1 142.5 147.4 48.7 8.7 -13.9 10.7 Učenje z uteženim povprečjem 20.9 26.9 155.4 162.2 70.6 12.5 -9.5 16.2 Sprememba 2.2 2.8 12.9 14.8 21.9 3.8 4.4 5.5 Sprememba [%] 12 12 9 10 45 44 -32 51 TRŽNA CENA SKUPAJ SISTEM Brez učenja 75.63 Učenje z uteženim povprečjem 80.66 Sprememba 5.03 Sprememba [%] 7 8.5.5 SA-Q UČENJE V VEČJEM SISTEMU Zanimivo je preizkusiti delovanje adaptivnih agentov, naučenih s SA-Q učenjem na elektroenergetskem sistemu z več proizvajalci. Dosedanji sistem (Sistem 1) samo povečali na njegovo petkratno velikost (Sistem 5). Tako ima Sistem 5 petkrat večji odjem in ustrezno več elektrarn, ki pa imajo identične karakteristike. Ostali parametri ostanejo nespremenjeni. Termoelektrarne kot svoj učni algoritem uporabljajo SA-QI učenje. Tabela 8.7 prikazuje povprečno proizvodnjo in dobiček posameznih elektrarn. Ker je v Sistemu 5 po pet identičnih elektrarn vsake vrste (npr. TE 1, TE 2, JE …), tabela za elektrarne v Sistemu 5 prikazuje povprečne količine, ki so izraču-nane kot aritmetična sredina. 123 V Sistemu 5 se proizvodnja elektrarn TE 1, TE 2 in TE 4 nekoliko poveča na račun TE 3, tržna cena pa se zniža za 4,3 %. Sprememba cene daje jasen signal, da višja konkurenca lahko nekoliko zniža tržno ceno. Cena je še vedno višja kot pri učenju z uporabo ostalih učnih algoritmov. Zaradi nekoliko spremenjene proizvodnje in nižje tržne cene so dobički manjši oziroma je izguba večja. Tabela 8.7: Povprečna proizvodnja, dobiček in cena v Sistemu 1 in Sistemu 5 PROIZVODNJA [GWh] HE 2 HE 2 HE 3 JE TE 1 TE 2 TE 3 TE 4 Brez učenja 433 557 2.559 2.941 3.939 704 1.248 1.072 Učenje z uteženim povprečjem 433 557 2.559 2.941 4.023 710 1.151 1.079 Sprememba 0 0 0 0 84 6 -97 7 Sprememba [%] 0 0 0 0 2% 1% -8% 1% DOBIČEK [mio €] Brez učenja 20.9 26.9 155.4 162.2 70.6 12.5 -9.5 16.2 Učenje z uteženim povprečjem 19.8 25.1 147.9 154.3 60.0 10.7 -16.2 12.7 Sprememba 1.1 1.8 7.5 7.9 10.6 1.8 6.7 3.5 Sprememba [%] 5 7 5 5 15 14 -71 22 TRŽNA CENA SKUPAJ SISTEM Brez učenja 80.7 Učenje z uteženim povprečjem 77.2 Sprememba -3.5 Sprememba [%] -4.3% 8.5.6 PRIMERJAVA UČENJA Z UTEŽENIM POVPREČJEM, SA-Q IN SA-QI UČENJA Kateri od treh algoritmov učenja je najprimernejši za agenta proizvajalca? Tabela 8.8 povzema rezultate iz prejšnjih poglavij, predvsem proizvodnjo in dobiček elektrarn v scenariju brez uporabe učenja ter v scenarijih, v katerih so delovali učenje z uteženim povprečjem, SA-Q učenje in SA-QI učenje. Proizvodnja elektrarn, ki uporabljajo pasivno strategijo nastopa na trgu električne 124 08 energije (HE in JE), ostaja ves čas nespremenjena ne glede na strategije ostalih proizvajalcev. Dobiček teh proizvajalcev je sorazmeren s tržno ceno, ki jo določijo termoelektrarne. Pri proizvodnji termoelektrarn se zgodijo bistvene spremembe. Pri primerjavi učenja z uteženim povprečjem (BAF učenje) in scenarijem brez učenja je lahko opaziti, da se proizvodnja zviša ali zniža sorazmerno s stroški obratovanja posamezne termoelektrarne. Termoelektrarne z relativno nižjimi stroški povečajo proizvodnjo, TE z višjimi stroški pa jo znižajo. Prav tako se dobiček termoelektrarn poveča skladno z višjo proizvodnjo in višjo doseženo tržno ceno. Pri SA-Q učenju se proizvodnja poveča predvsem enoti TE 3 in zniža enoti TE 1. Enota TE 3 lahko zaradi učenja, ki kot odločitveno spremenljivko uporablja odjem v posamezni uri, bolje prepozna priložnosti za višji zaslužek. Izkaže se, da je opazovanje odjema in prilagajanje strategije na odjem mnogo boljše kot učenje glede na uro dneva. Spremembe proizvodnje in dobička pri primerjavi SA-Q in SA-QI učenja so veliko manjše kot pri primerjavi SA-Q in BAF učenja. Očitna razlika je dvig tržne cene, saj agresivnejši algoritem SA-QI prepozna in izkoristi obdobja z nižjim odjemom, kar poveča dobiček. Porazdelitev proizvodnje med enotami je pri uporabi obeh učnih algoritmov podobna. 125 Tabela 8.8: Proizvodnja in dobiček v scenarijih učenja PROIZVODNJA [GWh] HE 2 HE 2 HE 3 JE TE 1 TE 2 TE 3 TE 4 Brez učenja 433 557 2,559 2,940 4,128 615 1,100 1,120 Učenje z uteženim povprečjem 433 557 2,559 2,940 4,274 683 976 1,030 Sprememba 433 557 2,559 2,941 3,886 699 1,312 1,068 Sprememba [%] 433 557 2,559 2,941 3,939 704 1,248 1,072 DOBIČEK [mio €] Brez učenja 11,9 14,9 100,2 97,8 -11,2 -5,3 -31,3 -5,9 Učenje z uteženim povprečjem 16,5 20,9 130,8 128,5 36,2 3,8 -28,2 2,8 Sprememba 18,7 24,1 142,5 147,4 48,7 8,7 -13,9 10,7 Sprememba [%] 20,9 26,9 155,4 162,2 70,6 12,5 -9,5 16,2 TRŽNA CENA SKUPAJ SISTEM Brez učenja 58,79 Učenje z uteženim povprečjem 69,22 Sprememba 75,63 Sprememba [%] 80,66 126 9 Odjemalec/dobavitelj 09 127 9.1 UVOD Za realistično modeliranje dogajanja na elektroenergetskem trgu so potrebni aktivni agenti proizvajalci na strani ponudbe kot tudi aktivni agenti odjemalci na strani povpraševanja. Vlogo agentov odjemalcev na trgu z elektriko na kratko predstavlja poglavje 8.2. Področje modelov agentov odjemalcev se hitro razvija, vendar jih je v znanstveni in strokovni literaturi še vedno relativno malo. Agentne modele so prvotno razvili predvsem za proizvajalce, da bi lahko preizkušali strategije oblikovanja ponudbenih krivulj in našli tisto, s katero bi lahko ustvarili čim večji dobiček. SA-Q učenje za agente odjemalce na trgu z električno energijo združuje področja modeliranja prožnosti odjemalcev, agentnega modeliranja in strojnega učenja. Na podlagi predvidevanja in preteklih izkušenj se učijo, kako čim bolje zadostiti izbranemu kriteriju. Treba je najti tak model agenta odjemalca, ki se bo znal učinkovito prilagajati razmeram na trgu. Odjemalcev neposredno na trgu električne energije na debelo ni; izjema so nekateri veliki ne-posredni odjemalci, kot so npr. železarne. Odjemalci električno energijo kupujejo na trgu na drobno od dobaviteljev, ki pa jo kupujejo na trgu na debelo za dan vnaprej, na sprotnem trgu. Dobavitelji odigrajo vlogo posrednikov med proizvajalci in odjemalci in namesto odjemalcev nase prevzamejo cenovna in količinska tveganja dobave energije. Odjemalci z dobavitelji sklenejo pogodbo za količinsko in cenovno definiran vozni red dobave energije v prihodnosti, t.i. profil dobave, po vnaprej določenih stalnih cenah. Če je ta cena enaka za vse ure v dnevu, je to enotarifni sistem. Če je teh cen za različne ure v dnevu več in so na delovne dneve drugačne kot ob vikendih, je to večtarifni sistem. Cilj dobavitelja je čim ceneje nakupiti energijo in jo čim dražje prodati odjemalcem, cilj odjemalca pa je za porabljeno energijo plačati čim manj. Pri tem imata odjemalec in dobavitelj nasprotujoče si cilje. Če na sprotnem trgu cene močno zrastejo, se lahko dobavitelj znajde v položaju, ko energijo na sprotnem trgu kupuje po precej višji ceni, kot je fiksna referenčna cena iz pogodbe z odjemalcem. Ker takrat dela izgubo z vsako prodano kWh, lahko dobavitelj svoj položaj izboljša, če zmanjša količino energije, ki jo mora kupiti na trgu na debelo, zato odjemalcu lahko predlaga zmanjšanje njegove porabe v določenem časovnem obdobju. Če odjemalec ponudbo sprejme, lahko dobavitelj določeno količino energije proda nazaj na trg ali pa je na sprotnem trgu kupi manj. Dobavitelj se tako zaradi prožnosti odjemalca sam prilagaja razmeram na trgu na debelo, saj pri odstopanju med referenčno ceno in cenami na trgu na debelo odjemalce prosi za prilagoditev, tj. zmanjšanje ali povečanje odjema. Dobavitelj pridobljeno korist deli z odjemalcem, ki jo s svojo prožnostjo 128 09 omogoči. Tako je odjemalec nagrajen za svojo prožnost, delitev finančne koristi med njima pa zapišejo v pogodbah o dobavi energije. S sklenitvijo sodelovanja med dobaviteljem in njegovim odjemalcem si cilja odjemalca in dobavitelja ne nasprotujeta več, zato agenta odjemalca definiramo kot kombinacijo dobavitelja in odjemalca električne energije, ki imata skupen cilj ustvarjanja finančne koristi z izrabo prožnosti pri povpraševanju po električni energiji na trgu na debelo. Nakupna cena električne energije odjemalcev na trgu na drobno v določeni uri je enaka prodajni ceni električne energije proizvajalcev. Ta fiksna pogodbena cena agentu odjemalcu v tej uri služi kot referenčna cena in definira njegovo delovanje: — če so cene na sprotnem trgu višje od njegove referenčne cene, agent odjemalec skuša zmanjševati odjem in s tem znižuje stroške dobavitelja, s čimer jih skuša približati stroškom, predvidenim s profilom dobave in fiksno prodajno ceno v pogodbi za dobavo električne energije. — Če so cene na sprotnem trgu nižje od agentove referenčne cene, bo agent odjemalec skušal zviševati odjem in s tem povečati dobrobit obeh: dobavitelj proda več energije odjemalcu, ki jo dobi po ceni, nižji od pogodbene. Cilj agenta odjemalca, ki združuje delovanje dobavitelja in odjemalca, je torej zmanjšanje absolutnega odstopanja med pogodbenimi stroški odjemalca in stroški dobavitelja na trgu na debelo. 9.2 ADAPTIVNI AGENTNI MODEL Logika delovanja agentov odjemalcev je podobna logiki agentov proizvajalcev, čeprav opravljajo drugačne ukrepe, imajo drugačne kriterije in drugačne cilje kot agenti proizvajalci. V ta namen obstajata dva adaptivna modela za odjemalce električne energije, enoagentni in večagentni sistem. Pri obeh se za učni algoritem agentov uporablja SA-Q učenje [56], [117], pri čemer je Q-učenje nadgrajeno s kriterijem Metropolis, ki uravnoteži razmerje med raziskovanjem in izkoriščanjem znanja agenta. Namesto uporabe modelov s privzetimi oblikami cenovnih krivulj odjemalcev naj agenta odjemalca predstavlja model, ki združuje dobavitelja in njegovega odjemalca na trgu električne ener-129 gije na debelo, obenem pa tudi ponazarja tudi združeni odnos med odjemalci in dobaviteljem na trgu na drobno. Tak model se zaradi jasnosti imenuje model agenta odjemalca. Ena od bistvenih lastnosti agenta odjemalca je prilagodljivost na razmere na trgu. Ne uporablja prirastne cenovne krivulje, ampak svoj odjem prilagaja glede na napovedane cene na trgu na debelo, na referenčno ceno in na omejitve odjemne moči navzgor in navzdol, ki bi jih zahteval dobavitelj. Ta agentni model se lahko aktivno odziva na razmere na trgu. 9.2.1 ENOAGENTNI SISTEM Veliko agentnih modelov obravnava odjem kot enovit, zato so najprej razvili enoagentni sistem za odjem, ki privzema, da so vsi odjemalci združeni pod enim dobaviteljem [69]. Čeprav je uporaben za predstavitev koncepta delovanja agenta odjemalca, za predstavitev razmer v realnosti ni uporaben, saj je preveč preprost in ne omogoča modeliranja dinamike obnašanja in odnosov med odjemalci. 9.2.2 VEČAGENTNI SISTEM Za dejanske razmere je nujen večagentni sistem za agente odjemalce. Vsebuje naj štiri dobavitelje in vsak od njih naj ima več odjemalcev. Vsak od štirih združenih agentov odjemalcev ima v splo- šnem lastno referenčno ceno, s čimer se lahko ponazori vedenje različnih dobaviteljev. Prehod iz večagentnega sistema na enoagentni sistem sledi, če se v večagentnem sistemu število agentov omeji na enega ali pa če so omejitve za vse agente nastavljene na enake vrednosti. Zanimiv je adaptivni homogeni večagentni sistem za odjemalce [69]. Če se aktivnim agentom v agentnem sistemu zaradi uravnoteženosti delovanja priključijo tudi aktivni agenti proizvajalci, model postane heterogen, saj si cilji agentov proizvajalcev in odjemalcev medsebojno nasprotu-jejo. 9.2.3 MERJENJE USPEŠNOSTI AGENTOV ODJEMALCEV Agenti za uspešno delovanje potrebujejo kriterij za vrednotenje kakovosti in izbor svojih ukrepov. Ta kriterij lahko služi tudi kot nagrada pri Q-učenju, saj agentu pove, kako izbirati ukrepe za dosego zastavljenega cilja. Za uspešno učenje mora vrednost nagrade z učenjem rasti, cilj agenta pa je doseči čim večjo nagrado v vseh obiskanih stanjih. 130 09 Pri agentih proizvajalcih se uspešnost delovanja najpogosteje vrednoti glede na dobiček, zastavljeni cilj pa je doseganje čim večjega dobička od prodaje proizvedene električne energije [56], [60], [87]. Ker so za večino proizvajalcev znani tako prihodki kot tudi odhodki, je dobiček enolično določen kot razlika med njimi. Po drugi strani imajo agenti odjemalci v nasprotju s proizvajalci en sam cilj: stroške nakupa energije na dnevnem trgu čim bolj približati stroškom, ki jih določa pogodba med odjemalci in dobaviteljem. Pogodbeni stroški odjemalcev na trgu na debelo, na dnevnem trgu, so produkt napovedane odjemne moči odjemalcev, 𝑃ⁱ��, in referenčne cene – pogodbene cene, λⁱ���. Referenčnih cen je pri večtarifnem sistemu med dobaviteljem in odjemalci lahko več, enačba pa velja za eno samo referenčno ceno, torej za enotarifni sistem za vse agente odjemalce. Indeks i pomeni zaporedno številko agenta odjemalca, indeks h pa uro. Stroške dobavitelja z nakupom električne energije na dnevnem trgu določa produkt nove prilagojene moči, kot jo prilagodi agent odjemalec 𝑃ⁱ*��, in urne cene električne energije ��. Agent odjemalec želi, da bi bila absolutna razlika π�ⁱ med stroški odjemalcev in stroški dobavitelja čim manjša. (9.1) Izbrani kriterij je funkcija nagrade pri agentih odjemalcih, kot sledi. 9.3 ZGRADBA AGENTA ODJEMALCA Izbrano SA-Q učenje za agenta odjemalca zahteva določeno zgradbo agenta, ne zahteva pa natančne definicije okolja, ki obsega: — stanja agenta odjemalca, — ukrepe agenta odjemalca, — iskalno tabelo agenta odjemalca, — nagrado agenta odjemalca, — SA-Q postopek za učenje odjemalca, — postopek normalizacije in denormalizacije določenih parametrov ter — časovni prostor in prostor stanj. 131 9.3.1 STANJA AGENTA ODJEMALCA Stanja s�ⁱ,p zajemajo vse možne okoliščine, v katerih se lahko znajde agent. Značilke morajo biti izbrane tako, da jih je agent sposoben napovedovati. Za agenta odjemalca so značilke za opis stanj nivoji tržnih cen na dnevnem trgu za naslednji dan. Agent odjemalec v učnem procesu torej napoveduje ceno električne energije na dnevnem trgu za posamezno uro za dan vnaprej, s čimer za tisto uro določi tudi stanje, v katerem se bo znašel. Ker se tržno ravnovesje določa enkrat dnevno za vse ure celotnega naslednjega dne, morajo tudi ponudbe/povpraševanja agenti oddajati enkrat dnevno v paketih po 24 vrednosti. Model predpostavlja možnost učenja po vsaki uri in ne šele po 24 urah. Da bi lahko podal ponudbo na trgu, mora agent odjemalec za vsako uro naslednjega dne določiti stanje, v katerem se bo znašel. Ker cena elektrike kot značilka lahko zavzame zvezne vrednosti, stanj pa je končno mnogo, je treba zvezni interval cen elektrike diskretizirati in s tem oblikovati končno zalogo vrednosti stanj. Na začetku učenja kot zaloga vrednosti stanj nastane nabor cenovnih nivojev, ki opisujejo posamezna stanja agenta odjemalca. Agent v učnem procesu za vsako uro naslednjega dne napove ceno elektrike. Glede na cenovni nivo se določi stanje, v katerem se bo agent znašel. Tako se stanja enolično določijo kot cenovni nivoji napovedane cene električne energije. Agent se v vsaki uri znajde v enem od teh stanj, od-visnem od napovedane cene električne energije. Celoten razpon cene na trgu znotraj sezone p se torej razdeli na končno mnogo M cenovnih nivojev, ki definirajo nabor vseh razpoložljivih stanj za agenta odjemalca. Razpon se razdeli na območja različne širine tako, da so vsi nivoji znotraj sezone obiskani približno enako pogosto. Širina določenega m-tega (kjer je 0 < m < M) nivoja d�ⁱ,p je torej omejena z zgornjo in spodnjo ceno, λⁱ,�p��� in λⁱ,�p���. Nivo m se v določeni uri obišče, če velja: (9.2) Zaradi sezonskih variacij v porabi električne energije se lahko vrednosti tržnih cen v konicah in izven konic bistveno razlikujejo med seboj. Cena, ki je v eni sezoni konična, je v neki drugi sezoni bližje povprečni tržni ceni, torej relativno nižja. Zato se nabor cenovnih nivojev določi za vsakega od letnih časov posebej. Privzete so štiri sezone z oznakami p = 1 za pomlad, p = 2 za poletje, p = 3 za jesen in p = 4 za zimo. Na začetku vsake sezone se učenje agenta začne znova. 132 09 9.3.2 UKREPI AGENTA ODJEMALCA Agent lahko v vsakem posameznem stanju opravi cel nabor ukrepov, ki mu pomagajo izboljšati njegovo delovanje. V izogib stohastičnemu procesu izbire ukrepov za vsako posamezno stanje s�ⁱ,p se definira en sam ukrep, a�ⁱ,p. Proces SA-Q učenja agentu za vsako stanje posreduje osvežene vrednosti Q�ⁱ,p, ki se uporabljajo za spremembo napovedanega odjema (povpraševanja) v pripadajočem stanju. Ta sprememba se doseže z množenjem Q-vrednosti in napovedane odjemne količine: (9.3) Če velja Q�ⁱ,p > 1, bo i-ti agent odjemalec zvišal količino povpraševanja 𝑃ⁱ��, in če bo Q�ⁱ,p < 1, bo agent znižal količino povpraševanja v uri h, v kateri napovedana tržna cena agenta vodi v m-to stanje. Odstotek dovoljene spremembe napovedanega odjema v določeni uri se i-temu agentu lahko omeji. Če je bil za i-tega agenta napovedan odjem 𝑃ⁱ��, se ta lahko spreminja v intervalu [𝑃ⁱ�����, 𝑃ⁱ�����], ki velja za vsakega agenta z Qⁱ��� in Qⁱ���. (9.4) (9.5) (9.6) Izvedbo ukrepa za i-tega agenta odjemalca v m-tem stanju prikazuje slika 9.1, kjer je učni algoritem predlagal zmanjšanje napovedanega odjema, torej je morala biti Q-vrednost v prikazanem primeru manjša od 1. Indeks D je zaradi večje preglednosti izpuščen. 133 a�(�̛�) : 𝑃�(�)* � Q�(�̛�) · 𝑃�(�) λ [€/MWh] 𝑃ⁱ� ... Napovedan odjem (povpraševanje) 𝑃ⁱ*� ... Z učenjem prilagojen odjem (povpraševanje) 𝑃�(�) [MW] 𝑃ⁱ�,��� 𝑃ⁱ*� 𝑃ⁱ� 𝑃ⁱ�,��� Slika 9.1: Izvedba ukrepa za i-tega agenta odjemalca v m-tem stanju 9.3.3 ISKALNA TABELA AGENTA ODJEMALCA Vsak agent odjemalec pri učenju uporablja iskalno tabelo, ki vsebuje pare stanja in pripadajočih ukrepov. V njej so v učnem procesu določene Q-vrednosti, ki se osvežijo z vsakim ponovnim obiskom določenega stanja. Začetne Q-vrednosti določimo kot vse enake 1, torej nevtralne. Tabela 9.1 prikazuje primer iskalne tabele za i-tega agenta odjemalca. Privzame se, da je za vsako stanje definiran en sam ukrep (slika 9.1). V splošnem bi lahko agent v določenem stanju izbiral med več možnimi ukrepi in izbral najboljšega. Tabela 9.1: Iskalna tabela agenta odjemalca Stanje Ukrep 1 Ukrep 2 … Ukrep n Nivo napovedanih Sprem. povpraševanja … … … tržnih cen (povečanje/zmanjšanje) s₁ⁱ,p Q₁₁ Q₁₂ ... Q₁� s₂ⁱ,p Q₂₁ Q₂₂ ... Q₁� ... ... ... ... ... s₃ⁱ,p Q�₁ Q�₂ ... Q�� 134 09 9.3.4 NAGRADA AGENTA ODJEMALCA Kriterij za merjenje uspešnosti učenja agenta odjemalca pri Q-učenju naj bo nagrada. Agent odjemalec poskuša minimirati vrednost svojega učnega kriterija πⁱ� (9.1), ker pa je pri uporabljenem Q-učenju naloga adaptivnega agenta povečevanje nagrade πⁱ�, se zamenja predznak in se označi z Rⁱ� = – πⁱ�: (9.7) 𝑎 𝑏 𝑐 𝑑 𝑒 𝑓 𝑔 𝑖 𝑗 𝑘 𝑙 𝑚 𝑛 𝑜 𝑝 𝑞 𝑟 𝑠 𝑡 𝑢 𝑣 𝑤 𝑥 𝑦 𝑧 a b c d e f g h i j k l m n o p q r s t u v w x y z Indeks m pomeni, da se nagrada računa za m-to stanje, (𝑃ⁱ*�,�,�) pa označuje prilagojeno količino 𝐵 𝐶 𝐷 𝐸 𝐹 𝐺 𝐻 𝐼 𝐽 𝐾 𝐿 𝑀 𝑁 𝑂 𝑃 𝑄 𝑅 𝑆 𝑇 𝑈 𝑉 𝑊 𝑋 𝑌 𝑍 odjema v m-tem stanju. A B C D E F G H I J K L M N O P Q R S T U V W X Y α β γ δ ε ζ η θ ι κ λ ν ξ ο π ρ ς σ τ υ φ φ χ ψ ω Γ Δ Θ Λ Π Σ Υ Φ Ψ Ω ��������������������������������������������������� 9.3.5 SA-Q UČENJE AGENTA ODJEMALCA ABCDEFGHIJKLMNPRQSTUVWXYZ � � � � � � � � � � � � � � � � � � � � � � � � � � ������������������� � ������������������������� � ������ Učenje agentov odjemalcev uporablja osnovno enačbo Q-učenja (6.3). Privzeto je γ = 0, kar a b c d e f g h ⁱ j k l m ⁿ o p q r s t u v w x y z� � � � � � � � � � � � � � � � � � � � � � � � � � pomeni oportunističnega agenta, ki upošteva trenutne nagrade v vsakem stanju [131]. V enačbi �������������������� učenja pri nagradi se zaradi jasnosti izpušča indeks D. ⁰¹²³⁴⁵⁶⁷⁸⁹ⁱ⁻⁺⁼⁽⁾⃖ ⃗₍₎ ₀ ₁ ₂ ₃ ₄ ₅₆₈₉₊₋₍₎₌ V sezoni p se agent i znajde v m-tem zaporednem stanju s�. Za zadnji ukrep, ki ga je v 𝑡-tem ⅔ ½ ∈ ∞≐⋂� ��� ���� ���� ��� ��� ��� a'� a'�' N�� ′ ��� BAF ��� 𝑃j,p �� 𝑃ⁱ�� obisku tega stanja izvršil, izračuna nagrado r�. V skladu s spodnjo enačbo kot linearno kombina- 𝑃j,p cijo zadnje Q-vrednosti q� in nagrade r� se izračuna nova Q-vrednost, q��⁺�, ki jo bo uporabil za q�j,p,�⁺� πⁱ� q�ⁱ,p,�⁺� R�ⁱ,p,� nov ukrep, v (𝑡+1) obisku stanja s�. 𝑃ⁱ*�� π�ⁱ s�ⁱ,p λⁱ,p ���� λⁱ,p ���� s₁ⁱ,p 𝑃ⁱ����� 𝑃ⁱ����� 𝑊 ��⁺ 𝑊 ��⁻ λ�� λ�� 𝑃�� 𝑊 ��k a�� A�� A��lⁱm S� N� 𝐿 ���₊ �������� (9.8) (9.9) Pri učenju se Q-vrednosti posodobijo le za obiskano stanje. V linearni kombinaciji zadnje Q-vrednosti q� in nagrade r� utež predstavlja faktor α, ki je na začetku učenja enak 1. Ker agent še nima izkušenj oz. preteklih Q-vrednosti, se na začetku Q-vrednosti q� priredi vrednost trenutno pridobljene nagrade r�. Nato se faktor α z vsakim obiskom zmanjšuje skladno s faktorjem u. S številom izkušenj trenutne nagrade postajajo manj pomembne. Za preprečitev ujetja agenta v lokalni optimum se Q-učenju doda še SA-del, ki z uravnavanjem razmerja med raziskovanjem in izkoriščanjem poskrbi, da ima agent v vsakem stanju veliko večje 135 možnosti za odkritje globalnega optimuma [56]. Kljub temu ni mogoče popolnoma zagotoviti, da bo agent med učenjem vedno dosegel globalni optimum, saj vsakega stanja ni mogoče neskončno mnogokrat obiskati. Med razpoložljivimi ukrepi v danem stanju v vsakem trenutku obstaja najboljši, tj. pohlepni ukrep, in z njim se izrabi najboljše trenutno znanje. Vsi ostali ukrepi so nepohlepni. Namesto tega se lahko raziščejo drugi še neraziskani ukrepi, ki bi bili lahko boljši. Izbirajo se nepohlepni ukrepi, da bi se morda našel še kakšen bolj pohlepen ukrep, s čimer se poveča verjetnost doseganja globalnega optimuma. Na začetku učenja se obeta še veliko iteracij učenja, zato je dobro več raziskovati. Raziskava mnogih nepohlepnih ukrepov ugotovi, kateri od njih so še boljši od trenutnega pohlepnega ukrepa. Proti koncu učenja se splača manj tvegati in je bolje izbrati do takrat znani pohlepni ukrep. Uravnoteženje raziskovanja in uporaba pridobljenega znanja sta zelo pomembna v problematiki okrepljenega učenja. Omenjeni problem pomaga obvladati kriterij Metropolis (SA-dodatek), ki poteka znotraj dolo- čenega stanja pred izračunom enačbe (9.8) v naslednjih korakih [56], [117]: 1. naključno se izbere ukrep a'� in s tem neko naključno Q-vrednost med Qⁱ��� in Qⁱ���. 2. Izbor ukrepa a'� v skladu s pohlepno strategijo. To pomeni, da je Q-vrednost tista, ki v dose-danjem poteku učenja v trenutnem stanju daje največjo nagrado. 3. Generiranje naključnega števila ξ ∈ (0,1) in uporaba enačbe: (9.10) 4. Izbrani ukrep as v kriteriju Metropolis posledično spremeni Q-vrednost q�ⁱ,p,� v enačbi (9.8), preden se izračuna q�ⁱ,p,�⁺�. 5. Temp je temperatura v SA-Q učenju, ki je premosorazmerna z deležem raziskovanja in se postopoma zmanjšuje skladno s faktorjem φ. Faktor φ je običajno malo manjši od 1 (npr. 0,98). (9.11) Kriterij Metropolis tako pomaga, da se v procesu Q-učenja agent ne bi ujel v lokalni optimum, in s tem zagotavlja optimalne rezultate [56], [131]. 136 09 9.3.6 NORMALIZACIJA IN DENORMALIZACIJA PARAMETROV V enačbah (9.8) in (9.9) se za Q-vrednosti in nagrade uporabljajo majhne črke, v enačbah pred tem pa velike. Male črke za Q-vrednosti in nagrade nakazujejo normirane vrednosti teh dveh parametrov. Q-vrednosti namreč pripadajo intervalu [0, 1] in so vedno pozitivne, nagrade pa so odvisne od odjemne moči skupine odjemalcev, ki jo zastopa posamezen agent, in pripadajo intervaloma ±[10⁰, 10⁵]. Ker se v (9.8) uporablja linearna kombinacija teh dveh parametrov in so intervali tako raznoliki, se vrednosti obeh enačb ustrezno normirajo, da enačba daje smiselne rezultate [75]. Interval normiranja Q-vrednosti in nagrade se določi s testnimi simulacijami, ki pokažejo okvire, v katerih se gibljeta ta dva parametra za posameznega agenta. Normiranje ponazarja slika 9.2, kjer se ti parametri gibljejo v intervalu [0,1]. qⁱ rⁱ q��� = 1 r��� = 1 �ⁱ, �ⁱ q��� = 0 r��� = 0 Qⁱ��� Qⁱ��� Rⁱ��� Rⁱ��� Slika 9.2: Normiranje in denormiranje Q-vrednosti in nagrad Normiranje parametrov q in r poteka skladno z enačbama (9.11) in (9.12): (9.12) (9.13) Normirani parametri se nato uporabljajo v celotnem postopku učenja. Ob zaključku učenja se posodobljene Q-vrednosti za obiskana stanja pretvorijo nazaj v absolutne vrednosti, saj so izve-137 deni ukrepi opravljeni z absolutnimi Q-vrednostmi. Denormiranje Q-vrednosti poteka skladno z enačbo (9.13): (9.14) 9.3.7 DIAGRAM POTEKA ZA AGENTA ODJEMALCA Agenti delujejo v prostoru stanj, trg električne energije pa se odvija v realnem času. Agent s svojimi senzorji in aktuatorji skrbi za izmenjavo informacij med prostorom stanj in časovnim prostorom, slika 9.3. Premik v čas z dne d na dan d+1 (vsebuje paket 24-ur h) GIJE G Referenčna slika CI Posodobitev Q-vrednosti za obiskana stanja λⁱ��� VNI TR Množenje napovedi urnih JEMAL odjemnih moči za Q�ⁱ,p,� Q�ⁱ,p,�⁺� d+1 z DNE ELEKTRIČNE ENER OD osveženimi Q-vrednostmi Omejitve glede na stanja m Qⁱ��� Qⁱ��� TOSO TANJ Izračun nagrad q�ⁱ,p,�⁺� · 𝑃ⁱ� PR R�ⁱ,p,� Napovedi urnih odjemnih TOR S moči in urnih tržnih cen VNI S O O λ�� 𝑃ⁱ� SA PR Č Nove tržne cene Novo povpraševanje odjemalcev SENZORJI λ� AKTUATORJI 𝑃ⁱ*� Ponudbe Izračun tržnega Povpraševanje odjemalcev ravnovesja odjemalcev Slika 9.3: Diagram poteka učenja in izmenjave informacij med agenti odjemalci in okoljem 138 09 9.4 PRIMER DELOVANJA AGENTA ODJEMALCA Slika 11.4 predstavlja naslednji primer delovanje agenta in prehajanja med časovnim prostorom, v katerem se odvija dnevni trg električne energije, ter prostorom stanj, v katerem deluje agent: Izbrana ura simulacije: 2 Agentovi podatki: — Napovedana moč lastnega odjema P2, — napovedana tržna cena C2. Učni cikel agenta obsega naslednje korake: 1. z učenjem agent napovedano moč odjema P2 prilagodi v dejansko moč odjema P2*. 2. Na podlagi P2* se na trgu v avkciji določi nova cena v uri t2, C2*. 3. Agent zajame vhodne podatke ob uri 2: P2* in C2*. 4. Glede na napovedano ceno C2 določi, v katerem cenovnem nivoju v prostoru stanj se je nahajal v uri 2. Ugotovi, da se nahaja npr. v nivoju III. 5. Iz P2* in C2* agent izračuna nagrado R2. 6. R2 priredi izbranemu nivoju III. Nagrada R2 je zadnja dosežena nagrada v nivoju III, označimo jo z RIII. 7. Za nivo III izvede SA-Q učenje, torej izračuna novo Q-vrednost za nivo III, QIII. 8. Časovni prostor se sinhrono pomakne v naslednjo uro, uro 3. 9. V uri 3 agent zajame vhodne podatke P3 in C3. Predpostavi se, da C3 pripada istemu cenovnemu nivoju v prostoru stanj kot C2, torej nivoju III. 10. Agent iz P3 izračuna dejansko moč P3* po naslednjem postopku: a. na podlagi informacije, da se nahaja v cenovnem nivoju III, uporabi zadnjo Q-vrednost v nivoju III, to je QIII, ki je bila izračunana pri prejšnjem obisku nivoja III po uri 2. b. Napovedano moč pomnoži s QIII, da dobi dejansko moč P3* = QIII · P3. c. Cikel učenja se konča. 11. Na podlagi P3* se na trgu v avkciji določi nova cena v uri 3, C3*. 12. Iz P3* in C3* agent izračuna nagrado R3, ki pripada nivoju III. a. Za nivo III se ponovno izvede SA-Q učenje, agent izračuna novo Q-vrednost za nivo III, QIII, ki jo bo uporabil, ko se bo v določeni uri zopet znašel v nivoju III. 139 SA-Q učenje kot metoda umetne inteligence simulira odločanje znotraj omejitev ob omejenih vhodnih informacijah na podlagi odločitvenega kriterija. Tak postopek se uporablja pri komple-ksnem odločanju ob sprotnem delovanju, kjer vsaka prejšnja akcija vpliva na naslednjo. 9.4.1 DIAGRAM POTEKA ZA HETEROGENI AGENTNI SISTEM ODJEMALCEV IN PROIZVAJALCEV Diagram poteka učenja na sliki 9.4 z agenti odjemalci se dopolnjuje še za agente proizvajalce in slika 9.5 prikazuje diagram poteka učenja za agentni sistem odjemalcev in proizvajalcev ter izmenjave informacij med agenti in okoljem. 140 09 v P4 ej 4 C4 ostoru o napr a ur z ovnem pr čas * * Pomik cija ačun ade R2 C3 P3 avk izr nagr tanj III s ovnega 3 · Q ostor P as v pr P3* = a ehod iz čPr ostorpr tanj ev, emu oju om s er oju tanj v RIII Določit kat niv pripada C3 ev R2 III tor Q III stit toru s os I II III ... eznemu niv os v Razvr tr ej P3 v pr us glede na C3 3 C3 III ostoru Q om in pr o napr A tor a ur z ovnem pr ti os ve GENT A Pomik čas ednos v III ačun no SA-Q učenje, izr Q vr CIKEL vnim pr UČNI oju tanj v RIII ev R2 tanj RIII s III stit toru s I II III ... ovnega ev, oju eznemu niv os as ostor emu Razvr tr er niv us v pr glede na C2 ehoda med časo v pra Določit kat pripada C2 ehod iz čPr ostorpr P2 cija * * ačun ade R2 2 C2 C2 P2 avk izr a učenja in pr nagr tek x · Q am po vej P2 ostoru P2* = Diagr o napr a ur z .4: ovnem pr P1 čas a 9 Pomik 1 C1 Slik 141 ena cene e tržne v o N � e en Qⁱ��� 𝑃ⁱ�� enčna c λⁱ�� mejitv vedi urnih O λ� Qⁱ��� apo tržnih c λ� N ALA Refer V odjemnih moči in urnih ZAZNA vedi v odjemalce m anje v aše vpr o po v o N sveženimi · 𝑃ⁱ� stmi glede tanja , �⁺� ženje napo 1 z o edno , p na s TE no d+ vr q�ⁱ 𝑃ⁱ*� M urnih odjemnih moči za Q- ENO ŠITVENE IZVR sti CI edno , �⁺� tanja , p ad TANJ vr Q�ⁱ , �,p ev JEMAL ev Q- ana s R�ⁱ TOR S evanje ačun nagr S oljem , � OD O aš , p Izr za obisk PR Q�ⁱ odjemalc Posodobit Povpr ti in ok 1 ) d+ 4-ur času et 2 GIJE ELEKTRIČNE ENER OR T S O PR v G VNI TR DNE VNI O S A Č na dan vesja emik d Pr ačun tržnega ravno z dne (vsebuje pak Izr sti ev CI edno , �⁺�,p ad evanje formacij med agen tanja AL �j TANJ vr aš ajalc AJ Q , �,p oizv e in ev Q- ana s R�j TOR S Povpr pr OIZV ačun nagr S , � O , p Izr PR za obisk �j PR Q Posodobit izmenjav ter n ŠITVENE TE vedi Cj * (𝑃�j) stmi · Gj IZVR ENO sveženimi tanja , �⁺� v ajalce oizv pr a učenja edno , p ženje napo 1 z o vr �j anje v aše vpr o po v o N tek no d+ Q- Q M glede na s urnih odjemnih moči za am po ALAV Diagr 𝑃�j e Cj � λ� ZAZNA .5: tri mejne Bj Qⁱ��� mejitv vedi urnega 𝑃� oličine e k t eje e spr v tržne cene, no e v o N ame O odjema a 9 Aj Qⁱ��� Par apo ponudbene krivulje N Slik 142 10 Agregator 1 0 143 10.1 UVOD Prenosno omrežje obsega velike odjemalce in velike proizvodne enote, elektrodistribucijsko omrežje pa manjše porabnike – manjša podjetja in gospodinjstva ter razpršeno proizvodnjo elektrike. Za potrebe elektrifikacije ogrevanja in prometa ter vključevanja razpršenih obnovljivih virov elektrike je treba zasnovati nove načine vodenja porabe elektrike na distribucijskem omrež- ju, da se bo lahko v čim večji meri prilagajala lokalni negotovi in spremenljivi proizvodnji iz OVE, npr. iz fotonapetostnih PV enot. Prožnost porabe, ki jo zagotavljajo novi tržni udeleženci, agregatorji prožnosti, je mogoče izrabiti na bolj učinkovit način. Agregatorji od zainteresiranih porabnikov zakupijo prožnost ter z njo oblikujejo in vodijo portfelje prožnosti. Oblikujejo vozne rede prožnih enot za posamezni dan, s čimer ustvarjajo novo vrednost. S prožnostjo namreč lahko zasnujejo nove storitve za sistemske operaterje prenosnega omrežja (TSO) ali za sistemske operaterje distribucijskega omrežja (DSO), prodajajo energijo na lokalnih trgih prožnosti ali pa na trgih na debelo, kot je dnevni trg, trg znotraj dneva ali izravnalni trg. Funkcijo agregatorja lahko opravlja neodvisni agregator prožnosti ali pa dobavitelj, ki hkrati tudi izravnava svojo bilančno skupino. Agregatorja, ki bi bil sposoben voditi prožne enote (PE) na distribucijskem omrežju, se modelira s pomočjo inteligentnega agenta. V ta namen se model adaptivnega agenta odjemalca nadgradi tako, da upošteva energijske omejitve v izbranem časovnem obdobju in se hitro uči dosegati čim večji dobiček. Hitrost učenja je pomembna, ker v času učenja agent raziskuje in izbira ukrepe, ki niso nujno ekonomsko najboljši in zato predstavljajo izgubo dobička. Agent agregator, imenovan tudi agent aktivnega odjema (AO), se od adaptivnega modela agenta odjemalca razlikuje po tem, da upošteva tehnične omejitve omrežja in prožnih enot. Kot vhodni podatek upošteva cenovni signal z veleprodajnega ali kateregakoli drugega trga. Signal se obravnava kot statičen podatek, saj na ceno ne more vplivati, med tem ko agent odjemalec deluje na veleprodajnem trgu brez upoštevanja omejitev omrežja. Ponudbe na veleprodajnem trgu postavlja strateško, s svojimi ukrepi pa lahko tudi vpliva na veleprodajno ceno. 144 10 10.2 HIERARHIČNO VODENJE DISTRIBUCIJSKEGA SISTEMA Vključevanje razpršenih virov OVE v distribucijsko omrežje DSO-jem predstavlja vse večji izziv pri zanesljivem obratovanju omrežja. V Evropi lokalni trgi s prožnostjo še ne delujejo, prav tako pa ne obstajajo sistemske storitve za DSO-je, s katerimi bi lahko uravnavali zamašitve ali napetostni profil na distribucijskem omrežju. Edina ekonomsko zanimiva možnost za aktivacijo prož- nosti porabe energije na distribucijskem omrežju tako ostajajo agregatorji prožnosti, ki bi prožne enote aktivirali na podlagi cenovnih signalov z veleprodajnega trga. Neodvisno in nekoordinira-no delovanje teh agregatorjev lahko še poslabša napetostne razmere v distribucijskem omrežju. Ena možnost za izboljšanje omrežnih razmer in čim manjše omejevanje obratovanja proizvodnih enot OVE je napredno, hierarhično organizirano vodenje distribucijskega omrežja. Za modeliranje večnivojskega vodenja distribucijskega omrežja se uporablja večnivojsko koordi-nacijsko strukturo. Regulacijski algoritem je porazdeljen med nivoje, izvajajo pa ga agenti – tako inteligentni kot tudi preprostejši agenti – skladno s potrebami, ki jih ima njihova funkcija. Nadaljevanje obravnava trinivojsko, večagentno strukturo za vodenje distribucijskega omrežja (ang. Multi-agent System, MAS). Nivoji v MAS strukturi so: — storitveni nivo, ki izvaja storitve za delovanje trga, npr. za trgovanje z energijo ali s prožnostjo, zagotavljanje sistemskih storitev in izdelovanje napovedi. — Povezovalni nivo, ki fizični nivo povezuje s storitvenim, agregator – agent odjemalec, in prenaša informacije med nivoji in udeleženci. V tem nivoju DSO izvaja tudi preventivno in korektivno vodenje omrežja. — Fizični nivo, ki izvaja ukrepe korektivnega vodenja (npr. omejevanje proizvodnje enot OVE). MAS struktura predvideva naslednje tipe agentov, tabela 10.1: — agent AO (agregator aktivnega odjema): inteligentni agent agregator prožnih enot (PE) in proizvodnih enot OVE, ki ponuja prožno energijo na izbranih trgih z elektriko. — Agent PE (prožne enote): preprosti agent, ki izvaja vodenje in aktivacijo posamezne prožne enote ter stanje in parametre posreduje agentu AO in DSO-ju. 145 — Agent OVE: preprost agent, ki vodi razpršene proizvodne enote OVE ter stanje in parametre posreduje agentu AO in DSO-ju. — Agent DSO: preprost agent, ki izvaja vse funkcije DSO-ja. Tabela 10.1: Agenti v MAS strukturi Tip agenta Vrsta agenta Nivo Agent AO inteligentni storitveni Agent PE preprosti povezovalni, fizični Agent OVE preprosti povezovalni, fizični Agent DSO preprosti povezovalni, fizični Inteligentni agent AO se nahaja v storitvenem nivoju, preprosti agenti PE, OVE in DSO pa v povezovalnem nivoju, le AO je učljivi agent, ki signale vodenja pošilja agentoma PE in OVE, ta dva pa potem poskrbita za fizično izvedbo ukaza. Za zagotavljanje popolnega nadzora nad omrežjem ima tudi agent DSO možnost direktne komunikacije z agentoma PE in OVE za izvajanje korektivnega vodenja znotraj časa dobave. Agenta AO in DSO prav tako izmenjujeta informacije o voznih redih PE. DSO lahko omrežje vodi na dva načina: na preventivni ali korektivni način. Korektivno vodenje DSO uporabi za reševanje obratovalnih težav, ki jih odkrije v fazi obratovanja v realnem času in ki zahtevajo hiter odziv za zagotovitev zanesljivega obratovanja omrežja. Značilno zanj je, da deluje na fizičnem nivoju. Tipičen primer korektivnega vodenja je omejitev proizvodnje električne energije iz enot OVE. V projektu OP7 INCREASE so npr. uporabili korektivno vodenje, ki je omogočalo t.i. omejevanje proizvodnje PV enote po karakteristiki s pomočjo razsmernika za PV enote. Kadar je zaradi proizvodnje PV enote na NN distribucijskem omrežju prišlo do prenapetosti ali zamašitev, ta način vodenja ni izključil PV elektrarne, pač pa je glede na merjeno napetost v točki priključitve PV enote po določeni karakteristiki omejeval proizvodnjo in s tem omogočil boljši izkoristek proizvodnje PV enot. Preventivno vodenje obsega odločanje na podlagi napovedi razmer v omrežju in poteka na povezovalnem nivoju. Primer je koordinirano vodenje razsmernikov na istem NN izvodu pri 146 10 izvedbi omejevanja proizvodnje PV enote po karakteristiki. Na ta način se zagotavlja pravično porazdelitev potrebnih omejitev proizvodnje vseh PV enot na tem izvodu. Preventivno vodenje je tudi reševanje omrežnih težav z vodenjem in proaktivnim načrtovanjem voznih redov prožnih enot (PE). Poleg različnih načinov načrtovanja voznih redov je pomemben gradnik tudi sistem semaforja TLS (ang. Traffic Light System), katerega namen je preverjanje ustreznosti voznih redov PE, da na distribucijskem omrežju ne povzročajo dodatnih obratovalnih težav. Koncepta sistema TLS in izdelave voznih redov PE sta v skladu z usmeritvami organizacije USEF [121], ki je ena od vodilnih organizacij za uveljavljanje standardov in konceptov naprednih omrežij. Večnivojsko in večagentno strukturo vodenja distribucijskega sistema MAS prikazuje slika 10.1. V distribucijskem omrežju agent AO pri vodenju prožnih enot (PE) na posameznem izvodu SN/NN transformatorja sodeluje z agentom OVE in agentom PE. Agent PE in agent OVE pokrivata po en izvod omrežja. V omrežju lahko deluje več konkurenčnih agentov AO, od katerih lahko vsak v svoj portfelj prožnega odjema prijavi več prožnih enot. Agent PE agenta AO redno obvešča o tehničnih zmogljivostih PE-jev, o njihovi razpoložljivosti in o količini njihove prožnosti, ki je na voljo. Agent AO v večagentnem sistemu izvaja funkcijo agregatorja. To bi lahko teoretično opravljal bodisi tržni subjekt bodisi neodvisen reguliran subjekt, kot je na primer operater distribucijskega omrežja – DSO. Izkaže se, da morata biti funkciji agregatorja in DSO-ja ločeni. Zaradi narave optimizacije voznih redov PE-jev je namreč agregator vključen v tržne dejavnosti, ker prodaja in kupuje energijo na trgih in je torej tržni subjekt, DSO pa je reguliran subjekt, ki zagotavlja neovirano delovanje energetske infrastrukture za vse tržne subjekte in zato ne sme sodelovati v dejavnostih na trgu z energijo, saj bi lahko brez tveganja vplival na tržne cene. Iz tega sledi, da v večini držav funkcijo agregatorja izvajajo samo tržni subjekti. 147 STORITVENI NIVO Trg za dan vnaprej Trg znotraj dneva AGENT AO AGENT AO €/MWh Trg s sistemskimi ... storitvami Modeli za t napovedovanje 1 12 24 SOD POVEZOVALNI NIVO AGENT PE AGENT OVE FIZIČNI NIVO K in fizična z orektivno v aščit odenje a Slika 10.1: Hierarhično vodenje prožnih enot z večagentnim sistemom Agent AO je tu povezovalni člen med različnimi OVE in PE ter veleprodajnim trgom in trgom s sistemskimi storitvami. Slika 10.2 prikazuje primer poslovnega modela za agregatorja, ki vsebuje tudi koncept nagrajevanja, vključno z vsemi deležniki ter denarnimi in energetskimi tokovi med deležniki. Model vključuje odjemalce, PE, OVE, agenta AO, DSO-ja, veleprodajni trg in trg s sistemskimi storitvami. Slika prikazuje različne poslovne modele za OVE, ki so možni v Sloveniji [22] in večjem delu EU: zagotovljen odkup elektrike, obratovalna podpora, samooskrba in trgovanje na veleprodajnem trgu. Možni poslovni modeli so odvisni od trenutno veljavnih regulatornih ukrepov za podporo OVE, ki so pogosto odvisni od tipa in velikosti enote OVE, 148 10 lokacije njene namestitve ter datuma izgradnje posamezne enote. Slika ne prikazuje agentov PE in OVE, ker sama ne sodelujeta v poslovnem modelu, saj nimata neposrednega dostopa do trga in nanj dostopata preko agenta AO. Odjemalci PE Trg z Center za električno SO podporo D Denarni tok energijo OVE Energijski tok Sistemske rešitve T AO P N V E G – A Zagotovljen odkup (FiT) P P V V – – P O ro b daja na trgu ratovalna enota Slika 10.2: Poslovni model agregatorja Zasnova MAS-a predvideva, da prožna enota z agentom PE lahko sodeluje v obeh načinih zagotavljanja prožnosti: — v neposrednem proženju s strani DSO-ja, kar predstavlja integrirani način zagotavljanja prožnosti (slika 3.12) in — v tržnem načinu zagotavljanja prožnosti (slika 3.13), kjer vozne rede PE oblikuje agregator. Knjiga obravnava tržni način, kjer prožnost ponuja agregator – agent AO. V praksi bi morala biti agenta OVE in PE regulirana subjekta, ki sta pod nadzorom DSO-ja in neodvisna od trga. Vsak agent OVE je odgovoren za vse proizvodne enote na distribucijskem izvodu pod njegovim nadzorom. Ravno tako je tudi vsak agent PE odgovoren za vse prožne enote, ki se nahajajo na istem izvodu, ne glede na to, kateremu agentu AO pripadajo. Agent PE zbere 149 podatke in jih nato posreduje agentu AO, ki vodi določeno enoto. Agent PE informacije o voznem redu prožne enote posreduje agentu AO zato, da s tem omogoči delovanje sistema semaforja (TLS), ki preveri morebitne kršitve omrežnih meja napetosti ali omejitev zmogljivosti vodov (PQ kršitve), in s katerim DSO zagotavlja popoln nadzor nad obratovanjem omrežja. Agent PE kot vmesni člen tudi poskrbi, da ne pride do morebitnih ukrepov agenta AO, s katerimi bi ogrozil zanesljivo obratovanje distribucijskega omrežja. Agent PE zbrane podatke posreduje DSO-ju, ki skupaj z ostalimi podatki, kot so podatki agenta OVE in ostali merjeni podatki, izvede proces TLS-ja. Vsa komunikacija med agenti je dvosmer-na. Komunikacijo med tržnimi udeleženci prikazuje slika 10.3, informacijsko vsebino komunikacije med njimi pa tabela 10.2. Postopek na sliki 10.8 podrobneje predstavlja tudi poglavje 10.4, vsebuje, vsebuje pa naslednje korake: — DSO izračuna pretoke moči za preverjanje PQ kršitev in za napovedi prihodnjih PQ kršitev. DSO ima za to vse potrebne informacije iz svoje informacijsko-komunikacijske tehnološke (IKT) opreme ter pripadajočega ocenjevalnika stanja distribucijskega omrežja. — V preventivnem vodenju DSO pošlje rezultate analize PQ kršitev agentu AO. — V korektivnem vodenju DSO pošlje rezultate analize PQ kršitev in nove signale vodenja lokalnim agentom (agentom OVE in agentom PE) na vsakem izvodu. Ti signali vodenja obsegajo različne informacije, odvisno od prejemnika: × poslano agentu OVE: omejitev PV proizvodnje; × poslano agentu PE: novi vozni redi za prožne enote na podlagi delovanja TLS. — Agent OVE: × pošlje informacije o PV proizvodnji DSO-ju in × prejme povratno informacijo o omejevanju PV s strani DSO-ja. — Agent PE: × zbira lokalne informacije o parametrih PE-jev in jih pošlje ustreznim agentom AO. × Od agentov AO sprejema vozne rede za vsak PE v izvodu. × V korektivnem načinu vodenja posreduje spremembe voznih redov od DSO-ja do agenta AO. — Agent AO: posreduje vozne rede prožnih enot DSO-ju ter agentom PE in OVE. 150 10 DSO AGENT OVE Načrtovani vozni red PE Izračun pretokov Podatki o PV proizvodnji moči Potrjeni vozni red PE TLS preverba Informacije o PE in morebitnih spremembah voznega reda Trg z i Morebitni signal za omejevanje električno i proizvodnje OVE energijo Informacije o PE i AGENT AO AGENT PE Slika 10.3: Pregled komunikacije med tržnimi udeleženci in agenti Tabela 10.2: Komunikacija med ključnimi udeleženci v MAS shemi OD / DO DSO Agent AO Agent OVE Agent PE Potrditev ali Informacije o Potrditev ali DSO spremembe omejevanju spremembe voznih redov PE proizvodnje voznih redov zaradi TLS * OVE PE zaradi TLS ** Agent AO Vozni red PE / Agent OVE Informacije o proizvodnji OVE / / Informacije o Agent PE / parametrih PE in morebitnih / zavrnitvah ** * preventivni način vodenja ** korektivni način vodenja 10.3 SISTEM SEMAFORJA (TLS) 10.3.1 UVOD Strategije nadzora MAS rešujejo tehnične težave, povezane z vključevanjem OVE v distribucijsko omrežje. Ukrepi vodenja voznega reda PE kot koncept vodenja MAS DSO-ju omogočajo 151 popoln nadzor omrežja. V ta namen koncept sistema semaforja (TLS) DSO-ju omogoča popoln nadzor nad voznimi redi, aktivacijami in delovanjem prožnih enot. Uporablja se za vodenje voznih redov prožnih enot za dan vnaprej in za krajše časovne okvire, kot sta vozni red za trgovanje znotraj dneva ali za izravnavalni trg. Samo za krajše časovne okvire se uporablja zato, ker je napoved za več kot en dan vnaprej na distribucijskem omrežju premalo natančna in ne odraža več realnega stanja omrežja, ki potrebuje uspešno preventivno vodenje. Dopolnjeni sistem TLS sta predlagala Nemško združenje za energetiko in vodo (BDEW) ter Evropsko združenje distribucijskih operaterjev (EDSO) [14], [43]. Sistem TLS se omenja tudi v posvetovalnem dokumentu Agencije za energijo RS o vzpostavitvi trga s prožnostjo aktivnega odjema v Sloveniji, kjer piše: »Obenem pa bi bilo po mnenju agencije pri trgovanju s prožnostjo treba vpeljati sistem »semaforja«, ki temelji na obratovalnih stanjih omrežja in izhaja iz upravljanja z omejitvami« [4]. Pričakujemo lahko razvoj naprednih ocenjevalnikov stanja distribucijskega omrežja [129], kakršen je bil razvit [9] v slovensko-japonskem projektu NEDO [35]. DSO torej izvaja TLS z dodatnim modulom, nameščenim v distribucijskem centru vodenja. TLS modul je nadgradnja ocenjevalnika stanja distribucijskega omrežja z logiko odločanja, ki omogoča preventivni in korektivni način vodenja distribucijskega sistema z uporabo prožnosti. Z njim preveri morebitne omrežne učinke voznega reda prožnih enot, ki ga pošlje agent AO, da bi ugotovil PQ kršitve v sistemu. TLS zaznava tudi naslednje PQ kršitve: prenapetosti, podnapetosti in zamašitve v omrežju (na nivoju transformatorja). Glavna naloga modula TLS je ugotoviti, ali vozni red vsake posamezne prožne enote skupaj z nevodenim odjemom povzroči kakršne koli PQ kršitve. Ti problemi se pojavljajo predvsem lokalno v nizkonapetostnih distribucijskih omrežjih, zato so koncepti uporabni le v domeni DSO-jev, ne pa tudi v domeni TSO-jev. Analogijo koncepta TLS-ja na prenosnem sistemu je najti v omejitvah in avkcijah za čezmejne prenosne zmogljivosti. TLS zagotavlja, da je skupni odjem, tj. nevodeni odjem skupaj z odjemom prožnih enot, ki vsebuje nov vozni red za prožne enote, sprejemljiv za DSO, ne povzroča PQ kršitev in ne slabša razmer v omrežju. V idealnem primeru bi ob zadostni zmogljivosti PE pravilni ukrepi rešili vse PQ kršitve. Zaradi pomanjkanja zmogljivosti prožnosti nekatere PQ kršitve še vedno lahko ostanejo. Ko je vozni red odobren, agent PE aktivira ali deaktivira prožne enote po voznem redu PE. Tabela 10.3 predstavlja tri različne tipe TLS-ja: enostavnega, naprednega in inteligentnega. Med seboj se razlikujejo po logiki odločanja, ki sledi preverbi PQ kršitev v preventivnem in korektivnem načinu vodenja. Nadaljevanje predstavlja tri tipe TLS-ja in razlike med njimi. 152 10 Tabela 10.3: Predstavitev logike algoritmov različnih tipov TLS-ja Ukrep Ali skupni odjem (nevodeni + PE) “Smer”: ali vozni red PE povzroči PQ kršitev? pomaga zmanjšati PQ kršitev? TLS tip NE DA NE DA Enostavni Sprejmi vozni red Zavrni vozni red / / Enostavni Sprejmi vozni red Preveri »smer« aktivacije Zavrni vozni red Sprejmi vozni red Inteligentni Uporabi 15-minutno napoved za izdelavo voznega reda PE. 10.3.2 ENOSTAVNI TLS SISTEM Enostavni TLS na podlagi podatkov o proizvodnji OVE, odjemu in napovedanih voznih redih PE za vsak izvod posebej in za določeno obdobje vnaprej preveri, ali bo prišlo do PQ kršitev (slika 10.4). Ta preverba se izvede na podlagi izračuna pretoka moči. Če pride do PQ kršitev, TLS zavrne vse predlagane vozne rede PE. DSO agentom AO posreduje povratno informacijo o voznem redu skladno z odločitvijo TLS-ja, agent PE pa jim posreduje informacijo o statusu prožne enote ter o morebitnih penalih zaradi zavrnitve. Zavrnitev aktivacije PE AKTIVNA oz. voznega reda Preverba aktivacije PE PE Nov vozni red DA NI AKTIVNA Modul izračuna PE PQ NE PE PE pretokov moči kršitve? red red red 15 min ozni napoved ozni ozni odjema in PV Topologija otni v proizvodnje otni v Prv Prv Končni v Slika 10.4: Shema delovanja enostavnega TLS algoritma 153 10.3.3 NAPREDNI TLS SISTEM Podobno kot enostavni TLS tudi napredni TLS preveri morebitne PQ kršitve, a pred zavrnitvijo voznega reda izvede še en vmesni korak. V njem TLS preveri vozni red vsakega PE-ja in preveri, ali vozni red v posameznem časovnem intervalu pripomore k izboljšanju PQ razmer ali pa jih poslabša. Če prvotni vozni red PE izboljša razmere, potem ga TLS potrdi, sicer pa ga TLS zavrne in PE se v tem intervalu ne uporabi. Napredno logiko odločanja TLS prikazuje tabela 10.4, kjer je oznaka PE povečanje ali zmanjšanje odvisna od definicije smeri pretoka moči: — PE: povečanje = prožna enota je aktivirana, porabi dodatno energijo glede na normalno stanje, npr. polnjenje baterije, toplotna črpalka na največji moči; — PE: zmanjšanje = prožna enota je aktivirana, porabi manj energije glede na vozni red, npr. praznjenje baterije, izklop toplotne črpalke, klimatske naprave; — PE: neaktivna = prožna enota ni aktivirana in deluje kot neprožna obremenitev (normalni vozni red). Zamašitve omrežja je mogoče zmanjšati glede na smer zamašitve bodisi s povečanjem obremenitve (npr. PE: povečanje v primeru presežne generacije OVE) bodisi z zmanjšanjem obremenitve (PE: zmanjšanje pri nični ali majhni proizvodnji OVE). Zavrnitev aktivacije PE NE oz. voznega reda Ali aktivacija PE zmanjšuje PQ kršitve? PE Nov vozni red DA DA Modul izračuna PE PQ NE PE PE pretokov moči kršitve? red red red 15 min ozni napoved ozni ozni odjema in PV Topologija otni v proizvodnje otni v Prv Prv Končni v Slika 10.5: Shema delovanja naprednega TLS algoritma 154 10 Tabela 10.4: Napredna TLS logika odločanja Tip PQ / Ukrep PE PE: povečanje PE: zmanjšanje Prenapetost OK Ustavi PE Podnapetost Ustavi PE OK Tokovna zamašitev – proti izvodu Ustavi PE OK Tokovna zamašitev – proti transformatorju OK Ustavi PE Za ponazoritev razlike med enostavnim in naprednim TLS je na sliki 10.6 prikazan primer voznega reda PE enot za 24 ur (96 intervalov), in sicer za posamezni izvod, pri čemer je PQ kršitev ugotovljena v 36. intervalu simulacije. Medtem ko enostavni TLS zavrača vse vozne rede v 36. intervalu, napredni TLS zavrača samo vozne rede tistih prožnih enot, ki delujejo v nasprotju s potrebami omrežja. Pri podnapetosti so odobrene le aktivacije PE enot, ki zmanjšujejo svojo porabo, pri prenapetosti pa samo tistih PE enot, ki povečajo svojo porabo. Interval simulacije PE 1 2 ... 35 36 37 ... 96 1 1 1 1 1 -1 1 2 1 0 1 -1 -1 0 3 1 1 1 1 0 -1 ... n -1 0 -1 0 -1 0 36 st 36 36 to 1 0 1 STAVNI TLS 1 enape -1 0 pr ENO NAPREDNI TLS 1 st/ 0 st 1 st to to to -1 0 0 enape Podnape Podnape Pr Slika 10.6: TLS spremembe voznega reda zaradi PQ kršitve v 36. intervalu 155 10.3.4 INTELIGENTNI SISTEM TLS Inteligentni TLS se bistveno razlikuje od enostavnega in naprednega TLS-ja, saj ugotavlja, na kakšen način razporediti prožne enote za preprečevanje napovedanih PQ kršitev. V ta namen uporablja kratkoročno napovedovanje PQ kršitev in ustrezno prilagodi vozni red razpoložljivih PE-jev tako, da ni nikoli zavrnjen, ampak se le prilagodi. Delovanje inteligentnega TLS-ja predstavlja »izračun«, koliko prožnosti potrebuje reševanje PQ kršitev v omrežju, s čimer podaja tudi informacije o potrebi po sistemskih storitvah na distribucijskem omrežju. Inteligentni TLS je v tržnem načinu lahko lokalni prožnostni trg, lahko pa je tudi del integriranega načina DSO-ja za zagotavljanje prožnosti, kjer se ukrepi aktivacije izvedejo na podlagi pravnih ali pogodbenih sporazumov. Pri PQ kršitvah v omrežju DSO izračuna potrebe po prožni energiji v nekem lokalnem izvodu transformatorja ali na nivoju transformatorske postaje in izda ustrezno povpraševanje po prožnosti. Delovanje inteligentnega TLS-ja v DSO-integriranem načinu prikazuje slika 10.7: — DSO naredi analizo potencialnih PQ kršitev z izračuni pretokov moči. — Ob PQ kršitvah TLS preveri, ali je za njihovo reševanje na tisti lokaciji na voljo kakšen PE za aktivacijo. DSO aktivira vse razpoložljive PE-je, da bi odpravil PQ kršitve. — Če PQ kršitev ni, DSO ne ukrene ničesar. Na trgu se agregatorji, ki jih v modelu predstavljajo agenti AO, na to zahtevo odzovejo s preverjanjem sposobnosti in razpoložljivosti njihovih PE-jev ter pošljejo ponudbo za njihovo aktivacijo. Med agenti AO, ki se odzovejo na zahtevo, DSO izbere najustreznejšo ponudbo, npr. izbere PE-ja, ki najbolj pomaga odpraviti omejevanje proizvodnje iz OVE, ali pa izbere najcenejšega PE-ja. Izbrani agent AO je dolžan zagotoviti načrtovano energijo z ukrepanjem ustreznih PE- -jev na lokalnem omrežju ali izbranem izvodu. Pri integriranem načinu PE-jev in pogodbenih sporazumov aktivacijo PE-jev izvede neposredno DSO. Med aktivacijo PE-ja je treba upoštevati njegove energijske omejitve. Če agent PE v celoti uporabi vse PE-je za reševanje PQ kršitev, se njihovo delovanje lahko označi kot zagotavljanje sistemskih storitev za DSO-ja. Če bi uporabili inteligentni TLS brez predhodnega načrtovanja PE-jev, bi lahko vso prožnost PE-jev namenili samo za reševanje PQ kršitev in s tem pomagali DSO-ju pri vodenju sistema. Čeprav ta postopek ne optimizira voznih redov PE, omogoča, da vidimo samo pogled na tržno ceno aktivacijo PE-jev za ublažitev PQ kršitev. Tako se lahko preprosto določi ceno sistemskih storitev za DSO-ja. 156 10 Aktivacija PE v smeri DA zmanjševanja PQ kršitev Ali je razpoložljiva še kakšna PE? PE Nov vozni red DA NE Modul izračuna PQ NE PE PE pretokov moči kršitve? red 15 min acij PE napoved ozni odjema in PV Topologija proizvodnje i aktivN Končni v Slika 10.7: Shema delovanja inteligentnega TLS algoritma 10.4 VODENJE AGREGATORJEVEGA PORTFELJA PROŽNOSTI 10.4.1 UVOD Zanimiva sta proces vodenja portfelja prožnosti in načrtovanje voznih redov PE. Dnevni cikel načrtovanja voznega reda portfelja prožnosti, ki ga opravlja agent AO, je shematsko predstavljen na sliki 10.8. Vsakemu posameznemu procesnemu koraku so na voljo vhodni in izhodni parametri ter ukrepi različnih tržnih udeležencev. Postopek se zaključi z dejanskim obratovanjem omrežja, ki je prikazan z zelenim pravokotnikom z oznako »Prvotni vozni red se izvede do konca«. Inteligentni TLS ima dva načina delovanja: • integrirani način, v katerem DSO neposredno proži enote PE, in • tržni način, kjer DSO objavi povpraševanje po prožnosti, na katerega se odzovejo agenti AO. Na sliki je z zvezdico označena izbira med obema načinoma delovanja DSO-ja. Scenariji za udeležbo na različnih trgih na sliki 3.8 zahtevajo različne načine delovanja agenta AO. Če se agent odloči za ponujene prožnosti na trgu s sistemskimi storitvami (aRPF, rRPF), 157 kjer so pogodbena razmerja lahko dolga od enega dneva pa vse do enega leta, mora imeti v portfelju vselej na voljo dovolj prožnih enot, s katerimi bo lahko izpolnjeval morebitne ukrepe aktivacije. Teh PE ne sme uporabljati kot del portfelja prožnosti, ki je namenjen za načrtovanje voznega reda prožnosti za dan vnaprej in znotraj dneva. Odločiti se mora, kolikšen del svojega portfelja prožnosti bo ponudil na dolgoročnem trgu s sistemskimi storitvami in kolikšen na ostalih kratkoročnejših trgih, npr. na trgu za dan vnaprej, znotraj dneva, na izravnalnem trgu. Odloča se na podlagi analize preteklih cen prožnosti na različnih trgih, tehničnih in regulatornih možnostih nastopanja na trgih ter ocene prihodnjega ekonomskega potenciala. Načrtovanje voznih redov enot v prožnostnem portfelju se izvaja v štirih ločenih časovnih korakih, ki temeljijo na štirih različnih, časovno ločenih trgih, kjer agent AO lahko izkorišča pro- žnost, tabela 10.5. Načrtovanje voznih redov PE se deli na: — Dolgoročno načrtovanje: agent AO ponuja del zmogljivosti prožnostnega portfelja kot rezervno moč in njihovo prožnost rezervira za daljši čas, od enega dneva pa vse do enega leta. × Če so ponudbe sprejete, so PE, ki zagotavljajo to prožno energijo, zavezane k aktivaciji na zahtevo sistemskega operaterja (TSO ali DSO). × Rezervirane PE za sistemske storitve morajo biti izločene iz nadaljnjega trgovanja in sodelovanja na drugih trgih, npr. na trgu za dan vnaprej, znotraj dneva in na izravnalnem trgu. Če bi se zgodilo, da bi bila katera od PE dvakrat nominirana za aktivacijo npr. na trgu rezerv in na trgu znotraj dneva, bi bil agent AO lahko kaznovan z visokimi penali zaradi hujšega prekrška neuspešne aktivacije ali nezadostne dobave energije. — Kratkoročno načrtovanje: agent AO ponuja prožnostno energijo PE iz portfelja v ustreznem časovnem okviru na vseh spodaj naštetih trgih: × trg za dan vnaprej (DA), × trg znotraj dneva, × izravnalni trg. V procesu se predpostavlja, da DSO s pomočjo TLS-ja preveri vse vozne rede PE, načrtovane v sklopu dolgoročnega ali kratkoročnega trgovanja, ter zagotovi, da ne bodo povzročili kršitev omrežnih omejitev. S tem zagotavlja, da so vozni redi PE izvedljivi in da ne poslabšajo zanesljivosti obratovanja distribucijskega omrežja. 158 10 TRG ZA DAN VNAPREJ INFORMACIJE O PE: čas porabe, energijske omejitve, moč, cena Agent PE izbere parametre PE S SISTEMSKIMI STORITVAM Pošiljanje podatkov agentu AO TRG Izvršitev trga s I INFORMACIJE O PE: sitemskimi izbrane za zagotavljanje sistemskih storitev rešitvami Agent AO združi podatke o razpoložljivih PE in njihovih zmogljivostih Cene za dan vnaprej Agent AO izdela provotni TRG ZNOTRAJ DNEVA & IZRAVNALNI TRG optimizirani vozni red PE glede na cene za dan vnaprej Agent AO združi Trgovanje znotraj DSO aktivira * preostalo prožnost dneva in na razpoložljive PE ali odda nenačrtovanih PE izravnalnem trgu povpraševanje po prožnosti Agent AO pošlje vozne rede DSO-ju Novi vozni redi PE e ti DSO ODENJE azpolžljios V termine dobav odnje P avrnitvi in r VENTIVNO V oizv TELIGENTNI TL a naslednje IN S PRE ti z ved odjema ved pr Preveri razpoložljive PE na izvodu apo apo formacije o z ožnos N Topologija N In pr DSO zavrne prvotni PQ NE STAVNI IN NAPREDNI T vozni red v skladu O kršitve? DA N LS z logiko delovanja E TLS-ja DSO zavrne prvotni Agent PE izvede PQ vozni red v skladu akcijo glede na kršitve? DA z logiko delovanja vozni red TLS-ja NE Prvotni red se izvede do konca KOREKTIVNO VODENJE Slika 10.8: Diagram procesa načrtovanja in vodenja PE – dnevni cikel 159 Agent AO za zagotavljanje sistemskih storitev, predvsem za zagotavljanje rezerve, uporablja samo zanesljive PE. Tako se izogne neuspešnim aktivacijam PE in posledično visokim penalom. Med zanesljive PE spadajo enote z znano zmogljivostjo za določen časovni okvir v prihodnosti, ki ne spreminjajo svoje lokacije. V to skupino tako sodijo baterije, generatorji in toplotne črpalke z zalogovnikom toplote. Pri kratkoročnem trgovanju od 15 min do dneva vnaprej in načrtovanju voznega reda prožnostnega portfelja se prispevek trgovanja s sistemskimi storitvami upošteva kot zunanja informacija. Zanimivo je predvsem načrtovanje voznega reda PE kot del kratkoročnega trgovanja in ekonomske optimizacije portfelja odjema z uporabo prožnosti. 10.4.2 NAČRTOVANJE VOZNIH REDOV PE GLEDE NA TRG ZA DAN VNAPREJ (DA) Slika 10.9 prikazuje proces načrtovanja voznih redov PE za dan vnaprej z naslednjimi koraki: 1. Vsaka PE svojemu agentu sporoči AO informacije o svojih prožnostnih parametrih: — časovne omejitve njene uporabe, — energetske omejitve, — nazivno moč in — interno ceno aktivacije njene prožnosti. 2. Agent AO od organizatorja trga za vsako PE prejme informacijo, ali je že rezervirana za zagotavljanje sistemskih storitev. Prejme tudi napoved cen na trgu na debelo za dan vnaprej. 3. Agent AO izbere kriterij in zažene algoritem optimizacije prožnostnega portfelja. Uporablja lahko različne algoritme, npr. linearno optimizacijo, ekspertni sistem ali algoritme strojnega učenja. Tako oblikuje vozne rede za vse PE v svojem portfelju. Kriterij optimizacije je lahko: a. maksimiranje dobička – minimizacija stroška energije glede na napovedane tržne cene DA ali kak drug cenovni signal; b. energijska optimizacija – zmanjšanje razlike med lokalno proizvodnjo in porabo elektrike, kar zmanjšuje omejitve proizvodnje OVE in preprečuje kršitev omrežnih omejitev. Tu napovedano tržno ceno DA nadomesti z napovedjo odjema in proizvodnje OVE. 4. Agent AO oblikuje vozne rede za vsako PE v svojem prožnostnem portfelju. Lahko se zgodi, da v njem zaradi različnih parametrov, npr. previsoke notranje cene PE ali tehničnih in uporabniških omejitev, niso aktivirane vse PE ali pa vozni red le delno izkoristi njihovo zmogljivost prožnosti. Agent AO lahko vse neizkoriščene zmogljivosti PE nato izkoristi in oblikuje vozne rede za druge trge, npr. trg znotraj dneva in izravnalni trg. 160 10 5. 5. Agent AO posreduje prvotni vozni red obratovanja vsake PE enote v prožnostnem portfelju DSO-ju in potem agentu PE, ki je odgovoren za posamezno PE. Agent PE je nato odgovoren za njihovo načrtovano aktiviranje PE. 6. V nadaljevanju je predstavljenih nekaj različnih algoritmov vodenja agenta AO. TRG ZA DAN VNAPREJ INFORMACIJE O PE: 1 čas porabe, energijske omejitve, moč, cena Agent PE izbere parametre PE 2 TRG S SISTEMSKIMI STOR Pošiljanje podatkov agentu AO Izvršitev trga s IT INFORMACIJE O PE: V sitemskimi AM izbrane za zagotavljanje sistemskih storitev rešitvami I 3 Agent AO združi podatke o razpoložljivih PE in njihovih zmogljivostih Cene za dan vnaprej Agent AO izdela provotni optimizirani vozni red PE glede na cene za dan vnaprej 4 TRG ZNOTRAJ DNEVA & IZRAVNALNI TRG 5 Agent AO pošlje vozne rede DSO-ju PREVENTIVNO VODENJE Slika 10.9: Kontrolni vozni red: načrtovanje voznih redov PE za dan vnaprej 10.4.3 PREVERJANJE VOZNIH REDOV IN AKTIVACIJE PROŽNIH ENOT Proces preverjanja voznih redov in aktivacije PE se lahko deli na dva dopolnjujoča se dela, slika 10.10, na: — preventivno vodenje, ki poteka v obdobju, daljšem od 15 minut pred obdobjem dobave, in — korektivno vodenje, ki poteka znotraj 15 min pred obdobjem dobave. Pri preventivnem vodenju DSO prejme podatke o porabi in naredi napoved nevodenega odjema. Nato DSO izdela napoved lokalne proizvodnje na podlagi meritev proizvodnje OVE, posredo-vanih s strani agenta OVE, in načrtovanih voznih redov PE, ki jih prejme od agenta AO. Topologija omrežja je vhodni podatek, saj je potrebna za izračun pretokov moči in preverjanje PQ 161 kršitev. Topologija omrežja je večinoma statična in se posodobi le po potrebi. Na podlagi prejetih podatkov DSO v sklopu TLS-ja naredi izračun pretokov moči in preveri PQ kršitve (koraka 1 in 2). DSO potrebuje naslednje podatke za izračun moči in preverjanje PQ kršitev: — začetne vozne rede PE, posredovane s strani agentov PE, vse vozne rede vseh agentov AO z vseh štirih trgov; — napoved proizvodnje OVE, 5–30 min vnaprej; — napoved nevodenega odjema, 5–30 min vnaprej; — informacije o topologiji omrežja. DSO poleg teh podatkov zbira tudi meritve proizvodnje OVE in odjema v realnem času, ki jih lahko uporabi za izboljšanje napovedi in preverjanje aktivacij PE-jev. DSO ima popoln nadzor nad omrežjem, kar vključuje tudi omejevanje proizvodnje OVE z agentom OVE ter ustavitev delovanja PE-jev z agentom PE. Po izračunu pretokov moči in preverbe PQ kršitev potekajo naslednji scenariji: — V preventivnem vodenju ni PQ kršitev: × DSO potrdi prvotni vozni red agentu AO za PE-je v njegovem portfelju. Prvotni vozni red PE se sme izvesti in agent PE izvede načrtovane aktivacije (korak 6). × Med dobavo energije se vedno izvaja korektivno vodenje (korak 7). × Če v času obratovanja ne pride do kršitev PQ, se vozni redi PE izvedejo do konca, kar je v diagramu označeno z zelenim pravokotnikom, ki ima oznako »Prvotni vozni red se izvede do konca« (korak 9). — V preventivnem vodenju so odkrite PQ kršitve: × DSO glede na izbrano logiko TLS-ja sporoči zavrnitve voznega reda agentu AO. × Agent AO lahko prožnost PE-jev, ki je ostala zaradi zavrnitve voznega reda, potencialno ponovno uporabi v naslednjih časovnih okvirih v sklopu trgovanja na trgu znotraj dneva in izravnalnega trga (korak 3 in 4). — Med korektivnim vodenjem pride do PQ kršitev: × DSO glede na izbrano logiko TLS-ja sporoči agentu PE, naj zavrne in spremeni vozni red PE. × Agent PE zavrne prvotni vozni red PE in o tem obvesti agenta AO z informacijami o zavrnjenih PE-jih in njihovi omejeni prožnosti, ki se zaradi omrežnih razmer naslednjih 15–30 minut ne more izkoristiti (korak 4 in 8). Zadnja dva scenarija agentu AO omogočata, da uporabi posodobljene informacije o preostali prožnosti PE-jev pri trgovanju na preostalih kratkoročnih trgih (koraki 3, 4 in 8). 162 10 — Ko DSO napove P𝐐 kršitve pri inteligentnem TLS-ju: × DSO preko agenta PE do agentov AO pošlje zahtevo ali povpraševanje za aktiviranje dodatnih PE-jev za pomoč pri reševanju omrežnih problemov (korak 5). × Odločitev, ali DSO pošlje zahtevo ali povpraševanje, je odvisna od zasnove trga prožnosti, ki ga lahko bodisi vodi DSO ali pa je tržno zasnovan. — Ko DSO zazna kršitve P𝐐 in pride do spremembe voznega reda PE, ta spremenjeni vozni red vedno prioritetno nadomesti prvotni vozni red, ki ga je načrtoval agent AO. TRG ZA DAN VNAPREJ TRG ZNOTRAJ DNEVA & IZRAVNALNI TRG e 1 2 ti DSO ODENJE azpolžljios V termine dobav odnje P avrnitvi in r VENTIVNO V oizv TELIGENTNI TL a naslednje IN S PRE ti z ved odjema ved pr Preveri razpoložljive PE na izvodu 5 apo apo formacije o z ožnos N Topologija N In pr4 DSO zavrne prvotni PQ 6 NE STAVNI IN NAPREDNI T vozni red v skladu O kršitve? DA N L 3 S z logiko delovanja E TLS-ja DSO zavrne prvotni Agent PE izvede PQ vozni red v skladu akcijo glede na kršitve? DA 8 z logiko delovanja vozni red TLS-ja 7 NE Prvotni red se 9 izvede do konca KOREKTIVNO VODENJE Slika 10.10: Kontrola voznih redov (15 min pred dobavo in med dobavo) 163 10.4.4 NAČRTOVANJE VOZNIH REDOV PE GLEDE NA TRG ZNOTRAJ DNEVA IN IZRAVNALNI TRG Proces načrtovanja voznih redov PE na trgu znotraj dneva in izravnalni trg prikazuje slika 10.11: 1. 1.korak: agent AO lahko uporabi prožnost PE-jev, ki ni bila uporabljena med postopkom prvotnega voznega reda PE glede na rezultat trga za dan vnaprej. 2. korak: agent AO lahko uporabi prožnost PE-jev, katerih začetni vozni red PE je bil zavrnjen v postopku preverjanja PQ kršitev v načinu preventivnega ali korektivnega vodenja. 3. korak: agent AO lahko z uporabo razpoložljive prožnosti izračuna nov prožnostni portfelj PE, oblikuje nove ponudbe in jih ponudi na trgu znotraj dneva ali na izravnalnem trgu. 4. korak: če je ponudba uspešna, agent AO agentu PE pošlje nov vozni red za aktivacijo. 5. korak: ko je pri inteligentnem TLS-ju napovedana PQ kršitev, DSO pošlje ponudbo ali zahtevo po aktivaciji dodatne prožnosti. Agent AO nato preveri razpoložljivost in druge parametre PE-jev, tj. zmogljivost in moč. Če so pogoji za dodatno prožnost izpolnjeni in je ponudba potrjena, agent AO pošlje nov dodatni aktivacijski vozni red agentu PE (gl. korak 4). Dodatnih preverjanj PQ kršitev ni; če bi se kakšna PQ kršitev še vedno zgodila, bi posre-dovalo lokalno korektivno vodenje. Nobenega jamstva ni, da PE, ki je bila enkrat že zavrnjena, ob poskusu kasnejše aktivacije ne bi povzročila novih PQ kršitev. To tveganje zavrnitve aktivacije s strani TLS-ja in posledično neizpolnjevanja pogodbenih zahtev nosi agent AO. Tveganje lahko zmanjšuje z »rezervo« pri aktivaciji, npr. ko proda rezervo v višini 13 MW in za to rezervira 18 MW prožnosti, ali pa z varovanjem tveganj, npr. z uporabo terminskih pogodb. TRG ZNOTRAJ DNEVA & IZRAVNALNI TRG Agent AO združi Trgovanje znotraj DSO aktivira razpoložljive preostalo prožnost dneva in na PE ali odda povpraševanje 3 5 nenačrtovanih PE izravnalnem trgu po prožnosti TRG ZA DAN VNAPREJ 1 4 2 Novi vozni redi PE PREVENTIVNO VODENJE KOREKTIVNO VODENJE Slika 10.11: Proces načrtovanja voznih redov PE glede na trg znotraj dneva in izravnalni trg 164 10 10.5 ALGORITMI ZA VODENJE PROŽNIH ENOT Agent AO v svojem prožnostnem portfelju združuje večje število različnih PE-jev, ki jih vodi glede na svoje trgovalne strategije. Prožnost lahko izkorišča za povečanje dobička v sklopu trgovanja na veleprodajnih trgih in trgih s sistemskimi storitvami ali pa za optimizacijo svojega portfelja odjema. V prihodnosti se pričakuje razvoj različnih lokalnih trgov in sistemskih storitev za DSO-je, ki bodo omogočili še boljšo izkoriščenost potenciala prožnosti. Agent AO za ekonomsko načrtovanje voznih redov uporablja informacije o ceni sistemskih storitev in ceni električne energije na veleprodajnih trgih, naštetih v spodnji tabeli. Tabela 10.5 prikazuje tudi časovno okno posameznega trga in kdo lahko nastopi kot kupec produkta. Kupec na veleprodajnem trgu za dan vnaprej in znotraj dneva je lahko vsak član borze z električno energijo, ki izpolnjuje vse pogoje za trgovanje na njej. Kupec na trgu s sistemskimi storitvami je v trenutnem sistemu v večini primerov TSO, v prihodnosti pa lahko to možnost pričakujemo tudi za DSO. Tabela 10.5: Trgi, obravnavani pri načrtovanju voznih redov agenta AO Tip trga Časovno okno Kupec Trg s sistemskimi storitvami 1 teden–1 leto TSO/DSO Trgovanje za dan vnaprej 1–7 dni Kdorkoli Trgovanje znotraj dneva 1–24 h Kdorkoli Izravnalni trg Manj kot 1 h TSO/DSO Trgovanja s prožnostnimi produkti na veleprodajnih trgih se zaradi negotove dolgoročne razpoložljivosti PE-jev in pomanjkanja tržnih produktov, ki bi bili namenjeni zagotavljanju prožnosti, ne obravnava za več kot dan vnaprej. Trenutno so za daljša časovna obdobja zanimivi samo produkti zagotavljanja prožnosti na trgu s sistemskimi storitvami. Algoritmi za načrtovanje voznega reda in posledično vodenje PE-jev se delijo na algoritme za izboljšanje ekonomskega rezultata in algoritme za izboljšanje razmer v omrežju. Vsi algoritmi za svoje delovanje uporabljajo naslednje parametre PE-jev: 165 — časovni korak: ura ali 15 min; k = 1, 2, 3 ... N. — Za i-tega PE, i = 1, 2, 3 ... N�: × 𝑃�� moč PE-ja × 𝑊 ��k energija v časovnem koraku k, izračunana glede na 𝑃�� × a�� k-ti časovni termin razpoložljivosti PE-ja za aktivacijo × A�� kumulativna energija i-tega PE-ja, aktiviranega v k-tih časovnih korakih × A��lⁱm maksimalna dovoljena vrednost A�� (zaloga vrednosti) × S� interna cena aktivacije prožnosti PE-ja Z naštetimi parametri se lahko karakteristike PE-ja prikažejo na sliki 10.12. 𝑃�� 𝑊 ��k A��lⁱm 1 2 3 24 𝑡 Slika 10.12: Karakteristika prožne enote Prožna enota ima definirano omejeno količino energije 𝐴��lⁱm, ki jo lahko uporabi za zagotavljanje prožnosti. Pri bateriji zalogo vrednosti predstavlja njena energijska zmogljivost, pri toplotni črpalki pa je zmogljivost enaka porabi pri normalnem delovanju. Če toplotna črpalka nudi pro- žnost, lahko agent AO z voznim redom spreminja njen način delovanja, npr. jo ugasne ali aktivira maksimalno moč v času uporabe, vendar le do A��lⁱm. Cena prožnosti PE-ja mora pokrivati vsaj stroške zagotavljanja prožnosti, npr. stroške aktivacije. Lahko je konstantna ali definirana za vsako uro posebej. Cena prožnosti PE odraža razpoložljivost, potrebno opremo, udobje uporabnika in druge stroške. Te parametre je težko določiti za PE-je pri gospodinjskih odjemalcih, saj je pri njih udobje zelo pomembno. Na temo določanja cene prožnosti gospodinjskih odjemalcev in oceno zmanjšanega udobja zaradi zagotavljanja pro- žnosti so naredili že veliko raziskav [5], [98], [118], [131]. 166 10 Čeprav je v splošnem notranja cena prožnosti PE-ja stvar pogajanja med lastnikom PE-ja in agentom AO, se privzame, da je notranja cena enaka 0, saj količina energije, ki bi bila izrabljena za zagotavljanje prožnosti, ne vpliva na udobje odjemalca – lastnika PE-ja. S tem se doseže, da je PE vselej maksimalno uporabljen, tudi pri nizkih cenovnih signalih, saj agent AO tako z uporabo PE-ja doseže čim večji dobiček. Poslovni model lahko med agenta AO in lastnika PE-ja deli ustvarjeni dobiček. Način delitve dobička je stvar pogajanj med njima; v rezultatih pa se vedno prikazuje samo dobiček, ki ga ustvari agent AO. Zanimivi so algoritmi za doseganje različnih ciljev, ki jih želi agent AO doseči z načrtovanjem voznih redov PE. 10.5.1 EKONOMSKA OPTIMIZACIJA Cilj algoritma ekonomske optimizacije voznega reda PE je maksimirati dobiček, ki ga agent AO s svojim portfeljem PE doseže z uporabo trgovalne strategije cenovne arbitraže. Ta algoritem bi se tudi najverjetneje uporabil v resničnem svetu. Cilj arbitraže je izkoristiti cenovne razlike med različnimi trgi z izbiro cenovno najugodnejših terminov za povečanje porabe energije, npr. polnjenje baterije ali povečanje porabe toplotne črpalke, in za njeno zmanjšanje, npr. praznjenje baterije ali zmanjšanje porabe toplotne črpalke. Vhodni podatki za ta optimizacijski algoritem vključujejo dnevne cene energije za dan vnaprej in stroške prilagoditve porabe posameznih PE-jev. Ciljna funkcija J� v enačbi (10.1) skuša maksimirati dohodek PE-jev, npr. z zmanjšanjem stroška delovanja toplotne črpalke, s cenovno arbitražo na trgu za dan vnaprej. Pri optimizaciji se upošteva količina zaloge energije PE-jev, ki je namenjena za zagotavljanje prožnosti. V enačbi (10.1) se lahko strošek prilagajanja PE-jev zanemari, saj je privzeto, da je ta cena enaka 0 €. (10.1) Spremenljivke so: N� število PE-jev 𝑊 ��⁺ prilagoditev energije navzgor i-tega PE-ja v časovnem koraku 𝑡 N število časovnih korakov 𝑊 ��⁻ prilagoditev energije navzdol i-tega PE-ja v časovnem koraku 𝑡 𝑡 časovni korak λ�� veleprodajna cena v časovnem koraku 𝑡 (cena energije) λ�� interna cena aktivacije prožnosti i-te prožne enote 167 Optimizacija obsega dva različna izračuna: — z energijskim povratkom pri toplotni črpalki in — brez energijskega povratka pri bateriji. Energijski povratek za posamezno PE pomeni, da je vsota energijskih prilagoditev znotraj dneva enaka nič in da je treba vsako povečanje ali zmanjšanje porabe v celoti nadomestiti do konca vsakega dne. Z upoštevanjem energijskega povratka pri vodenju toplotnih črpalk se ohrani udobje uporabnikov, saj je količina porabljene energije pred in po optimizaciji enaka (10.2). (10.2) Poraba PE-ja se lahko poveča (𝑊 ��⁺), zmanjša (𝑊 ��⁻) ali ostane enaka (0) v časovnem koraku 𝑡 ob upoštevanju spodaj naštetih omejitev. Prilagoditve energije v obeh smereh naj bodo pozitivne in enake velikosti, (10.3) in (10.4). (10.3) (10.4) W� je energija, ki se uporabi za zagotavljanje prožnosti v časovnem koraku, opredeljena z močjo i-tega PE-ja, enačba, kar predstavlja enačba (10.5). (10.5) Omejitev v enačba (10.6) preprečuje sočasne prilagoditve enote navzgor in navzdol. (10.6) Za opazovanje omejene količine razpoložljive energije i-tega PE-ja A�� se sproti računa vsota prilagoditev energije do časovnega koraka k po spodnji enačbi (10.7). (10.7) Na razpolago sta dve različni metodi obnašanja PE-jev za načrtovanje njenega voznega reda, ki temelji na ekonomski optimizaciji. Pri obeh metodah PE-ji ne smejo presegati svojih dnevnih energetskih omejitev A�lⁱm, opredeljenih v enačbah (10.8) in (10.9). 168 10 1. Metoda 1: PE-ji se obnašajo kot enote za shranjevanje energije ali baterije. PE mora najprej shraniti dovolj energije, preden se lahko zmanjša njegova poraba, zato je predvideno, da bo PE najprej porabil več energije, kasneje pa zmanjšal porabo ali jo oddajal. (10.8) 2. Metoda 2: PE lahko prosto prilagaja svojo energijo, da bi premaknil svojo dnevno porabo, npr. toplotne črpalke, ki imajo že vnaprej določeno zalogo vrednosti. (10.9) Za izvedbo ekonomske optimizacije voznega reda PE je primeren mešani celoštevilski način linearnega programiranja [38], [40]. Tabela 10.6 podaja vhodne parametre za optimizacijski algoritem. Tabela 10.6: Vhodni parametri, ekonomska optimizacija Ime Opis N� Število PE N Število časovnih korakov a Čas uporabe S� Cene energije za naslednji dan S� Interna cena aktivacije prožnosti PE 𝑃� Moč aktivacije PE (kW) Alⁱm Energijska zaloga (kWh) Rezultat optimizacije je dnevni vozni red, ki za vsak časovni korak vsebuje dve spremenljivki z binarno vrednostjo, kar omogoča zmanjšanje ali povečanje porabe in (ne)aktiviranje PE-ja v določenem časovnem koraku, tabela 10.7. Drugi podatek je pomemben zaradi TLS-ja, ki ob neaktivaciji ne sme zavrniti PE-ja, kadar je v normalnem režimu delovanja. V programu se hkrati računata in zapisujeta tudi dobiček posameznega PE-ja in vsota dobičkov vseh PE-jev, ki pripadajo posameznemu agentu AO in predstavljajo njegov dobiček. 169 Tabela 10.7: Izhodni parametri, ekonomska optimizacija Parameter Opis Št. časovnih korakov x N�� matrika, ki vsebuje vozni red aktivacij PE. Vozni red Vrednost 1 pomeni povečanje porabe (akumulacija energije). Vrednost -1 pomeni zmanjšanje porabe. Vrednost 0 pomeni, da PE v dotičnem časovnem koraku ni aktivirana. π� Dobiček agenta AO v € je vsota dobičkov posameznih PE pod okriljem agenta AO π�� Dobiček posamezne PE v € 10.5.2 ENERGIJSKA OPTIMIZACIJA Reševanju omrežnih problemov z uporabo prožnosti PE in potencialu PE za energijsko izravnavo se je posvečalo več raziskav, ki so uporabljale različne načine načrtovanja voznih redov in različna distribucijska omrežja [93], [134]. Namen energijske optimizacije voznega reda PE je doseči čim večje vključevanje zelene energije iz OVE in čim bolj izboljšati omrežne razmere. V ta namen sta predstavljena dva različna algoritma: — algoritem za premikanje časa porabe, kjer je pri PE (toplotnih črpalkah) zagotovljen energijski povratek, in — algoritem rezanja konic za baterije. 10.5.2.1 PREMIKANJE ČASA PORABE Premik časa porabe in s tem obremenitvenega diagrama na posameznem omrežju se poskuša pri načrtovanju voznega reda doseči s premikanjem porabe PE-jev tako, da se zmanjšuje razlika med skupnim odjemom energije in proizvodnjo OVE v omrežju. Z zmanjševanjem energijske razlike se izboljšajo napetostne razmere v omrežju ter zmanjša število PQ kršitev. S tem se zmanjša število omejevanj proizvodnje OVE, kar vodi do večjega deleža injicirane zelene energije v omrežje. Ciljna funkcija JW sledi kot v (10.10). (10.10) 170 10 Spremenljivke so: N� število PE-jev 𝑊 ��� energija i-tega PE-ja enote v uri 𝑡 N število časovnih korakov 𝑊 ����� skupna obremenitev omrežja v časovnem koraku 𝑡 𝑡 časovni korak (nevodeni odjem + PE-ji) 𝑊 ��� skupna proizvodnja energije OVE v časovnem koraku 𝑡 Z načrtovanjem voznih redov PE-jev se doseže zmanjšanje energijske razlike med vrednostmi 𝑊 �����in 𝑊 ���. Obremenitveni diagram naj bi se čim bolj izravnal z aktiviranjem posameznih PE-jev v smeri povečanja ali zmanjšanja njihove porabe. Kot pri ekonomski optimizaciji je tudi pri energijski optimizaciji treba upoštevali vse omejitve in parametre PE-jev, ki jih opisuje prejšnje poglavje. Dodana je še ena neenakostna omejitev, enačba (10.11), ki želi minimizirati absolutno razliko energijske vrednosti v omrežju. (10.11) Kot pri ekonomski optimizaciji je tudi za izvedbo energijske optimizacije voznega reda PE primeren mešani celoštevilski način linearnega programiranja. Vhodni parametri so navedeni v tabela 10.8. Tabela 10.8: Vhodni parametri, energijska optimizacija Ime Opis N� Število PE N Število časovnih korakov a Čas uporabe P� Moč aktivacije PE (kW) Alⁱm Energijska zaloga (kWh) 𝑊 ���� Poraba nevodenega odjema v omrežju 𝑊 �� Proizvodnja OVE v omrežju 171 Izhod funkcije je vozni red PE in strošek delovanja PE po energijskem voznemu redu, kot opisuje tabela 10.9. Tabela 10.9: Izhodni parametri, energijska optimizacija Parameter Opis Št. časovnih korakov x NDR matrika, ki vsebuje vozni red aktivacij PE-jev. Vozni red Vrednost 1 pomeni povečanje porabe (akumulacija energije). Vrednost -1 pomeni zmanjšanje porabe. Vrednost 0 pomeni, da PE v dotičnem časovnem koraku ni aktiviran. π� Strošek AO v € (vsota dobičkov posameznih PE pod okriljem agenta AO) π�� Strošek posamezne PE v € 10.5.2.2 REZANJE KONIC Prožnost PE-jev se lahko uporabi tudi za zniževanje konic porabe ali omejevanje koničnih vrednosti pretokov moči skozi transformator. Kontrolni algoritem zniževanja konic, ki ga predstavlja to poglavje, deluje po principu shranjevanja presežne energije proizvodnje OVE in njenega od-dajanja v času velike porabe. Algoritem je zasnovan tako, da ga je moč prilagoditi tudi na »glajenje profila odjema«, s čimer se omogoči polnjenje baterije tudi v času manjše porabe, potem pa se jo prazni v koničnih urah. Delovanje algoritma je zasnovano na nivoju SN/NN transformatorske postaje, tako da lahko upravlja s PE-ji, nameščenih na pripadajočih NN izvodih. Delovanje algoritma zniževanja konične moči se preveri z baterijami, katerih moči in zmogljivosti podaja tabela 10.10. Pri baterijah ni energijskega vračila, saj se privzame, da delovanje baterije ne vpliva na udobje uporabnika. Nasploh se v opisih primerov rabe algoritmov uporablja bolj splošen izraz PE. Kjer je to pomembno, je pri algoritmu izrecno navedeno, da se izvede tudi energijsko vračilo. Načrtovanje voznih redov PE se začne z DSO-jevo napovedjo odjema in proizvodnje OVE za določeno časovno obdobje vnaprej. Te količine se upoštevajo pri izračunu pretokov moči skozi transformator. Izračun pretokov moči je osnovno orodje za načrtovanje voznih redov PE-jev, s pomočjo katerega se določi signale za polnjenje in praznjenje baterije. Mejo aktivacije PE-ja, pri kateri se začne polniti, 𝐿 ���₊, ali prazniti, 𝐿 ���₋, določata enačbi (10.12) in (10.13). 172 10 (10.12) (10.13) (10.14) (10.15) V enačbah (10.14) in (10.15) 𝑡��������₊ in 𝑡��������₋ predstavljajo časovne periode, pri katerih je pretok skozi transformator pozitiven ali negativen. V algoritmu so pretoki 𝑡��������₊,� in 𝑡��������₋,� nato razvrščeni po velikosti. Pri razvrstitvi pretokov in določanju meje obremenitve so upoštevani le tisti pretoki, ki jih je v tisti časovni periodi mogoče tudi fizično zmanjšati (slika 10.13). Prvi dan, ko je PE prazen in je stanje energijskega hranilnika (ang. State of Charge, SoC) enako 0, se pretoki jutranje konice tako ne upoštevajo. V naslednjih dneh, ko je PE napolnjen in ima SoC večje od nič, pa se lahko izbere eno od dveh možnosti: — vso zmogljivost se lahko uporabi za zmanjšanje večerne konice ali pa — se zmogljivost – gledano 24 h vnaprej – razdeli na jutranjo in večerno konico. V simulacijah sta upoštevani tako jutranja kot tudi večerna konica. 200 𝑡�₊ 150 ok moči [kW] 𝑃���₊ et 100 Pr 𝑡�₋ 50 𝑃���₋ 0 -50 -100 0 10 20 30 40 50 60 70 80 90 Dnevni interval (15-minutna resolucija) Slika 10.13: Prikaz razvrstitve pretokov skozi transformator 173 Slika 10.14 prikazuje izračun predvidenega pretoka moči skozi transformator in mejo izrabe, pri kateri se PE začne polniti ali prazniti. 200 or [kW] 150 ormat 100 ansf 50 ozi tr 0 ok moči sk -50 etPr -100 0 10 20 30 40 50 60 70 80 90 100 Dnevni diagram (15-minutna resolucija) Slika 10.14: Prikaz meje aktivacije za polnjenje in praznjenje PE-ja Velja, da so napovedi odjema in proizvodnje točne, vsi PE-ji pa so vselej 100 % razpoložljivi, saj se za osvetlitev koncepta želi prikazati maksimalni možni učinek. Razpoložljivost PE-ja, predvsem hišnih baterij, je lahko tudi v realnosti blizu 100 % in ta predpostavka nima velikega vpliva na rezultate. Točnost napovedi odjema in proizvodnje OVE s podaljševanjem periode napovedi močno pada, koncept pa temelji na načrtovanju dnevnih voznih redov za dan vnaprej (24 h), kar omogoča dovolj kratko časovno okno, da so napovedi lahko dovolj natančne za uporabo pri načrtovanju vodenja PE-jev. Del analize občutljivosti algoritma koničnih moči je povzet po literaturi [137], kjer je algoritem zniževanja konic v sklopu projekta Obzorja 2020 STORY prilagojen za sistemsko baterijo v vasi Suha, ki predstavlja simulacijsko omrežje. Poleg parametrov sistemske baterije je glavna prilagoditev v načinu določitve referenčnega profila pretokov moči skozi SN/NN transformator. Za transformator se je iz preteklih merjenih podatkov oblikovala baza nadomestnih profilov pretokov moči, ki so razvrščeni kot kombinacije parov vplivnih spremenljivk, kot so pretoki skozi transformator in sončno obsevanje. Namesto računanja referenčnega profila pretoka skozi transformator na podlagi napovedi odjema in proizvodnje OVE se to naredi s primerjavo zgodovinskih meritev pretokov moči skozi transformator in vremenskih razmer tisti dan, predvsem sončnega obsevanja. Na podlagi napovedi sončnega obsevanja in napovedi pretokov moči za 174 10 naslednji dan se nato iz baze nadomestnih profilov izbere profil pretokov moči, ki zgodovinsko najbolj ustreza napovedanim razmeram. Razlog za izbiro profila pretokov moči na podlagi samo sončnega obsevanja in ne tudi odjema je dejstvo, da je odjem v primerjavi s sončnim obsevanjem bolj konstanten in ne povzroča PQ kršitev. V vasi Suha se trenutno soočajo samo s prenapetostnimi problemi zaradi povečane proizvodnje OVE, zato je prioritetni cilj za delovanje algoritma zmanjšanje konice proizvodnje, ki je najbolj odvisna od sončnega obsevanja. Delovanje algoritma predstavlja [137]. Če zmogljivost baterij ne zadostuje za zmanjšanje konice pod predpisane ali željene vrednosti, se lahko čas 𝑡��������₊ izbere poljubno, tako da zajema samo največjih nekaj konic. Prav tako lahko DSO razpoložljive meje spremeni tudi z upoštevanjem prenosne zmogljivosti omrežja in meje ustrezno dvigne ali spusti. Algoritem se lahko prilagodi tudi za primere, ko ni presežne proizvodnje OVE, s polnjenjem v nizkem času porabe in praznjenjem v času visoke porabe, s čimer se doseže glajenje profila odjema. 10.6 IZBIRA OPTIMIZACIJSKEGA KRITERIJA Agent AO optimira dobiček od prodaje energije prožnega portfelja na različnih trgih. Pri tem se ne ozira na vpliv svojih voznih redov PE na obratovanje distribucijskega omrežja. Izkaže se, da ti vozni redi lahko povzročijo dodatne PQ kršitve in s tem negativno vplivajo na zanesljivost elektroenergetskega omrežja. S tem ko agent AO uporablja metodo energetske optimizacije za načrtovanje voznega reda PE, izboljša zanesljivost omrežja, vendar obenem poveča stroške energije za delovanje PE-jev in tako zmanjša dobiček agentov AO. Za agregatorja je vodenje z ekonomsko optimizacijo najdonosnejša rešitev pri nizki stopnji vklju- čevanja virov OVE in PE-jev ter močnega distribucijskega omrežja, saj takrat TLS ne zavrača voznih redov. Predimenzioniranost in visoka zanesljivost omrežja sta v Evropi bolj izjema kot pravilo, saj distribucijskih omrežij po Evropi na splošno niso nadgrajevali z enako hitrostjo kot rastoče povpraševanje po električni energiji. Ker je elektrika univerzalni nadomestek za ostale oblike energije, se povečuje število gospodinjstev in elektrifikacije ogrevanja, hlajenja, transporta in rasti števila ostalih električnih naprav. 175 Tudi v uporabljenem modelu močnega omrežja se stanje hitro spremeni, ko se nivo vključevanja enot OVE in PE-jev poveča do te mere, da njihovo obratovanje začne vplivati na zanesljivost omrežja s povzročitvijo podnapetosti v jutranjih in večernih konicah ter prenapetosti čez dan. Stopnja vključenosti enot OVE in PE-jev, pri kateri začnejo v omrežju nastajati problemi, je bila v modelu pri stanju, ko bi imel vsak četrti priključeni odjemalec lastno enoto OVE in vsak peti hišno baterijo ali toplotno črpalko. V drugih omrežjih je stopnja vključenosti enot OVE in PE- -jev, pri katerih začnejo nastajati PQ kršitve, še nižja, kar potrjujejo izkušnje iz projektov Obzorje 2020 COMPILE in STORY ter simulacije na testnem EU distribucijskem omrežju, narejene v sklopu projekta INCREASE v 7. Okvirnem programu. V konceptu bi DSO v teh primerih zaradi TLS-ja zavrnil predlagane vozne rede PE-jev, kar bi lahko povzročilo dodatne stroške za agente AO. Ti stroški bi lahko nastali zaradi: — kazni s strani DSO-ja zaradi povzročanja omrežnih težav in zmanjšanja injicirane zelene energije, — nezadovoljstva odjemalcev zaradi neizpolnjevanja pogodbenih obvez, npr. zmanjšanje udobja, — kazni zaradi neizpolnjenih pogodbenih obvez pri zagotavljanju sistemskih storitev (npr. rRPF) ali — povečanih stroškov izravnave. Teoretični dobiček agenta AO v razmerah brez omrežnih omejitev je v omrežju z omejitvami nemogoče doseči. Dodatni stroški, ki jih povzroči zavrnitev voznega reda, namreč močno znižajo agentov dobiček. V Sloveniji se npr. neuspešno aktiviranje PE-jev za zagotavljanje rRPF kaznuje s 4.000 €/MWh [36]. Agent AO, ki bi uporabljal enega od načinov strojnega učenja za načrtovanje voznih redov PE in se s tem naučil izogibanja zavrnitvam voznih redov s strani TLS-ja, bi lahko presegel rezultate načrtovanja s pomočjo energijske ali ekonomske optimizacije. Takrat načrtovani vozni redi PE ne bi povzročali dodatnih PQ kršitev v omrežju, zato ne bi bili zavrnjeni, hkrati pa bi se agregator izognil eventualnim kaznim. Slika 10.15 prikazuje dobiček, dosežen z različnimi načini načrtovanja voznih redov PE. Dobi- ček predlagane rešitve bi se moral teoretično gibati med dobičkom energetske optimizacije in maksimalnim dobičkom ekonomske optimizacije. Na sliki 10.15 oznaka »???« predstavlja neznano vrednost dodatnih stroškov (kazni), ki bi jih lahko utrpel agent AO pri zavrnitvi njegovega voznega reda PE na podlagi ekonomske optimizacije. Število zavrnitev ni znano pred dejansko preverbo TLS-ja, zato tudi skupni znesek dodatnih stroškov ni znan vnaprej. 176 10 Teoretični največji dobiček agenta AO z ekonomsko optimizacijo O (€) A A GENT Pričakovani dobiček agenta AO s PQL metodo Dobiček agenta AO z ekonomsko DOBIČEK A optimizacijo in dodatnimi stroki ??? ??? ??? ... Dodatni stroški zaradi penalizacije ali izravnave odstopanj Stroški agenta AO z energijsko optimizacijo ??? Slika 10.15: Dobiček pri različnih metodah načrtovanja voznih redov PE 10.7 IZBIRA UČNEGA ALGORITMA AGENTA AO Poleg postopkov, ki jih agent AO uporablja pri vodenju prožnega portfelja, je pomembno še, kaj se agent lahko nauči, da jih bo znal izvajati. V zadnjem času se kot ena od najbolj perspektivnih metod umetne inteligence uporabljajo nevronska omrežja vrste globokega učenja (ang. Deep Learning Neural Networks). Ta metoda je zelo uporabna, ko so na razpolago velika množica podatkov in povezave med vhodom in izhodom, npr. zgodovinski podatki o pretoku reke in proizvodnji hidroelektrarne ali pa sončne obsevanosti in proizvodnje PV. V realnem okolju agregatorji sprva nimajo obsežne baze vhodnih in izhodnih podatkov za učenje nevronskih omrežij. Ekonomska optimizacija je najverjetneje prva izbira agenta AO za načrtovanje voznih redov PE. Njen problem je, da za vhod ni mogoče uporabiti informacij o omrežnih omejitvah, saj se pokažejo šele po odzivu omrežja na vozni red PE. 177 Agent AO je na začetku brez znanja in si svojo bazo gradi počasi, zato se na začetku uči s posku- šanjem. Zaradi pomanjkanja začetnih podatkov in spreminjajočega se okolja bi za učenje agenta AO verjetno najbolj ustrezala metoda okrepljenega učenja. Z njo se lahko povratne informacije o omrežnih omejitvah iz TLS-ja uporabijo za učenje agenta, pridobljeno znanje pa kot pomoč pri načrtovanju prihodnjih voznih redov PE, ko je agent AO že naučen, pa bi bilo smiselno testirati tudi kakšno metodo nevronskih omrežij in primerjati rezultate. 10.8 POSPLOŠENO Q-UČENJE (PQL) 10.8.1 UVOD Tehnika okrepljenega učenja agentov se pogosto uporablja za modeliranje in simulacije različnih tehnoloških rešitev v sklopu naprednih omrežij in trgovanja z električno energijo, [108], [133]. Doslej agenti pri svojem učenju za pridobivanje največje ekonomske koristi niso upoštevali tudi pretokov moči v omrežju, kar pa dosežemo z vključitvijo naprednega sistema semaforja (TLS) v učni proces agenta. Povratne informacije TLS-jevega preverjanja pretokov moči se uporabijo v procesu okrepljenega učenja in pomagajo agentu načrtovati vozni red PE. Poglavje 8.4 prikazuje Q-učenje kot razširjen in uporaben način okrepljenega učenja pri agentnem modeliranju energetskih trgov. V njem je agent AO subjekt z definiranim prostorom stanja in naborom ukrepov, ki so mu na voljo v vsaki njegovi točki. Agent v vsakem stanju lahko dostopa do informacij o svojem okolju. Na podlagi opazovanja sprememb v okolju samodejno izbere ukrep in z njim vpliva na okolje za doseganje zastavljenega cilja. Agent AO se mora sam naučiti izbirati dobre ukrepe, ker zanje dobi nagrado. Ko se ukrep izvede, agent prispe v novo stanje in ponovno ponovi cikel preizkušanja in učenja. Tehnika okrepljenega učenja za vsak ukrep prinaša nagrado in agent tako poskuša maksimirati kumulativno nagrado z izbiro najboljših ukrepov na podlagi svojih izkušenj. Ko agent razišče vsa stanja, preneha z učenjem in lahko v vsakem stanju izbere ukrep, ki mu prinaša največjo nagrado. Učno obdobje, opredeljeno z učnim parametrom NES, opisuje poglavje 8.6. Njegovo vrednost se določa hevristično. Porabljenega časa za učenje ni mogoče določiti vnaprej, saj se učenje ustavi, ko so rezultati dovolj dobri. Med največjimi pomanjkljivostmi osnovnega Q-učenja je diskretizacija neskončnega stanja prostora, ki določa časovno potratnost učenja, saj se mora agent naučiti 178 10 uporabnih povezav v modelu. Stanja pri trgovanju z energijo in tista za omrežne razmere so še posebej problematična, ker je zelo težko vnaprej določiti vsa možna stanja. 10.8.2 UPORABA PQL Za reševanje diskretizacije problemskega prostora se lahko za učenje agenta AO uporabi tehniko posplošenega Q-učenja (PQL) iz poglavja 8.6, ki uporablja zvezni problemski prostor. Značilke f se izberejo iz nabora informacij, ki so na voljo agentu AO na delu omrežja s PE. Agent AO tako razpolaga z naslednjim naborom značilnosti: cena energije za dan vnaprej, napovedani odjem in proizvodnja OVE. Za izbiro značilnosti f se kot najprimernejše izbere značilnosti, ki najbolj vplivajo na rezultat: — urne cene električne energije na veleprodajnem trgu za dan vnaprej, λ� [€/MWh], — pozitivna bilanca bremena, PLB [MWh], — negativna bilanca bremena, NLB [MWh]. PLB in NLB se izračunata kot razlika med napovedanima odjemom in proizvodnjo OVE�, enač- ba (10.16). (10.16) Delitev razlike med odjemom in proizvodnjo OVE na dve vrednosti, PLB in NLB, namesto ene absolutne vrednosti se izbere zato, da se agentu AO med učenjem lahko posreduje nedvoumno informacijo in s tem izboljša njegovo razumevanje zavrnitev TLS-ja. Če bi imel agent AO na voljo le eno absolutno vrednost razlike, se ne bi naučil razlikovati med PQ kršitvami podnapetosti in prenapetosti. Z uporabo PLB in NLB se agent lahko nauči, kateri ukrep bo uspešen kljub veliki razliki med odjemom in proizvodnjo, s čimer se izboljša agentova učinkovitost v obdobju učenja. V 24-urnem časovnem oknu načrtovanja voznih redov PE je vsak časovni korak ločeno stanje, kjer agent AO izbere ukrep za vse PE v njegovem portfelju. Za testiranje delovanja PQL učenja so bile izbrane toplotne črpalke. Agent AO je lahko nastavljal moč PE-ja na eno od treh možnih vrednosti, 𝑃�� ∈ {𝑃�����, ½ 𝑃�����, 0}. S svojim ukrepom agent AO vpliva na vse razpoložljive PE-je v svojem portfelju, ki se nahajajo na istem izvodu. Razpoložljivost PE-jev je v simulacijah 179 odvisna od omejitev energijskega bazena in časa uporabe. Podatke o PE-jih, tj. toplotnih črpalkah, podaja tabela 10.10. Če agent ne more storiti drugega, jim dodeli ukrep '0', kar pomeni nastavitev na nevtralno vrednost 𝑃�� = ½ 𝑃�����. Slika 10.16 prikazuje poenostavljeni proces agentnega učenja z PQL metodo. Agent AO na začetku dobi prve informacije o okolju in prve vhodne podatke. Na njihovi podlagi naključno izbere ukrep in predlaga nove vozne rede za vse PE-je, ki jih nadzoruje. Naključna izbira ukrepov se nadaljuje, vendar se že v času učenja agent glede na temperaturo raziskovanja začne počasi od-ločati v smeri najboljših ukrepov, s čimer se začenja postopek ohlajanja temperature raziskovanja. Ko agent konča z učenjem, v prvih korakih simulacije izbere ukrep, ki mu glede na vhodne podatke in naučene parametre prinese največji dobiček. Agent AO načrtovani vozni red PE, ki ga izdela s pomočjo PQL, pošlje do DSO-ja. Ta z uporabo naprednega TLS-ja preveri, ali načrtovani vozni red PE povzroči ali poslabša PQ kršitve in pošlje povratne informacije o tem nazaj agentu AO. Z njihovo pomočjo lahko agent AO nato izračuna nagrado, ki jo je ustvaril s svojim ukrepom. Na podlagi nagrade posodobi uteži, v katerih je spravljeno njegovo znanje o odzivu sistema za izboljšanje izbire ukrepov v naslednji iteraciji. Agent AO v simulacijah za učenje uporablja samo signale TLS-ja s strani DSO-ja, ker se predpostavi, da znotraj obdobja dobave energije ne prihaja do nepričakovanih PQ kršitev. V nadaljnjih raziskavah bi lahko agent AO v svoje učenje vključil tudi signale agenta PE, ki bi mu sporo- čil zavrnitve voznega reda zaradi nepričakovanih PQ kršitev ali neuspeha zaradi npr. sprememb razpoložljivosti naprave s strani uporabnika ali okvar naprave. UČNA ITERACIJA STANJE / VHODI Napoved AGENT AO AKCIJA MODEL NAGRADA odjema ZAVRNITEV/SPREJETJE Prvotno Napoved načrtovan Preverba Končni Izračun PV proizvodnje vozni red PQ kršitev vozni red nagrade Cena elektrike za dan vnaprej Slika 10.16: Poenostavljeni diagram poteka procesa učenja agenta 180 10 10.8.3 PREDPOSTAVKE V PQL algoritmu naj ima agent AO na voljo naslednje informacije kot vhodne učne podatke: — napoved odjema, — napoved proizvodnje OVE, — podatki za ceno električne energije za dan vnaprej, — dobiček iz preteklih obdobij, — vrednosti parametrov vseh PE-jev v svojem portfelju, — zavrnitve voznih redov in s tem povezani stroški ali kazni. Agentu AO informacije o topologiji omrežja in pretokih moči niso na voljo, zato ne more vnaprej napovedati rezultatov TLS-ja. V realnosti obstajajo številne negotovosti, povezane z napovedjo porabe energije, z OVE proizvodnjo, s ceno električne energije in z zanesljivostjo omrežja, vse našteto pa je pomembno za obratovanje omrežja in njegovo vodenje. Pregled tehničnih in ekonomskih negotovosti, njihove klasifikacije in metode modeliranja opisuje [111]. Pri ekonomski in energijski optimizaciji na-vedene negotovosti niso zajete v predstavljenem algoritmu za učenje agentov AO, saj se želi preveriti teoretične maksimalne zmogljivosti in so zato privzeti idealni, popolni vhodni podatki. 10.9 UČENJE AGENTA S POSPLOŠENIM Q-UČENJEM Algoritem PQL iz poglavja 8.6 se tu uporabi za učenje agenta AO. Slika 10.17 prikazuje korake učenja agenta AO s PQL algoritmom. V besedilu se podrobneje navajajo le koraki, ki so različni od tistih v poglavju 8.6 ali pa jih dopolnjujejo. Pri ostalih se navaja le naslov koraka. 181 KO KO R R KO KO KO A A R R R K K A A A K 1 2 K K 3 4 5 Upoštevanje Določitev Preverjanje voznih povratne info. Izračun začetnih stanj za redov in pošiljanje DSO-ja in pričakovnih Q Izbira vse agente in povratne info. preverjanje vrednosti za akcije naključna izbira agentom možnih akcij za vse akcije prve akcije naslednji cikel KOR KO KO A R R K A A 8 K K 7 6 Izvršitev akcije, novi vozni redi Posodobitev se pošljejo TLS. uteži Izračun Proces se značilnosti nagrade ponovi Slika 10.17: Shema PQL učenja za agenta AO 1. Začetno stanje za vse agente in naključna izbira prvega ukrepa Ne glede na stanje sistema je prvi ukrep agenta naključno izbran za vse PE-je. Glede na posamezne omejitve energijskega bazena in omejitve časa uporabe PE-jev agent AO ustvari prvi vozni red in ga pošlje DSO-ju. 2. DSO preverja vozne rede in pošilja povratne informacije agentom Ko DSO prejme vozne rede PE od vseh agentov AO, jih združi v en sam vozni red PE. Tega DSO dodatno združi z napovedjo porabe in proizvodnje OVE, DSO pa z njimi nato izra- čuna pretoke moči ter izvede TLS. DSO s pomočjo rezultatov TLS-ja naredi končni vozni red PE in informacijo o sprejetih in zavrnjenih voznih redih posreduje nazaj agentom AO. 3. Povratne informacije DSO-ja in preverjanje možnih ukrepov za naslednji cikel Agent AO s povratno informacijo DSO-ja o zavrnitvah in odobritvah voznih redov izračuna preostalo razpoložljivo energijo za zagotavljanje prožnosti v energijskem bazenu, ki jo ima na voljo za naslednji časovni korak, tj. 15 minut. Nato agent AO glede na preostalo energijo in čas uporabe PE-jev sestavi nabor možnih ukrepov za naslednji korak. 4. Izračun pričakovanih 𝐐 vrednosti za ukrepe, ki so agentu na voljo Več v poglavju 8.6. 5. Izbira ukrepa s pomočjo optimalne Bellmanove enačbe s potencialnimi 𝐐* vrednostmi Glej poglavje 8.6. 6. Izračun nagrade glede na trenutno stanje okolja in odziv sistema TLS Izbira pravilne funkcije nagrade R(s,a) je pri strojnem učenju ena najpomembnejših stvari, saj se agent uči izbirati ukrepe z maksimiranjem prejete nagrade. Funkcija nagrade R(s,a) naj bo zasnovana na tem, kako se agent AO uči maksimizacije dobička in minimizacije tveganja 182 10 zavrnitve voznih redov, ki zmanjšujejo dobiček. Nabor možnih ukrepov lahko obsega naslednje ukrepe: — Ukrep povečanja: ko agent poveča moč 𝑃 na 𝑃�� = 𝑃�����, je nagrada odvisna od razmerja med urno ceno električne elektrike na trgu λ� in povprečno dnevno ceno elektrike na trgu λ�. Agent dobi nagrado, če poveča porabo energije v urah, ko je cena nižja od povprečne urne cene na trgu. To energijo nato »porabi« v času visokih cen. Torej, če je λ� > λ�, je R negativen, in če je λ� < λ�, je R pozitiven. — Nevtralni ukrep 0: agent deluje z močjo, enako polovici moči posameznega PE-ja, 𝑃�� = 𝑃����� . Za to izbiro ne prejme nagrade, saj v tem ukrepu ne izkoristi prožnosti enote 2 in se to šteje za »normalno delovanje«. Ta ukrep je primeren za vodenje toplotne črpalke, pri baterijah je nevtralno stanje 0 enako 𝑃�� = 0. — Ukrep zmanjšanja: ko agent zmanjša moč PE 𝑃�� = 0, je nagrada ponovno odvisna od razmerja med λ� in λ�. Če je λ� > λ� pri zmanjšani porabi, je R pozitiven, agent pa dobi spodbudo, da zmanjša porabo in s tem zasluži. Če je λ� < λ�, je R negativen. — Zavrnitve (ukrep povečanja ali zmanjšanja pri zavrnitvi): če TLS novi vozni red zavrne, agent AO prejme kazen, kar neposredno vpliva na agentovo učenje in obnašanje. Na nizko kazen se agent ne ozira in izbira bolj tvegane ukrepe z večjim zaslužkom, pri visoki kazni pa se agent temu ukrepu izogiba in s tem upošteva omejitve omrežja. Vrednost kazni se nastavi na 2, funkcija nagrajevanja ob kazni pa je R = −2. Polovična kazen za neuspešno aktivacijo na slovenskem trgu rRPF znaša 4 €/kWh. Izračun prikazuje enačba (10.17). (10.17) 7. Posodobitev uteži značilnosti Značilnosti PLB in NLB ne moreta imeti vrednosti > 0 v istem trenutku in se lahko v enem koraku posodobi le ena utež, tista z vrednostjo f� > 0. Več v poglavju 8.6. 8. Izvršitev ukrepa Novi vozni redi se pošljejo TLS, proces se ponovi: ko agent izvede ukrep, se novi vozni red pošlje TLS-ju, kjer se cikel ponovi. Učna iteracija dovoljuje le en zajem informacije o stanju omrežja na časovni korak. 183 10.10 SIMULACIJSKO OKOLJE 10.10.1 TESTNI SISTEM Vpliv prožnih bremen in baterij na napetostne razmere in stanje v omrežju je preizkušen na modelu nizkonapetostnega distribucijskega omrežja. Nekatere lastnosti tega omrežja temeljijo na resničnem distribucijskem omrežju DSO-ja Elektro Gorenjska. Gre za podeželsko kabelsko omrežje. SN/NN transformator z reguliranimi odcepi ureja tiste napetostne nivoje v vasi, ki so še posebej izpostav-ljeni vplivom sedmih obstoječih PV enot z 210 kW inštalirane konične moči. Vsa priključna mesta PV enot imajo merilno opremo, zato so kot vhodni podatki na razpolago meritve iz leta 2017 za simulacije omrežja s 70 gospodinjskimi odjemalci. Simulacijsko omrežje je zelo močno in stabilno, zato so v model omrežja poleg PE-jev (toplotnih črpalk ali baterij) namestili tudi dodatne PV enote, ki z večjo proizvodnjo vplivajo na napetostne razmere in obremenitve omre- žnih naprav. Skupaj je v simulacijsko omrežje vključenih 30 PV enot, kot da bi imela vsaka druga hiša svojo PV enoto. Topologijo omrežja z lokacijami obstoječih in dodanih PV enot ter PE-jev prikazuje slika 10.18. Lokacije dodanih PV enot in PE-jev so bile izbrane tako, da je simulirano delovanje neobremenjenega, malo obremenjenega in zelo obremenjenega voda. Simulacije so narejene za obdobje enega leta s 15-minutnim korakom, vhodni podatki o proizvodnji PV pa predstavljajo kombinacijo realnih meritev proizvodnje že obstoječih sedmih PV enot v omrežju, ki temeljijo na meritvah obstoječih PV in so ustrezno povečani ali zmanjšani glede na inštalirano moč. Vhodni podatki o profilu odjema so kombinacija profilov merjenega odjema in preostalega odjema, kjer je vsota obeh enaka realnim meritvam pretokov skozi transformator. Preostali diagram odjema temelji na variaciji merjenega odjema, povečanega ali zmanjšanega glede na obračunsko moč. Podatki o lokaciji s slike 10.18 ter o inštalirani moči PV enot in PE- -jev, tj. toplotnih črpalk in baterij, so v tabela 10.10, ki vsebuje še parametre o zalogi vrednosti za PE-je, pri toplotnih črpalkah pa imajo tudi čas uporabe (12 ali 24 ur). Pri PE-jih oznaka časa uporabe 12h pomeni, da so bile te enote razpoložljive za vodenje samo v času od 00–06h in od 18–24h. Za simulacijo agregiranega odjema tabela podaja tudi informacijo, kateremu od štirih agentov AO pripada posamezni PE, za simulacijo večagentnega okolja pa ima vsak PE svojega agenta. Model omrežja je tekel v simulacijskih okoljih MATLAB in OpenDSS. MATLAB, programsko okolje podjetja Mathworks, se uporablja za analizo in snovanje procesov v programskem okolju, ki omogoča neposredne operacije z zbirkami podatkov in matrikami. 184 10 OpenDSS je simulacijsko okolje za sistemske simulacije v elektroenergetskih distribucijskih omrežjih. Odprtokodna aplikacija je v lasti podjetja EPRI (Electric Power Research Institute). Program podpira številne načine analize obratovanja distribucijskega sistema za potrebe študij načrtovanja omrežja in obstoječih sistemov. Zaradi vse večje razširjenosti OVE in tehnologij pametnih omrežij vsebuje tudi veliko orodij za analizo naprednih omrežij, dodatno pa omogoča še analizo učinkovitosti dobave električne energije in analizo harmonskih popačenj. Tabela 10.10: Parametri in lokacije PE-jev (toplotnih črpalk in baterij) ter PV PE PE PE PE PE PE PE PE PE PE PE PE 1 2 3 4 5 6 7 8 9 10 11 12 PE – toplotne črpalke Št. agenta 1 2 1 2 1 1 2 1 3 1 1 4 Točka odjema 49 14 70 22 45 34 17 55 8 31 51 3 Inštalirana moč (kW) 10 10 7 10 7 7 10 7 20 7 10 10 Energijski bazen (kWh) 90 180 60 160 60 60 80 110 160 60 160 80 Čas uporabe 12 24 12 24 12 12 12 24 24 12 24 12 PE – baterije Moč (kW) 12 12 8 12 8 8 12 8 20 8 12 12 Kapaciteta (kWh) 24 24 16 24 16 16 24 16 60 16 24 24 PV Inštalirana moč 29 50 49 50 15 50 50 44 29 22 44 15 Točka odjema 4 5 6 7 8 9 13 14 18 20 22 24 Inštalirana moč 15 22 50 29 44 29 15 49 15 29 22 49 Točka odjema 25 31 41 45 47 50 52 54 57 58 59 60 Inštalirana moč 49 22 49 44 22 44 Točka odjema 63 64 70 74 76 78 185 OpenDSS-jev vmesnik COM omogoča razvoj lastnih metod in analiz ter povezovanje programa z ostalimi programi, s pomočjo katerih se uporablja kot simulator distribucijskih omrežij. Model omrežja v programu OpenDSS definira vse omrežne elemente in povezave med njimi. Vhodni podatki simulacij, proizvodni profili in bremenski diagrami so v okolju MATLAB shranjeni kot vhodne matrike, ki se nato zapišejo v program OpenDSS, kjer se izvedejo izračuni pretokov moči in stanja v omrežju. Rezultati simulacij se nato izvozijo v okolje MATLAB, kjer se shranijo v rezultante matrike in se naprej obdelujejo in uporabijo. 1 SN 2 NN Bremena 3 4 5 7 11 9 10 56 61 79 Obstoječe PV 6 8 13 59 57 Nove PV 63 62 14 30 26 29 31 58 64 16 18 15 27 37 38 36 32 34 59 66 67 65 17 19 28 39 41 40 33 35 60 68 70 69 20 42 74 71 21 43 45 44 75 72 22 46 76 73 23 48 50 47 77 24 49 51 78 25 52 53 54 55 Slika 10.18: Topologija testnega sistema 10.10.2 REZULTATI EKONOMSKE IN ENERGIJSKE OPTIMIZACIJE Tabela 10.11 prikazuje ekonomske in tehnične rezultate za eno leto simulacij ekonomske in energijske optimizacije delovanja baterij ter toplotnih črpalk, slika 10.19 pa prikazuje vpliv različnih optimizacij na napetostne razmere znotraj enega dneva. 186 10 Tabela 10.11: Dobički različnih metod načrtovanja voznega reda PE Tip PE in način načrtovanja voznega reda Načrtovani dobiček Dobiček po TLS-ju Toplotna črpalka – ekonomska optimizacija 14.329 € 11.318 € Toplotna črpalka – premikanje porabe 2.305 € 2.305 € Baterije – ekonomska optimizacija 5.264 € 2.305 € Baterije – rezanje konic -719 € -719 € 10.10.3 ZELENA PREMIJA Koliko lahko prožnost pomaga pri reševanju napetostnih razmer v omrežju, se vidi na sliki 10.19. Z izboljšanjem napetostnih razmer se zmanjša tudi omejevanje proizvodnje OVE in v EES se injicira več zelene energije. Glede na to, da ima trenutno večina OVE pravico prednostnega dispečiranja in dobiva plačano tudi energijo, ki se je izgubila z omejevanjem, je smiselno, da DSO čim več te »že plačane« energije injicira v sistem. Energijska optimizacija PE-jev tako lahko pomeni tudi sistemsko storitev za DSO-ja. 1.2 Ekonomska optimizacija baterij Originalno stanje (samo PV) ežju [p.u.] 1.15 Rezanje konic 1.1 osti v omr 1.05 1 ednost napet 0.95 ečna vr 0.9 Povpr 0 10 20 30 40 50 60 70 80 90 100 Dnevni diagram (96 časovnih korakov) Slika 10.19: Vpliv različnih voznih redov na napetostne razmere 187 Obstajajo številne raziskave s področja zagotavljanja sistemskih storitev za DSO z vodenjem OVE in PE-jev [24], [82], [83]. Cenovno ovrednotenje sistemskih storitev in ceno prožnosti večina avtorjev rešuje z lokalnimi trgom prožnosti, ki deluje na srednjenapetostnem nivoju. Zanimive pa so PQ kršitve, ki nastajajo v nizkonapetostnem distribucijskem omrežju in so lokalno pogojene. Odpravi se jih le z OVE in PE enotami, ki se nahajajo na tem omrežju. Pomanjkljivosti načina ocenjevanja sistemskih storitev z mehanizmom lokalnih trgov na srednjenapetostnem nivoju bi lahko poskusili rešiti z vzpostavitvijo lokalnih trgov na nivoju SN/ NN transformatorske postaje. Trgi na tako majhnem delu omrežja bi imeli problem z zagotavlja-njem likvidnosti in preprečevanjem izkoriščanja tržne moči. Agent AO bi najverjetneje izbral ekonomsko optimizacijo voznih redov PE, da bi agregator namesto ekonomske optimizacije izbral energetsko optimizacijo in s tem pomagal omrežju, pa bi DSO agregatorja lahko vsakič nagradil z »zeleno premijo«. Njeno višino bi lahko izračunali kot razliko v dobičku agregatorja med ekonomskim in energijskim načrtovanjem voznih redov (tabela 10.11). Zeleno premijo bi DSO plačal agregatorjem – agentom AO kot nadomestilo za izgubljeni dobiček zaradi drugačnega vodenja PE-jev. Omrežje namreč spada pod javno dobro in vsak agent AO ima pravico do načrtovanja voznih redov po svoji strategiji, ki naj bi prinesla največji dobiček. Tako izračunana premija bi predstavljala zgornjo mejo nadomestila za zagotavljanje sistemskih storitev, lahko pa bila tudi zmanjšana za določen faktor zasedenosti omrežja z utemeljitvijo, da zaradi PQ kršitev, ki bi nastale ob ekonomskem voznem redu PE, agent AO tako ali tako ne bi mogel izkoristiti polnega potenciala PE-jev za trgovanje. 10.11 REZULTATI POSPLOŠENEGA Q-UČENJA Uspešnost agenta AO, naučenega s PQL metodo iz poglavja 10.9, primerjamo z delovanjem agentov, ki pri oblikovanju voznih redov PE uporabljata ekonomsko in energetsko optimizacijo. Tabela 10.13 predstavlja rezultate delovanja naučenega agentnega sistema, ko so v portfelju PE toplotne črpalke s tehničnimi parametri iz tabele 10.10. Vrednosti uporabljenih parametrov učenja podaja tabela 10.12. Njegovo obnašanje v vlogi agregatorja prožnosti na NN distribucijskem omrežju se preizkusi z uporabo simulacijskega okolja iz poglavja 12.10. 188 10 Tabela 10.12: Parametri PQL učenja Agentni parametri PQL učenja BT₀ 2 N�� 360 α 0,8 Γ 0,9 Prva vrstica predstavlja največji teoretični dobiček agenta AO, ki bi ga dobil z ekonomsko optimizacijo brez upoštevanja omejitev omrežja. Preostali del tabele primerja rezultate treh različnih načinov načrtovanja voznih redov PE: rezultate ekonomske optimizacije, energetske optimizacije in PQL. Rezultati imajo tudi dva različna kazenska nivoja: 0 in 2; nivo 0 je bil dodan z name-nom, da se pokaže učinek TLS zavrnitve na dobiček, ki ga agent AO lahko doseže na trgu, tudi brez dodatnih kazni. Rezultati s kazenskim nivojem 0 predstavljajo osnovno »izgubo« dobička med delovanjem v neomejenem omrežju in omrežju z omejitvami. Tabela 10.13 prikazuje tudi odstotek zavrnjenih voznih redov PE po vseh treh načinih razporejanja, ki prikazujejo učinkovitost načrtovanja voznih redov PE in njihov vpliv na PQ kršitve. Pri kazni 0 je načrtovanje voznih redov z ekonomsko optimizacijo kljub TLS zavrnitvam še vedno najbolj dobičkonosno. Vpliv lokacije agentov AO na njihov dobiček po posameznih izvodih NN omrežja kaže, da agent 1 deluje na najbolj obremenjenem izvodu, kjer je zavrnjenih 19,86 % voznih redov, načrtovanih z ekonomsko optimizacijo. Agent 2 na srednje obremenjenem vodu jih ima 14,61 %, agent 4 v nizko obremenjenemu vodu pa le 5,24 %. Tudi dobički so manjši od načrtovanih; pri agentu 1 za približno 31 %, agentu 2 za 18 % in agentu 4 za 10 %. Agent 3 deluje na izvodu brez omejitev, tako da TLS ne zavrne načrtovanih voznih redov in lahko doseže maksimalni dobiček. 189 Tabela 10.13: Dobiček pri različnih metodah načrtovanja voznih redov PE toplotnih črpalk Metoda načrtovanja Scenarij Agent 1 Agent 2 Agent 3 Agent 4 SUM/leto Kazen = 0 4.640 € 3.772 € 1.988 € 917 € 11.318 € Ekonomska optimizacija Kazen = 2 -19.516 € -3.842 € 1.988 € 7 € -21.362 € TLS zavrnitev 19,86 % 14,61 % 0,00 % 5,24 % Kazen = 0 1.220 € 1.342 € -191 € -66 € 2.305 € Energijska optimizacija Kazen = 2 1.220 € 1.342 € -191 € -66 € 2.305 € TLS zavrnitev 0,00 % 0,00 % 0,00 % 0,00 % Kazen = 0 2.234 € 1.398 € 787 € 358 € 4.777 € PQL Kazen = 2 1.956 € 1.310 € 785 € 358 € 4.409 € TLS zavrnitev 0,40 % 0,13 % 0,00 % 0,00 % Največji teoretični dobiček 6.718 € 4.611 € 1.988 € 1.012 € 14.329 € Ko agent zaradi TLS zavrnitev prejme kazen, lahko utrpi velike izgube. Razlog je visoka stopnja zavrnitve voznih redov, razen pri agentu 3, ki ne utrpi nobenih zavrnitev in zato tudi ne izgub, medtem ko je pri ostalih agentih lahko ves dobiček izničen že pri slabih 5 % zavrnitev, kot pri agentu 4, pri višjih stopnjah zavrnitev pa je rezultat izrazito negativen pri agentu 1 in agentu 2. Dobiček energijske optimizacije lahko predstavlja strošek sistemske storitve glajenja konic s premikom porabe. Načrtovani vozni redi PE niso nikoli zavrnjeni, saj PE pomagajo izboljšati omrežne razmere, rezultati pa so skladni z delovanjem naprednega TLS-ja. Agent lahko kljub energijski optimizaciji naredi dobiček (agent 1 in agent 2), vendar je to bolj izjema kot pravilo, saj je ta manjši kot pri ekonomskem načrtovanju brez kazni, zato je razlika med dobički lahko enaka strošku zagotavljanja sistemskih storitev. Način PQL kaže, da se agenti AO, naučeni s pomočjo rezultatov TLS-ja, naučijo izogibanja zavrnitvam voznih redov, kar vodi do zmernega dobička tudi pri prejetju kazni. Dobiček agentov v tabeli 10.13 potrjuje hipotezo o uspešnosti načina PQL, slika 10.15. Vozni redi z energijsko optimizacijo namreč niso nikoli zavrnjeni s strani TLS, vozni redi načrtovani z ekonomsko optimizacijo pa so zavrnjeni v skoraj 20 % primerov, medtem ko je zavrnitev voznih redov s PQL v najslabšem primeru le 0,40 %. V ekonomskem načinu visoko število TLS zavrnitev vodi v 190 10 zmanjšanje dobička agentov, zlasti zaradi kazni, po drugi strani pa imajo vsi štirje agenti, ki so uporabljali PQL način, višje dobičke kot pri energijskem načinu, čeprav energijski način ne prejema nobenih TLS zavrnitev voznega reda PE in zato ne utrpi kazni. Kadar omrežje ni preobremenjeno (agent 3), ekonomski način vodi do najvišjega teoretičnega dobička. Drugi po dobičku je PQL, najnižji dobiček pa ima energijska optimizacija. Rezultati kažejo, da je agent AO z načinom ekonomske optimizacije izpostavljen velikemu tveganju TLS zavrnitve, ko je omrežje preobremenjeno. Zaradi možnega večjega števila zavrnitev voznih redov bi agent AO v najboljšem primeru utrpel samo nižji dobiček, kot je teoretično možen, pri kazni pa lahko agent AO utrpi veliko izgubo in deluje veliko slabše od pričakovanega. Agent se je v postopku PQL učil na podatkih enega tedna v začetku leta, pri katerem so bile zgornje in spodnje meje ustrezno vzorčene in je agent AO lahko določil meje preobremenitev omrežja, pri katerih pride do TLS zavrnitev. Test je zajel tudi učinek ponovnega učenja agenta AO ob začetku vsake sezone z zajemanjem sezonskih variacij, a so bili rezultati slabši kot v osnovnem učenju. To pojasnjujeta dve dejstvi: — odstopanja med napovedano proizvodnjo OVE in lokalno porabo ostajajo približno znotraj istega pasu v vseh letnih časih. Povzročijo previsoke napetosti, ki sprožijo TLS zavrnitev. Sezonski vzorci nimajo pomembnega vpliva. — Drugo dejstvo je, da agent z vsakim učenjem izgubi nekaj svojega dobička s preizkušanjem neoptimalnih dejanj, ki jih TLS zavrne in so kaznovana. Na podoben način vključevanje novih enot OVE povzroči večje odstopanje med proizvedeno in porabljeno energijo v omrežju. Če je agent med PQL učenjem že pridobil izkušnje za delovanje v takšnem preobremenjenem omrežju, je že našel meje preobremenitev, zato dodajanje novih enot OVE v omrežje ne vpliva na rezultat, če pa je agent deloval v nepreobremenjenem omrežju, ne pozna omejitev, ker TLS še ni zavrnil nobenih voznih redov PE. Agente je tako treba usposobiti s pomočjo dodajanja novih OVE enot, da se lahko naučijo omejitev omrežja. Glede na radialno naravo nizkonapetostnih omrežij je sprememba topologije na nivoju izvoda le malo verjetna. Lahko pa se povečajo prenosne zmogljivosti omrežja pri nadgradnji vodov, kablov in SN/NN transformatorskih postaj. To bi vplivalo na učinkovitost agenta AO, saj bi imel v spominu še stare zmogljivosti omrežja, zato bi bilo treba agenta ponovno naučiti; učenje se lahko začne z vrednostmi naučenih parametrov agenta prejšnje topologije omrežja, s čimer se čas učenja skrajša. 191 10.12 DVOSTOPENJSKO POSPLOŠENO Q-UČENJE Rezultati agenta AO, naučenega po metodi PQL, kažejo, da se agent uspešno nauči izogibanja zavrnitvam in je po uvedbi kazni bolj uspešen od načrtovanja z ekonomsko optimizacijo, vendar ima metoda pomanjkljivost, da v omrežju brez zamašitev ne izbira ravno ukrepov, ki bi bili ekonomsko gledano najboljši. Agent v omrežju z omejitvami torej bolj upošteva razliko med odjemom in proizvodnjo kot pa ceno energije. Tudi če deluje v omrežju brez omejitev in v svojem učenju gleda samo na ceno, ne more nikoli doseči rezultata ekonomske optimizacije, saj potrebuje nekaj časa, da ugotovi pravilno strategijo trgovanja. V tem času raziskovanja izbira tudi neoptimalne ukrepe in je njegov dobiček manjši. Želja po izboljšanju rezultatov agenta PQL je privedla do razvoja dvostopenjskega učenja, katerega cilja sta: — doseči največji izplen v neobremenjenem omrežju, enak ekonomskemu izplenu, in — naučiti se izogibanja TLS zavrnitvam ter to upoštevati pri izdelavi voznega reda PE. 10.12.1 IZBIRA NAJBOLJŠE POTI DO KONCA DNEVA Za izboljšanja metode PQL in rezultatov agenta AO lahko uporabimo dvostopenjsko PQL, ki v neobremenjenem omrežju dosega rezultate, podobne tistim iz ekonomske optimizacije, v zamašenem omrežju pa se na podlagi signalov TLS zavrnitev nauči meja omrežja in jih upošteva pri izboru nadaljnjih ukrepov. Cilj dvostopenjskega agenta je, da pridobljeno znanje upošteva pri načrtovanju vodenja PE-jev in naredi najbolj dobičkonosen vozni red PE. Pri voznih redih PE, ki so načrtovani z ekonomsko optimizacijo, včasih TLS zavrnitve »podrejo« načrte za prihodnje obratovanje in bi lahko z drugačnim načrtovanjem dosegli višji dobiček. Zato so razvili algoritem po principu iskanja maksimalne poti do vsakega elementa v matriki agentovih stanj. Matrika stanj je dimenzije 96 x 3 (št. korakov X št. ukrepov), pri čemer so upoštevali 96 15-minutnih časovnih intervalov v 24 urah in 3 možne ukrepe v vsakem koraku. Vrednost stanja je enaka agentovi nagradi, ki bi jo agent dobil, če bi se znašel v tem stanju. Nagrada je cena energije v uri, pomnožena s količino energije, oddane v omrežje zaradi ukrepa PE-jev. Pri polnjenju baterije je tako nagrada negativna, pri praznjenju pa pozitivna. Za stanja TLS zavrnitve se agentu nameni »neskončno« negativno nagrado, tako da agent ve, da v tistem koraku tega ukrepa ne sme izvesti. Napovedovanje TLS zavrnitve je narejeno na podlagi PQL, 192 10 ki namesto osnovne linearne funkcije uporablja klasifikacijo z logistično regresijo. Za postopek učenja in klasifikacije omejitev z logistično regresijo glej poglavje 10.12.2. V prvem koraku algoritem glede na parametre PE-ja, tj. moč polnjenja in zmogljivost ter izbere pot do konca dneva, ki mu prinese največji dobiček. Pot traja 24 ur in vsebuje 96 korakov, od katerih vsak traja 15 minut. Agent v prvem koraku izbere vseh 96 ukrepov do konca dneva. Z vsakim narejenim korakom ponovno izračuna optimalno pot do konca z upoštevanjem posodo-bljenega nabora parametrov učenja in tehničnih parametrov PE-ja, npr. preostale zmogljivosti baterije, glede na uspešnost ukrepa. Čas računanja se z vsakim korakom zmanjšuje, saj je treba sprejeti vedno manj odločitev. Naučene zavrnitve se takoj upoštevajo pri nadaljnjih izračunih in načrtovanju poti. Slika 10.20 prikazuje matriko cen znotraj enega obdobja optimizacije – enega dneva, kjer je prikazanih 96 intervalov. Zgornji, modri pas, prikazuje strošek ukrepa »1«, polnjenja baterije ali kupovanja energije. Spodnji, rumeni pas, predstavlja strošek ukrepa »-1«, praznjenje baterije ali prodaje energije. Srednji pas prikazuje ukrep »0«, kjer je strošek zmeraj enak 0. Bolj kot so izrazite barve (bolj kot je temna modra barva in bolj kot je svetla rumena barva), bolj gredo cene v skrajnost. Svetlo rumena barva na spodnjem delu grafa prikazuje visoke cene, ki se jih lahko izkoristi za prodajo, na zgornjem delu grafa pa visoka cena s temno modro barvo prikazuje slab trenutek za nakup energije. Rdeča prikazuje optimalno pot znotraj dneva. S slike 10.21 se lahko vidi, kako se je gibal kumulativni dobiček znotraj dneva. Svetlo rumena barva predstavlja največji možni dobiček v tem dnevu, rdeča krivulja pa predstavlja pot, ki pelje do tega dobička. Pot je izbrana glede na omejitve zmogljivosti baterije, cene v intervalu in mož- nost zavrnitve v izbranem intervalu. 193 cije 1 Tip ak 0 -1 10 20 30 40 50 60 70 80 90 Zaporedna številka intervala Slika 10.20: Matrika dnevnih cen in najboljše poti 100 erije (%) vosti batlji 50 vo zmogNi 0 10 20 30 40 50 60 70 80 90 Zaporedna številka intervala Slika 10.21: Matrika kumulativnega dobička Slika 10.22 prikazuje izbiro maksimalnih poti. Ker je baterija predhodno napolnjena do določe-ne stopnje, lahko agent izbere tako ukrepe polnjenja kot tudi ukrepe praznjenja. Če bi že v prvih intervalih spraznil baterijo, bi bil zaslužek pozitiven. Kot se vidi na sliki 10.20, so takrat cene 194 10 ugodne za polnjenje baterije, zato se najprej napolni baterijo. Ko so cene ugodne za praznjenje, se izbere ukrep praznjenja. 100 erije (%) vosti batlji 50 vo zmogNi 0 10 20 30 40 50 60 70 80 90 Zaporedna številka intervala Slika 10.22: Matrika maksimalnih poti 10.12.2 LOGISTIČNA REGRESIJA Z metodo logistične regresije se napoveduje verjetnost za izid dogodka na podlagi izbranih vhodnih podatkov. V tem primeru je dogodek zavrnitev voznega reda PE na podlagi napovedi odjema in proizvodnje OVE v naslednjem koraku. Za razliko od linearne funkcije, ki upošteva samo PLB+ in PLB-, se tu upošteva štiri različne scenarije in z njimi povezane značilke f�, i = 1–4: — f₁: PLB in ukrep polnjenja, — f₂: PLB in ukrep praznjenja, — f₃: NLB in ukrep polnjenja, — f₄: NLB in ukrep praznjenja. S temi parametri se agentu poda pravilnejšo informacijo o njegovih ukrepih, saj napredni TLS razlikuje med ukrepi, ki pomagajo zmanjševati PQ kršitve, in tistimi, ki še poslabšajo razmere. Torej je učna funkcija v enačbi (10.18) naslednja: (10.18) 195 Pri učenju z logistično regresijo se uporabi sigmoidna funkcija, ki jo podajata enačba (10.19) in slika 10.23. (10.19) Rezultat funkcije S(z) je med 0 in 1 in podaja verjetnost za izid določnega dogodka, z je vhod v funkcijo (naša Q-funkcija), e pa označuje eksponentno funkcijo i = 1–4 . 1 0,5 -5 0 5 Slika 10.23: Graf sigmoidne funkcije Na začetku učenja je verjetnost zavrnitve p enaka verjetnosti nezavrnitve in lahko je: (10.20) Na sliki 10.23 črta pri y = 0,5 predstavlja »mejo odločitve« po enačbi (10.20). Agent skozi učni proces posodablja uteži w in premika njihove vrednosti tako, da čim bolj pravilno napove morebitne PQ kršitve. Pridobljeno znanje nato upošteva pri načrtovanju voznih redov PE. Posodabljanje uteži se izvede glede na pravilnost napovedi po enačbi (10.21): (10.21) 196 10 Pri zavrnitvi voznega reda je X = 0, v primeru odobritve je X = 1. Z vsako iteracijo se uteži posodobijo tako, da je razlika med S(z) in X čim manjša. 10.12.3 REZULTATI DVOSTOPENJSKEGA UČENJA AGENTA Poglejmo še rezultate simulacij delovanja agenta AO, naučenega z dvostopenjskim PQL z logistično regresijo. Tehnične parametre iz simulacij prikazuje tabela 10.10, učni parametri, uporabljeni v simulacijah, pa se nahajajo v tabela 10.14. Pri dvostopenjski PQL metodi so učni parametri izbrani s simulacijami za preverjanje vpliva spremembe dolžine učenja N�� in koliko utežiti zadnji rezultat α, na rezultate agenta. V simulacijah se preverja tudi vpliv zmanjševanja α skozi čas, zato je dodan še parameter α���, ki definira, do katere vrednosti se parameter α lahko zmanjša. To zmanjševanje do α��� se izvede po enačbi (10.19). 10.12.4 REZULTATI DVOSTOPENJSKEGA UČENJA AGENTA Poglejmo še rezultate simulacij delovanja agenta AO, naučenega z dvostopenjskim PQL z logistično regresijo. Tehnične parametre iz simulacij prikazuje tabela 10.10, učni parametri, uporabljeni v simulacijah, pa se nahajajo v tabeli 10.14. Pri dvostopenjski PQL metodi so učni parametri izbrani s simulacijami za preverjanje vpliva spremembe dolžine učenja N�� in koliko utežiti zadnji rezultat α, na rezultate agenta. V simulacijah se preverja tudi vpliv zmanjševanja α skozi čas, zato je dodan še parameter α���, ki definira, do katere vrednosti se parameter α lahko zmanj- ša. To zmanjševanje do α��� se izvede po enačbi (10.22). (10.22) Tabela 10.14: Simulacijski učni parametri za PQL agente Parameter / Sim Sim 1 Sim 2 Sim 3 Sim 4 Sim 5 Sim 6 BT₀ 2 2 2 2 2 2 N�� 384 384 384 3264 3264 3264 α 0,8 0,4 0,9 0,4 0,8 0,8 α��� 0,7 0,2 0,9 0,2 0,8 0,7 197 Tabela 10.16 podaja rezultate za vseh 6 simulacij. V prvem stolpcu posamezne simulacije se nahaja število TLS zavrnitev posameznega agenta, sledi njegov letni dobiček z upoštevanjem kazni in na koncu še letni dobiček brez kazni. Zaradi preglednosti so v tabeli izpuščene enote, so pa vse vrednosti dobičkov agentov podane v €/leto. — Rezultati Sim 4 do Sim 6, ki imajo daljše obdobje učenja, kažejo, da je rezultat s kaznijo negativen. Jasno je, kako pomembno je čim krajše obdobje učenja, saj v tem času nastajajo oportunitetne izgube zaradi raziskovanja. — Agenti dosegajo dobre rezultate brez kazni, saj se naučijo predvidevati PQ kršitve in jih upoštevati pri načrtovanju voznih redov PE. — Zanimivi so rezultati Sim 2, ki ima nizko vrednost α in kratek čas učenja (384 period). Agenti so v primeru brez kazni dosegli najboljši rezultat med vsemi simulacijami, vendar so pri tem načinu zavrnjeni občutno večkrat, v primerjavi s Sim 1 skoraj devetkrat bolj pogosto. To seveda privede do najslabšega rezultata z upoštevanjem kazni. Razlog za takšne rezultate je, da se agent v tako kratkem času s tako nizko α ni uspel naučiti napovedati PQ kršitev in to upoštevati pri načrtovanju, zato dvostopenjski PQL ne predvideva PQ kršitev in je bolj podoben ekonomskemu načrtovanju brez kazni ter dosega večje dobičke. — Podobne rezultate lahko vidimo tudi v Sim 4, kjer se agent kljub podaljšanemu učenju ni uspel naučiti izogibanja kršitvam PQ. — Le rezultati Sim 1 in Sim 3 so pozitivni v obeh primerih, z in brez kazni. — Če primerjamo Sim 1 in Sim 6, kjer se za učenje uporabi isto vrednost α in se spremeni samo obdobje učenja, se vidi, kako pomembno je, da je to obdobje čim krajše. V Sim 1 s 384 intervali učenja se agent uspešno nauči izogibati PQ kršitvam in je v obdobju celotne simulacije zavrnjen samo 755-krat, medtem ko je v Sim 6 zaradi daljšega obdobja učenja in več raziskovanja zavrnjen kar 3677-krat. Zaradi teh zavrnitev agent v Sim 6 pri kazni konča z negativnim rezultatom (-2.526 €), medtem ko v Sim 1 še vedno uspe narediti dobiček (1.015 €). — Primerjava Sim 1 in Sim 3 pokaže, da je za agentovo učenje bolje, če je vrednost α čim višja. Sprememba α vrednosti za 0,1 doprinese za skoraj 20 % boljši rezultat. Rezultati simulacij z različnimi parametri potrjujejo teoretične predpostavke, da je treba imeti za doseganje najboljših rezultatov čim krajše učenje in čim bolj upoštevati zadnjo prejeto informacijo (α → 1). 198 10 Za primerjavo dvostopenjskega PQL z rezultati ekonomske optimizacije in rezanjem konic so bili vzeti rezultati Sim 3, ki predstavljajo najboljši rezultat dvostopenjskega PQL. Tabela 10.15 prikazuje primerjavo rezultatov. — Rezultati ekonomske optimizacije brez kazni so najboljši. Letni dobiček, ki bi ga agenti naredili, je 4.373 €, in sicer ob 11,4 % povprečni stopnji zavrnitve voznih redov. — Če so te zavrnitve kaznovane, agent ustvari izgubo -63.634 €. Res je bila za višino penalov vzeta visoka cena, ki izhaja iz neizpolnjevanja izvedbe zagotavljanja sistemskih storitev, a tudi če bi bila kazen manjša, bi teh 11,4 % zavrnitev predstavljalo veliko tveganje za poslovanje agenta AO. — Vozni redi PE v načinu rezanja konic niso nikoli zavrnjeni in ustvarijo dodatne stroške za agenta AO. Rezultat 1.337 € je torej osnovna cena sistemske storitve rezanja konic glede na cene energije za dan vnaprej. Pri tem ni upoštevana oportunitetna izguba dobička, ki bi ga agent lahko ustvaril z drugačnim načinom načrtovanja voznih redov PE ali ponujanjem drugih sistemskih storitev. — Dvostopenjski PQL je brez kazni v primerjavi z ekonomsko optimizacijo slabši, saj izgubi skoraj 45 % dobička. Dvostopenjski PQL je v povprečju zavrnjen samo v 0,21 % intervalov (ekonomska optimizacija pa v 11,4 %), kar predstavlja veliko manjše tveganje za agenta AO. To je zelo pomemben podatek in iz rezultatov se lahko vidi, da je kljub visokim kaznim agent AO še vedno uspel ustvariti dobiček v višini 1.215 €. — Zanimivi so tudi rezultati agenta 9, ki deluje na nezamašenem vodu in tako lahko izkorišča svoj polni ekonomski potencial, saj ni nikoli zavrnjen zaradi PQ kršitev. Če se primerja rezultate ekonomskega in dvostopenjskega PQL načina načrtovanja voznih redov samo tega agenta, se vidi, da je rezultat dvostopenjskega PQL načina za samo približno 15 % manjši od ekonomske optimizacije. 199 LS % T 0,39% 0,12% 0,41% 0,13% 0,18% 0,18% 0,12% 0,19% 0,00% 0,41% 0,20% 0,15% 0,21% 5 4,8 5,7 8,7 P = 0 104 115 271,7 356,1 183,1 356,5 824,8 183,4 2.419 vostopenjski PQLD P = -2 36,5 285,7 21,7 280,9 -66,1 -66,4 30,2 -69,4 824,8 20,9 27,5 -111,4 1.215 LS erij % T 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% v bat edo P = 0 -121,5 -121,5 -81,0 -121,5 -81,0 -81,0 -121,5 -81,0 -202,6 -81,0 -121,5 -121,5 -1.337 zanje konic voznih r Re P = -2 -81,0 -81,0 -81,0 -81,0 -81,0 tovanja -121,5 -121,5 -121,5 -121,5 -202,6 -121,5 -121,5 -1.337 LS % 0,0% 2,9% todah načr T 13,5% 13,1% 13,5% 13,1% 13,5% 13,5% 13,1% 13,5% 13,5% 13,5% 11,4% acija imiz P = 0 azličnih me 357,6 360,7 238,4 360,7 238,4 238,4 360,7 238,4 963,4 238,4 357,6 420,3 4.373 a pri r Ekonomska opt P = -2 963,4 -7.672,7 -7.451,7 -5.115,1 -7.451,7 -5.115,1 -5.115,1 -7.451,7 -5.115,1 -5.115,1 -7.672,7 -1.321,7 -63.634 a dobičk Primerjav ični et .15: Max. teor dobiček 453,0 451,7 302,0 451,7 302,0 302,0 451,7 302,0 963,4 302,0 453,0 448,1 5183 Tabela 10 enta ag t. Š 1 2 3 4 5 6 7 8 9 10 11 12 SUM/ leto 200 10 7,2 7,9 P = 0 15,5 328,6 170,8 329,0 170,1 325,7 754,5 170,9 16,3 104,9 2.401 6 50,5 44,1 61,4 SIM P = -2 -468,5 -540,8 -537,0 -316,6 -313,6 754,5 -531,6 -462,6 -265,8 -2.526 . zav 0,0 št. 282,0 162,0 622,0 166,0 618,0 283,0 154,0 281,0 614,0 279,0 216,0 3.677 8,1 7,8 7,3 P = 0 17,4 324,2 169,6 327,4 167,9 325,9 756,3 19,6 104,9 2.236 5 SIM P = -2 -413,4 113,1 -479,1 102,6 -299,7 -491,1 102,8 -288,6 756,3 -273,0 -433,5 -205,7 -1.809 . zav 0,0 št. 251,0 123,0 567,0 131,0 269,0 576,0 130,0 259,0 245,0 264,0 181,0 2.996 P = 0 265,7 308,6 176,0 308,8 20,9 21,0 304,8 24,0 724,6 22,6 264,2 324,7 2.766 4 SIM P = -2 724,6 -1186,3 -130,8 -805,7 -142,6 -473,4 -469,8 -153,4 -474,8 -478,6 -1232,3 -418,5 -5.242 . acije zav 0,0 št. 846,0 256,0 858,0 263,0 432,0 429,0 267,0 436,0 438,0 872,0 433,0 5.530 topenjski PQLos 4,8 5,7 5,0 8,7 ez penaliz P = 0 271,7 356,1 183,1 356,5 104,0 824,8 183,4 115,0 br a dv 2.419 3 tri z 36,5 21,7 30,2 20,9 27,5 SIM P = -2 285,7 280,9 -66,1 -66,4 -69,4 824,8 -111,4 1.215 ame . tavlja dobiček zav 41,0 44,0 62,0 63,0 43,0 65,0 0,0 70,0 51,0 859 eds št. 137,0 141,0 142,0 P = 0 27,2 323,0 198,3 323,0 15,9 196,3 324,2 11,0 747,0 198,0 27,7 322,7 2.714 azličnimi par 2 SIM P = -2 -709,1 -97,5 -785,7 -95,8 -479,5 -873,5 -92,9 -454,7 747,0 -811,2 -705,1 -207,6 -4.566 . 2€/kWh, **P= 0 pr zav 0,0 št. 429,0 245,0 860,0 244,0 433,0 935,0 243,0 407,0 882,0 427,0 309,0 5.414 acijo - a simulacij z r 4,3 4,9 3,9 7,8 P = 0 19,5 357,8 13,2 358,5 12,5 358,1 824,7 115,6 2.081 s penaliz Primerjav 1 2,4 SIM P = -2 -133,2 285,7 -89,8 289,9 -95,0 -78,1 286,0 -76,3 824,7 -80,8 -120,9 1.015 .16: . 89 42 90 40 94 72 42 71 0 74 75 66 tavlja dobiček zav 755 št. eds enta ag t. Š 2 pr 1 2 3 4 5 6 7 8 9 Tabela 10 10 11 12 SUM *P= - 201 10.12.5 NADALJNJI RAZVOJ DVOSTOPENJSKEGA PQL UČENJA Dvostopenjski PQL algoritem omogoča tudi dodajanje različnih omejitev in upoštevanje parametrov, npr. časa uporabe, izgub baterije ter zmogljivosti na začetku in koncu dneva. Za PE enote so vzete baterije, ki imajo diskretne ukrepe za polnjenje in praznjenje s polno močjo. Ta privzetek je zaradi primerjave rezultatov ekonomske optimizacije, ki deluje na isti način, in tudi zato, ker bi teoretično v omrežju brez zavrnitev tega ukrepa lahko prinesle največji dobiček. Nadgradnja algoritma bi lahko vsebovala zvezne ukrepe in učenje mej z večjo natančnostjo, kot to omogočajo diskretni ukrepi in večji koraki. Pomembno je poudariti, da bi se razviti dvostopenjski model z malo modifikacij in zamenjavo vhodnih podatkov za klasifikacijo lahko spremenil tako, da bi pri načrtovanju voznih redov upo- števal še: — ocenjevanje razpoložljivosti PE-jev glede na čas, vreme, tip dneva ... — ocenjevanje verjetnosti PQ kršitev glede na čas, vreme, tip dneva ... Pri obravnavi večagentnega sistema se lahko privzame, da več agregatorjev lahko deluje na enem omrežju brez vpliva na TLS, DSO pa upošteva operativna pravila v TLS na pošten, nediskrimi-natoren način. Če se privzame, da so agregatorji neodvisni in ne poznajo dejanj drug drugega, bi bilo njihovo delovanje mogoče oceniti z uporabo teorije iger. Napoved povpraševanja vsakega od njih bi se spremenila ob upoštevanju učinkov ukrepov drugih agregatorjev, zato bi jo lahko obravnavali kot napoved s šumom. Različni agenti bi lahko imeli različne taktike: nekateri bi se lahko učili za daljše obdobje, nekateri bi lahko sledili pohlepnejšemu učnemu cilju in poskušali agresivne urnike – ukrepe, ali pa bi bili bolj previdni. Njihovo obnašanje bi bilo mogoče nadzo-rovati s kaznijo za zavrnitev: majhna kazen bi povzročila, da agent pogosteje preizkusi tvegane ukrepe, velika kazen pa bi povzročila, da bi agent prevzel manj tvegane ukrepe. 202 Sklep // 203 Današnji svet se sooča z globalnim segrevanjem, ki je v veliki meri posledica izpustov toplogrednih plinov, ki nastajajo ob izgorevanju fosilnih goriv, potrebnih za zadostitev naših energetskih potreb. Prav tako potrebe po energiji z večanjem števila prebivalstva, razvojem tehnologije ter digitalizacije družbe nenehno naraščajo. V sklopu sprememb, ki bi omejile negativne posledice teh gibanj, se v energetiki v zadnjem času odvija tako imenovana 3D revolucija: Dekarbonizacija, Digitalizacija in Demokratizacija elektroenergetskega sistema. Vsled globalne energetske krize pa se z energijo, njeno ceno in razpoložljivostjo ukvarjamo prav vsi. Inteligentni agentni modeli udeležencem elektroenergetskih trgov v veliki meri omogočajo reševanje težav in obvladovanje tveganj, s katerimi se srečujejo pri svojem delovanju. Zaradi močnih napovednih sposobnosti in sposobnosti modeliranja trgovalnih strategij v negotovih in spremen-ljivih razmerah se ponujajo kot pomembno orodje podjetjem na trgu. Obenem njihova uporaba omogoča optimalno vodenje obratovanja elektroenergetskega sistema bližje mejam, s čimer se zmanjšujejo stroški njegovega obratovanja in povečuje družbena dobrobit. Z uvajanjem novih vlog na trgu, kot je npr. neodvisni agregator prožnosti, dobivajo vsi državljani možnost, da lahko aktivno sodelujejo pri demokratizaciji oskrbe z energijo in tako spreminjajo odnos do energije v družbi. Inteligentni agenti kot oblika umetne inteligence omogočajo zasnovo orodij za te nove udeležence na trgu in lahko s tem pomembno prispevajo k razogljičenju proizvodnje električne energije in k večji energetski varnosti. V knjigi smo predstavili izzive, s katerimi se srečujejo udeleženci trgov z elektriko, ter agentno modeliranje kot pomemben način, s katerim se lahko akterji spoprimejo s temi in prihajajočimi izzivi. Po splošni predstavitvi agentnega modeliranja, osnov trga z električno energijo na debelo in na drobno in ostalih trendov v energetiki smo predstavili osnove modeliranja trga z elektriko. Predstavili smo inteligentne agente, njihove učne koncepte in si ogledali vloge, ki jih na elektroenergetskem trgu najpogosteje modeliramo z agenti. Na praktičnih primerih smo si ogledali, kako lahko analitiki zasnujejo agentne modele treh ključnih akterjev na trgu: proizvajalca, odjemalca/ dobavitelja in agregatorja, skupaj z napotki za učenje in nekaterimi najzanimivejšimi rezultati. Agentno modeliranje se hitro razvija, in v prihodnosti lahko pričakujemo nova odkritja na tem področju. Knjiga je namenjena kot priročnik za tiste, ki se s tem področjem srečujejo prvič, pa tudi za izkušene analitike, ki bi potrebovali dodatne ideje pri snovanju agentnih modelov. Izkušnje iz industrije kažejo, da je potreben nadaljnji razvoj na tem področju, saj bomo le na ta način lahko v zadostni meri obvladovali kompleksnosti na trgu in sprejemali prave in pravočasne odločitve. 204 Literatura // 205 [1] ACER. 2011. “The European Union Agency for the Cooperation of Energy Regulators.” 2011. https://www.acer.europa.eu/. [2] ———. 2021. “List of Standard Contracts – Documents.” 2021. https://documents. acer-remit.eu/remit-reporting-user-package/list-of-standard-contracts/. [3] Acronymics Inc. 2004. “An Integrated Toolkit for Constructing Intelligent Software Agents User’s Guide.” Mesa, AZ. http://www.agentbuilder.comhttp://www.acronymics. comhttp://www.agentbuilder.com. [4] Agencija za energijo RS. 2019. Vzpostavitev trga s prožnostjo aktivnega odjema v Sloveniji – izhodišča. Slovenia. [5] Aghniaey, Sama, Thomas M Lawrence, Javad Mohammadpour, Wenzhan Song, Richard T Watson, and Marie Claude Boudreau. 2017. “Human Factors and Thermal Comfort Considerations with Electrical Demand Response Program Implementation.” In CIBSE ASHRAE Technical Symposium. [6] Ahmadabadi, M.N., and M. Asadpour. 2002. “Expertness Based Cooperative Q-Learning.” IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics) 32 (1): 66–76. https://doi.org/10.1109/3477.979961. [7] Albadi, M. H., and E. F. El-Saadany. 2007. “Demand Response in Electricity Markets: An Overview.” In 2007 IEEE Power Engineering Society General Meeting, 1–5. IEEE. https://doi.org/10.1109/PES.2007.385728. [8] Anderson, E. J., and A. B. Philpott. 2002. “Optimal Offer Construction in Electricity Markets.” Mathematics of Operations Research 27 (1): 82–100. https://doi.org/10.1287/ moor.27.1.82.338. [9] Antončič, Mitja, and Boštjan Blažič. 2018. “LV Network State Estimation Using Deco-upled Load-Flow Algorithm.” In CIRED 2018 Ljubljana Workshop on Microgrids and Local Energy Communities, 7–8. CIRED. https://doi.org/10.34890/462. [10] Argonne National Laboratory. 2008. “Electricity Market Complex Adaptive Systems (EMCAS) Specifications.” Argonne, IL. [11] Arh, David. 2016. “Določitev tipov odjemalcev električne energije in faktorja istočasnosti.” https://repozitorij.uni-lj.si/Dokument.php?id=88284&lang=slv. [12] Baillo, A. 2002. “A Methodology to Develop Optimal Schedules and Offering Strategies for a Generation Company Operating in a Short-Term Electricity Market.” Department of Industrial Organization 102. [13] Balta-Ozkan, Nazmiye, Rosemary Davidson, Martha Bicket, and Lorraine Whitmarsh. 2013. “Social Barriers to the Adoption of Smart Homes.” Energy Policy 63 (March): 363–74. https://doi.org/10.1016/J.ENPOL.2013.08.043. 206 [14] BDEW – German Association of Energy and Water Industries. 2015. “Smart Grid Traffic Light Concept.” [15] Belyaev, Lev S. 2011. “Electric Power Industry in the Context of Microeconomics.” Electricity Market Reforms, 31–49. [16] Berry, Donald A, and Bert Fristedt. 1985. “Bandit Problems: Sequential Allocation of Experiments (Monographs on Statistics and Applied Probability).” London: Chapman and Hall 5 (71–87): 7. [17] Bharucha-Reid, Albert T. 1997. Elements of the Theory of Markov Processes and Their Applications. Courier Corporation. Courier Corporation. [18] [18] Bilek, Amanda. 2012. “Revitalizing Rural Communities through the Renewable Energy Cooperative.” Heinrich Böll Stiftung, Series on the German Energy Transition (3 of 6). [19] Bird, Lori, Debra Lew, Michael Milligan, E Maria Carlini, Ana Estanqueiro, Damian Flynn, Emilio Gomez-Lazaro, et al. 2016. “Wind and Solar Energy Curtailment: A Review of International Experience.” Renewable and Sustainable Energy Reviews 65 (March): 577–86. https://doi.org/10.1016/J.RSER.2016.06.082. [20] Bompard, Ettore, Yuchao Ma, Roberto Napoli, and Graziano Abrate. 2007. “The Demand Elasticity Impacts on the Strategic Bidding Behavior of the Electricity Produ-cers.” IEEE Transactions on Power Systems 22 (1): 188–97. https://doi.org/10.1109/ TPWRS.2006.889134. [21] Borenstein, S., M. Jaske, and A. Rosenfeld. 2002. “Dynamic Pricing, Advanced Metering, and Demand Response in Electricity Markets.” Berkeley, CA. http://escholarship.org/uc/ item/11w8d6m4. [22] [22] Borzen. 2015. “Izvajanje podporne sheme za električno energijo proizvedeno iz OVE ali visoko učinkoviti SPTE.” 2015. https://www.borzen.si/Portals/0/SL/Splošno/ 2018-12M-CP-objava.pdf. [23] Bunn, D W, and F S Oliveira. 2003. “Evaluating Individual Market Power in Electricity Markets via Agent-Based Simulation.” Annals of Operations Research 121 (in 2000): 57–77. [24] Cappers, Peter, Jason MacDonald, Charles Goldman, and Ookie Ma. 2013. “An Assessment of Market and Policy Barriers for Demand Response Providing Ancillary Services in U.S. Electricity Markets.” Energy Policy 62 (March): 1031–39. https://doi. org/10.1016/j.enpol.2013.08.003. 207 [25] Čater, Tomaž, and Miran Kostanjevec. 2017. “Tržni potencial in trendi v panogi toplotnih črpalk za stanovanjsko gradnjo v Sloveniji.” AR. Arhitektura, Raziskave 18 (2): 6–17. http://www.dlib.si. [26] CEGC. 2021. “Central European Green Corridors.” 2021. https://www.cegc-project.eu/. [27] CIGRE WG C6.09. 2011. “Demand Side Integration.” CIGRÉ. [28] Conzelmann, Guenter, Gale Boyd, Vladimir Koritarov, and Tom Veselka. 2005. “Multi-Agent Power Market Simulation Using EMCAS.” In Power Engineering Society General Meeting, IEEE. https://doi.org/10.1109/PES.2005.1489271. [29] Darby, Sarah J, and Eoghan McKenna. 2012. “Social Implications of Residential Demand Response in Cool Temperate Climates.” Energy Policy 49 (March): 759–69. https://doi.org/10.1016/J.ENPOL.2012.07.026. [30] Daughety, Andrew F. 1989. “Cournot Oligopoly: Characterization and Applications.” The Economic Journal 99 (398): 1185–87. [31] Day, Christopher J, and Derek W Bunn. 2001. “Divestiture of Generation Assets in the Electricity Pool of England and Wales: A Computational Approach to Analyzing Market Power.” Journal of Regulatory Economics 19 (2). [32] Day, Christopher J, Benjamin F Hobbs, and Jong-Shi Pang. 2002. “Oligopolistic Competition in Power Networks: A Conjectured Supply Function Approach.” www.ucei.org. [33] Dütschke, Elisabeth, and Alexandra-Gwyn Paetz. 2013. “Dynamic Electricity Pricing— Which Programs Do Consumers Prefer?” Energy Policy 59 (March): 226–34. https:// doi.org/10.1016/J.ENPOL.2013.03.025. [34] Earle, Robert L. 2000. “Demand Elasticity in the California Power Exchange Day-Ahead Market.” The Electricity Journal 13 (8): 59–65. [35] ELES. 2019a. “NEDO Project.” 2019. https://www.eles.si/projekt-nedo. [36] ———. 2019b. “Pravila in pogoji za ponudnike storitev izravnave na izravnalnem trgu ELES.” https://www.eles.si/Portals/0/Novice/DOKUMENTI/Pogoji_OPS_cisto-pis_06022019_01.pdf. [37] Epexspot. 2016. “Trading on Epex Spot.” 2016. https://www.epexspot.com/document/34806/2016-03_EPEX. [38] European Commission. 2011. Regulation (EU) No 1227/2011 of the European Par-liament and of the Council on Wholesale Energy Market Integrity and Transparency. Official Journal of the European Union. https://eur-lex.europa.eu/legal-content/EN/ TXT/PDF/?uri=CELEX:32011R1227&from=EN. 208 [39] ———. 2013. “European Commission Guidance for the Design of Renewables Support Schemes.” 2013. http://ec.europa.eu/energy/sites/ener/files/com_2013_public_interven-tion_swd04_en.pdf. [40] ———. 2016. “Overview of Support Activities and Projects of the European Union on Energy Efficiency and Renewable Energy in the Heating and Cooling Sector.” https:// doi.org/10.2826/607102. [41] ———. 2017. Clean Energy for All Europeans. Vol. 14. European Commission, Di-rectorate-General for Energy. https://doi.org/10.2833/21366. [42] ———. 2020. “2050 Long-Term Strategy | Climate Action.” March 6, 2020. https:// ec.europa.eu/clima/policies/strategies/2050_en. [43] European Distribution System Operators for Smart Grids Network and information security (NIS). 2014. “Recommendations for Information Sharing and Risk Management.” 2014. [44] Fleten, Stein-Erik, Stein W Wallace, and William T Ziemba. 1997. “Portfolio Management in a Deregulated Hydropower Based Electricity Market.” Hydropower 97 (June): 197–204. [45] Frieden, Dorian, Andreas Tuerk, and Stanislas D’Herbmemont. 2019. “COMPILE Report on Energy Community Definitions.” [46] García Alcalde, Antonio, Mariano Ventosa Rodríguez, Michel Luis Rivier Abbad, Andrés Ramos Galán, and Gregorio Relaño Cobián. 2002. “Fitting Electricity Market Models. A Conjectural Variations Approach.” Sin editorial (Sevilla, Spain). [47] George, Stephen S, and Ahmad Faruqui. 2005. “California’s Statewide Pricing Pilot Overview of Key Findings.” In MADRI Advanced Metering Infrastructure Workshop. Boston. [48] Glowacki Law Firm. 2021. “Ancillary Services (Electricity Market).” European Union Electricity Market Glossary. 2021. https://www.emissions-euets.com/internal-electricity- -market-glossary/368-ancillary-services. [49] Goldman, Chuck, Nicole Hopper, Osman Sezgen, Mithra Moezzi, Ranjit Bharvirkar, Bernie Neenan, Donna Pratt, Peter Cappers, and Richard Boisvert. 2004. “Does Real- -Time Pricing Deliver Demand Response? A Case Study of Niagara Mohawk’s Large Customer RTP Tariff Environmental Energy Technologies Division.” Berkeley, CA. http://eetd.lbl.gov/ea/EMS/EMS_pubs.html. [50] Golob, Robert, Tomaž Štokelj, Dejan Paravan in Biljana Stojkovska. 2001. “Uporaba simulacijskega orodja za napovedovanje razmer na trgu električne energije.” Elektrotehniški vestnik 68 (5): 277–85. 209 [51] Green, Richard. 1996. “Increasing Competition in the British Electricity Spot Market.” The Journal of Industrial Economics 44 (2): 205–16. https://www.jstor.org/sta-ble/2950646?seq=1&cid=pdf-. [52] Green, Richard J., and David M. Newberry. 1992. “Competition in the British Electricity Spot Market.” Journal of Political Economy 100 (5): 929–53. [53] Gross, George, and David J. Finlay. 1996. “Optimal Bidding Strategies in Competitive Electricity Markets.” In 12th Power Systems Computation Conference. Dresden, Ger-many. [54] Gubina, Andrej, Tomi Medved, Andreas Tuerk, Blaž Prislan, Phuong H Nguyen, Andraž Žertek, and Mansoor Viyathukattuva Mohamed Ali M.M. 2015. “INCREASE D3.4: Optimal Coordinating Strategies to Harmonise Multi Services/Objectives.” http://www. project-increase.eu. [55] Gubina, Ferdinand. 2006. Delovanje elektroenergetskega sistema. Edited by Jože Voršič, Miloš Pantoš, Anton Ogorelec. Fakulteta za elektrotehniko, Univeza v Ljubljani. [56] Guo, M., Y. Liu, and J. Malec. 2004. “A New Q-Learning Algorithm Based on the Metropolis Criterion.” IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics) 34 (5): 2140–43. https://doi.org/10.1109/TSMCB.2004.832154. [57] Haque, M M, and Peter Wolfs. 2016. “A Review of High PV Penetrations in LV Distribution Networks: Present Status, Impacts and Mitigation Measures.” Renewable and Sustainable Energy Reviews 62 (March): 1195–1208. https://doi.org/10.1016/J. RSER.2016.04.025. [58] Hardin, Garrett. 1968. “The Tragedy of the Commons.” Science 162 (3859): 1243–48. https://doi.org/10.1126/science.162.3859.1243. [59] Harris, Chris. 2006. Electricity Markets: Pricing, Structures and Economics (The Wiley Finance Series). Wiley. [60] [60] Hashiyama, T, and S Okuma. 2002. “An Electricity Supplier Bidding Strategy through Q-Learning.” In IEEE Power Engineering Society Summer Meeting, 1516–21. IEEE. https://doi.org/10.1109/PESS.2002.1043645. [61] Hirth, Lion, and Samuel Glismann. 2018. “Congestion Management: From Physi-cs to Regulatory Instruments.” EconStor Direct. Kiel, Hamburg. http://hdl.handle. net/10419/189641. [62] Hobbs, Benjamin F, Michael H Rothkopf, Richard P O’Neill, and Hung-po Chao. 2006. The next Generation of Electric Power Unit Commitment Models. Vol. 36. Springer Science & Business Media. 210 [63] Holcombe, Randall G. 1997. “A Theory of the Theory of Public Goods.” Review OfAu-strian Economics 10 (1): 1–22. [64] Hunt, Sally. 2002. Making Competition Work in Electricity. Wiley. [65] Kaelbling, Leslie Pack, Michael L Littman, Andrew W Moore, and Smith Hall. 1996. “Reinforcement Learning: A Survey.” Journal of Artificial Intelligence Research 4: 237–85. [66] Kartal, Filiz. 2010. “Public Goods.” In Political and Civic Leadership: A Reference Han-dbook, edited by RA Couto, 153–61. Sage Publications. [67] Kirschen, Daniel, and Goran Strbac. 2004. Fundamentals of Power System Economics. John Wiley & Sons, Ltd. https://doi.org/10.1002/0470020598. [68] Kladnik, Blaž, Gašper Artač, Melita Hajdinjak in Andrej F. Gubina, “Večagentni model za agente odjemalce in agente proizvajalce na trgu električne energije, 1. Del – model”. 2015. Elektrotehniški vestnik 82(3) 102-110. [69] Kladnik Blaž, Andrej F. Gubina, Gašper Artač, Klemen Nagode, in Ivana Kockar, 2011. “Agent-Based Modelling of the Demand-Side Flexibility.” V 2011 IEEE PES General Meeting. [70] Kladnik, Blaz, Gasper Artač, and Andrej Gubina. 2012. “An Assessment of the Effects of Demand Response in Electricity Markets.” European Transactions on Electrical Power. https://doi.org/10.1002/etep. [71] Klemperer, Paul D, Margaret A Meyer, and Margaret A Meyer. 1989. “Supply Function Equilibria in Oligopoly under Uncertainty.” Econometrica 57 (6): 1243–77. [72] Knez, Tadej. 2018. “Analiza nizkonapetostnega distribucijskega omrežja z gospodinjskimi odjemalci individualne gradnje.” [73] Koritarov, Vladimir S. 2004. “Real-World Market Representation with Agents.” IEEE Power and Energy Magazine 2 (4): 39–46. [74] Kozan, Borut, Iztok Zlatar, Dejan Paravan, and Andrej F. Gubina. 2014. “The Advanced Bidding Strategy for Power Generators Based on Reinforcement Learning.” Energy Sources, Part B: Economics, Planning, and Policy 9 (1): 79–86. https://doi. org/10.1080/15567241003792358. [75] Kozan, Borut. 2011. “Adaptivni model za načrtovanje izgradnje elektrarn.” Univerza v Ljubljani. [76] Kozan, Borut, Dejan Paravan, Iztok Zlatar, and Andrej F Gubina. 2010. “Profit of Generation Companies in Post Kyoto Era.” In PSC 2010. Tehran, Iran: Niroo Research Institute. 211 [77] Kozan, Borut, Iztok Zlatar, Blaž Kladnik, Gašper Artač in Andrej Gubina. 2009. “Ocena energetskih načrtov z upoštevanjem izpustov CO v tržnih razmerah.” In Sloko CIGRE 2 2009, 1–6. Ljubljana: Slovensko društvo elektroenergetikov CIGRÉ – CIRED. [78] Kozan, Borut, Iztok Zlatar, Dejan Paravan, and Andrej F. Gubina. 2008. “Generation Expansion Planning: Influence of EU Emission Trading Scheme on Security of Supply Requirements.” In 7th Balkan Power Conference Proceedings. Šibenik. [79] Lane, D, A. Kroujiline, V Petrov, and G Sheble. 2000. “Electricity Market Power: Marginal Cost and Relative Capacity Effects.” In Proceedings of the 2000 Congress on Evolutionary Computation. CEC00 (Cat. No.00TH8512), 2:1048–55. Ieee. https://doi. org/10.1109/CEC.2000.870763. [80] Levy Associates. 2005. “Retail Rate Options for Small Customers.” http://sites.energeti-cs.com/madri/pdfs/levy_110305.pdf. [81] Long, Chao, Jianzhong Wu, Yue Zhou, and Nick Jenkins. 2018. “Peer-to-Peer Energy Sharing through a Two-Stage Aggregated Battery Control in a Community Microgrid.” Applied Energy 226 (March): 261–76. https://doi.org/10.1016/J.APENERGY.2018.05.097. [82] Ma, Ookie, Nasr Alkadi, Peter Cappers, Paul Denholm, Junqiao Dudley, Sasank Goli, Marissa Hummon, et al. 2013. “Demand Response for Ancillary Services.” IEEE Transactions on Smart Grid 4 (4): 1988–95. https://doi.org/10.1109/TSG.2013.2258049. [83] Macdonald, Jason, Peter Cappers, and Duncan Callaway. 2012. “Demand Response Providing Ancillary Services A Comparison of Opportunities and Challenges in the US Wholesale Markets.” [84] McArthur, Stephen D J, Euan M Davidson, Victoria M Catterson, Aris L Dimeas, Nikos D Hatziargyriou, Ferdinanda Ponci, and Toshihisa Funabashi. 2007. “Multi-Agent Systems for Power Engineering Applications—Part II: Technologies, Standards, and Tools for Building Multi-Agent Systems.” IEEE Transactions on Power Systems 22 (4): 1753–59. https://doi.org/10.1109/TPWRS.2007.908472. [85] Mengelkamp, E, P Staudt, J Gärttner, C Weinhardt, and J Huber. 2018. “Quantifying Factors for Participation in Local Electricity Markets.” In 2018 15th International Conference on the European Energy Market (EEM), 1–5. https://doi.org/10.1109/ EEM.2018.8469969. [86] Ministrstvo za infrastrukturo RS. 2020. Nacionalni energetski in podnebni načrt. https:// www.energetika-portal.si/dokumenti/strateski-razvojni-dokumenti/nacionalni-energetski-in-podnebni-nacrt/. 212 [87] Naghibi-Sistani, M. B., M. R. Akbarzadeh-Tootoonchi, M. H. Javidi-Dashte Bayaz, and H. Rajabi-Mashhadi. 2006. “Application of Q-Learning with Temperature Variation for Bidding Strategies in Market Based Power Systems.” Energy Conversion and Management 47 (11–12): 1529–38. https://doi.org/10.1016/j.enconman.2005.08.012. [88] Nan-Peng Yu, Chen-Ching Liu, and J. Price. 2010. “Evaluation of Market Rules Using a Multi-Agent System Method.” IEEE Transactions on Power Systems 25 (1): 470–79. https://doi.org/10.1109/TPWRS.2009.2030379. [89] Nicolaisen, J, V Petrov, and L Tesfatsion. 2001. “Market Power and Efficiency in a Computational Electricity Market with Discriminatory Double-Auction Pricing.” IEEE Transactions on Evolutionary Computation 5 (5): 504–23. https://doi. org/10.1109/4235.956714. [90] Nicolaisen, J, M Smith, V Petrov, and L Tesfatsion. 2000. “Concentration and Capacity Effects on Electricity Market Power.” Proceedings of the 2000 Congress on Evolutionary Computation. CEC00 (Cat. No.00TH8512) 2: 1041–47. https://doi.org/10.1109/ CEC.2000.870761. [91] Nilsson, Nils J. 2015. Introduction to Machine Learning: Drafts of a Proposed Textbook. Machine Learning. [92] Oh, HyungSeon, and Robert J Thomas. 2008. “Demand-Side Bidding Agents: Modelling and Simulation.” IEEE Transactions on Power Systems 23 (3): 1050–56. https://doi. org/10.1109/TPWRS.2008.922537. [93] Olek, Blazej, and Michal Wierzbowski. 2015. “Local Energy Balancing and Ancillary Services in Low-Voltage Networks with Distributed Generation, Energy Storage, and Active Loads.” IEEE Transactions on Industrial Electronics. https://doi.org/10.1109/ TIE.2014.2377134. [94] Ostrom, Elinor. 1990. Governing the Commons: The Evolution of Institutions for Col-lective Action. Cambridge University Press. http://www.cambridge.org. [95] Otero-Novas, I., C. Meseguer, C. Batlle, and J.J. Alba. 2000. “A Simulation Model for a Competitive Generation Market.” IEEE Transactions on Power Systems 15 (1): 250–56. https://doi.org/10.1109/59.852129. [96] Paravan, Dejan. 2004. “Srednjeročno obvladovanje tveganj proizvajalcev na trgu električ- ne energije.” Ljubljana: Univerza v Ljubljani, Fakultateta za elektrotehniko. [97] Park, Chankook, and Taeseok Yong. 2017. “Comparative Review and Discussion on P2P Electricity Trading.” Energy Procedia 128 (March): 3–9. https://doi.org/10.1016/J. EGYPRO.2017.09.003. 213 [98] Péan, Thibault Q, Joana Ortiz, and Jaume Salom. 2017. “Impact of Demand-Side Management on Thermal Comfort and Energy Costs in a Residential NZEB.” Buildings 7 (2): 1–19. https://doi.org/10.3390/buildings7020037. [99] Pereira. M.V. 2001. “Methods and Tools for Contracts in a Competitive Framework.” [100] Perloff, Jeffrey M. 2008. Microeconomics. 5th ed. Addison Wesley. [101] Plaper, Marjan, Vera Oman in Franjo Lavrih. 1967. Električni izračun razdelilnih omre- žij. Elektrotehniška zveza Slovenije. [102] Praca, I, Carlos Ramos, Zita Vale, and M Cordeiro. 2003. “Mascem: A Multiagent System That Simulates Competitive Electricity Markets.” IEEE Intelligent Systems, 54–60. [103] Rahimiyan, Morteza, and Habib Rajabi Mashhadi. 2010. “An Adaptive Q-Learning Algorithm Developed Foragent-Based Computational Modelling of Electricity Market.” IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews 40 (5): 547–56. https://doi.org/10.1109/TSMCC.2010.2044174. [104] Rahimiyan, Morteza, and Habib Rajabi Mashhadi. 2008. “Supplier’s Optimal Bidding Strategy in Electricity Pay-as-Bid Auction: Comparison of the Q-Learning and a Model-Based Approach.” Electric Power Systems Research 78 (1): 165–75. https://doi. org/10.1016/j.epsr.2007.01.009. [105] Rajšl, Ivan, Slavko Krajcar, and Matej Krpan. 2007. “Application of Multi-Agent Systems in Electricity Market Simulators.” Journal of Energy: Energija 56 (6): 642–75. [106] Renewable Energy Hamburg. 2022. “NEW 4.0 – Norddeutsche Energiewende.” 2022. https://www.erneuerbare-energien-hamburg.de/en/projects/new-4-0.html. [107] Ringler, Philipp, Dogan Keles, and Wolf Fichtner. 2016. “Agent-Based Modelling and Simulation of Smart Electricity Grids and Markets - A Literature Review.” Renewable and Sustainable Energy Reviews. https://doi.org/10.1016/j.rser.2015.12.169. [108] Schisler, K, T Sick, and K Brief. 2008. “The Role of Demand Response in Ancillary Services Markets.” In Transmission and Distribution Exposition Conference: 2008 IEEE PES Powering Toward the Future, PIMS 2008. https://doi.org/10.1109/ TDC.2008.4517087. [109] Shen, Zhiqi, Robert Gay, and Xuehong Tao. 2003. “GOAL-BASED INTELLIGENT AGENTS.” International Journal of Information Technology 9 (1): 19–30. 214 [110] Soder, L, H Abildgaard, A Estanqueiro, C Hamon, H Holttinen, E Lannoye, E Gomez-Lazaro, M O’Malley, and U Zimmermann. 2012. “Experience and Challenges with Short-Term Balancing in European Systems With Large Share of Wind Power.” IEEE Transactions on Sustainable Energy 3 (4): 853–61. https://doi.org/10.1109/ TSTE.2012.2208483. [111] Soroudi, Author, Alireza Soroudi, and Turaj Amraee. 2013. “Title Decision Making under Uncertainty in Energy Systems: State of the Art Decision Making under Uncertainty in Energy Systems: State of the Art.” Renewable and Sustainable Energy Reviews 28. https://doi.org/10.1016/j.rser.2013.08.039. [112] Stoft, Steven. 2002. Power System Economics: Designing Markets for Electricity. Wiley-Blackwell. [113] Štokelj, Tomaž. 2001. “Kratkoročno načrtovanje obratovanja hidroelektrarn v deregulira-nem elektroenergetskem sistemu.” Ljubljana. [114] Stone, Peter, and Manuela Veloso. 2000. “Multiagent Systems: A Survey from a Machine Learning Perspective.” Autonomous Robots 8: 345–83. [115] Sueyoshi, T, and G Tadiparthi. 2008. “An Agent-Based Decision Support System for Wholesale Electricity Market.” Decision Support Systems 44 (2): 425–46. https://doi. org/10.1016/j.dss.2007.05.007. [116] Sutton, Richard S, and Andrew G Barto. 1998. “Introduction to Reinforcement Learning.” MIT Press Cambridge 135. [117] Tellidou, Athina C, and Anastasios G Bakirtzis. 2007. “Agent-Based Analysis of Capacity Withholding and Tacit Collusion in Electricity Markets.” IEEE Transactions on Power Systems 22 (4): 1735–42. https://doi.org/10.1109/TPWRS.2007.907533. [118] The Brattle Group, Freeman Sullivan & Co, and Global Energy Partners. 2009. A National Assessment of Demand Response Potential. FERC. https://doi.org/10.1017/ CBO9781107415324.004. [119] Thimmapuram, Prakash R, Jinho Kim, Audun Botterud, and Youngwoo Nam. 2010. “Modelling and Simulation of Price Elasticity of Demand Using an Agent-Based Model.” 2010 Innovative Smart Grid Technologies (ISGT), March, 1–8. https://doi. org/10.1109/ISGT.2010.5434739. [120] Torriti, Jacopo. 2012. “Demand Side Management for the European Supergrid: Oc-cupancy Variances of European Single-Person Households.” Energy Policy. https://doi. org/10.1016/j.enpol.2012.01.039. [121] USEF Energy. 2021. “Universal Smart Energy Framework.” 2021. https://www.usef. energy/. 215 [122] Varian, H R. 1992. Microeconomic Analysis. Third Edit. W. W. Norton & Company. https://www.academia.edu/21736090/Economics_-_Microeconomic_Analysis_-_Hal_ Varian_-_3rd_1992. [123] Vassilopoulos, Philippe. 2003. “Models for the Identification of Market Power in Wholesale Electricity Markets.” [124] Ventosa, Mariano, Álvaro Baíllo, Andrés Ramos, and Michel Rivier. 2005. “Electricity Market Modelling Trends.” Energy Policy 33 (7): 897–913. https://doi.org/10.1016/j. enpol.2003.10.013. [125] Vives, Xavier. 1999. Oligopoly Pricing: Old Ideas and New Tools. MIT press. [126] Vlada RS. 2015. Uredba o samooskrbi z električno energijo iz obnovljivih virov energije. Vol. 97. Vlada RS. https://www.uradni-list.si/glasilo-uradni-list-rs/vsebina/ 2019-01-0700?sop=2019-01-0700. [127] ———. 2017. Strategija na področju razvoja trga za vzpostavitev ustrezne infrastrukture v zvezi z alternativnimi gorivi v prometnem sektorju v Republiki Sloveniji. Vlada RS. https://www.energetika-portal.si//dokumenti/strateski-razvojni-dokumenti/strategija- -za-alternativna-goriva/. [128] ———. 2019. Uredba o samooskrbi z električno energijo iz obnovljivih virov energije. 17. Vlada RS. [129] Wang, D, S Parkinson, W Miao, H Jia, C Crawford, and N Djilali. 2012. “Online Voltage Security Assessment Considering Comfort-Constrained Demand Response Control of Distributed Heat Pump Systems.” Applied Energy 96: 104–14. https://doi. org/10.1016/j.apenergy.2011.12.005. [130] Wang, Gang, Georgios B Giannakis, Jie Chen, and Jian Sun. 2019. “Distribution System State Estimation: An Overview of Recent Developments.” Frontiers of Information Technology and Electronic Engineering 20 (1): 4–17. https://doi.org/10.1631/FI-TEE.1800590. [131] Wang, Jianhui. 2009. “Conjectural Variation-Based Bidding Strategies with Q-Learning in Electricity Markets.” In 2009 42nd Hawaii International Conference on System Sciences, 1–10. IEEE. https://doi.org/10.1109/HICSS.2009.128. [132] Watkins, C.J.C.H., and Peter Dayan. 1992. “Technical Note, Q-Learning.” Machine Learning 8: 279–92. https://doi.org/10.1023/A:1022676722315. [133] Weidlich, Anke, and Daniel Veit. 2008. “A Critical Survey of Agent-Based Wholesale Electricity Market Models.” Energy Economics 30 (4): 1728–59. https://doi. org/10.1016/j.eneco.2008.01.003. 216 [134] Zhang, Yichen, Alexander Melin, Mohammed Olama, Seddik Djouadi, Jin Dong, and Kevin Tomsovic. 2018. “Battery Energy Storage Scheduling for Optimal Load Variance Minimization.” [135] Zimmerman, Ray D, Robert J Thomas, Deqiang Gan, and Carlos Murillo-Sánchez. 1999. “A Web-Based Platform for Experimental Investigation of Electric Power Auctions.” Decision Support Systems 24 (3–4): 193–205. https://doi.org/10.1016/S0167-9236(98)00083-9. [136] Zlatar, Iztok, Blaž Kladnik, Robert Golob in Andrej F Gubina. 2009. “Vodenje porabe in njena elastičnost na trgu z električno energijo.” Elektrotehniški vestnik 76 (3): 154–60. [137] Zupančič, Jernej., Edin Lakić, Tomi Medved, and Andrej F. Gubina. 2017. “Advanced Peak Shaving Control Strategies for Battery Storage Operation in Low V Voltage Distribution Network.” In IEEE Manchester PowerTech, 1–6. 217 218 Document Outline 1 Uvod 1.1 Modeliranje in modeli 1.2 Agentno modeliranje 1.3 Prednosti agentnega modeliranja 1.3.1 AM za porajajoče se pojave 1.3.2 AM in naraven opis sistema 1.3.3 Prilagodljivost AM 1.3.4 Področja uporabe 1.4 Težave z AM 2 Trendi v energetiki 2.1 UvoD 2.2 Dekarbonizacija proizvodnje električne energije 2.2.1 Samooskrba 2.2.2 Elektrifikacija ogrevanja in hlajenja 2.2.3 Elektrifikacija transporta 2.3 Načrtovanje distribucijskih omrežij 2.3.1 Faktor istočasnosti 2.3.2 Faktor prekrivanja 2.3.3 Omejitve prenosnih zmogljivosti 2.3.4 Energetske skupnosti 3 Trg z električno energijo 3.1 UVOD 3.1.1 Splošno o elektroenergetskem trgu 3.1.2 Ponudbe proizvajalcev 3.1.3 Povpraševanje odjemalcev 3.1.4 Iskanje tržnega ravnovesja 3.2 Trgi z električno energijo 3.3 Elastičnost odjema 3.3.1 Izvajanje ukrepov DSM in elastičnost odjema 3.3.2 Oblikovanje povpraševanja pri elastičnem in neelastičnem odjemu 3.4 Prožnost 3.5 Lokalni trgi 4 Modeliranje trga z električno energijo 4.1 Uvod 4.2 Optimizacijski modeli 4.2.1 Privzeta cena električne energije 4.2.2 Cena električne energije kot funkcija odločanja podjetja 4.3 Ravnotežnostni modeli 4.3.1 Cournotova konkurenca 4.3.2 Ponudbe ravnotežnostne krivulje 4.4 Simulacijski modeli 4.4.1 Simulacijski ravnotežnostni modeli 4.4.2 Agentni modeli 5 Inteligentni agenti 5.1 Uvod 5.2 Agentno modeliranje 5.2.1 Agent in okolje 5.2.2 Lastnosti in zgradba agentov 5.2.3 Večagentni sistemi 5.3 Agentna orodja na elektroenergetskem trgu 6Učenje agentov 6.1 Uvod 6.2 Okrepljeno učenje 6.3 Učenje z uteženim povprečjem 6.4 Q-učenje 6.5 SA-Q učenje in njegovo izboljšanje 6.5.1 Raziskovanje ali izraba znanja 6.5.2 Izboljšava SA-Q učenja 6.6 Posplošeno Q-učenje 7 Vloge agentov na elektroenergetskem trgu 7.1 Proizvajalec 7.1.1 Uvod 7.1.2 Ponudbene krivulje pri agentih proizvajalcih 7.2 Odjemalec 7.3 Agregator in dobavitelj 7.4 Organizator trga 7.5 Ostale vrste agentov 7.5.1 Informator 7.5.2 Trgovec 7.5.3 Regulator trga 7.5.4 Sistemski operater prenosnega in distribucijskega omrežja 8Proizvajalec 8.1 Uvod 8.2 Učenje z uteženim povprečjem 8.2.1 Predstavitev 8.2.2 Primer učenja z uteženim povprečjem 8.3 SA-Q učenje 8.3.1 Predstavitev 8.3.2 Zgradba agenta 8.4 Ostali simulacijski parametri 8.4.1 Definicija Q-matrike 8.4.2 Vrednost spremenljivk pri SA-Q učenju 8.5 Primerjava učinkovitosti učenja 8.5.1 Uvod 8.5.2 Model z uteženim povprečjem 8.5.3 Primerjava tržne cene in dobička elektrarn 8.5.4 SA-Q učenje 8.5.5 SA-Q učenje v večjem sistemu 8.5.6 Primerjava učenja z uteženim povprečjem, SA-Q In SA-QI učenja 9 Odjemalec/dobavitelj 9.1 Uvod 9.2 Adaptivni agentni model 9.2.1 Enoagentni sistem 9.2.2 Večagentni sistem 9.2.3 Merjenje uspešnosti agentov odjemalcev 9.3 Zgradba agenta odjemalca 9.3.1 Stanja agenta odjemalca 9.3.2 Ukrepi agenta odjemalca 9.3.3 Iskalna tabela agenta odjemalca 9.3.4 Nagrada agenta odjemalca 9.3.5 SA-Q učenje agenta odjemalca 9.3.6 Normalizacija in denormalizacija parametrov 9.3.7 Diagram poteka za agenta odjemalca 9.4 Primer delovanja agenta odjemalca 9.4.1 Diagram poteka za heterogeni agentni sistem odjemalcev in proizvajalcev 10 Agregator 10.1 Uvod 10.2 Hierarhično vodenje distribucijskega sistema 10.3 Sistem semaforja (TLS) 10.3.1 Uvod 10.3.2 Enostavni TLS sistem 10.3.3 Napredni TLS sistem 10.3.4 Inteligentni sistem TLS 10.4 Vodenje agregatorjevega portfelja prožnosti 10.4.1 Uvod 10.4.2 Načrtovanje voznih redov PE glede na trg za dan vnaprej (DA) 10.4.3 Preverjanje voznih redov in aktivacije prožnih enot 10.4.4 Načrtovanje voznih redov PE glede na trg znotraj dneva in izravnalni trg 10.5 Algoritmi za vodenje prožnih enot 10.5.1 Ekonomska optimizacija 10.5.2 Energijska optimizacija 10.6 Izbira optimizacijskega kriterija 10.7 Izbira učnega algoritma agenta AO 10.8 Posplošeno Q-učenje (PQL) 10.8.1 Uvod 10.8.2 Uporaba PQL 10.8.3 Predpostavke 10.9 Učenje agenta s posplošenim Q-učenjem 10.10 Simulacijsko okolje 10.10.1 Testni sistem 10.10.2 Rezultati ekonomske in energijske optimizacije 10.10.3 Zelena premija 10.11 Rezultati posplošenega Q-učenja 10.12 Dvostopenjsko posplošeno Q-učenje 10.12.1 Izbira najboljše poti do konca dneva 10.12.2 Logistična regresija 10.12.3 Rezultati dvostopenjskega učenja agenta 10.12.4 Rezultati dvostopenjskega učenja agenta 10.12.5 Nadaljnji razvoj dvostopenjskega PQL učenja