35 
 
Napovedovanje vremena s konvolucijskimi  
nevronskimi mrežami 
 
Uroš Perkan
1
, Gregor Skok
1
, Žiga Zaplotnik
2,1 
 
Povzetek 
 
Moderno napovedovanje vremena temelji na numeričnih vremenskih modelih, ki časovno evolucijo 
atmosferskih polj izračunajo na podlagi osnovnih fizikalnih zakonov. V pričujočem članku opišemo 
model strojnega učenja za globalno srednjeročno napovedovanje vremena ConvCastNet, ki smo ga 
razvili v okviru magistrske naloge. ConvCastNet temelji na konvolucijskih nevronskih mrežah in 
napoved izvaja na 3-stopinjski ekviangularni prostorski mreži za 10 atmosferskih, morskih in 
kopenskih spremenljivk. 
ConvCastNet se napovedovanja nauči tako, da pri učenju upošteva cenilko (t. i. funkcijo izgube), ki 
meri razliko med kratkoročno napovedjo in istočasnim približkom resničnega stanja ozracja, ki ga 
določimo iz rekonstrukcij preteklega vremena, t. i. reanaliz, ERA5. V model implementiramo nov 
način obravnave robov atmosferskih polj in polj latentnih značilk, tako da je upoštevana Zemljina 
sferična geometrija. Začetni pogoj za modelsko napoved so polja reanaliz, napoved pa izvedemo z 
avto regresivnim korakanjem s časovnim korakom 1 dan. ConvCastNet napoveduje dnevno 
povprečje atmosferskih spremenljivk.  
Vremenska napoved z modelom ConvCastNet omogoča natančno napovedovanje razvoja 
sinoptičnih vremenskih valov. Pri napovedovanju polja geopotenciala na 500 hPa ploskvi 
ConvCastNet tako doseže 7,8 dni z vrednostjo koeficienta korelacij anomalij (ACC) večjo od 0,6, s 
čimer se pri tej metriki približa rezultatom najnovejših modelov strojnega učenja in fizikalnemu 
determinističnemu visokoresolucijskemu modelu (HRES) Evropskega centra za srednjeročne 
vremenske napovedi (ECMWF).  
Model ConvCastNet lahko več dni vnaprej uspešno napove položaje sinoptičnih valov in baričnih 
tvorb ter uspešno sledi trajektorijam tropskih ciklonov. Zaradi nizke ločljivosti in dnevnega 
povprečenja atmosferskih polj pa ni sposoben izvedbe koristne napovedi intenzitete tropskih 
ciklonov, lokalnih ekstremnih padavinskih dogodkov in ostalih lokalnih vremenskih ekstremov. 
Analiza porazdelitve napak modela v letu 2022 pokaže, da je absolutna napaka vremenskih napovedi 
največja na baroklinih območjih v visokih geografskih širinah, normiranje napake z naravno 
variablinostjo vremena pa pokaže, da te glede na tipično hitrost spreminjanja vremena najhitreje 
naraščajo v tropih. 
 
Ključne besede: strojno učenje, napovedovanje vremena, konvolucijska nevronska mreža, 
konvolucijskih kodirnik, povprečna kvadratna napaka, koeficient korelacij anomalij, 
tropski ciklon, absolutna napaka 
 
Keywords: machine learnig, weather forecasting, convolutional neural network, 
convolutional encoder-decoder, root mean squared error, anomaly correlation coefficient, 
tropical cyclones, absolute error 
 
 
Uvod 
 
Vremenske razmere vplivajo na kopico različnih človekovih dejavnosti, ki neposredno 
ali posredno vplivajo na blagostanje človeške civilizacije. Neugodne vremenske razmere 
lahko otežijo kmetovanje, onemogočijo uspešno pridelavo hrane, povzročijo težave v 
                                                 
1
 Univerza v Ljubljani, Fakulteta za matematiko in fiziko, Jadranska ulica 19, Ljubljana 
2
 Evropski center za srednjeročne vremenske napovedi, Robert-Schuman-Platz 3, Bonn, Nemčija 
36 
 
prometu in pridobivanju električne energije, v najslabšem primeru pa povzročijo tudi izgubo 
premoženja in človeške žrtve. Zaradi njihovega izrazitega vpliva na blagostanje prebivalstva 
napovedovanje vremena predstavlja enega izmed ključnih virov za priprave na neugodne 
vremenske dogodke in preprečitev njihovih negativnih posledic.  
Zasnove modernega napovedovanja vremena segajo v začetek 20. stoletja, ko je L. F. 
Richardson pokazal, da lahko sistem parcialnih diferencialnih enačb, ki opisujejo atmosfero 
(gibalne enačbe, kontinuitetna enačba, termodinamska enačba in plinska enačba) 
diskretiziramo in rešujemo na mreži točk (Richardson & Lynch, 1922). Prvo numerično 
vremensko napoved je približno tri desetletja kasneje izvedel J. G. Charney (Charney et al., 
1950), od takrat pa je s hitrim napredkom v računski zmogljivosti superračunalnikov, 
izpopolnjevanjem numeričnih shem, izboljšavo algoritmov za pridobivanje kakovostnega 
približka začetnega stanja ozračja (t. i. začetni pogoj) in večanjem števila in kakovosti 
meritev vremenska napoved numeričnih vremenskih modelov dosegla velik napredek v 
natančnosti na kratkoročnih, srednjeročnih, sezonskih in klimatoloških časovnih skalah 
(Bauer, 2015). 
Dinamika atmosfere je zaradi nelinearnih členov v prognostičnih parcialnih 
diferencialnih enačbah kaotična, zato je kakovost vremenske napovedi omejena z velikostjo 
napake v začetem pogoju. Poleg tega napako dodatno večajo izbira numerične metode, 
parametrizacija podmrežnih procesov in netočnost robnih pogojev. Z nadomestitvijo 
fizikalnih modelov s statističnimi metodami se pri napovedovanju vremena znebimo potrebe 
po obravnavi raznoraznih parametrizacij, ki so v fizikalnih modelih dodane, kjer neposredna 
simulacija procesov ni mogoča (Rasp et al., 2018). Modeli strojnega učenja se lahko povezav 
med atmosferskimi spremenljivkami in napoved nadaljnjega razvoja vremena učijo na 
podlagi podatkov o stanju vremena v preteklosti. Tako se znebimo potrebe po izvajanju 
aproksimacij v fizikalnih enačbah in model napovedovanja učimo tako, da minimizira 
napako med napovedanim stanjem atmosfere in dejanskim stanjem atmosfere, pridobljenim 
v procesu asimilacije meritev (npr. Courtier et al., 1994). 
Preizkušenih je bilo že veliko različnih arhitektur nevronskih mrež. Dueben in Bauer, 
2018 sta uporabila preprosto gosto povezano nevronsko mrezo, Weyn et al., 2019 in Weyn 
et al., 2021 pa so uporabili konvolucijske nevronske mreže (CNN) in z njimi zgradili 
konvolucijski kodirnik, imenovan DLWP (angl. Deep Learning Weather Prediction). 
Pokazali so, da je DLWP stabilen in sposoben izvedbe daljših vremenskih napovedih. Izvedli 
so tako deterministično vremensko napoved, kjer se za vsako lokacijo napove le po eno 
vrednost vsake izmed modelskih spremenljivk, kot ansambelsko vremensko napoved, kjer 
se za vsako lokacijo napove verjetnostno porazdelitev vrednosti vsake izmed spremenljivk. 
Pri slednji so uporabili podatke 10 perturbiranih začetnih pogojev iz reanalize ERA5 
(Hersbach et al., 2020) in 32 različno naučenih modelov ter tako dosegli 320 članov 
ansambla. Ansambelska napoved DLWP je hitra in energijsko učinkovita, vendar po 
kakovosti ne premaga ansambelske napovedi Evropskega centra za srednjeročne vremenske 
napovedi (ECMWF).  
Dobre rezultate so pokazali modeli osnovani na grafovskih nevronskih mrežah (GNN) 
(npr. Keisler, 2022; Lam et al., 2023; Rabier, 2023). Te delujejo na podatkih, ki so 
predstavljeni v obliki grafov, torej vsebujejo vozlišča in vmesne povezave. Vsako vozlišče 
vsebuje svoje podatke, npr. temperaturo, tlak, geopotencial itd., na različnih vertikalnih 
nivojih. Podakte najprej iz ekviangularne mreže preslikajo v t. i. R-krat zgoščeno 
ikozaedrično mrežo, v kateri so točke enakomerno porazdeljene po sferi. Nato izvedejo 
iterativno posodabljanje skritih stanj v vozliščih, na koncu pa skrita stanja dekodirajo nazaj 
na ekviangularno mrežo in s tem izvedejo en korak napovedi. 
Poleg omenjenih CNN in GNN, so bile za napovedovanje preizkušene tudi različne oblike 
t. i. vision transformer nevronskih mrež (npr. Pathak et al., 2022; Bi et al. 2023; Chen et al. 
37 
 
2023), nevronski operator SFNO (angl. Spherical Fourier Neural Operators) (Bonev, 2023) 
in kombinacija reševanja fizikalnih enačb z matematično diskretizacijo dinamičnega jedra 
in aproksimacijo ostalih fizikalnih procesov z nevronsko mrežo (Kochkov et al., 2023). 
Vision transformerji napoved izvajajo s t. i. mehanizmom pozornosti (angl. attention-
mechanism), SFNO pa z nevronskim operatorjem, ki vrednosti uteži določa z upoštevanjem 
sferične geometrije v Fourierovem prostoru. Vsi omenjeni pristopi na podlagi površinsko 
uteženih metrik korena povprečne kvadratne napake (angl. root mean squared error) 
(RMSE) in koeficienta korelacij anomalij (angl. anomaly correlation coefficient) (ACC) 
dosegajo podobno kakovost vremenske napovedi kot ECMWF-jev fizikalni 
visokoresolucijski deterministični model (HRES).  
 
Dosedanje raziskave so pokazale, da so napovedi nekaterih nevronskih mrež lahko bolje 
korelirane z dejanskim razvojem vremena in imajo manjšo povprečno napako kot napoved 
HRES (npr. Lam et al. 2023; Rabier, 2023; Kochkov et al., 2023). Po drugi strani imajo za 
razliko od HRES vsi omenjeni pristopi težave s spektralnim glajenjem napovednih polj 
(Rasp et al. 2023; Bonavita 2023). Posledično modeli strojnega učenja trenutno niso 
sposobni napovedovanja lokalnih ekstremnih padavinskih, vetrovnih in ostalih dogodkov na 
majhnih prostorskih skalah, hkrati pa množice njihovih napovedi ne moremo združevati v 
zanesljiv ansambel, ki bi zagotovil ustrezno oceno verjetnosti ekstremnih dogodkov. 
    V tem članku povzamemo glavne ugotovitve iz raziskovalne magistrske naloge, ki jo 
je pripravil Uroš Perkan (Perkan et al., 2023) in rezultate primerjamo z rezultati drugih 
raziskav na področju globalnega srednjeročnega napovedovanja vremena.  
 
 
Model ConvCastNet 
 
Model ConvCastNet (angl. Convolutional Forecasting Network) temelji na 
konvolucijskih nevronskih mrežah. Za razumevanje njegovega delovanja si v tem poglavju 
najprej ogledamo teorijo konvolucijskih nevronskih mrež, nato pa opišemo proces učenja in 
arhitekturo modela ConvCastNet. 
 
Konvolucijske nevronske mreže 
 
Izrek o neobstoju brezplačnega kosila (angl. no free lunch theorem) pravi, da nobena 
statistična metoda ni superiorna ostalim na vseh podatkovnih množicah (Wolpert & 
Macready, 1997). Posledično je izbira metode odvisna od podatkovne množice S oz. bolj 
natančno od lastnosti njenih vhodnih in ciljnih spremenljivk. Izbira tipa nevronske mreže 
sloni na pričakovani kakovosti in fleksibilnosti arhitekture ter na računski zmogljivosti 
strojne opreme, ki jo imamo na voljo. Sami smo konvolucijske nevronske mreže izbrali 
zaradi njihovih sposobnosti prepoznavanja vzorcev v atmosferskih poljih in sicer tako 
lokalnih značilnosti vremena na majhnih prostorskih skalah, kot globalnih povezav (t. i. 
telekonekcij), ki jih lahko prepozna v globljih plasteh nevronske mreže. Konvolucijske 
nevronske mreže imajo tudi sposobnost aproksimacije diferencialnih operatorjev, npr. 2D-
Laplaceovega operatorja. Poleg tega smo imeli za učenje modela na voljo eno NVIDIA 
GeForce RTX 3090 grafično kartico, zato so bili iz izbire izvzeti vision transformerji, saj ti 
zahtevajo več velikostnih redov večjo računsko zmogljivost.  
    Konvolucijske nevronske mreže delujejo na podatkih v obliki tenzorjev z dimenzijami 
(C, H, W), kjer je (H, W) matrika z dimenzijama višine H in širne W, C pa je število kanalov 
(tj. število slojev matrik v tenzorju). V modelu ConvCastNet uporabljamo 3-stopinjsko 
ločljivost, zato je matrika atmosferskih polj oblike (60, 120), na vhodu pa uporabljamo 
38 
 
skupno C=27 različnih polj, saj so podatki predstavljeni na več višinskih nivojih. Delovanje 
konvolucijske nevronske mreže za napovedovanje vremena razložimo s pomočjo slike 1. 
Prikazan je konvolucijski kodirnik (angl. convolutional encoder-decoder), v katerem vhodne 
plasti najprej kodiramo v nižje dimenzionalne skrite plasti, nato pa dekodiramo nazaj na 
velikost vhodne plasti. 
 
Slika 1: Prikazana je shema konvolucijske nevronske mreže v obliki konvolucijskega 
kodirnika. Velikost izhodne plasti je v tem primeru enaka vhodni, vmesne, skrite plasti pa 
so obličajno manjše. Povezave med plastmi so lahko operatorji konvolucije, združevanja 
maksimalnih vrednosti ali operatorji, ki povečujejo ločljivost plasti.  
 
Stanje nevrona v l-ti plasti  
( )
 iz izhodov plasti l-1  
(    )
 izračunamo kot (Goodfellow et 
al., 2016): 
  
 , , 
( )
=  
  
( )
+ ∑ ∑ ∑  
 , ,  , 
( )
 
 ,        ,         
(    )  
 
     
 
 
     
,
 
    
   (1) 
kjer je  
  
( )
predsodek i-tega izhodnega kanala,  
 ,        ,         
(    )
vrednost vhodnega tenzorja 
na položaju c-tega kanala, na višini j+m-1 in širini k+n-1,  
  , ,  , 
( )
 pa vrednost 4D tenzorja 
uteži na (m,n)-tem položaju konvolucijskega jedra velikosti  
 
 ×  
 
, ki povezuje i-ti kanal 
izhodne plasti s c-tim kanalom vhodne plasti. Izhod nevrona   iz njegovega stanja   
izračunamo kot  
 , , 
( )
=   ( 
 , , 
( )
), kjer smo z   označili nelinearno aktivacijsko funkcijo. V 
našem primeru je   ( ) =            ( ) =  
  ;   > 0
   ;   ≤ 0
 , kjer je   = 0.01. Ta v 
nevronske mreže vpelje nelinearnost, zaradi katere se močno poveča njena sposobnost 
reprezentacije zapletenih nelinearnih funkcij.  Stanja nevronov l-te plasti izračunamo tako, 
da po tenzorju izhodov nevronov l-1 plasti v horizontalnih smereh s poljubnim korakom 
premikamo konvolucijsko jedro velikosti (C,  
 
,  
 
) (na sliki 1 shematsko prikazano s svetlo 
modrim kvadrom) in na vsakem položaju pomnožimo komponente uteži in istoležne izhode 
nevronov (t. i. operacija navzkrižne korelacije oz. v literaturi globokega učenja zaradi velike 
podobnosti pogosto imenovana konvolucija) ter tako dobimo vrednosti značilk v enem 
kanalu l-te plasti. Uteži so med premikanjem po tenzorju konstantne. Za vsako izhodno plast 
uporabimo svoj nabor uteži, ki lahko v vhodnih poljih prepoznavajo druge vzorce.  
Poleg konvolucijskega lahko uporabljamo tudi operator združevanja maksimalnih 
vrednosti (angl. max pooling). Ta matriko nevronov agregira tako, da podmatrike oz. jedra 
sosednjih nevronov velikosti   ×   združi v eno število, tako da izbere maksimalno 
vrednost med stanji nevronov znotraj jedra. Na ta način zmanjša število nevronov v naslednji 
plasti in nevronska mreža se je primorana učiti posploševanja vzorcev, ki jih dobi na vhodu 
nevronske mreže. Na sliki 1 vidimo, da je možno dimenzije plasti nevronov tudi povečevati. 
To storimo z operatorjem transponirane konvolucije, ki deluje podobno kot običajna 
konvolucija, saj se spremeni samo pomen parametra korakanja. Ta ne predstavlja več 
velikosti koraka horizontalnega premika jedra, ampak število dodanih ničel med stanja 
posameznih nevronov v vhodni plasti. Transponirana konvolucija poskrbi za ustrezno 
39 
 
velikost obleganja vhodnega tenzorja značilk (tj. dodajanja novih stolpcev in vrstic na 
robovih tenzorja), tako da postane izhodna plast večja od vhodne. 
 
 
Gradientni spust 
 
Vrednosti uteži modela želimo nastaviti tako, da minimizirajo napako napovedi. Napaka 
modela je funkcija uteži nevronske mreže   (  ), kjer je   vektor vseh uteži. Izračunamo jo 
s pomočjo poljubne odvedljive funkcije  , za katero velja   =  ( , ŷ) ≥ 0 ∀  , ŷ in L = 0, 
ko y = ŷ. Pri tem smo z y označili ciljno oz. resnično vrednost, ki jo želimo dobiti kot izhod 
nevronske mreže, z ŷ pa napoved nevronske mreže. Takšni funkciji rečemo funkcija izgube 
(angl. loss function). Napaka je povprečna vrednost funkcije izgube na podatkovni množici 
S: 
  = 
1
| |
   
 
  ∈ 
, 
pri čemer | | označuje število primerov v podatkovni množici,   ∈   označuje posamezne 
primere iz   in  
 
 označuje vrednost funkcije izgube na primeru  . Pogosto izbrana 
funkcija izgube pri regresijskih modelih, tj. modelih, katerih zaloga vrednosti je kontinuum 
realnih števil, je vsota kvadratov razlik med modelsko napovedjo ŷ in resnično vrednostjo 
y (MSE). V nekoliko modificirani obliki jo za lepši zapis njenega odvoda zapišemo kot  
  = 
1
2
   (ŷ
 
−  
 
)
 
 
. 
V splošnem velja, da v primeru 
  
  
> 0 z večanjem uteži w večamo tudi napako E, v 
primeru 
  
  
< 0 pa z večanjem w napako manjšamo. Uteži zato popravlajmo po enačbi 
 
    
 =  
 
−    
 
  ( 
 
), 
 
kjer je  
    
 vektor posodobljenih uteži,  
 
 vektor uteži pred posodobitvijo,   > 0 
parameter stopnje učenja (angl. learning rate),  
 
  ( 
 
)    vektor odvodov funkcije 
napake po vseh utežeh. Takšno posodabljanje uteži zagotavlja, da se bo napaka na učni 
množici manjšala.  
Če se uteži posodabljajo tako, da sledijo smeri največjega gradienta funkcije napake, 
izračunanega na celotni podatkovni množici, temu algoritmu pravimo gradientni spust. Za 
učenje modela ConvCastNet uporabimo optimizrano različico algoritma gradientnega 
spusta, imenovano Adam (Kingma & Ba, 2017). Ta poleg gradientov pri posodabljanju uteži 
upošteva tudi njihov prvi in drugi moment. Poleg tega med učenjem spreminjamo tudi 
velikost parametra stopnje učenja. V ta namen uporabimo načrtovanje stopnje učenja 
ReduceLROnPlateau (ReduceLROnPlateau, 2023) ki deluje tako, da spremlja spremembe 
funkcije izgube in se za spremembe stopnje učenja odloča na podlagi števila epoh, tj. števila 
iteracij skozi vso učno množico, v katerih se napoved modela ni izboljšala. Določiti mu 
moramo mero potrpežljivosti (angl. patience) in faktor zmanjšanja stopnje učenja (angl. 
factor). Faktor določa vrednost, s katero pomnožimo stopnjo učenja ob njenem zmanjšanju, 
tj. η → η · factor, potrpežljivost pa določa število epoh brez izboljšav, po katerih stopnjo 
učenja pomnožimo z izbranim faktorjem. Poleg tega ima na voljo še nekaj dodatnih 
parametrov, s katerimi lahko dodatno optimiziramo njegovo delovanje. Za učenje modela 
40 
 
smo izbrali mero potrpežljivosti 6, faktor 0,01 in parameter praga zaznavanja sprememb 
10
   
. 
Modificirali smo tudi funkcijo izgube. Eksperimenti so pokazali, da so rezultati učenja 
boljši pri uporabi funkcije   = 0,1 ∙    
 
   
. Pri učenju so v vhodnem tenzorju uporabljena 
polja pri eni sami časovni instanci, z vključitvijo polj ob večih preteklih časih pa ne pridemo 
do velike izboljšave napovedi, zato je spomin na grafičnem procesorju boljše uporabljen pri 
vključitvi večih spremenljivk, kot z dodajanjem časovnih instanc obstoječim 
spremenljivkam. Učenje izvajamo v treh delih. Najprej 20 epoh model učimo napovedovati 
naslednji časovni korak, nato 20 epoh model učimo z dvema avtoregresivnima korakoma, 
za tem pa še 20 epoh s štirimi avtoregresivnimi koraki. Na ta način ga postopno učimo 
kakovostnega večdnevnega napovedovanja vremena. Pri tem vsakič znova ponastavimo 
načrtovanje stopnje učenja, zato se ta ciklično spreminja in omogoča modelu, da se izogne 
lokalnim minimumom funkcije napake. Posamezen korak napovedi opišemo kot  
 
  (  + 1) =  
   
[ℳ(  [  ( )])], 
kjer je X(t) tenzor nestandardiziranih spremenljivk ob času t,   standardizacija podatkov, 
  
   
 inverzna transformacija standardizacije in ℳ model ConvCastNet. Standardizacijo   
izračunamo prek enačbe 
  → 
  −  
    
 
   
+  
, 
kjer je  
    
 časovno povprečje,  
   
 časovna standardna deviacija, izračunana v vsaki 
točki mreže,   = 10
   
 pa parameter za izboljšavo numerične stabilnosti. 
 
 
Arhitektura modela ConvCastNet 
 
Model ConvCastNet je konvolucijski kodirnik, shematsko prikazan na sliki 2.  
 
 
Slika 2: Skica osnovne arhitekture konvolucijskega kodirnika ConvCastNet. Sestavljen je 
iz vhodnega in izhodnega tenzorja nevronov ter vmesnih modulov  
 
. V splošnem je lahko 
modulov poljubno mnogo. Vhodno polje vsebuje  
  
, izhodno polje  
   
, modul  
 
 pa  
 
 
kanalov. Pri manjšanju ločljivosti med moduli uporabimo operator združevanja 
maksimalnih vrednosti (max pool), pri večanju pa transponirano konvolucijo (transp conv). 
Zadnjo plast dobimo iz zadnjega modula s konvolucijo z jedrom velikosti 1 × 1. Med 
moduli so tudi preskočne povezave (angl. skip connections). 
41 
 
Sestavljen je iz petih modulov v kodirniku in štirih modulov v dekodirniku. Posamezen 
modul je sestavljen iz štirih zaporednih blokov, katerih zgradba je prikazana na sliki 3. V 
prvih treh modulih kodirnika in vseh modulih dekodirnika je velikost konvolucijskih jeder 
 
 
 =  
  
≡   = 7, v ostalih pa   = 3. 
 
 
Slika 3: Skica osnovnega bloka v modulih. Vhodno polje x najprej oblegamo (RP-robni 
pogoji). Nato uporabimo operator konvolucije (Conv) in LeakyReLU aktivacijsko 
funkcijo, na koncu pa izvedemo še normalizacijo paketov (BN). 
 
 
Zmanjšanje velikosti konvolucijskega jedra je v modulih  
 
 in  
 
 uporabljeno zaradi 
manjše ločljivosti skritih plasti (npr. v modulu  
 
 so te velike 3 × 7), zaradi česar bi 
konvolucijsko jedro velikosti 7 × 7 pokrilo velik del ali vso plast nevronov. Posamezna jedra 
se po vhodnem tenzorju premikajo s korakom velikosti ena. Znotraj modulov so med bloki 
uporabljene preskočne povezave s skupnim virom (tj. tenzor izhodov prvega bloka je dodan 
vhodom vseh ostalih blokov znotraj modula), preskočne povezave pa so uporabljene tudi 
med moduli kodirnika in dekodirnika (tj. tenzorji izhodov modula v kodirnem delu 
nevornske mreže so dodani vhodom v dekodirnem delu). Število kanalov C je v vseh 
modulih enako, saj smo opazili, da imajo uteži kanalov manjši prispevek h končni napovedni 
zmogljivosti kot tiste, ki jih dobimo s povečanjem velikosti konvolucijskih jeder. Pri tem 
smo izbrali C = 350. Med posameznimi moduli kodirnika je uporabljen operator združevanja 
največjih vrednosti, med moduli dekodirnika pa so uporabljeni operatorji transponirane 
konvolucije. Oboji uporabljajo jedra velikosti 2 × 2 in korak 2. 
 
Slika 4: Na zgornjem grafu je prikazano, katere podatke bi morala vključevati 
konvolucijska jedra, da bi pravilno upoštevala sferične robne pogoje. Na spodnjih grafih so 
označene geografske širine (levo) in dolžine (desno) podatkov, s katerimi moramo obložiti 
vhodne podatke, da bo nevronska mreža pravilno upoštevala robne pogoje v Zemljini 
sferični geometriji. Matrika neobleganih podatkov je na njih prikazana s črnim 
pravokotnikom, obleganje pa je izvedeno na njenih robovih.0 
 
42 
 
 
Znotraj vsakega bloka je vhodno polje x najprej oblegano, tj. na robovih vhodnih polj so 
dodane vrstice in stolpci, ki poskrbijo, da konvolucijska jedra na robovih prekrivajo ustrezne 
geografske širine in dolžine, tako da je upoštevana Zemljina sferična geometrija, kot je 
prikazano na sliki 4. Mejne ploskve matrik se pred obleganjem nahajajo pri geografskih 
širinah   = ± 88,5° in geografskih dolžinah   = ±180°. Posamezna konvolucijska jedra 
na robovih vhodnih matrik zato nimajo dostopa do ustreznih značilk na drugi strani meja, 
zaradi česar na teh območjih niso sposobna realistično napovedovati razvoja vremena. Pri 
prehodu poldnevnika   = 180° se geografska širina   ohranja, spremeni pa se geografska 
dolžina   →   ± 360°, kjer je predznak odvisen od smeri, iz katere se približujemo robu. 
Posledično mora ustrezno konvolucijsko jedro na mejnem območju prekrivati tiste elemente 
matrike, ki jih prikazuje beli črtkani kvadratek. Nekoliko drugače je na območju polov, kjer 
upoštevamo, da se robne vrstice matrik ne nahajajo na polu, temveč tik pod njim (na   =
± 88,5°). Ob prehodu čez pol se geografska širina ohranja, geografska dolžina pa se 
spremeni za ± 180°. Ustrezna pokritja konvolucijskih jeder so za ta primer na sliki prikazan  
s črnimi črtkanimi pravokotniki. Kombinacijo obeh pa je treba upoštevati v ogliščih, kjer 
mora del konvolucijskega jedra prečkati pol, del pa poldnevnik 180°. Konvolucijsko jedro 
mora v tem primeru prekrivati območje, predstavljeno s črnim pravokotnikom. Ustrezne 
geografske širine in dolžine podatkov, ki jih moramo oblegati matrikam so prikazane na 
spodnjih grafih. V enačbi 1 vidimo, da konvolucijsko jedro na (i, j) tem položaju vhodne 
matrike s konvolucijo izračuna stanje (i, j)-tega nevrona izhodne plasti. Sosednje značilke 
vhodnih polj se torej po konvoluciji preslikajo v sosednje značilke skritih plasti, zato 
pričakujemo, da bodo tudi v teh bližnji nevroni opisovali bližnje vremenske pojave. 
Posledično ne oblegamo le tenzorjev vhodnih, ampak tudi skritih plasti. 
 
 
Podatki 
 
Osnovo vseh statističnih analiz predstavlja podatkovna množica. Neodvisno od kakovosti 
izbrane metode bo končen rezultat odvisen od izbire in kakovosti podatkov. Pri učenju 
nevronske mreže za globalno napovedovanje vremena potrebujemo podatke o stanju celotne 
atmosfere v daljšem časovnem intervalu, ki bo vseboval kar največji možni nabor različnih 
stanj ozračja. V ta namen uporabimo rekonstrukcijo stanja atmosfere  – t. i. reanalizo. Ta 
poleg meritev uporabi tudi fizikalni model atmosfere, s pomočjo katerega v končnem 
rezultatu dobimo časovno rekonstrukcijo meteoroloških polj po celotni atmosferi. To 
storimo v procesu asimilacije meritev, kjer definiramo cenilko, ki meri odstopanje stanja 
atmosfere od kratkoročne modelske napovedi in meritev, pri tem pa ovrednoti tudi 
sistematsko napako satelitskih meritev in upošteva sistematske napake napovednega modela 
v stratosferi in mezosferi. Nato s pomočjo znanih statistik napak vseh virov cenilko 
minimiziramo z algoritmom 4D-variacijske asimilacije (Courtier et al., 1994) in tako dobimo 
najbolj verjetno stanje atmosfere v danem trenutku.  
ERA5 reanaliza je peta in trenutno najnovejša reanaliza ECMWF. Izračunana je za vsako 
polno uro dneva v obdobju med leti 1940 in 2023, pri tem pa je med drugim upoštevano tudi 
časovno spreminjanje termodinamskega ozadja zaradi naraščajočih koncentracij 
toplogrednih plinov in zmanjšanih koncentracij ozona, ki vpliva na model sevalnega prenosa 
toplote in posledično na diabatno gretje v termodinamski enačbi. Spreminja se tudi spodnji 
robni pogoj, tj. temperatura površine morja in koncentracija morskega ledu. Poleg tega se 
spreminja tudi število in kakovost upoštevanih meritev, ki so v zadnjih desetletjih veliko bolj 
številčne in natančne, kot sredi 20. stoletja. Posledično je tudi reanaliza skladno s kvaliteto 
meritev bolj kakovostna proti koncu prej omenjenega časovnega intervala. Poleg meritev k 
43 
 
napaki reanalize prispeva tudi napaka izračunov modela, ki izvira iz aproksimacije 
parcialnih diferencialnih enačb z njihovimi diskretnimi različicami, parametrizacija 
konvekcije, turbulenca v planetarni mejni plasti in še mnogo drugih faktorjev. 
Vse uporabljene spremenljivke so navedene v preglednici 1. 
 
Tabela 1: Uporabljene spremenljivke in njihovi višinski nivoji. Temperatura Zemeljskega 
površja opisuje temperature površja kopnega, morja in ledu. 
Spremenljivke Višinski nivoji 
Geopotencial ϕ [ 
 
 
   
] 850, 700, 500, 250 [hPa] 
Zonalen veter u [m 
   
] 10 [m], 900, 700, 500, 200 [hPa] 
Meridionalen veter v [m 
   
] 10 [m], 900, 700, 500, 200 [hPa] 
Temperatura zraka T [K] 2 [m], 850, 500 [hPa] 
Potencialna vrtinčnost PV [K 
 
  
   
 
   
] / 
Zračni tlak preračunan na nivo morja p [Pa] / 
Vsota padavin [m] / 
Temperatura Zemeljskega površja  
 
 [K] / 
Sončno obsevanje na vrhu atmosfere [W 
   
] / 
Masa vodne pare v stolpcu atmosfere [kg  
   
] / 
Geografska širina [º] / 
Nadmorska višina [m] / 
Masa kopno-morje [] / 
 
 
Uporabljenih je 5 enonivojskih in 5 večnivojskih ter 3 statične spremenljivke. Slednje so 
bile dodane z namenom, da bi modelu olajšali implicitno učenje raznoraznih masnih in 
energijskih tokov (npr. izhlapevanje vode nad morjem in kopnim) in vremenskih pojavov, 
povezanih z orografijo in geografsko širino. Teh ne napovedujemo, ampak jih nevronska 
mreža dobiva samo na vhodu. 
Podatki so razdeljena na učno, validacijsko in testno množico (glej tabelo 2). 
 
Tabela 2: Leto začetka in konca podatkov v učni, validacijski in testni množici. Končno 
leto je vključeno v podatkovno množico. 
Množica Začetek Konec 
Učna 1970 2014 
Validacijska 2015 2019 
Testna 2020 2022 
 
Na učni množici izvajamo posodabljanje uteži, na validacijski poteka testiranje modela 
med učenjem, na testni pa testiranje naučenega modela. Končni model izberemo na podlagi 
najmanjše napake napovedi na validacijski množici, izračunane s seštevkom ACC vseh 
spremenljivk na nestandardiziranih podatkih. V vhodnih poljih standardiziramo vsako 
spremenljivko posebej in pri tem ločeno obravnavamo vsako lokacijo. Pri tem uporabimo 
povprečno vrednost in standardni odklon iz obdobja 1950 - 2014. Podatkov iz validacijske 
in testne množice med standardizacijo ne upoštevamo, saj bi v tem primeru model nekaj 
44 
 
informacij o novih podatkih imel tudi med testiranjem, zaradi česar bi bili rezultati preveč 
optimistični. 
 
Rezultati 
 
Napovedna zmogljivost 
 
Kakovost vremenskih napovedi se s časom spreminja in je med drugim odvisna od 
trenutnega dinamičnega stanja ozračja, letnega časa in počasi spreminjajočih se atmosferskih 
in oceanskih oscilacij, zaradi katerih obstajajo obdobja povečane in zmanjšanje 
napovedljivosti vremena (Mariotti et al, 2020; Cohen et al., 2019). Posledično se natančnejšo 
analizo napovedne zmogljivosti izvaja s povprečenjem napak vremenskih napovedi, 
izvedenih v daljšem časovnem obdobju. Model zato testiramo v testni množici, tako da 
napoved izvajamo vsak 5. dan in jo povprečimo za vsak dan napovedi posebej. Pri tem 
uporabljamo metrike površinsko uteženih vrednosti RMSE in ACC. Te izračunamo po 
enačbah: 
     =     [ 
 
(ŷ −  )
 
] 
in 
    = 
    (ŷ −  
 
,   −  
 
)
      (ŷ −  
 
)     (  −  
 
)
, 
kjer je E pričakovana vrednost,  
 
 vektor površinskih uteži, ki jih izračunamo po enačbi  
 
  
 = 
    ( 
 
)
 
 
 
∑     ( 
 
)
 
 
    
,  
pri čemer  
 
 predstavlja število upoštevanih točk v meridionalni smeri (smer sever-jug),  ŷ 
napoved modela, y resnično vrednost iz ERA5 reanalize,  
 
 pa klimatološko povprečje na 
dan vremenske napovedi, izračunano v obdobju 1950-2014.   
 
 
Slika 5: Globalna povprečna napaka na površinsko uteženih metrikah RMSE in ACC, 
izračunana v testni množici. 
45 
 
 
 
Površinske uteži upoštevamo tudi v variancah in kovariancah ACC, zato jih izračunamo 
po enačbah     ( ) =   [ 
 
(  −  
 
)
 
] in     ( ,  ) =   [ 
 
(  −  
 
)(  −  
 
)]. 
Rezultati povprečne napovedne zmogljivosti ConvCastNet so za višino geopotencialne 
ploskve na 500 hPa (z500) in temperaturo zraka na 850 hPa (T850) prikazani na sliki 5. 
Napako meteoroloških modelov pogosto primerjamo s klimatologijo, tj. napovedjo 
klimatološkega povprečja, in persistenco, ki privzame, da je stanje ozračja v prihodnosti 
enako stanju ozračja ob začetku napovedi. Napaka ConvCastNet napovedi je vseh 14 dni 
precej manjša od napake persistence in pri RMSE metriki več kot 9 dni manjša od napake 
klimatologije. Rezultati ConvCastNet modela so izrazito boljši od persistence tudi za ostale 
spremenljivke (ni prikazano), nekoliko slabši pa so pri napovedi vsote padavin, kjer ima že 
enodnevna napoved precejšnjo napako. Napoved  
   
 lahko primerjamo tudi z modelom 
DLWP, ki je analizo izvajal na površinsko neobteženih metrikah, kar njihove vrednosti 
nekoliko zmanjša. Deterministična napoved DLWP nivo RMSE klimatologije doseže po 
približno 7,5 dneh, kar je približno 1,5 dni prej, kot ConvCastNet. Ansambelska napoved 
DLWP pa v prvih 14 dneh ne doseže klimatologije, zato je njegova dolgoročna napoved 
boljša.  
ConvCastNet smo testirali tudi pri napovedovanju poti in intenzitete tropskih ciklonov. 
Pri tem moramo upoštevati dejstvo, da tako modelska napoved kot ERA5 reanaliza 
prikazujeta dnevno povprečena in na 3º ločljivost interpolirana polja, zaradi česar tudi 
vrednosti zračnih tlakov v obeh primerih močno odstopajo od dejanskih, tj. globine ciklonov 
so močno podcenjene. Razvili smo algoritem za sledenje tropskim ciklonom, katerih središče 
definiramo v minimumu MSLP. Analizo napovedi smo izvedli na treh različnih tropskih 
ciklonih, ki so prikazani na sliki 6.  
 
 
Slika 6: Primerjava napovedi tropskih ciklonov z ERA5 reanalizo. V zgornjih grafih so 
prikazane napovedane poti središč tropskih ciklonov, pri čemer so v prvem stolpcu 
prikazane tudi napovedane poti HRES in Pangu-Weather modela, pridobljene iz Bi et al., 
2023. Točke so narisane s časovnim razmakom enega dne, pri čemer so za HRES in 
Pangu-Weather model narisane ob časih 12 UTC. V spodnji vrstici so prikazane vrednosti 
MSLP v središčih tropskih cikonov. 
 
46 
 
Najprej si oglejmo napoved poti tajfuna Kong-rey. Ta je bila izračunana s pričetkom 29. 
9. 2018, zato je primerljiva z napovedma modelov Pangu-Weather in HRES [13], ki sta bili 
inicializirani 30. 9. 2018 ob 00.00 UTC. Ker ConvCastNet napoveduje dnevno povprečena 
polja, sta napovedi obeh ostalih modelov prikazani ob časih 12 UTC. Najboljšo napoved je 
izvedel model Pangu-Weather, ki je pravo trajektorijo napovedal vseh 6 dni vnaprej. Pri tem 
je treba upoštevati, da je primer pridobljen iz njihovega članka (Bi et al., 2023), kjer so ga 
lahko samostojno izbrali, tako da je njihova napoved dosegla najboljše rezultate. Natančna 
primerjava množice tropskih ciklonov v letu 2018 je pokazala, da ni signifikantne razlike v 
kakovosti napovedovanja poti ciklonov med HRES in Pangu-Weather, medtem ko Pangu-
Weather bistveno bolj podcenjuje globino ciklonov kot HRES (Ben-Bouallegue et al., 2023). 
Kakovostni sta bili tudi napovedi HRES in ConvCastNet modelov, ki dejanski trajektoriji 
pravilno sledita približno 3,5 dni. Za tem HRES tajfun premakne preveč na zahod, 
ConvCastNet pa na vzhod. 
Prikazana je tudi napoved orkana Michael s pričetkom 6. 10. 2018. To lahko primerjamo 
z napovedjo 100-članskega ansambla modela FourCastNet (Pathak et al., 2022) ), ki je bila 
izvedena s pričetkom 7. 10. 2018 ob 00 UTC. V tem primeru je ConvCastNet prve 4 dni 
boljše sledil dejanski poti orkana kot FourCastNet. Ker sta obe opisani napovedi v našem 
modelu izvedeni znotraj validacijske množice, smo izvedli še napoved orkana Ian, ki se 
nahaja znotraj testne množice. Za začetni pogoj smo izbrali 23. 9. 2022, ko se je ta v začetni 
fazi razvoja nahajal v Karibskem morju. ConvCastNet je tudi v tem primeru pravilno 
ugotovil premik orkana proti vzhodu in napovedal, da bo ta vplival na zahod Kube in Florido. 
Na sliki 6 so prikazane tudi napovedane vrednosti MSLP v središčih tropskih ciklonov. Pri 
tem ponovimo, da se te pri 3° ločljivosti in dnevnem povprečenju precej razlikujejo od 
dejanskih. V vseh primerih je opaziti korelacijo med napovedanimi in resničnimi 
poglobitvami oz. oslabitvami tropskih ciklonov. 
 
Slika 7: Prikazane so letno povprečene napake in naravna variabilnost  
   
 v letu 2022. V 
prvem stolpcu (a) je prikazana absolutna vrednost povprečne razlike med napovedjo in 
reanalizo, v drugem stolpcu (b) naravna variabilnost, v tretjem (c) pa z naravno 
variabilnostjo normirana absolutna vrednost povprečne napake. Izračunane so za 2., 6., 10., 
in 14. dan napovedi. 
47 
 
Da bi lažje našli izvore napak našega modela, smo izvedli analizo prostorske porazdelitve 
napak. Na sliki 7a opazimo, da so absolutne napake največje na območjih barokline 
nestabilnosti. Ker pa se na teh območjih vreme že naravno hitro spreminja, obravnava 
absolutne vrednosti napake ni merodajna za analizo izvora napak. Absolutne napake 
spremenljivk zato normiramo z njihovo naravno variabilnostjo, tj. standardnim odklonom 
od dolgoletnega povprečja za določeni dan v letu. Tako ugotovimo velikost napak relativno 
na pričakovano hitrost spreminjanja vremena. Povprečne napake napovedi, zagnane vsak 
peti dan v letu 2022, so za polje  
   
 prikazane na sliki 7. Polje naravne variabilnosti  
   
 
se zaradi dolgoletnega povprečenja podatkov za obdobje napovedi po dnevih skoraj ne 
spreminja (slika 7b), pričakovano pa je variabilnost največja v visokih geografskih širinah. 
Tudi absolutna napaka najhitreje raste na območjih z veliko naravno variabilnostjo, zato se 
za popolnejši vpogled v izvore napak osredotočimo na normirano napako. V drugem dnevu 
napovedi opazimo, da je ta največja na območju ekvatorialnega zahodnega Pacifika in 
Oceanije. Normirana napaka začne po daljšem času napovedi enakomerno naraščati tudi po 
preostalih območjih planeta in postane največja na območjih ponavljajočih se proženj 
Rossbyevih valov. 
Ogledali smo si tudi spreminjanje globalne normirane napake v obdobju osmih let pred 
začetkom podatkov učne množice (leto 1970) in obdobju sedmih let po koncu podatkov učne 
množice (leto 2015) (slika 8). Napaka je izračunana z globalnim povprečenjem letnih 
normiranih napak 2. dneva napovedi. Pri tem so izračuni ponovljeni vsaka dva meseca, zato 
da pridobimo boljši vpogled v trend napovedljivosti v izbranih obdobjih. Linearna regresija 
pri tem pokaže, da se z oddaljevanjem od podatkov učne množice napaka počasi povečuje, 
kar je skladno s povečevanjem napake napovedi z modelom Pangu-Weather (Ben-
Bouallegue et al., 2023). Opazimo pa tudi oscilacije okrog linearnega trenda, ki imajo na 
izračunanih podatkih podobno periodo kot ENSO, vendar te ne sovpadajo povsem z indeksi 
ENSO intenzitete (ni prikazano). Napovedljivost je torej odvisna tudi od lokalnega stanja 
klimatskega sistema. Na podatkih po letu 2015 je ta v povprečju približno 60 % boljša, kot 
na podatkih starejših ERA5 reanaliz. To je deloma povezano s hiperparametri nevronske 
mreže (npr. stopnja učenja, velikost konvolucijskega jedra, število kanalov v skritih 
plasteh,…) , ki so bili izbrani za optimizacijo rezutatov v validacijski množici, deloma pa s 
spremembo lastnosti ERA5 reanalize in klimatskega sistema. 
 
 
Razprava in zaključek 
 
Ustvarili smo nov model za globalno srednjeročno napovedovanje vremena 
ConvCastNet, osnovan na arhitekturi konvolucijskega kodirnika. Razvili smo nov način 
upoštevanja sferičnih robih pogojev pri ekviangularni matrični reprezentaciji sferičnih 
podatkov v klasičnih konvolucijskih nevronskih mrežah. Obleganje matrik smo izvajali tako 
na meteoroloških poljih, kot tudi na izhodih skritih plasti. Pri tem smo upoštevali, da se 
sosednje značilke vhodnih plasti preslikajo v sosednje značilke izhodnih, zaradi česar so v 
skritih plasteh tudi kodirani vremenski pojavi blizu skupaj. Ugotovili smo, da se tako model 
nauči napovedovati razvoj vremena na robovih matričnih polj in da vremenske motnje v tem 
primeru lahko prehajajo prek njih.  
Pri učenju modela smo izbrali optimizator Adam in empirično določili funkcijo izgube, 
ki pri učenju pripelje do najhitrejše konvergence. Uporabili smo načrtovanje stopnje učenja 
ReduceLROnPlateau, ki se je med preizkušenimi izkazala za najboljšo. Med učenjem smo 
model testirali na validacijski množici, kjer smo za metriko uporabljali seštevek ACC vseh 
spremenljivk. Pri analizi napovedljivosti pred obdobjem učne množice in po njem smo 
pokazali, da je modelska napoved precej boljša v obdobju po letu 2015 kot pred 1970. To 
48 
 
bi lahko nakazovalo na preprileganje modela na novejše podatke ERA5 reanalize ali pa na 
večjo napako začetnega pogoja starejših ERA5 reanaliz. 
 
Slika 8: Globalna povprečna normirana napaka 2. dneva napovedi z500 za obdobje 2015 - 
2022 (a) in 1962 - 1969 (b). S križci so prikazane izračunane vrednosti napake, s polno 
rdečo črto glajeno povprečje, s črtkano črto pa linearna regresija. Križci so na časovni osi 
postavljeni v središča obdobij, v katerih so bili izračunani. Med sosednjimi izračuni je 
dvomesečen časovni korak. Domena vertikalne skale je na grafu (b) dvakrat večja kot na 
grafu (a). 
 
 
Poleg tega se nevronske mreže naučijo napovedovati vreme le v razponu atmosferskih 
stanj, ki jih opisuje podatkovna množica. Sprememb dinamike atmosfere kot posledice 
sprememb v klimatskem režimu (npr. zaradi antropogenih podnebnih sprememb ali zaradi 
naravnih večdekadnih klimatskih oscilacij) zato niso sposobne predvideti, kar pa ne velja za 
fizikalne modele. Ti imajo na tem področju prednost pred statističnimi, saj fizikalni zakoni 
opisujejo večjo domeno faznega prostora in so zato aplikativni tudi pri napovedih v 
spremenjeni klimatologiji. 
Model ConvCastNet smo učili na desetih dnevno povprečenih atmosferskih, morskih in 
površinskih spremenljivkah ter treh statičnih poljih, interpoliranih na 3º ločljivost. Pri 
napovedovanju poti tropskih ciklonov so napovedane poti več dni vnaprej uspešno sledile 
dejanski. Pri orkanu Michael je bila napoved ConvCastNet primerljiva napovedi modela 
FourCastNet (Pathak et al., 2022), pri tajfunu Kong-rey pa nekoliko slabša kot HRES in 
GraphCast (Lam et al., 2023). V vseh primerih pa so napovedi ConvCastNet zaradi dnevnega 
povprečenja polj, nizke ločljivosti in modelske napake močno podcenile dejansko intenziteto 
tropskih ciklonov. ConvCastNet je napram dnevno povprečeni ERA5 reanalizi, interpolirani 
na 3º ločljivost, napovedoval primerljive vrednosti zračnega tlaka. Iz tega sklepamo, da bi 
lahko z višjo ločljivostjo modela, izvajanjem direktnih vremenskih napovedi (brez dnevnega 
povprečenja polj) in z manjšim predsodkom zračnih tlakov v učnih podatkih, izboljšali tudi 
natančnost napovedi intenzitete tropskih ciklonov. To velja tako za model ConvCastNet kot 
ostale modele strojnega učenja. Težave pri napovedovanju vremena z modeli strojnega 
učenja povzroča tudi glajenje napovednih polj s časom. To v kombinaciji z nizko ločljivostjo 
49 
 
podatkov onemogoča izvajanje uporabne vremenske napovedi na mezoskalah ali 
konvektivnih skalah, kjer se pojavlja veliko ekstremnih vremenskih dogodkov, npr. 
intenzivni frontalni prehodi, nevihte in povezani ekstremeni padavinski dogodki, pobočni 
viharni vetrovi, vetrovi v tropskih ciklonih ... 
Napovedno zmogljivost modela smo testirali na površinsko uteženih metrikah RMSE in 
ACC in do rezultatov prišli s povprečenjem napak napovedi, inicializiranimi v testni 
množici. Pri primerjavi rezultatov z ostalimi modeli moramo upoštevati dejstvo, da 
ConvCastNet zaradi uporabljene nižje ločljivosti in napovedovanja dnevno povprečenih polj 
podceni napako napovedi, zato rezultati niso povsem primerljivi z ostalimi modeli. 
Napovedna zmogljivost ConvCastNet je v prvih dneh napovedi boljša od determinističnega 
in ansambelskega modela DLWP (Weyn et al., 2021), po daljšem času pa ansambelska 
napoved DLWP privede do manjše napake. ConvCastNet je na podlagi vrednosti ACC po 7 
dneh slabši od GraphCast (Lam et al., 2023), FourCastNet (Pathak et al., 2022), Pangu-
Weather (Bi et al., 2023), FengWu (Chen et al., 2023) in HRES (IFS), ki jih razvijajo večje 
kolaboracije v tehnoloških podjetjih in operativnih prognostičnih centrih in imajo pri tem na 
voljo sisteme z več velikostnimi redi večjo računsko zmogljivostjo. 
Z analizo prostorske porazdelitve velikosti napak napovedi  
   
 smo prišli do zaključka, 
da je ta največja na območjih, kjer je njihova naravna variabilnost velika. Ta se v polju   
   
  
nahaja na območjih zmernih geografskih širin, kjer prihaja do barokline nestabilnosti. 
Analizo smo izvedli tudi na napakah, ki so normirane z naravno variabilnostjo. Tako smo 
ugotovili, da se te pri ConvCastNet najprej pojavijo v tropskih območjih, kasneje pa se 
napaka močno poveča na območjih večje povprečne baroklinosti ozračja. Zakasnitev 
povečanja napake v zmernih geografskih širinah bi lahko bila posledica relativno bolj 
natančno določenega začetnega pogoja v zmernih geografskih širinah ali postopne 
propagacije napake iz tropov. Za zmanjšanje napake modelske napovedi bi lahko uporabili 
neekviangularno mrežo, kjer bi točke zgostili na območjih z razgibano orogorafijo, gosto 
poselitvijo ali na območjih s pričakovano večjo napako vremenskih napovedi. Namesto 
ekviangularne bi lahko uporabili tudi reducirano Gaussovsko mrežo ali ikozaedrsko mrežo, 
tj. mrežo v obliki ikozaedrske prizme, ki ohranja razdalje med točkami na sferi. Tako bi se 
znebili deformacij meteoroloških polj v ekviangularni mreži, ki v visokih geografskih širinah 
zaradi povečane hitrosti potovanj vremenskih motenj po matriki morebiti prispevajo k 
napaki modelskih napovedi. Izbira točk bi lahko temeljila tudi na podlagi lokacij izvajanja 
atmosferskih meritev, zato bi lahko tudi te vključili v proces napovedovanja vremena ali 
asimilacije meritev. Pri tem bi lahko bila bolj praktična uporaba grafovskih nevronskih mrež, 
kjer je izbira položajev vozlišč poljubna. 
V magistrskem delu smo pokazali, da lahko tudi s konvolucijskimi nevronskimi mrežami 
naučimo model za globalno napovedovanje vremena, ki se v nekaterih pogledih primerja z 
novejšimi modeli strojnega učenja. Ena izmed njegovih največjih pomanjkljivosti je nizka 
ločljivost njegovih napovedi, zaradi česar te niso neposredno uporabne za napovedovanje 
ekstremnih vremenskih pojavov z velikim vplivom na družbo, ki se tipično dogajajo na 
mezoskali. Večina novih modelov strojnega učenja iz literature že uporablja 0,25º ločljivost, 
zaradi katere lahko napovedujejo tudi vremenske pojave na manjši prostorski skali. Kljub 
temu se vsi modeli strojnega učenja spopadajo s težavo glajenja napovedanih meteoroloških 
polj, zaradi česar po daljšem času niso sposobni natančno napovedovati mezoskalnih in 
konvektivnih ekstremnih vremenskih dogodkov. ConvCastNet poleg tega napoveduje 
dnevno povprečena meteorološka polja, kar na področju srednjeročnega napovedovanja 
vremena ni nujno zelo uporabno. Za razliko od fizikalnih numeričnih modelov pa so njegovi 
izračuni hitri in energijsko veliko bolj učinkoviti. Povečanje ločljivosti in odstranitev 
dnevnega povprečenja meteoroloških polj bi rezultate morebiti izboljšalo, vendar to pripelje 
predvsem do izzivov, povezanih z računsko zmogljivostjo strojne opreme. V prihodnje 
50 
 
načrtujemo izvedbo prve 4-D variacijske asimilacije meritev, izvedene izključno na podlagi 
modelov strojnega učenja. To želimo doseči z združitvijo modela ConvCastNet in modela 
strojnega učenja za izvedbo 3-D variacijske asimilacije meritev (Melinc in Zaplotnik, 2023). 
Uspešnost izvedbe asimilacije meritev z modeli strojnega učenja bi lahko imela še večji 
doprinos k napovedovanju vremena kot optimizacija napovednega modela samega, saj v 
operativnih centrih za napovedovanje vremena večino računskih zmogljivosti posvečajo 
pripravi začetnega pogoja, zato bi z vpeljavo metod strojnega učenja morda lahko sprostili 
veliko računskih moči. Razvili smo torej model strojnega učenja, katerega kombinacija nizke 
računske potratnosti in zadovoljive napovedne zmogljivosti vzpodbuja k njegovemu 
nadaljnjemu izpopolnjevanju in uporabi na področju raziskovanja in analize napovedovanja 
vremena. 
 
 
Literatura 
 
Bauer, P. et al. (2015). The quiet revolution of numerical weather prediction, Nature 525, 47-55. 
Ben-Bouallegue, Z. et al. (2023). The rise of data-driven weather forecasting, arXiv:2307.10128. 
Bi, K. et al. (2023). Accurate medium-range global weather forecasting with 3D neural networks, 
Nature 619, 533-538. 
Bonavita, M. (2023). On some limitations of data-driven weather forecasting models, 
arXiv:2309.08473. 
Bonev, B. et al. (2023). Spherical Fourier Neural Operators: Learning Stable Dynamics on the 
Sphere, arXiv:2306.03838.  
Charney, J. G. et al. (1950). Numerical Integration of the Barotropic Vorticity Equation, Tellus 2, 
237-254. 
Chen, K. et al. (2023). FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond 
10 Days Lead, arXiv:2304.02948. 
Cohen, J. et al. (2019). S2S reboot: An argument for greater inclusion of machine learning in 
subseasonal to seasonal forecasts, WIREs Climate Change 10, e00567. 
Courtier, P. et al. (1994). A strategy for operational implementation of 4D-Var, using an incremental 
approach, Quarterly Journal of the Royal Meteorological Society 120, 1367- 1387. 
Dueben, P. D. & Bauer, P. (2018). Challenges and design choices for global weather and climate 
models based on machine learning, Geosci. Model Dev. 11, 3999–4009. 
ECMWF, IFS Documentation CY43R3 - Part III: Dynamics and numerical procedures, 
https://www.ecmwf.int/en/elibrary/80319-ifs-documentation-cy43r3-part-iii-dynamics-and-
numerical-procedures   (1.12.2023) . 
Goodfellow, I. et al. (2023). Deep Learning (MIT Press, 2016) book in preparation for MIT Press. 
Hersbach, H. et al. (2020). The ERA5 global reanalysis, Quarterly Journal of the Royal 
Meteorological Society 146, 1999-2049 . 
Keisler, R. (2022). Forecasting Global Weather with Graph Neural Networks, arXiv:2202.07575. 
Kingma, D. P. & Ba, J. (2017). Adam: A Method for Stochastic Optimization, arXiv:1412.6980. 
Kochkov, D. et al. (2023). Neural General Circulation Models, arXiv:2311.07222. 
Lam, R. et al. (2023). Learning skillful medium-range global weather forecasting, Science 0. 
Mariotti, A. et al. (2020). Windows of Opportunity for Skillful Forecasts Subseasonal to Seasonal 
and Beyond, Bulletin of the American Meteorological Society 101, E608–E625. 
Melinc & Zaplotnik (2023). Neural-Network Data Assimilation using Variational Autoencoder, 
arXiv:2308.16073. 
Pathak, J. et al. (2022). FourCastNet: A global data-driven high-resolution weather model using 
adaptive fourier neural operators, arXiv:2202.11214. 
Perkan, U. (2023): Napovedovanje vremena s konvolucijskimi nevronskimi mrežami (Weather 
forecasting with convolutional neural networks). Master's thesis, Univerza v Ljubljani, FMF (in 
Slovenian). 
51 
 
Rabier, F. (2023). The AIFS is launched. https://www.ecmwf.int/en/newsletter/177/editorial/aifs-
launched (20.11.2023) . 
Rasp, S. et al. (2018). Deep learning to represent subgrid processes inclimate models, PNAS 115, 
9684-9689. 
Rasp, S. et al.. (2023). WeatherBench 2: A benchmark for the next generation of data-driven global 
weather modelsm, arXiv:2308.15560. 
ReduceLROnPlateau (2023). https://pytorch.org/docs/stable/generated/torch.optim.lr_schedu 
ler.ReduceLROnPlateauh.html   (21.11.2023). 
Richardson, L. F., Lynch, P. (1922). Weather Prediction by Numerical Process, Cambridge 
University Press. 
Weyn, J. A. et al. (2019). Can Machines Learn to Predict Weather? Using Deep Learning to Predict 
Gridded 500-hPa Geopotential Height From Historical Weather Data, Journal of Advances  in 
Modeling Earth Systems 11, 2680-2693. 
Weyn, J. A. et al. (2021). Sub-Seasonal Forecasting With a Large Ensemble of Deep-Learning 
Weather Prediction Models, Journal of Advances in Modeling Earth Systems 13 . 
Wolpert, D. H. & Macready, W. G. (1997). No free lunch theorems for optimization, IEEE 
Transactions on Evolutionary Computation 1, 67-82.