ELEKTROTEHNI ˇ SKI VESTNIK 90(3): 247–253, 2023 IZVIRNI ZNANSTVENI ˇ CLANEK Vrednotenje sposobnosti velikih jezikovnih modelov z nalogami strojnega uˇ cenja v ˇ casu sklepanja Klemen Grm Univerza v Ljubljani, Fakulteta za elektrotehniko, Trˇ zaˇ ska cesta 25, 1000 Ljubljana, Slovenija E-poˇ sta: klemen.grm@fe.uni-lj.si Povzetek. Na podroˇ cju strojnega uˇ cenja uporabljamo algoritme, ki se lahko uˇ cijo iz podatkov, da bi izboljˇ sali svoje delovanje pri doloˇ ceni nalogi ali naboru nalog. Tipiˇ cne naloge strojnega uˇ cenja vkljuˇ cujejo razvrˇ sˇ canje, regresijo, in generativno modeliranje. Najobiˇ cajnejˇ si sodobni primer algoritma strojnega uˇ cenja v praktiˇ cni uporabi so globoka nevronska omreˇ zja v povezavi z zunanjim optimizatorjem, kot je stohastiˇ cna gradientna metoda. V zadnjem ˇ casu so veliki jezikovni modeli pokazali vse veˇ cje zmoˇ znosti metauˇ cenja v kontekstu, ki se uporablja za izboljˇ sanje njihove uspeˇ snosti pri jezikovnih nalogah z dodatnimi uˇ cnimi primeri (angl. few-shot learning). V priˇ cujoˇ cem ˇ clanku pokaˇ zemo, da lahko vnaprej nauˇ ceni veliki jezikovni modeli delujejo kot strojni uˇ cenci glede na podatke v kontekstu, brez uporabe zunanjih optimizacijskih orodij oziroma posodobitev uteˇ zi. Z ocenjevanjem sposobnosti jezikovnih modelov opravljanja nalog strojnega uˇ cenja v ˇ casu sklepanja na sintetiˇ cnih ali ustrezno preoblikovanih naborih podatkov prepriˇ cljivo pokaˇ zemo, da so sposobni modelirati zapletene odnose med podatki v vhodnem kontekstu in da je reˇ sevanje nalog strojnega uˇ cenja v ˇ casu sklepanja smiselna metoda vrednotenja njihovih sposobnosti. Kljuˇ cne besede: jezikovni modeli, strojno uˇ cenje, metodologija vrednotenja Evaluating the capabilities of large language models using machine learning tasks at inference-time Machine learning is the domain of algorithms capable of learning from data to improve their performance on a task or set of tasks. Common machine learning tasks include classification, regression, and generative modelling. The most common modern example of machine learners in practical use is deep neural networks coupled with an extrinsic optimizer such as stochastic gradient descent. Recently, scaled-up large language models have shown increasing capabilities of in- context meta-learning, which has been used to improve their performance on language tasks through few-shot learning. In this paper, we show that pre-trained large language models can act as machine learners with regard to in-context data, without using extrinsic optimization tools or weight updates. By evaluating the language models’ inference time machine learning abilities on synthetic or appropriately transformed datasets, we conclusively show that they’re able to model complex relationships between data in the input context. This implies that inference-time machine learning tasks represent a meaningful capability evaluation task for large language models. Keywords: language models, machine learning, evaluation methodology 1 UVOD V zadnjih letih je transformer [27] arhitektura nevron- skih omreˇ zij omogoˇ cila skalabilno uˇ cenje velikih je- zikovnih modelov, tj. modelov, parametriziranih z veˇ c milijardami prostih parametrov. Modeli, kot na primer Prejet 17. oktober, 2023 Odobren 10. november, 2023 serije GPT [21], [22], [4], [16] in Llama [25], [26] kaˇ zejo vedno boljˇ se delovanje pri raznolikih jezikovnih nalogah, kot so prevajanje besedil, analiza sentimentov, odgovarjanje na vpraˇ sanja, ter prosta konverzacija. ˇ Studije so pokazale, da jezikovni modeli takih ve- likosti pridobijo porajajoˇ ce zmoˇ znosti, ki pri manjˇ sih modelih ne obstajajo niti v zmanjˇ sani obliki [28]. Veliki jezikovni modeli torej predstavljajo kvalitativni preskok v sposobnostih jezikovnega modeliranja. Novejˇ se ˇ studije najzmogljivejˇ sih jezikovnih modelov serije GPT-4 [5] kaˇ zejo na omejeno prisotnost sploˇ sne inteligence, kar med drugim dokazujejo s prisotnostjo teorije uma (angl. theory of mind), tj. sposobnosti modela opredeljevanja in razumevanja mentalnih stanj drugih agentov na podlagi daljˇ sih besedilnih scenarijev. Vrednotenje zmoˇ znosti oz. jezikovnega razumevanja nauˇ cenih modelov tipiˇ cno poteka prek za to name- njenih podatkovnih zbirk. Pri nalogi nadaljevanja be- sedila se kot merilo uspeha uporabljajo npr. zbirka LAMBADA [17], ki kot nalogo predlaga napovedovanje zadnje besede paragrafa besedila glede na daljˇ si prejˇ snji kontekst, ali StoryCloze [15], ki zahteva izbiro pravilne povedi glede na prejˇ snje. Za vrednotenje sposobnosti zdravorazumskega sklepanja se tipiˇ cno uporablja zbirka vpraˇ sanj in odgovorov ARC [8]. Natanˇ cnosti (tj. deleˇ zi pravilnih odgovorov) modelov na teh in sorodnih testnih zbirkah so do nedavnega veljale kot objektivna ocena zmoˇ znosti klasiˇ cnih pristopov k jezikovnemu modelira- nju. Winogradove sheme [23] so do pojava velikih jezi- kovnih modelov veljale kot kljuˇ cno merilo inteligence, 248 GRM primerljive s ˇ cloveˇ sko. Sheme so sestavljene iz parov povedi, kot so npr.: 1. The city councilmen refused the demonstrators a permit because they feared violence. 2. The city councilmen refused the demonstrators a permit because they advocated violence. Pri tem je naloga dereferenciranje zaimkov, kot npr. zaimka they v zgornjem paru povedi. Ta se glede na spremembo konteksta povedi lahko nanaˇ sa na razliˇ cne subjekte. Naloga je ljudem lahko reˇ sljiva, za klasiˇ cne pristope k jezikovnemu modeliranju in umetni inteli- genci pa je bila nepremostljiva ovira. Z uporabo velikih jezikovnih modelov je bila Wino- grad Schema Challenge v veliki meri reˇ sena, podrob- nejˇ sa ˇ studija [14] pa kaˇ ze njeno nezadostnost kot merilo sploˇ sne inteligence. Avtorji kot pomanjkljivosti navajajo predvsem dvoumnost velikega ˇ stevila testnih primerov, nejasne kriterije vrednotenja, ter praktiˇ cno nezmoˇ znost zagotavljanja, da se primeri iz zbirke ne nahajajo v uˇ cnih korpusih velikih jezikovnih modelov. Pogosto omenjene pomanjkljivosti velikih jezikovnih modelov [3] vkljuˇ cujejo njihovo omejenost na fiksne uˇ cne korpuse. ˇ Casovna in pomnilniˇ ska zahtevnost uˇ cenja velikih jezikovnih modelov v praksi pomeni, da se zaradi denarne in ekoloˇ ske cene uˇ cenja njihove uteˇ zi ne posodabljajo pogosto. Poslediˇ cno modeli v praktiˇ cni uporabi nimajo implicitnega znanja npr. o dogodkih, novejˇ sih od ˇ casa zbiranja uˇ cnega korpusa. Uˇ cenje velikih jezikovnih modelov je tipiˇ cno sesta- vljeno iz dveh loˇ cenih faz. V prvi fazi se model samo- nadzorovano uˇ ci jezikovnih vzorcev in pridiva sploˇ sno znanje preko z nalogami, kot je nadaljevanje besedil, prek velikih besedilnih podatkovnih zbirk [11]. V sledeˇ ci fazi se modeli prek mehanizmov, kot so npr. uˇ cenje oponaˇ sanja obstojeˇ cih modelov [20], ojaˇ cevalno uˇ cenje ˇ cloveˇ skih preferenc [1], in ustavno uˇ cenje s povratno informacijo [2] uˇ cijo ˇ zelenih vzorcev obnaˇ sanja, kot so sledenje ˇ cloveˇ skim navodilom v naravnem jeziku, po- dajanje resniˇ cnih informacij, in izogibanje ˇ skodljivemu vedenju. Primarni namen te faze uˇ cenja je ustrezno vplivati na izhodno obnaˇ sanje modelov s ˇ cim manjˇ sim vplivom na implicitno znanje jezikovnega modela, pri- dobljeno v zaˇ cetni fazi uˇ cenja jezikovnega modeliranja. Ker tega ni mogoˇ ce zagotoviti v celoti, pa vedno obstaja kompromis med vsiljevanjem ˇ zelenih vzorcev obnaˇ sanja in ohranjanjem nauˇ cenega znanja. Pri vrednotenju zna- nja in sposobnosti velikih jezikovnih modelov se zato osredotoˇ camo na modele, ki nimajo na ta naˇ cin vsiljenih vzorcev obnaˇ sanja, torej na modele, ki so bili uˇ ceni samo z nalogami jezikovnega modeliranja. Na takih modelih je mogoˇ ce bolj objektivno vrednotenje nauˇ cenega znanja brez vpliva vsiljenih vzorcev obnaˇ sanja [24]. Besedilne podatkovne zbirke, uporabljene za uˇ cenje najveˇ cjih jezikovnih modelov, se stalno poveˇ cujejo in za- jemajo ˇ ze znaten deleˇ z javno dostopnega interneta [16]. To povzroˇ ca teˇ zave pri vrednotenju sposobnosti teh jezikovnih modelov, saj je zaradi avtomatiziranih po- stopkov zbiranja uˇ cnih podatkov vse teˇ zje zagotoviti, da podatki za naloge, ki se uporabljajo kot standardna merila uspeˇ snosti razliˇ cnih jezikovnih sposobnosti [13], [23], [7], niso vsebovani v uˇ cnem korpusu jezikovnega modela. Veliki jezikovni modeli s poveˇ cevanjem modelov in njihovih uˇ cnih podatkovnih zbirk pridobijo nove, prej neobstojeˇ ce sposobnosti [28], kot so modularna aritme- tika, reˇ sevanje besedilnih matematiˇ cnih nalog, in arit- metiˇ cne operacije nad velikimi ˇ stevili, predstavljenimi z nizi znakov. Uspeˇ snost pri matematiˇ cnih nalogah lahko torej sluˇ zi kot pomembno merilo sposobnosti velikih jezikovnih modelov. Za vrednotenje jezikovnih modelov imajo matematiˇ cne naloge prednost pred jezikovnimi, saj jih lahko ustvarjamo samodejno v velikih koliˇ cinah, odgovore laˇ zje samodejno in objektivno vrednotimo, zaradi njihove kombinatoriˇ cne narave prek nakljuˇ cnega vzorˇ cenja pa lahko z veliko gotovostjo trdimo, da nalog ni v katerem izmed velikih uˇ cnih korpusov spletnih besedil za jezikovne modele. Ena izmed ugotovljenih prednosti poveˇ cevanja jezi- kovnih modelov je omogoˇ canje njihovega meta-uˇ cenja iz vhodnega konteksta [4]. Meta-uˇ cenje se tipiˇ cno izvaja tako, da jezikovnemu modelu v vhodnem kontekstu poleg ˇ zelene naloge podamo veˇ c primerov reˇ sene na- loge. Pri nalogi prevajanja med dvema jezikoma se tako pred besedilom, ki naj bi ga model prevedel, v vhodni kontekst doda veˇ c parov ˇ ze prevedenih povedi v ˇ zelenem paru jezikov. Glavna ugotovitev tu je, da imajo veˇ cji jezikovni modeli veˇ cjo korist od koliˇ cine reˇ senih primerov v vhodnem kontekstu. Pri tem pa se ˇ se vedno zastavlja vpraˇ sanje, ali gre za dejansko uˇ cenje iz konteksta oziroma, ali podajanje reˇ senih primerov v vhodnem kontekstu sluˇ zi samo na- menu izzvati t. i. latentno znanje jezikovnega modela [6]. Da bi razreˇ sili to vpraˇ sanje in obenem izboljˇ sali standarde objektivnega vrednotenja zmoˇ znosti velikih jezikovnih modelov, v ˇ clanku preizkusimo njihovo de- lovanje v ˇ casu sklepanja (tj. brez dodatnega uˇ cenja samih jezikovnih modelov) na klasiˇ cnih nalogah stroj- nega uˇ cenja, kot so razvrˇ sˇ canje, regresija, in generativno modeliranje. Glavni prispevki ˇ clanka so torej: 1) razvoj protokola za podajanje nalog strojnega uˇ cenja v vhodnem kontekstu jezikovnih modelov; 2) vrednotenje odprtokodnih jezikovnih modelov pri nalogah strojnega uˇ cenja, in; 3) dokaz, da so veliki jezikovni modeli v ˇ casu skle- panja sposobni reˇ sevanja med uˇ cenjem nevidenih kompleksnih nelinearnih problemov. VELIKI JEZIKOVNI MODELI SO STROJNI U ˇ CENCI V ˇ CASU SKLEPANJA 249 2 METODOLOGIJA Jezikovni modeli. Za sledeˇ ce eksperimente smo upora- bili druˇ zino jezikovnih modelov RWKV4 [19]. Gre za prosto dostopne jezikovne modele velikosti od 1.7× 10 8 do 1.4× 10 10 parametrov, torej tipiˇ cnega razreda veli- kosti modernih velikih jezikovnih modelov. Modeli so na voljo z uteˇ zmi, kvantiziranimi na 32− , 16− , oz. 8− bitno natanˇ cnost, kar ponuja razliˇ cne nivoje kompro- misa med raˇ cunsko zahtevnostjo zaganjanja modelov in njihovo natanˇ cnostjo. V sledeˇ cih eksperimentih upora- bljamo modele s16− bitnimi uteˇ zmi, ki so na uporabljeni strojni opremi pribliˇ zno 1.7× hitrejˇ si od 32− bitnih, z zanemarljivim padcem natanˇ cnosti. Modeli so bili uˇ ceni na korpusu besedil dolˇ zine≈ 10 12 besed (0.78× 10 1 2 ˇ zetonov) z uporabo vhodnega konteksta velikosti 4096 oz. 8192 ˇ zetonov, odvisno od modela. Velikost vhodnega konteksta je prvovrstno arhitekturna odloˇ citev, ki vpliva na raˇ cunsko teˇ zavnost uˇ cenja. Med uˇ cenjem nadaljevanja besedila optimizator kot vhodni kontekst nakljuˇ cno vzorˇ ci N ˇ zetonov bese- dila uˇ cnega korpusa, kjer je N manjˇ si ali enak maksi- malni velikosti konteksta modela. Ciljni izhod modela je nato ˇ zeton, ki sledi zadnjemu vzorˇ cenemu. Odprtokodna izdaja uteˇ zi omenjenih modelov izpol- njuje naˇ so zgoraj podano zahtevo, da ˇ zelimo imeti poleg modelov z vsiljenimi vzorci vedenja na voljo tudi uteˇ zi, nauˇ cene samo s posrednimi nalogami jezikovnega mo- deliranja - konkretni modeli so bili nauˇ ceni z nalogo na- daljevanja nakljuˇ cno odrezanih besedil glede na prejˇ snji kontekst nakljuˇ cno izbrane dolˇ zine. Druˇ zina modelov RWKV4 pri tej nalogi glede na testno zbirko doseˇ ze pri- merljive rezultate z najboljˇ simi objavljenimi jezikovnimi modeli primerljivih velikosti v smislu ˇ stevila parametrov in raˇ cunske zahtevnosti. Podajanje znaˇ cilk in oznak vzorcev. Za preizkuˇ sanje sposobnosti jezikovnih modelov opravljati naloge stroj- nega uˇ cenja smo razvili protokol za podajanje znaˇ cilk in oznak vzorcev. Predpostavljamo, da so vzorci v osnovi predstavljeni v numeriˇ cni obliki, pri problemih razvrˇ sˇ canja npr. z vektorji znaˇ cilk in ˇ stevilsko oznako razreda. V tej obliki pa jih ne moremo neposredno podati kot vhodni kontekst jezikovnim modelom, ker ti vhode sprejemajo v obliki zaporedja ˇ zetonov, ki prek kodiranja parov bajtov [10] predstavljajo vhodno besedilo. Zahteve protokola podajanja nalog strojnega uˇ cenja v vhodnem kontekstu jezikovnih modelov so dvojne: uˇ cne primere moramo biti sposobni 1) podati na jezikovnim modelom razumljiv naˇ cin, tj. na naˇ cin, ki omogoˇ ca njihovo opravljanje zahteva- nih nalog; ter obenem 2) na naˇ cin, ki zagotovo ni vsebovan v velikih po- datkovnih zbirkah besedil s spletnih strani, kot so npr. korpusi Pile [11] oz. CommonCrawl [18]. Na primeru uˇ cne zbirke vzorcev za razvrˇ sˇ canje naj bodo znaˇ cilke vzorcev podane z vektorji x ∈ R d in njihove oznake s ˇ stevili y∈ [0,N− 1]⊂ N, pri ˇ cemer d predstavlja razseˇ znost vektorjev znaˇ cilk in N ˇ stevilo razredov vzorcev. V tem primeru lahko znaˇ cilke in pripadajoˇ ce oznake razredov podamo v vhodni kontekst z uporabo z vejicami loˇ cenih decimalnih in celih ˇ stevil, kot npr.: x: 0.25, -0.86, -1.67, -1.21, y: 0 x: -1.35, 1.01, -0.39, 0.21, y: 1 x: -1.74, 0.78, -0.90, 1.18, y: 2 To izpolni prvi pogoj, ne pa drugega. Zapis znaˇ cilk in oznak razredov vzorcev namreˇ c ostane nespremenjen v primerjavi z izvorno obliko zapisa podatkovnih zbirk (npr. v datotekah csv), zato obstaja moˇ znost, da se podat- kovna zbirka v taki obliki v uˇ cnem korpusu jezikovnega modela ˇ ze nahaja. Da se temu izognemo znaˇ cilke vzor- cev transformiramo s kvantizacijo na dvomestna cela ˇ stevila, tj. s preslikavo ˜x =⌊ ax+b⌉ , (1) pri ˇ cemer⌊·⌉ predstavlja operacijo zaokroˇ zevanja na najbliˇ zje celo ˇ stevilo,a inb pa sta skalarja, izbrana glede na definicijsko obmoˇ cje znaˇ cilk vzorcev, tako da velja ˜x i ∈ ˜x∈ [0,99]. Kvantizacijo na dvomestna cela ˇ stevila izberemo, ker je znan rezultat iz literature [28], da so tudi najmanjˇ si sploˇ sni jezikovni modeli sposobni osnov- nih aritmetiˇ cnih operacij z dvomestnimi decimalnimi ˇ stevili, medtem, ko na daljˇ sih ˇ stevilih delujejo slabˇ se. Razvrˇ sˇ canje vzorcev iz testne zbirke nato reˇ simo tako, da v vhodni kontekst modela podamo na ta naˇ cin transformirano uˇ cno zbirko in znaˇ cilke enega izmed vzorcev testne zbirke, npr.: x: 58, 71, 93, 58, y: 0 x: 53, 23, 81, 62, y: 1 x: 31, 46, 62, 29, y: 2 x: 35, 94, 10, 91, y: Z dovolj obseˇ zno uˇ cno zbirko vzorcev priˇ cakujemo, da bo prvi znak, ki ga model odda na izhodu, predvidena oznaka testnega vzorca na zadnji vrstici. Metoda je nekoliko zamudna, saj je pri tem treba izvesti sklepanje za vsak testni vzorec posebej, obenem pa mora pri vsakem koraku sklepanja model kot vhodni kontekst sprejeti celotno oznaˇ ceno uˇ cno zbirko vzorcev. Preizkusili smo tudi predstavitev znaˇ cilk vzorcev z neˇ stevilskimi znaki (npr. z velikimi tiskanimi ˇ crkami angleˇ ske abecede, z naborom znakov ASCII), in dobili neuspeˇ sne rezultate, prikazane v tabeli 1. Rezultat kaˇ ze, da obravnavani veliki jezikovni modeli na podlagi mode- liranja jezikovnega znanja vsebujejo implicitne predsta- vitve ˇ stevilskih vrednosti, in obenem, da njihov uˇ cni kor- pus - glede na skoraj popolno natanˇ cnost pri razvrˇ sˇ canju 250 GRM Tabela 1: Uspeˇ snost razvrˇ sˇ canja vzorcev zbirke IRIS pri razliˇ cnih metodah kvantizacije vrednosti znaˇ cilk (uspeˇ snost nakljuˇ cnega razvrˇ sˇ cevalnika: 33.3%). Metoda Uspeˇ snost Izvorne ˇ stevilske vrednosti 98.7% Kvantizacija na dvomestna cela ˇ stevila 73.3% Kvantizacija na ˇ crke angleˇ ske abecede 32% Kvantizacija na 100 nakljuˇ cnih ˇ zetonov 34.7% izvornih vrednosti verjetno vsebuje podatkovno zbirko IRIS. Za namene generativnega modeliranja obrnemo vrstni red znaˇ cilk in oznak razredov vzorcev, tako, da kot vhodni kontekst jezikovnemu modelu podamo npr.: y: 0, x: 58, 71, 93, 58 y: 1, x: 53, 23, 81, 62 y: 2, x: 31, 46, 62, 29 y: 1, x: Pri tem kot izhod modela priˇ cakujemo porazdelitveno smiseln vektor znaˇ cilk glede na podano oznako razreda, podobno, kot pri razredno pogojenih generativnih na- sprotniˇ skih omreˇ zjih [12]. 3 REZULTATI Postopkovno ustvarjene podatkovne zbirke. Za pre- verjanje smiselnosti pristopa preizkusimo jezikovne mo- dele na problemu dvojiˇ skega razvrˇ sˇ canja postopkovno ustvarjenih podatkovnih zbirk. Uˇ cne podatkovne zbirke ustvarimo tako, da vhodne znaˇ cilke podatkov vzorˇ cimo s porazdelitve x ∈ R 2 ∼ N (0,I), oznake razredov y∈{ 0,1} pa jim doloˇ cimo glede na njihovo geometrij- sko postavitev v prostoru R 2 po pravilih, prikazanih v sliki 2 (levo). Nekatere izmed zbirk, ustvarjenih po temu postopku za uspeˇ sno razvrˇ sˇ canje zahtevajo tudi modeli- ranje nelinearnih loˇ cilnih mej, medtem, ko zbirka 4 kot najlaˇ zji primer omogoˇ ca popolno razvrstitev z linearno loˇ cilno mejo. V vseh primerih so vzorci enakomerno raz- porejeni med razredoma 0 in 1, pri nakljuˇ cnem ugibanju je priˇ cakovana uspeˇ snost razvrˇ sˇ canja torej 50%. Kot osnovo za primerjavo uspeˇ snosti razvrˇ sˇ canja velikih jezikovnih modelov uporabimo razvrˇ sˇ canje z dvema klasiˇ cnima pristopoma razpoznavanja vzorcev, tj. z metodo podpornih vektorjev (angl. SVM), in metodo prileganja najbliˇ zjih sosedov (angl. kNN). Rezultati so prikazani v tabeli 2. Iz rezultatov je razvidno, da se najveˇ cji obravnavani jezikovni model pribliˇ za uspeˇ snosti klasiˇ cnih pristopov strojnega uˇ cenja, vsi jezikovni mo- deli pa delujejo bistveno bolje od razvrˇ sˇ canja z na- kljuˇ cnim ugibanjem. To pomeni, da so modeli sposobni Slika 1: Odvisnost med razdaljo vzorca do loˇ cilne meje in verjetnostjo njegove napaˇ cne razvrstitve. Tabela 2: Uspeˇ snost na postopkovno ustvarjenih podatkovnih zbirkah (uspeˇ snost nakljuˇ cnega razvrˇ sˇ cevalnika: 50%). Metoda Zbirka 1 2 3 4 SVM 92% 99% 97% 98% kNN 90% 99% 96% 97% RWKV4-1.5B 61% 69% 73% 78% RWKV4-3B 58% 72% 78% 75% RWKV4-7B 78% 84% 88% 91% RWKV4-14B 89% 96% 92% 94% modeliranja odvisnosti med znaˇ cilkami vzorcev in do- deljenimi oznakami in, da je izbrani pristop vrednotenja smiseln. Iz grafiˇ cnih rezultatov v sliki 2 (desno) je razvidno, da se model RWKV4-14B nauˇ ci linearnih in neline- arnih geometrijskih vzorcev v dvorazseˇ znem prostoru vhodnih znaˇ cilk, do napak pride veˇ cinoma blizu loˇ cilne meje, kjer model kaˇ ze majhno gotovost. Slika 1 pri- kazuje odvisnost med oddaljenostjo vzorca od loˇ cilne meje in verjetnostjo njegove napaˇ cne razvrstitve modela RWKV4-14B. Ta pri prvih treh zbirkah strogo pada z razdaljo od loˇ cilne meje, pri zbirki 4 pa se model nauˇ ci vse modele daleˇ c od koordinatnega izhodiˇ sˇ ca razvrstiti v enega izmed razredov ne glede na njihove oznake, kot je prikazano na sliki 2 (desno, zbirka 4). Poleg tega naj omenimo ˇ se, da vsi jezikovni modeli v vseh testnih primerih vrnejo smiselne izhode, torej znak 0 oz. 1. Rezultati kaˇ zejo, da so se veliki jezikovni modeli sposobni nauˇ citi tako linearnih kot nelinearnih vzorcev odvisnosti med znaˇ cilkami in razrednimi ozna- kami v vhodnem kontekstu. Podatkovna zbirka IRIS [9]. Po postopku, opisa- nem v sekciji 2, preizkusimo razvrˇ sˇ canje in generativno modeliranje na podatkovni zbirki IRIS - klasiˇ cni te- stni zbirki za preizkuˇ sanje pristopov strojnega uˇ cenja. Gre za zbirko meritev dolˇ zin in ˇ sirin cvetnih listov VELIKI JEZIKOVNI MODELI SO STROJNI U ˇ CENCI V ˇ CASU SKLEPANJA 251 Slika 2: Levo: Postopkovno ustvarjene podatkovne zbirke vzorcev za binarno razvrˇ sˇ canje, prikazane v prostoru R 2 . Desno: rezultati razvrˇ sˇ canja z modelom RWKV4-14B. Samo zbirka 4 omogoˇ ca razvrˇ sˇ canje z linearno loˇ cilno mejo. treh razliˇ cnih vrst perunik. Podatkovna zbirka je se- stavljena iz 150 vzorcev, ki so predstavljeni vsak s ˇ stirimi meritvami - realnimi vrednostmi. Vzorci zbirke so enakomerno porazdeljeni med 3 razrede, priˇ cakovana uspeˇ snost razvrˇ sˇ canja pri nakljuˇ cnem ugibanju je torej 33.3%. Podatkovno zbirko lahko torej enako kot v prejˇ snjem primeru predstavimo z vzorci x ∈ R d , pri ˇ cemer je d = 4, in oznakami y∈ [0,N− 1]⊂ N, pri ˇ cemer je N = 3. Pri eksperimentu polovico vzorcev vsakega razreda uporabimo kot uˇ cne vzorce, preostale vzorce pa uporabimo za preizkuˇ sanje uspeˇ snosti. Za vrednotenje sposobnosti razvrˇ sˇ canja velike jezi- kovne modele primerjamo z metodo prileganja najbliˇ zjih sosedov, ter metodo podpornih vektorjev. Za vredno- tenje sposobnosti generativnega modeliranja jezikovne modele primerjamo z modelom Gaussovih meˇ sanic (angl. GMM), ter z razredno pogojenim generativnim nasprotniˇ skim omreˇ zjem (angl. GAN). Z vsakim iz- med generativnih modelov generiramo mnoˇ zico vzorcev enake velikosti, kot je originalna zbirka podatkov. Nato izraˇ cunamo njen histogram v prostoruR 4 ter uspeˇ snost generativnega modeliranja vrednotimo kot razdaljo χ 2 med histogramom izvornih oz. generiranih vzorcev da- nega razreda, χ 2 (X,Y) = N X i=1 (x i − y i ) 2 x i +y i , (2) pri ˇ cemer jeX histogram porazdelitve izvornih vzor- cev, Y histogram porazdelitve generiranih vzorcev, in i predstavlja indeks bin-ov v histogram, ter x i in y i pa ˇ stevilo vnosov v i-ti bin. Pri tem boljˇ se ujemanje porazdelitve generiranih vzorcev z dejanskimi pomeni Tabela 3: Rezultati na podatkovni zbirki IRIS (uspeˇ snost na- kljuˇ cnega razvrˇ sˇ cevalnika: 33.3%; razdaljaχ 2 do enorazredne diagonalne normalne porazdelitve: 0.0997). Metoda Uspeˇ snost generativno razvrˇ sˇ canja modeliranje χ 2 SVM 93.3% - kNN 92% - GMM - 0.0420 GAN - 0.0181 RWKV4-1.5B 32% 0.1873 RWKV4-3B 41.3% 0.1455 RWKV4-7B 65.3% 0.0812 RWKV4-14B 73.3% 0.0661 manjˇ so razdaljo χ 2 . Rezultati razvrˇ sˇ canja v tabeli 3 kaˇ zejo, da so jezikovni modeli sposobni uˇ cenja iz vho- dnega konteksta tudi na tem, realnem problemu, ˇ ceprav se po uspeˇ snosti ne pribliˇ zajo klasiˇ cnim metodam stroj- nega uˇ cenja. Podobno kot v prejˇ snjem primeru tudi pri veˇ crazrednem razvrˇ sˇ canju vsi modeli v 100% testnih primerov vrnejo smiselne odgovore, torej cela ˇ stevila z intervala [0,N− 1]. Tudi rezultati generativnega mo- deliranja so pozitivni, saj kaˇ zejo, da jezikovni modeli na problemu uˇ cenja porazdelitve vzorcev iz konteksta delujejo bolje, kot ˇ ce vzorcem vseh razredov priredimo skupno veˇ crazseˇ zno normalno porazdelitev z diagonalno kovarianˇ cno matriko, in da se obenem z velikostjo jezikovnih modelov njihova sposobnost generativnega modeliranja izboljˇ suje. Regresija. Pri problemu regresije za razliko od razvrˇ sˇ canja na podlagi uˇ cnih vzorcev napovedujemo 252 GRM zvezne ˇ stevilske vrednosti. Tipiˇ cna predpostavka je, da realne ˇ stevilske oznake uˇ cnih vzorcev predstavljajo funkcijsko vrednost, pokvarjeno z virom ˇ suma. Za pre- izkus sposobnosti velikih jezikovnih modelov uˇ cenja re- gresije se omejimo na napovedovanje vrednosti skalarnih funkcij realnih vrednosti, tj. funkcij tipa f : R7→ R, pri ˇ cemer nas zanima sposobnost velikih jezikovnih modelov glede na vhodno-izhodne vzorce (x,f(x)) v vhodnem kontekstu 1) interpolirati med uˇ cnimi toˇ ckami; in 2) ekstrapolirati na ˇ sirˇ se definicijsko obmoˇ cje. Za primerjavo z uspeˇ snostjo velikih jezikovnih mo- delov tu uporabljamo metodo najmanjˇ sih kvadratov s polinomskim modelom iste stopnje, kot je dejanska polinomska funkcija, ki jo modeliramo. Za linearno regresijo preizkusimo delovanje na funkciji f 1 (x) =− 238x+1475+ϵ, (3) za nelinearno regresijo pa na funkciji f 2 (x) = 4x 2 − 8x+14+ϵ, (4) pri ˇ cemer so bili koeficienti izbrani nakljuˇ cno in ima ˇ sumϵ ∼N 0,σ 2 varianco, sorazmerno s koeficientom najviˇ sje stopnje funkcij f 1 oz. f 2 . Za obe funkciji preizkusimo interpolacijo na defini- cijskem obmoˇ cju x in ∈ [− 10,10], na katero so omejeni uˇ cni pari vzorcev ter pripadajoˇ cih funkcijskih vrednosti. Zunaj definicijskega obmoˇ cja uˇ cnih vzorcev preizkusimo ekstrapolacijo na obmoˇ cju x ex ∈ [− 15,15]. Rezultati poskusov so prikazani na sliki 3. Kakovost regresije kvantitativno ocenimo prek korena srednje kvadratne na- pake med napovedmi modelov in vrednostmi dejanskih funkcij (3) oz. (4). Rezultati mere RMSE so podani v tabeli 4. Jezikovni model RWKV4-14B doseˇ ze bistveno slabˇ se prileganje pravi funkciji od metode najmanjˇ sih kvadratov, iz slik pa je razvidno, da jezikovni kljub temu uspe modelirati tako linearno kot nelinearno odvisnost med vhodno in izhodno spremenljivko. Razvidno je, da imajo napovedi modela za razliko od metode naj- manjˇ sih kvadratov raztros, primerljiv z varianco ˇ suma uˇ cnih primerov. Kljub raztrosu in veˇ cjemu odstopanju pri ekstrapolaciji pa je razvidno tudi, da se ekstra- polirane vrednosti smiselno navezujejo na vrednosti z definicijskega obmoˇ cja uˇ cnih toˇ ck in niso npr. izbrane nakljuˇ cno. Omenimo naj ˇ se, da manjˇ si jezikovni modeli RWKV4 funkcijf 1 oz.f 2 niso sposobni modelirati niti v definicijskem obmoˇ cju uˇ cnih vzorcev (tj. v interpolacij- skem reˇ zimu), kar kaˇ ze, da je regresija realnih skalarnih funkcij porajajoˇ ca zmoˇ znost velikih jezikovnih modelov, sorodna tistim, odkritim v ˇ studiji [28]. 4 POMEN ODPRTOKODNIH JEZIKOVNIH MODELOV Najnovejˇ si in najzmogljivejˇ si veliki jezikovni modeli, kot je GPT-4 [16] niso odprtokodni, ampak so konˇ cnim Tabela 4: Kvantitativni rezultati poizkusov regresije. Metoda in funkcija RMSE, x in RMSE, x ex Najmanjˇ si kvadrati, f 1 412.3 472.6 RWKV4-14B, f 1 425.0 613.5 Najmanjˇ si kvadrati, f 2 109.7 122.5 RWKV4-14B, f 2 179.1 208.5 uporabnikom dostopni bodisi prek aplikacijskega pro- gramskega vmesnika, bodisi prek aplikacij tipa Cha- tGPT. V slednjih so tipiˇ cno na voljo samo modeli z vsiljenimi vzorci obnaˇ sanja prek ojaˇ cevalnega uˇ cenja ˇ cloveˇ skih preferenc, ki pa za eksperimente iz prejˇ snje sekcije niso primerni. Glede na objavljene cene API- dostopa podjetja OpenAI v juliju 2023, tj. $0.06/1000 vhodnih ˇ zetonov in $0.12/1000 izhodnih ˇ zetonov, ceno ponovitve eksperimentov iz prejˇ snje sekcije samo na modelu GPT-4 ocenjujemo na 7200 C. V primerjavi s tem moremo uporabljene odprtokodne in prosto do- stopne jezikovne modele druˇ zine RWKV4 zaganjati na potroˇ sniˇ ski delovni postaji, kupljeni leta 2017, vsi ek- sperimenti pa so bili izvedeni v okviru 110 GPU-ur, kar prinaˇ sa zanemarljive dodatne stroˇ ske. To kaˇ ze na izrazit pomen odprtokodnih in prostodostopnih jezikov- nih modelov, saj ˇ sirˇ si akademski skupnosti omogoˇ cajo obseˇ znejˇ se eksperimentiranje, to pa vodi k boljˇ semu ra- zumevanju delovanja in hitrejˇ semu razvoju sposobnejˇ sih jezikovnih modelov. 5 ZAKLJU ˇ CKI Sposobnosti velikih jezikovnih modelov smo ovrednotili z nalogami strojnega uˇ cenja, za katere obstajajo moˇ cna zagotovila, da niso prisotne v nobenem izmed veˇ cjih uˇ cnih korpusov besedil. Rezultati kaˇ zejo, da imajo ve- liki jezikovni modeli sposobnost uˇ citi se kompleksnih nelinearnih modelov podatkov, podanih prek vhodnih kontekstov, brez posodobitev parametrov modela, in ne delujejo zgolj kot “stohastiˇ cni papagaji” [3]. Poslediˇ cno ocenjujemo, da imajo naloge strojnega uˇ cenja in sorodne naloge matematiˇ cnega modeliranja moˇ cen potencial kot metode objektivnega vrednotenja sposobnosti velikih jezikovnih modelov. LITERATURA [1] Y . Bai, A. Jones, K. Ndousse, A. Askell, A. Chen, N. DasSarma, D. Drain, S. Fort, D. Ganguli, T. Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022. [2] Y . Bai, S. Kadavath, S. Kundu, A. Askell, J. Kernion, A. Jones, A. Chen, A. Goldie, A. Mirhoseini, C. McKinnon, et al. Con- stitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073, 2022. [3] E. M. Bender, T. Gebru, A. McMillan-Major, and S. Shmitchell. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency, pages 610–623, 2021. VELIKI JEZIKOVNI MODELI SO STROJNI U ˇ CENCI V ˇ CASU SKLEPANJA 253 Slika 3: Rezultati regresije na linearnem (levo) oz. nelinearnem problemu (desno). [4] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020. [5] S. Bubeck, V . Chandrasekaran, R. Eldan, J. Gehrke, E. Horvitz, E. Kamar, P. Lee, Y . T. Lee, Y . Li, S. Lundberg, et al. Sparks of artificial general intelligence: Early experiments with gpt-4. arXiv preprint arXiv:2303.12712, 2023. [6] C. Burns, H. Ye, D. Klein, and J. Steinhardt. Discovering latent knowledge in language models without supervision. arXiv preprint arXiv:2212.03827, 2022. [7] M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. d. O. Pinto, J. Kaplan, H. Edwards, Y . Burda, N. Joseph, G. Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021. [8] P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Scho- enick, and O. Tafjord. Think you have solved question an- swering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018. [9] R. A. Fisher. The use of multiple measurements in taxonomic problems. Annals of eugenics, 7(2):179–188, 1936. [10] P. Gage. A new algorithm for data compression. C Users Journal, 12(2):23–38, 1994. [11] L. Gao, S. Biderman, S. Black, L. Golding, T. Hoppe, C. Foster, J. Phang, H. He, A. Thite, N. Nabeshima, et al. The pile: An 800gb dataset of diverse text for language modeling. arXiv preprint arXiv:2101.00027, 2020. [12] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde- Farley, S. Ozair, A. Courville, and Y . Bengio. Generative adversarial nets. Advances in neural information processing systems, 27, 2014. [13] D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, and J. Steinhardt. Measuring massive multitask lan- guage understanding. arXiv preprint arXiv:2009.03300, 2020. [14] V . Kocijan, E. Davis, T. Lukasiewicz, G. Marcus, and L. Mor- genstern. The defeat of the winograd schema challenge. Artificial Intelligence, page 103971, 2023. [15] N. Mostafazadeh, N. Chambers, X. He, D. Parikh, D. Batra, L. Vanderwende, P. Kohli, and J. Allen. A corpus and evaluation framework for deeper understanding of commonsense stories. arXiv preprint arXiv:1604.01696, 2016. [16] OpenAI. Gpt-4 technical report, 2023. [17] D. Paperno, G. Kruszewski, A. Lazaridou, Q. N. Pham, R. Ber- nardi, S. Pezzelle, M. Baroni, G. Boleda, and R. Fern´ andez. The lambada dataset: Word prediction requiring a broad discourse context. arXiv preprint arXiv:1606.06031, 2016. [18] J. M. Patel. Introduction to Common Crawl Datasets, pages 277–324. Apress, Berkeley, CA, 2020. [19] B. Peng, E. Alcaide, Q. Anthony, A. Albalak, S. Arcadinho, H. Cao, X. Cheng, M. Chung, M. Grella, K. K. GV , et al. Rwkv: Reinventing rnns for the transformer era. arXiv preprint arXiv:2305.13048, 2023. [20] B. Peng, C. Li, P. He, M. Galley, and J. Gao. Instruction tuning with gpt-4. arXiv preprint arXiv:2304.03277, 2023. [21] A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever. Improving language understanding with unsupervised learning. Technical report, OpenAI, 2018. [22] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019. [23] K. Sakaguchi, R. L. Bras, C. Bhagavatula, and Y . Choi. Wi- nogrande: An adversarial winograd schema challenge at scale. Communications of the ACM, 64(9):99–106, 2021. [24] K. Singhal, S. Azizi, T. Tu, S. S. Mahdavi, J. Wei, H. W. Chung, N. Scales, A. Tanwani, H. Cole-Lewis, S. Pfohl, et al. Large language models encode clinical knowledge. arXiv preprint arXiv:2212.13138, 2022. [25] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozi` ere, N. Goyal, E. Hambro, F. Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. [26] H. Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi, Y . Babaei, N. Bashlykov, S. Batra, P. Bhargava, S. Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023. [27] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017. [28] J. Wei, Y . Tay, R. Bommasani, C. Raffel, B. Zoph, S. Borgeaud, D. Yogatama, M. Bosma, D. Zhou, D. Metzler, E. H. Chi, T. Hashimoto, O. Vinyals, P. Liang, J. Dean, and W. Fedus. Emergent abilities of large language models. Transactions on Machine Learning Research, 2022. Survey Certification. Klemen Grm je leta 2020 doktoriral s podroˇ cja elektrotehnike na Fakulteti za elektrotehniko Univerze v Ljubljani. Je asistent v Labo- ratoriju za strojno inteligenco na Fakulteti za elektrotehniko. Njegovo podroˇ cje raziskav obsega strojno uˇ cenje, biometrijo, in obdelavo slik.