ERK'2022, Portorož, 134-137 134 Analiza učinkovitosti dviga ločljivosti slik z uporabo filtrov v frekvenčni domeni Anja Brelih, Urban Burnik Univerza v Ljubljani, Fakulteta za elektrotehniko Tržaška cesta 25, 1000 Ljubljana ab0555@student.uni-lj.si Abstract. Increasing the resolution of multimedia material is a topical area with great progress over the past years. In the article, we consider an example of improving image resolution in the frequency domain using a low-pass filter. The article presents the results of test cases of the initial study on a grayscale photo of Lena and an image with text, where we used different levels of resolution change and different cut-off frequencies of the filter. The obtained results of the transformations were then evaluated by means of peak signal-to-noise ratio (PSNR) and the structural similarity index measure (SSIM) between the original image, the image of increased resolution by interpolation without additional processing and the image of increased resolution enhanced by using filters in the frequency domain. 1 Uvod V članku obravnavamo dvig ločljivosti slike, ki je potrebna zaradi prenizke resolucije multimedijskega gradiva. Ta nastane kot posledica priprave signala na prenos in shranjevanje, lahko pa je tudi posledica omejitev strojne opreme, ki se uporablja za zajem gradiva [1]. Procesi za dvig ločljivosti multimedijskega gradiva so uporabni na večini tehničnih področij. Slike in videoposnetki na internetu zaradi varčevanja izgubijo kakovost, televizijska industrija se pomika k videoposnetkom visoke ločljivosti, prikazovalniki imajo višjo ločljivost od posnetkov, v zdravstvu potrebujejo slike visoke ločljivosti za natančno diagnozo in operacije. Strojna oprema za nadzor, daljinsko zaznavanje in satelitsko komunikacijo zaradi svojih omejitev ter potrebe po hitrem prenosu zahteva pretvorbo slik iz nižje v višjo ločljivost [1]. Nastali problem, nižje ločljivosti slike, se lahko rešuje na več načinov. Eno izmed glavnih vej predstavljajo metode v frekvenčni domeni, na katere smo se osredotočili v tem članku. Dvig ločljivosti slike lahko opravljamo na eni ali več zaporednih slik slabše ločljivosti z namenom pridobitve ene slike višje ločljivosti. Osredotočili smo se na dvig ločljivosti z uporabo le ene slike kot vhodni parameter. Sliki smo ločljivost povišali z interpolacijskimi postopki. Dobljeno gradivo smo nato poskušali izboljšati z uporabo filtrov v frekvenčni domeni ter ocenili, ali lahko z uporabo teh postopkov dobimo boljše rezultate v primerjavi z uporabo le interpolacijskih postopkov v prostorski domeni. 2 Orodja in postopki Orodja za dvig ločljivosti slik v splošnem delimo na frekvenčno in prostorsko domeno. Pri prostorski domeni gledamo sliko kot celoto, v frekvenčni domeni vsaka točka pomeni določeno frekvenco, ki jo vsebuje slika v prostorski domeni [1]. Čeprav so za dvig ločljivosti vse pogosteje uporabljene metode strojnega učenja, ki se uvrščajo v prostorsko domeno, so postopki iz frekvenčne domene bolj robustni in se jih lahko uporablja tudi, ko slike ni mogoče primerno popraviti z omenjenimi postopki. 2.1 Frekvenčna domena Frekvenčno domeno slike dobimo s Fourierovo transformacijo, ki slikovne podatke razdeli na različne frekvence oziroma komponente. Dobljene visoke frekvence predstavljajo območja na sliki, kjer se intenziteta slikovnih točk na kratkih razdaljah močno spremeni. Nizke frekvence predstavljajo dele slike, kjer so v okolici manjše spremembe ali jih celo ni [2]. Za sliko lahko zapišemo dvodimenzionalni diskretni Fourierov transform (DFT), kjer N in M predstavljata širino in višino slike (1) 𝐹 (𝑘 , 𝑙 ) = ∑ ∑ 𝑓 (𝑚 , 𝑛 )𝑒 −2𝜋𝑗 ( 𝑘𝑚 𝑀 + 𝑙𝑛 𝑁 ) 𝑁 −1 𝑛 =0 𝑀 −1 𝑚 =0 . (1) Dobljene frekvence lahko nato selektivno izločimo z uporabno primernega filtra. Z uporabo visokoprepustnih filtrov zadržimo nizke frekvence, rezultat na sliki je, ob primerni implementaciji, večja ostrina, saj visoke frekvence pomenijo hipne spremembe med slikovnimi točkami. Z uporabo nizkoprepustnega filtra dosežemo obraten učinek – ostre robove na sliki zgladimo. 2.2 Implementacija Da bi zagotovili referenčne pogoje, smo visokoločljivemu testnemu gradivu najprej znižali število slikovnih točk, nato smo z metodo najbližjih sosedov število slikovnih točk povečali na prvotno vrednost, končno pa smo z uporabo postopkov Fourierove transformacije ter filtrov, kakovost slike poskušali izboljšati. Postopek smo implementirali v programskem jeziku Python. Vhodni sliki smo v prvem koraku znižali ločljivost s pomočjo knjižnice Python Imaging Library (Pillow) z uporabo metode najbližjih sosedov, kjer se za 135 vrednost dodanih slikovnih točk vzame prevladajočo vrednost najbližjih sosedov [3]. Dobljeno sliko nižje kakovosti, stopnja le-te je odvisna od vhodnega parametra, smo nato obdelali v frekvenčni domeni z uporabo knjižnice NumPy. Knjižnica je namenjena operacijam nad velikimi, večdimenzionalnimi matrikam s širokim naborom matematičnih operacij, med katere sodijo tudi operacije Fouriereve transformacije [4]. Glede na naravo pridobljenih slik – opazni in moteči so ostri prehodi, ki nastanejo pri višanju števila slikovnih točk z metodo najbližjih sosedov, smo se odločili za uporabo nizkoprepustnega filtra, ki gladi hipne prehode na sliki. Nad vhodno sliko smo najprej izračunali dvodimenzionalni diskretni Fourierov transform ter nato dobljen spekter slike množili z Gaussovim nizkoprepustnim filtrom. Pri izdelavi nizkoprepustnega filtra smo preizkusili več različnih parametrov, ki določajo mejno vrednost za prepuščanje frekvenc. Z uporabo manjše vrednosti parametra N smo nižali mejo prepustnosti frekvenc ter s tem dobili večje megljenje, pri uporabi večjih vrednosti parametra N smo prav tako meglili sliko, vendar je stopnja le tega manjša (Slika 1: Primer uporabljenih Gaussovih nizkoprepustnih filtrov). Slika 1: Primer uporabljenih Gaussovih nizkoprepustnih filtrov (levo N = 75, desno N = 150) Dobljeno sliko smo nato primerjali z originalno z računanjem maksimalne vrednosti razmerja signal-šum ter merilom indeksa strukturne podobnosti. 2.3 Maksimalna vrednost razmerja signal-šum Maksimalna vrednost razmerja signal-šum (v nadaljevanju PSNR) je razmerje, s katerim določimo kvaliteto med referenčno ter stisnjeno sliko, oziroma v našem primeru med sliko, kateri smo poskušali zvišati ločljivost [5]. PSNR je definiran kot desetiški logaritem razmerja med največjim nihanjem tipa podatkov vhodne slike R in srednjo kvadratno napako (ang. mean-square error) MSE (2) 𝑃𝑆𝑁𝑅 = 10log 10 ( 𝑅 2 𝑀𝑆𝐸 ). (2) Višja, kot je vrednost PSNR, boljša je kvaliteta rekonstruirane slike glede na referenčno sliko. 2.4 Merilo indeksa strukturne podobnosti Merilo indeksa strukturne podobnosti (v nadaljevanju SSIM) je merilo kakovosti slike, ki ocenjuje vizualni učinek treh značilnosti slike: svetilnost, kontrast in struktura. Indeks se izračuna z uporabo testne slike x ter referenčne slike y (3) 𝑆𝑆𝐼𝑀 (𝑥 , 𝑦 ) = (2𝜇 𝑥 𝜇 𝑦 + 𝐶 1 )(2𝜎 𝑥𝑦 + 𝐶 2 ) (𝜇 𝑥 2 + 𝜇 𝑦 2 + 𝐶 1 )(𝜎 𝑥 2 + 𝜎 𝑦 2 + 𝐶 2 ) , (3) kjer so vrednosti  x ter  y lokalno povprečje, vrednosti  x ali  y standardni odklon ter  xy navzkrižna kovarianca med primerjanimi slikami. Spremenljivki C 1 in C 2 sta uporabljeni za stabilizacijo deljenja s šibkim imenovalcem [6]. Vrednosti, ki so bližje 1, indicirajo sliko boljše kakovosti oziroma večjo podobnost z referenčno sliko. 3 Rezultati Za testiranje naše implementacije smo uporabili fotografijo Lena – standardno testno fotografijo za obdelavo slik, dimenzije 512x512 slikovnih točk, v sivinski izvedbi ter črno-belo sliko z besedilom, prav tako dimenzije 512x512 slikovnih točk. Testnima slikama smo za izbrano stopnjo znižali ločljivost z uporabo knjižnice Pillow. Uporabili smo funkcijo za znižanje velikosti slike. Manjšo sliko smo nato povečali v prvotno velikost z uporabo metode najbližjih sosedov in tako dobili sliko nižje kakovosti s prvotno dimenzijo. Pri nižanju ločljivosti smo uporabili različne stopnje, sliko smo zmanjšali za 25%, 50% ali 75%. Vse dobljene slike vsebujejo ostre robove, ki nastanejo kot posledica višanja števila slikovnih točk z interpolacijskimi postopki, le ti so vedno bolj opazni z višanjem stopnje nižanja ločljivosti. Dobljenim slikam smo nato gladili ostre robove z množenjem frekvenčnega spektra z Gaussovim nizkoprepustnim filtrom s komponento ničelne frekvence v sredini. 3.1 Sivinska fotografija Lena Preizkusili smo štiri različne stopnje prepuščanja nizkih frekvenc, ki smo jih v filtru določali s parametrom N - ta določa razdaljo prepustnosti od ničelne komponente na sredini. Rezultate smo nato ocenili z vrednostjo PSNR (Slika 2: Grafikon PSNR fotografija Lena) ter indeksom SSIM (Slika 3: Grafikon SSIM fotografija Lena) med originalno fotografijo in fotografijo večano z interpolacijskimi postopki brez uporabe filtra ter med originalno fotografijo in glajenimi fotografijami z uporabo Gaussovega nizkoprepustnega filtra. Iz grafikonov SSIM in PSNR je razvidno, da slabša kot je začetna kvaliteta fotografije, manj propusten filter je potrebno uporabiti, torej filter, ki prepušča najmanj visokih frekvenc, da dobimo boljše vrednost. Prav tako je zaznati izboljšanje pri pregledu fotografij - ostri robovi 136 so nekoliko zglajeni, vendar ti še vedno obstajajo zaradi slabe kakovosti fotografije pred uporabo filtra (Slika 4: Interpolacija po 75% zmanjšanju fotografije, Slika 5: Uporaba filtra N = 75 na fotografiji večani z interpolacijo po 75% zmanjšanju). Slika 2: Grafikon PSNR fotografija Lena Slika 3: Grafikon SSIM fotografija Lena Slika 4: Interpolacija po 75% zmanjšanju fotografije Pri glajenju fotografij, katerih začetna kvaliteta je zmanjšana za 25% ali 50% je potrebno uporabiti filter z višjo mejno frekvenco rezanja, da degradirane fotografije ne meglimo bolj, kot bi bilo to potrebno. Slika 5: Uporaba filtra N = 75 na fotografiji večani z interpolacijo po 75% zmanjšanju 3.2 Črno-bela slika besedila Pri obdelavi črno-bele slike besedila smo uporabili enake postopke ter filtre kot pri obdelavi fotografij Lena. Rezultate smo nato ocenili z vrednostjo PSNR (Slika 8: Grafikon PSNR slika besedila) ter indeksom SSIM (Slika 9: Grafikon SSIM slika besedila) med originalno sliko in sliko večano z interpolacijskimi postopki brez uporabe filtra ter med originalno sliko in glajenimi slikami z uporabo Gaussovih filtrov z različnimi mejami prepustnosti. Slika 6: Grafikon PSNR slika besedila Iz grafikonov sicer lahko razberemo, da vrednosti PSNR le v enem primeru (75% poslabšanje z uporabo filtra N = 75) presegajo referenčne vrednosti primerjave originalne slike s sliko z nižjo kvaliteto. Podobno velja pri vrednostih SSIM, izboljšanje smo dosegli le pri 75% poslabšanju slike. Pri pregledu dobljenih slik so rezultati bolj obetavni kot to napovedujejo številske vrednosti. Glajenje je občutno izboljšalo vizualno kvaliteto besedila na slikah, ki smo jih manjšali za 25% ali 50% ter na njih uporabili filtre z višjo mejno frekvenco rezanja (Slika 10: Interpolacija po 50% zmanjšanju slike, Slika 11: Uporaba filtra N = 125 na sliki povečani z interpolacijo po 50% zmanjšanju). 137 Slika 7: Grafikon SSIM slika besedila Slika 8: Interpolacija po 50% zmanjšanju slike Slika 9: Uporaba filtra N = 125 na sliki večani z interpolacijo po 50% zmanjšanju 4 Zaključek Cilj naše študije je bil pokazati, da lahko z enostavnimi postopki obdelave v frekvenčnem prostoru izboljšamo kakovost dviga ločljivosti slike ob uporabi primernega filtra. Glede na dobljene vrednosti pri obdelavi testne fotografije ter tudi samih vizualnih izboljšav tako pri fotografiji kot pri sliki z besedilom lahko rečemo, da smo cilj dosegli. Originalne kakovosti slike ne moremo doseči, vendar pa lahko odstranimo ostre robove, do te mere, da s prostim očesom niso več moteči. Predstavljena rešitev sicer ni univerzalna, tako je potrebno filter prilagoditi razmeram, da pridobimo najboljši rezultat. Izkaže se, da najnižja mejna frekvenca rezanja dobro deluje pri najbolj degradiranih slikah, kjer so ostri robovi med slikovnimi točkami najbolj izraziti. Če je slika manj degradirana, je smiselno uporabiti filtre z višjo mejno frekvenco rezanja, da slike ne zameglimo bolj, kot bi bilo potrebno za optimalni rezultat. Dosežen cilj nam hkrati nakazuje, da ima področje veliko potenciala za izboljšave trenutne implementacije ter nadaljnjo raziskavo možnih rešitev na področju izboljšave slik v frekvenčni domeni. Zanimivo bi bilo preizkusiti tudi uporabo več zaporednih filtrov z različnimi učinki. Literatura [1] G. Pandey in U. Ghanekar, „A compendious study of super-resolution techniques by single image, “ Science Direct, 2018. [Elektronski]. Dostopen: https://www.sciencedirect.com/science/article/pii/S 0030402618304418S. [Poskus dostopa april 2022]. [2] T. O. Buchholz in F. Jug, „Fourier Image Transformer,“ 2022. [Elektronski]. Dostopen: https://arxiv.org/pdf/2104.02555.pdf. [Poskus dostopa april 2022]. [3] Pillow, „Python Imaging Library,“ [Elektronski]. Dostopen: https://pillow.readthedocs.io/. [Poskus dostopa maj 2022]. [4] NumPy, [Elektronski]. Dostopen: https://numpy.org/. [Poskus dostopa maj 2022]. [5] Mathworks, „PSNR,“ [Elektronski]. Dostopen: https://www.mathworks.com/help/vision/ref/psnr.ht ml. [Poskus dostopa april 2022]. [6] Mathworks, „ssim,“ [Elektronski]. Dostopen: https://www.mathworks.com/help/images/ref/ssim. html. [Poskus dostopa julij 2022]. [7] K. Hayat, „Multimedia super-resolution via deep learning: A survey,“ Science Direct, 2018. [Elektronski]. Dostopen: https://www.sciencedirect.com/science/article/pii/S 1051200418305268. [Poskus dostopa april 2022]. [8] W. Yang, X. Zhang, Y. Tian, W. Wang, J. Xue in Q. Liao, „Deep Learning for Single Image Super- Resolution: A Brief Review, “ IEEE, 2019. [Elektronski]. Dostopen: https://ieeexplore.ieee.org/document/8723565 [Poskus dostopa april 2022]. [9] Q. Ma, J. C. Koh in W. Lee, „A Frequency Domain Constraint for Synthetic and Real X-ray Image Super Resolution,“ [Elektronski]. Dostopen: https://arxiv.org/ftp/arxiv/papers/2105/2105.06887. pdf. [Poskus dostopa april 2022]. [10] Donike, „Frequency Domain of Images – Fourier Transform and Filtering,“ [Elektronski]. Dostopen: https://www.donike.net/frequency-domain-of- images-fourier-transform-and-filtering/. [Poskus dostopa maj 2022].