Lyhyt vastaus: Tekoälyn skaalaus toimii kouluttamalla mallia paritettujen matalan ja korkean resoluution kuvien avulla ja käyttämällä sitä sitten uskottavien ylimääräisten pikselien ennustamiseen skaalauksen aikana. Jos malli on nähnyt samanlaisia tekstuureja tai kasvoja harjoittelussa, se voi lisätä vakuuttavia yksityiskohtia; jos ei, se voi "hallusinoida" videossa artefakteja, kuten haloja, vahamaista ihoa tai välkkymistä.
Keskeiset tiedot:
Ennuste : Malli tuottaa uskottavia yksityiskohtia, ei taattua todellisuuden rekonstruktiota.
Mallin valinta : CNN-verkot ovat yleensä vakaampia; GAN-verkot voivat näyttää terävämmiltä, mutta niihin liittyy ominaisuuksien keksimisen riski.
Artefaktitarkistukset : Tarkkaile haloja, toistuvia tekstuureja, "melkein kirjaimia" ja muovimaisia pintoja.
Videon vakaus : Käytä ajallisia menetelmiä tai näet kuvasta kuvaan välkehtivää ja ajautuvaa kuvaa.
Korkean panoksen käyttö : Jos tarkkuudella on merkitystä, paljasta käsittely ja käsittele tuloksia havainnollistavina.

Olet luultavasti nähnyt sen: pieni, rapea kuva muuttuu niin teräväksi, että sen voi tulostaa, suoratoistaa tai pudottaa esitykseen irvistämättä. Se tuntuu huijaamiselta. Ja – parhaalla mahdollisella tavalla – se tavallaan onkin sitä 😅
Joten tekoälyn skaalauksen toimintaperiaate on paljon täsmällisempi kuin "tietokone parantaa yksityiskohtia" (kädenheilautus) ja lähempänä "malli ennustaa uskottavan korkean resoluution rakenteen useista esimerkeistä oppimiensa kuvioiden perusteella" ( Deep Learning for Image Super-resolution: A Survey ). Tämä ennustusvaihe on koko pelin ydin – ja siksi tekoälyn skaalaus voi näyttää upealta... tai pieneltä muovilta... tai siltä kuin kissasi olisi kasvattanut bonusviiksiä.
Artikkelit, joita saatat haluta lukea tämän jälkeen:
🔗 Miten tekoäly toimii
Opi mallien, datan ja päättelyn perusteet tekoälyssä.
🔗 Miten tekoäly oppii
Katso, miten koulutusdata ja palaute parantavat mallin suorituskykyä ajan myötä.
🔗 Miten tekoäly havaitsee poikkeavuuksia
Ymmärrä toimintamallien lähtökohdat ja miten tekoäly merkitsee epätavallista käyttäytymistä nopeasti.
🔗 Miten tekoäly ennustaa trendejä
Tutki ennustusmenetelmiä, jotka havaitsevat signaaleja ja ennakoivat tulevaa kysyntää.
Näin tekoälyn skaalaus toimii: ydinajatus arkikielellä 🧩
Ylösskaalaus tarkoittaa resoluution nostamista: enemmän pikseleitä, suurempi kuva. Perinteinen ylösskaalaus (kuten bikuubinen) pohjimmiltaan venyttää pikseleitä ja tasoittaa siirtymiä ( bikuubinen interpolointi ). Se on ihan ok, mutta se ei voi keksiä uusia yksityiskohtia - se vain interpoloi.
Tekoälyn skaalaus yrittää jotain rohkeampaa (eli "superresoluutiota" tutkimusmaailmassa) ( Deep Learning for Image Super-resolution: A Survey ):
-
Se tarkastelee matalan resoluution tuloa
-
Tunnistaa kuvioita (reunat, tekstuurit, kasvonpiirteet, tekstin viivat, kankaan kudonta…)
-
Ennustaa, miltä korkeamman resoluution version pitäisi näyttää
-
Luo ylimääräistä pikselidataa, joka sopii näihin kuvioihin
Ei "palauta todellisuus täydellisesti", vaan "tee erittäin uskottava arvaus" ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ). Jos se kuulostaa hieman epäilyttävältä, et ole väärässä – mutta se on myös syy siihen, miksi se toimii niin hyvin 😄
Ja kyllä, tämä tarkoittaa, että tekoälyn skaalaus on pohjimmiltaan kontrolloitua hallusinaatiota... mutta tuottavalla ja pikseleitä kunnioittavalla tavalla.
Mikä tekee tekoälyn skaalauksesta hyvän version? ✅🛠️
Jos arvioit tekoälyn skaalaajaa (tai esiasetusta), tässä on yleensä tärkeimmät seikat:
-
Yksityiskohtien palautus ilman ylikypsentämistä
Hyvä skaalaus lisää rapeutta ja rakennetta, ei rapisevaa kohinaa tai keinotekoisia ihohuokosia. -
Reunakuri
Puhtaat viivat pysyvät puhtaina. Huonot mallit saavat reunat heilumaan tai niille muodostumaan sädekehät. -
Tekstuurin realismi
Hiusten ei pitäisi muuttua siveltimenvedoksi. Tiilen ei pitäisi muuttua toistuvaksi kuvioleimasimeksi. -
Kohinan ja pakkauksen käsittely
Monet jokapäiväiset kuvat JPEG-muodossa pakkautuvat kuoliaaksi. Hyvä skaalausohjelma ei vahvista tätä vahinkoa ( Real-ESRGAN ). -
Kasvojen ja tekstin havaitseminen
Kasvot ja teksti ovat helpoimpia paikkoja havaita virheet. Hyvät mallit käsittelevät niitä hellävaraisesti (tai niillä on erityistilat). -
Yhdenmukaisuus eri ruutujen välillä (videossa)
Jos yksityiskohdat välkkyvät ruudusta toiseen, silmäsi huutavat. Videon skaalaus elää tai kuolee ajallisen vakauden mukaan ( BasicVSR (CVPR 2021) ). -
Järkevät säätimet
Haluat liukusäätimiä, jotka vastaavat todellisia tuloksia: kohinanpoisto, epäterävyyden korjaus, artefaktien poisto, rakeisuuden säilytys, terävöitys… käytännön asiat.
Hiljainen sääntö, joka pitää paikkansa: "paras" skaalaus on usein se, jota tuskin huomaa. Näyttää vain siltä, että sinulla oli alun perin parempi kamera 📷✨
Vertailutaulukko: suosittuja tekoälyn skaalausvaihtoehtoja (ja mihin ne sopivat) 📊🙂
Alla on käytännöllinen vertailu. Hinnat ovat tarkoituksella epämääräisiä, koska työkalut vaihtelevat lisenssin, pakettien, laskentakustannusten ja kaikkien muiden hauskojen ominaisuuksien mukaan.
| Työkalu / Lähestymistapa | Paras | Hintatunnelma | Miksi se toimii (suunnilleen) |
|---|---|---|---|
| Topaz-tyyliset pöytätietokoneen skaalaimet ( Topaz Photo , Topaz Video ) | Valokuvat, video, helppo työnkulku | Maksullinen | Vahvat yleismallit + paljon säätöä, yleensä "vain toimivat"... enimmäkseen |
| Adoben ”Super Resolution” -tyyppiset ominaisuudet ( Adobe Enhance > Super Resolution ) | Valokuvaajat, jotka ovat jo mukana kyseisessä ekosysteemissä | Tilaus-y | Vankka yksityiskohtainen rekonstruktio, yleensä konservatiivinen (vähemmän draamaa) |
| Real-ESRGAN / ESRGAN-variantit ( Real-ESRGAN , ESRGAN ) | Tee-se-itse, kehittäjät, erätyöt | Ilmainen (mutta aikaa vievä) | Erinomainen tekstuurien yksityiskohdissa, voi olla tulista kasvoilla, jos et ole varovainen |
| Diffuusioon perustuvat skaalaustilat ( SR3 ) | Luovaa työtä, tyyliteltyjä tuloksia | Sekoitettu | Osaa luoda upeita yksityiskohtia – ja keksiä myös hölynpölyä, joten… jep |
| Pelien skaalaimet (DLSS/FSR-tyyliset) ( NVIDIA DLSS , AMD FSR 2 ) | Reaaliaikainen pelaaminen ja renderöinti | Mukana | Käyttää liikedataa ja opittuja prioreja - sujuva suorituskyky voittaa 🕹️ |
| Pilvipalveluiden skaalaus | Kätevyys, nopeat voitot | Maksa käyttökerran mukaan | Nopea + skaalautuva, mutta vaihtokauppa kontrollin ja joskus hienovaraisuuden välillä |
| Videokeskeiset tekoälyyn perustuvat skaalaimet ( BasicVSR , Topaz Video ) | Vanhaa materiaalia, animea, arkistoja | Maksullinen | Tilapäisiä temppuja välkkymisen vähentämiseksi + erikoistuneet videomallit |
| Älypuhelimen/gallerian skaalaus ylöspäin | Satunnainen käyttö | Mukana | Kevyet mallit, jotka on viritetty miellyttävään tehoon, ei täydellisyyteen (edelleen kätevät) |
Muotoiluvirheen tunnustus: "Maksettu" tekee paljon työtä tuossa taulukossa. Mutta ymmärrät varmaan idean 😅
Suuri salaisuus: mallit oppivat vastaamaan matalaresoluutioisia kuvia korkearesoluutioisiin kuviin 🧠➡️🖼️
Useimpien tekoälyn skaalausten ytimessä on ohjattu oppimisympäristö ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):
-
Aloita korkearesoluutioisista kuvista ("totuus")
-
Alasnäytteistä ne matalan resoluution versioiksi ("syöttö")
-
Kouluta malli rekonstruoimaan alkuperäinen korkearesoluutioinen kuva matalaresoluutioisesta kuvasta
Ajan myötä malli oppii korrelaatioita, kuten:
-
"Tällainen silmän ympärillä oleva epätarkkuus kuuluu yleensä silmäripsiin."
-
"Tämä pikselirypäs viittaa usein serif-tekstiin"
-
”Tämä reunagradientti näyttää kattolinjalta, ei satunnaiselta kohinalta.”
Kyse ei ole tiettyjen kuvien ulkoa opettelusta (yksinkertaisessa merkityksessä), vaan tilastollisen rakenteen oppimisesta ( Deep Learning for Image Super-resolution: A Survey ). Ajattele sitä kuin tekstuurien ja reunojen kieliopin oppimista. Ei runouden kielioppia, vaan pikemminkin… IKEA-käyttöohjeen kielioppia 🪑📦 (kömpelö metafora, mutta lähellä).
Pähkinät ja pultit: mitä tapahtuu päättelyn aikana (kun skaalaat ylöspäin) ⚙️✨
Kun syötät kuvan tekoälyyn skaalaavaan laitteeseen, siinä on tyypillisesti tällainen prosessi:
-
Esikäsittely
-
Muunna väriavaruutta (joskus)
-
Normalisoi pikseliarvot
-
Jaa kuva osiin, jos se on suuri (VRAM-muistin todellisuustarkistus 😭) ( Real-ESRGAN-repo (laatoitusasetukset) )
-
-
Ominaisuuksien erottaminen
-
Varhaiset kerrokset havaitsevat reunat, kulmat ja liukuvärit
-
Syvemmät kerrokset havaitsevat kuvioita: tekstuureja, muotoja, kasvojen osia
-
-
Jälleenrakennus
-
Malli luo korkeamman resoluution ominaisuuskartan
-
Sitten se muunnetaan todelliseksi pikselituloksi
-
-
Jälkikäsittely
-
Valinnainen teroitus
-
Valinnainen kohinanpoisto
-
Valinnainen artefaktien vaimennus (sointiäänet, halot, lohkomaisuus)
-
Yksi hienovarainen yksityiskohta: monet työkalut skaalaavat laattoja suuremmaksi ja sitten häivyttävät saumat. Hyvät työkalut peittävät laattojen rajat. Tavalliset työkalut jättävät himmeitä ruudukkojälkiä, jos siristelet silmiäsi. Ja kyllä, siristelet silmiäsi, koska ihmiset rakastavat tarkastella pieniä epätäydellisyyksiä 300 % zoomilla kuin pienet gremliinit 🧌
Tärkeimmät tekoälyn skaalauksessa käytetyt malliperheet (ja miksi ne tuntuvat erilaisilta) 🤖📚
1) CNN-pohjainen superresoluutio (klassinen työjuhta)
Konvoluutiohermoverkot ovat erinomaisia paikallisten kuvioiden, kuten reunojen, tekstuurien ja pienten rakenteiden, analysoinnissa ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ).
-
Hyvät puolet: nopea, vakaa, vähemmän yllätyksiä
-
Haittoja: voi näyttää hieman "käsitellyltä", jos sitä painetaan kovaa
2) GAN-pohjainen skaalaus (ESRGAN-tyyliin) 🎭
GAN-verkot (Generative Adversarial Networks) kouluttavat generaattorin tuottamaan korkearesoluutioisia kuvia, joita erottelulaite ei pysty erottamaan oikeista kuvista ( Generative Adversarial Networks ).
-
Plussat: terävät yksityiskohdat, vaikuttava tekstuuri
-
Haittoja: voi keksiä yksityiskohtia, joita ei ollut olemassa - joskus väärin, joskus outoja ( SRGAN , ESRGAN )
GAN voi antaa sinulle henkeäsalpaavan terävyyden. Se voi myös antaa muotokuvakohteellesi ylimääräisen kulmakarvan. Joten… valitse taistelusi 😬
3) Diffuusioon perustuva skaalaus (luova jokerikortti) 🌫️➡️🖼️
Diffuusiomallit poistavat kohinaa askel askeleelta ja niitä voidaan ohjata tuottamaan korkearesoluutioisia yksityiskohtia ( SR3 ).
-
Hyvät puolet: voi olla uskomattoman hyvä uskottavien yksityiskohtien kanssa, erityisesti luovassa työssä
-
Haittoja: voi ajautua pois alkuperäisestä identiteetistä/rakenteesta, jos ympäristöt ovat aggressiivisia ( SR3 )
Tässä kohtaa "skaalaus ylöspäin" alkaa sekoittua "uudelleenkuvitelmiseen". Joskus se on juuri sitä, mitä haluat. Joskus ei.
4) Videon skaalaus ajallisesti yhdenmukaisella tavalla 🎞️
Videon skaalaus lisää usein liiketunnistusta:
-
Käyttää vierekkäisiä kehyksiä yksityiskohtien vakauttamiseen ( BasicVSR (CVPR 2021) )
-
Yrittää välttää välkkymistä ja ryömiviä artefakteja
-
Usein yhdistää superresoluution kohinanvaimennukseen ja lomituksen poistoon ( Topaz Video )
Jos kuvan skaalaus on kuin yhden maalauksen entisöintiä, videon skaalaus on kuin flipperivihkosen entisöintiä ilman, että hahmon nenän muoto muuttuu joka sivulla. Mikä on… vaikeampaa kuin miltä se kuulostaa.
Miksi tekoälyn skaalaus näyttää joskus väärennetyltä (ja miten sen tunnistaa) 👀🚩
Tekoälyn skaalaus epäonnistuu tunnistettavilla tavoilla. Kun opit kaavat, näet niitä kaikkialla, kuten ostaessasi uuden auton ja yhtäkkiä huomatessasi kyseisen mallin joka kadulla 😵💫
Common kertoo:
-
vahaus (liikaa kohinanpoistoa ja tasoitusta)
-
Yliterävöitetyt halot reunojen ympärillä (klassinen "ylityksen" alue) ( bikuutiointerpolointi )
-
Toistuvat tekstuurit (tiiliseinät muuttuvat kopioi-liitä -kuvioiksi)
-
Rapea mikrokontrasti , joka huutaa "algoritmia"
-
Tekstin vääristyminen , jossa kirjaimista tulee melkein kirjaimia (pahin laatuaan)
-
Yksityiskohtien ajautuminen , jossa pienet ominaisuudet muuttuvat hienovaraisesti, erityisesti diffuusiotyönkuluissa ( SR3 )
Hankala osuus: joskus nämä esineet näyttävät "paremmilta" yhdellä silmäyksellä. Aivosi pitävät terävyydestä. Mutta hetken kuluttua se tuntuu... oudolta.
Hyvä taktiikka on zoomata ulos ja tarkistaa, näyttääkö se luonnolliselta normaalilla katseluetäisyydellä. Jos se näyttää hyvältä vain 400 % zoomilla, se ei ole voitto, se on harrastus 😅
Näin tekoälyn skaalaus toimii: koulutuspuoli ilman matemaattista päänsärkyä 📉🙂
Superresoluutiomallien kouluttaminen sisältää yleensä:
-
Paritetut datajoukot (matala resoluutio syöte, korkea resoluutio kohde) ( kuvan superresoluutio syvien konvoluutioverkkojen avulla (SRCNN) )
-
Vääristä rekonstruktioista rankaisevat häviöfunktiot SRGAN )
Tyypillisiä tappiotyyppejä:
-
Pikselihäviö (L1/L2)
Edistää tarkkuutta. Voi tuottaa hieman pehmeitä tuloksia. -
Havaintokyvyn heikkeneminen
näyttääkö tämä samankaltaiselta") tarkkojen pikseleiden sijaan ( Havaintokyvyn heikkeneminen (Johnson et al., 2016) ). -
Konfliktihäviö (GAN)
Edistää realismia, joskus kirjaimellisen tarkkuuden kustannuksella ( SRGAN , Generative Adversarial Networks ).
Jatkuvaa vääntöä käydään:
-
Tee siitä uskollinen alkuperäiselle
vs. -
Tee siitä visuaalisesti miellyttävä
Eri työkalut sijoittuvat eri paikkoihin tällä skaalalla. Ja saatat valita yhden mieluummin riippuen siitä, oletko entisöimässä perhevalokuvia vai valmistelemassa julistetta, jossa "hyvännäköisyys" on tärkeämpää kuin rikostekninen tarkkuus.
Käytännön työnkulkuja: valokuvat, vanhat skannaukset, anime ja video 📸🧾🎥
Valokuvat (muotokuvat, maisemakuvat, tuotekuvat)
Paras käytäntö on yleensä:
-
Lievä kohinanpoisto ensin (tarvittaessa)
-
Ylellinen ja konservatiivisissa asetuksissa
-
Lisää viljaa takaisin, jos pinta tuntuu liian sileältä (kyllä, todellakin)
Vilja on kuin suolaa. Liika vilja pilaa illallisen, mutta ei lainkaan voi maistua hieman lattealta 🍟
Vanhat skannaukset ja voimakkaasti pakatut kuvat
Nämä ovat vaikeampia, koska malli saattaa käsitellä puristuslohkoja "tekstuureina".
Kokeile:
-
Artefaktien poistaminen tai eston purkaminen
-
Sitten skaalaa ylöspäin
-
Sitten kevyt teroitus (ei liikaa… tiedän, kaikki sanovat niin, mutta silti)
Anime ja viivapiirrokset
Viivapiirrokset hyötyvät seuraavista:
-
Mallit, jotka säilyttävät puhtaat reunat
-
Vähentynyt tekstuurihallusinaatio.
Animen skaalaus näyttää usein hyvältä, koska muodot ovat yksinkertaisempia ja johdonmukaisempia. (Onneksi.)
Video
Video lisää lisävaiheita:
-
Kohinanvaimennus
-
Lomituksen poisto (tietyissä lähteissä)
-
Hyväpalkkainen
-
Ajallinen tasoitus tai stabilointi ( BasicVSR (CVPR 2021) )
-
Valinnainen viljan uudelleenistutus koheesion parantamiseksi
Jos ohitat ajallisen johdonmukaisuuden, saat tuon hohtavan yksityiskohdan välkkymisen. Kun huomaat sen, et voi olla huomaamatta. Kuten nariseva tuoli hiljaisessa huoneessa 😖
Asetusten valitseminen arvailematta villisti (pieni lunttilappu) 🎛️😵💫
Tässäpä ihan kelpo lähtökohta:
-
Jos kasvot näyttävät muovisilta
, vähennä kohinanpoistoa ja terävöittämistä tai kokeile kasvoja säilyttävää mallia tai tilaa. -
Jos tekstuurit näyttävät liian intensiivisiltä,
laske ”yksityiskohtien parannus”- tai ”yksityiskohtien palautus” -liukusäätimiä ja lisää hienovarainen rakeisuus jälkikäteen. -
Jos reunat hehkuvat
, vähennä terävyyttä ja tarkista halo-vaimennusasetukset. -
Jos kuva näyttää liian tekoälyiseltä,
käytä sitä varovaisemmin. Joskus paras vaihtoehto on yksinkertaisesti… vähemmän.
Älä myöskään skaalaa kuvaa 8x vain siksi, että voit. Puhdas 2x tai 4x on usein optimaalinen koko. Sen lisäksi pyydät mallia kirjoittamaan fanifiktiota pikseleistäsi 📖😂
Etiikka, aitous ja kiusallinen kysymys "totuudesta" 🧭😬
Tekoälyn skaalaus hämärtää rajaa:
-
Restaurointi tarkoittaa sen palauttamista, mikä oli olemassa
-
Parannus tarkoittaa sellaisen lisäämistä, jota ei ollut olemassa
Henkilökohtaisten valokuvien kanssa se on yleensä ihan ok (ja ihanaa). Journalismin, oikeudellisten todisteiden, lääketieteellisen kuvantamisen tai minkä tahansa muun kanssa, jossa uskollisuudella on merkitystä… on oltava varovainen ( OSAC/NIST: Standard Guide for Forensic Digital Image Management , SWGDE Guidelines for Forensic Image Analysis ).
Yksinkertainen sääntö:
-
Jos panokset ovat korkeat, tekoälyn skaalausta kannattaa pitää havainnollistavana , ei lopullisena esimerkkinä.
Myös ammatillisissa yhteyksissä tiedonanto on tärkeää. Ei siksi, että tekoäly olisi paha, vaan koska yleisön on oikeus tietää, rekonstruoitiinko vai tallennettiinko yksityiskohtia. Se on vain… kunnioittavaa.
Loppusanat ja lyhyt kertaus 🧡✅
Eli tekoälyn skaalaus toimii näin: mallit oppivat, miten korkean resoluution yksityiskohdat yleensä liittyvät matalan resoluution kuvioihin, ja ennustavat sitten uskottavia ylimääräisiä pikseleitä skaalauksen aikana ( Deep Learning for Image Super-resolution: A Survey ). Malliperheestä (CNN, GAN, diffuusio, video-temporal) riippuen ennuste voi olla konservatiivinen ja tarkka... tai rohkea ja toisinaan horjumaton 😅
Lyhyt kertaus
-
Perinteinen skaalaus venyttää pikseleitä ( bikuutiointerpolointi )
-
Tekoälyn skaalaus ennustaa puuttuvia yksityiskohtia opittujen mallien avulla ( kuvan superresoluutio syvien konvolutionaalisten verkkojen avulla (SRCNN) )
-
Loistavat tulokset syntyvät oikeasta mallista ja pidättyvyydestä
-
Tarkkaile videossa haloja, vahamaisia pintoja, toistuvia tekstuureja ja välkkymistä ( BasicVSR (CVPR 2021) )
-
Skaalaus ylöspäin on usein "uskottavaa rekonstruktiota", ei täydellistä totuutta ( SRGAN , ESRGAN )
Jos haluat, kerro minulle, mitä olet skaalaamassa ylöspäin (kasvoja, vanhoja valokuvia, videoita, animeja, tekstiskannauksia), niin ehdotan asetusstrategiaa, joka pyrkii välttämään yleisiä "tekoälyilmeen" liittyviä sudenkuoppia 🎯🙂
Usein kysytyt kysymykset
Tekoälyn skaalaus ja miten se toimii
Tekoälyn skaalaus (usein kutsutaan "superresoluutioksi") parantaa kuvan resoluutiota ennustamalla puuttuvia korkean resoluution yksityiskohtia harjoittelun aikana opituista kuvioista. Sen sijaan, että pikseleitä venytettäisiin vain bikuubisen interpoloinnin tavoin, malli tutkii reunoja, tekstuureja, pintoja ja tekstin kaltaisia viivoja ja luo sitten uutta pikselidataa, joka on yhdenmukainen näiden opittujen kuvioiden kanssa. Se ei niinkään "palauta todellisuutta" vaan pikemminkin "tee uskottavaa arvausta", joka kuulostaa luonnolliselta.
Tekoälyn skaalaus verrattuna bikuubiseen tai perinteiseen koon muuttamiseen
Perinteiset skaalausmenetelmät (kuten bikuubinen) interpoloivat pääasiassa olemassa olevien pikseleiden välillä, tasoittaen siirtymiä luomatta todellisia uusia yksityiskohtia. Tekoälyn skaalaus pyrkii rekonstruoimaan uskottavan rakenteen tunnistamalla visuaalisia vihjeitä ja ennustamalla, miltä näiden vihjeiden korkearesoluutioiset versiot yleensä näyttävät. Siksi tekoälyn tulokset voivat tuntua huomattavasti terävämmiltä ja myös siksi ne voivat lisätä artefakteja tai "keksiä" yksityiskohtia, joita ei ollut lähteessä.
Miksi kasvot voivat näyttää vahamaisilta tai liian sileiltä
Vahamaiset kasvot syntyvät yleensä aggressiivisesta kohinanpoistosta ja tasoituksesta yhdistettynä terävöittämiseen, joka poistaa ihon luonnollisen tekstuurin. Monet työkalut käsittelevät kohinaa ja hienoa tekstuuria samalla tavalla, joten kuvan "puhdistaminen" voi poistaa huokoset ja hienovaraiset yksityiskohdat. Yleinen lähestymistapa on vähentää kohinanpoistoa ja terävöittämistä, käyttää kasvojen säilyttävää tilaa, jos se on saatavilla, ja lisätä sitten hieman rakeisuutta, jotta tulos tuntuu vähemmän muoviselta ja valokuvamaisemmalta.
Yleisiä tekoälyn skaalausvirheitä, joita kannattaa seurata
Tyypillisiä merkkejä ovat reunojen ympärillä olevat halot, toistuvat tekstuurikuviot (kuten kopioi-liitä-tiilet), rapiseva mikrokontrasti ja teksti, joka muuttuu "melkein kirjaimiksi". Diffuusiopohjaisissa työnkuluissa yksityiskohtien vaihtelu näkyy myös silloin, kun pienet ominaisuudet muuttuvat hienovaraisesti. Videossa välkkyminen ja yksityiskohtien liikkuminen ruutujen välillä ovat suuria varoitusmerkkejä. Jos kuva näyttää hyvältä vain äärimmäisellä zoomilla, asetukset ovat luultavasti liian aggressiiviset.
Miten GAN-, CNN- ja diffuusiojakajat eroavat tuloksissaan
CNN-pohjainen superresoluutio on yleensä vakaampi ja ennustettavampi, mutta se voi näyttää "prosessoidulta", jos sitä painetaan liikaa. GAN-pohjaiset asetukset (ESRGAN-tyyliin) tuottavat usein iskevämpää tekstuuria ja havaittavaa terävyyttä, mutta ne voivat hallusinoida virheellisiä yksityiskohtia, erityisesti kasvoilla. Diffuusioon perustuva skaalaus voi tuottaa kauniita ja uskottavia yksityiskohtia, mutta se voi poiketa alkuperäisestä rakenteesta, jos ohjaus- tai voimakkuusasetukset ovat liian voimakkaita.
Käytännöllinen asetusstrategia "liian tekoälyisen" ulkonäön välttämiseksi
Aloita konservatiivisesti: skaalaa 2× tai 4× ennen kuin turvaudut äärimmäisiin tekijöihin. Jos pinnat näyttävät muovisilta, vähennä kohinanpoistoa ja terävöittämistä ja kokeile kasvotietoista tilaa. Jos tekstuurit muuttuvat liian intensiivisiksi, vähennä yksityiskohtien parannusta ja harkitse hienovaraisen rakeisuuden lisäämistä jälkikäteen. Jos reunat hehkuvat, vähennä terävöitystä ja tarkista halojen tai artefaktien häivytys. Monissa prosesseissa "vähemmän" on parempi, koska se säilyttää uskottavan realismin.
Vanhojen skannausten tai voimakkaasti JPEG-pakattujen kuvien käsittely ennen skaalausta
Pakatut kuvat ovat hankalia, koska mallit voivat käsitellä lohkoartefakteja oikeina tekstuureina ja vahvistaa niitä. Yleinen työnkulku on ensin artefaktien poistaminen tai paloista poistuminen, sitten skaalaus ja lopuksi kevyt terävöitys vain tarvittaessa. Skannauksissa hellävarainen puhdistus voi auttaa mallia keskittymään todelliseen rakenteeseen vaurioiden sijaan. Tavoitteena on vähentää "väärennettyjä tekstuurivihjeitä", jotta skaalaajan ei tarvitse tehdä varmoja arvauksia kohinaisten syötteiden perusteella.
Miksi videoiden skaalaus on vaikeampaa kuin valokuvien skaalaus
Videon skaalauksen on oltava yhdenmukaista kaikkien ruutujen välillä, ei vain yhdessä still-kuvassa. Jos yksityiskohdat välkkyvät ruudusta toiseen, tuloksesta tulee nopeasti häiritsevä. Videokeskeiset lähestymistavat käyttävät viereisten ruutujen ajallista tietoa rekonstruktion vakauttamiseksi ja välkkyvien artefaktien välttämiseksi. Monet työnkulut sisältävät myös kohinanpoiston, lomituksen poiston tietyille lähteille ja valinnaisen rakeisuuden palauttamisen, jotta koko sekvenssi tuntuu yhtenäiseltä eikä keinotekoisen terävältä.
Kun tekoälyn skaalaus ei ole tarkoituksenmukaista tai siihen luottaminen on riskialtista
Tekoälyn skaalausta kannattaa pitää parannuksena, ei todisteena. Korkean panoksen yhteyksissä, kuten journalismissa, oikeudellisessa todistusaineistossa, lääketieteellisessä kuvantamisessa tai rikosteknisessä työssä, "uskottavien" pikselien luominen voi johtaa harhaan, koska se voi lisätä yksityiskohtia, joita ei ole tallennettu. Turvallisempi rajaus on käyttää sitä havainnollistavasti ja paljastaa, että tekoälyprosessi rekonstruoi yksityiskohdan. Jos tarkkuus on kriittistä, säilytä alkuperäiset ja dokumentoi jokainen käsittelyvaihe ja ympäristö.
Viitteet
-
arXiv - Syväoppiminen kuvien superresoluutioon: Kysely - arxiv.org
-
arXiv - Kuvan superresoluutio syväkonvoluutioverkkojen (SRCNN) avulla - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA-kehittäjä - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
Tietokonenäön säätiön (CVF) avoin julkaisu - BasicVSR: Video Super-Resolutionin keskeisten komponenttien etsintä (CVPR 2021) - openaccess.thecvf.com
-
arXiv - Generatiiviset kilpailevat verkot - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - Havaintokyvyn menetykset (Johnson et al., 2016) - arxiv.org
-
GitHub - Real-ESRGAN-repo (laatta-asetukset) - github.com
-
Wikipedia - Bikuubinen interpolointi - wikipedia.org
-
Topaz Labs - Topaz-valokuva - topazlabs.com
-
Topaz Labs - Topaz-video - topazlabs.com
-
Adoben ohjekeskus - Adobe Enhance > Superresoluutio - helpx.adobe.com
-
NIST / OSAC - Oikeuslääketieteellisen digitaalisen kuvanhallinnan standardiopas (versio 1.0) - nist.gov
-
SWGDE - Ohjeet rikostekniseen kuva-analyysiin - swgde.org