Miten tekoälyn skaalaus toimii

Miten tekoälyn skaalaus toimii?

Lyhyt vastaus: Tekoälyn skaalaus toimii kouluttamalla mallia paritettujen matalan ja korkean resoluution kuvien avulla ja käyttämällä sitä sitten uskottavien ylimääräisten pikselien ennustamiseen skaalauksen aikana. Jos malli on nähnyt samanlaisia ​​tekstuureja tai kasvoja harjoittelussa, se voi lisätä vakuuttavia yksityiskohtia; jos ei, se voi "hallusinoida" videossa artefakteja, kuten haloja, vahamaista ihoa tai välkkymistä.

Keskeiset tiedot:

Ennuste : Malli tuottaa uskottavia yksityiskohtia, ei taattua todellisuuden rekonstruktiota.

Mallin valinta : CNN-verkot ovat yleensä vakaampia; GAN-verkot voivat näyttää terävämmiltä, ​​mutta niihin liittyy ominaisuuksien keksimisen riski.

Artefaktitarkistukset : Tarkkaile haloja, toistuvia tekstuureja, "melkein kirjaimia" ja muovimaisia ​​pintoja.

Videon vakaus : Käytä ajallisia menetelmiä tai näet kuvasta kuvaan välkehtivää ja ajautuvaa kuvaa.

Korkean panoksen käyttö : Jos tarkkuudella on merkitystä, paljasta käsittely ja käsittele tuloksia havainnollistavina.

Miten tekoälyn skaalaus toimii? Infografiikka.

Olet luultavasti nähnyt sen: pieni, rapea kuva muuttuu niin teräväksi, että sen voi tulostaa, suoratoistaa tai pudottaa esitykseen irvistämättä. Se tuntuu huijaamiselta. Ja – parhaalla mahdollisella tavalla – se tavallaan onkin sitä 😅

Joten tekoälyn skaalauksen toimintaperiaate on paljon täsmällisempi kuin "tietokone parantaa yksityiskohtia" (kädenheilautus) ja lähempänä "malli ennustaa uskottavan korkean resoluution rakenteen useista esimerkeistä oppimiensa kuvioiden perusteella" ( Deep Learning for Image Super-resolution: A Survey ). Tämä ennustusvaihe on koko pelin ydin – ja siksi tekoälyn skaalaus voi näyttää upealta... tai pieneltä muovilta... tai siltä kuin kissasi olisi kasvattanut bonusviiksiä.

Artikkelit, joita saatat haluta lukea tämän jälkeen:

🔗 Miten tekoäly toimii
Opi mallien, datan ja päättelyn perusteet tekoälyssä.

🔗 Miten tekoäly oppii
Katso, miten koulutusdata ja palaute parantavat mallin suorituskykyä ajan myötä.

🔗 Miten tekoäly havaitsee poikkeavuuksia
Ymmärrä toimintamallien lähtökohdat ja miten tekoäly merkitsee epätavallista käyttäytymistä nopeasti.

🔗 Miten tekoäly ennustaa trendejä
Tutki ennustusmenetelmiä, jotka havaitsevat signaaleja ja ennakoivat tulevaa kysyntää.


Näin tekoälyn skaalaus toimii: ydinajatus arkikielellä 🧩

Ylösskaalaus tarkoittaa resoluution nostamista: enemmän pikseleitä, suurempi kuva. Perinteinen ylösskaalaus (kuten bikuubinen) pohjimmiltaan venyttää pikseleitä ja tasoittaa siirtymiä ( bikuubinen interpolointi ). Se on ihan ok, mutta se ei voi keksiä uusia yksityiskohtia - se vain interpoloi.

Tekoälyn skaalaus yrittää jotain rohkeampaa (eli "superresoluutiota" tutkimusmaailmassa) ( Deep Learning for Image Super-resolution: A Survey ):

  • Se tarkastelee matalan resoluution tuloa

  • Tunnistaa kuvioita (reunat, tekstuurit, kasvonpiirteet, tekstin viivat, kankaan kudonta…)

  • Ennustaa, miltä korkeamman resoluution version pitäisi näyttää

  • Luo ylimääräistä pikselidataa, joka sopii näihin kuvioihin

Ei "palauta todellisuus täydellisesti", vaan "tee erittäin uskottava arvaus" ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ). Jos se kuulostaa hieman epäilyttävältä, et ole väärässä – mutta se on myös syy siihen, miksi se toimii niin hyvin 😄

Ja kyllä, tämä tarkoittaa, että tekoälyn skaalaus on pohjimmiltaan kontrolloitua hallusinaatiota... mutta tuottavalla ja pikseleitä kunnioittavalla tavalla.


Mikä tekee tekoälyn skaalauksesta hyvän version? ✅🛠️

Jos arvioit tekoälyn skaalaajaa (tai esiasetusta), tässä on yleensä tärkeimmät seikat:

  • Yksityiskohtien palautus ilman ylikypsentämistä
    Hyvä skaalaus lisää rapeutta ja rakennetta, ei rapisevaa kohinaa tai keinotekoisia ihohuokosia.

  • Reunakuri
    Puhtaat viivat pysyvät puhtaina. Huonot mallit saavat reunat heilumaan tai niille muodostumaan sädekehät.

  • Tekstuurin realismi
    Hiusten ei pitäisi muuttua siveltimenvedoksi. Tiilen ei pitäisi muuttua toistuvaksi kuvioleimasimeksi.

  • Kohinan ja pakkauksen käsittely
    Monet jokapäiväiset kuvat JPEG-muodossa pakkautuvat kuoliaaksi. Hyvä skaalausohjelma ei vahvista tätä vahinkoa ( Real-ESRGAN ).

  • Kasvojen ja tekstin havaitseminen
    Kasvot ja teksti ovat helpoimpia paikkoja havaita virheet. Hyvät mallit käsittelevät niitä hellävaraisesti (tai niillä on erityistilat).

  • Yhdenmukaisuus eri ruutujen välillä (videossa)
    Jos yksityiskohdat välkkyvät ruudusta toiseen, silmäsi huutavat. Videon skaalaus elää tai kuolee ajallisen vakauden mukaan ( BasicVSR (CVPR 2021) ).

  • Järkevät säätimet
    Haluat liukusäätimiä, jotka vastaavat todellisia tuloksia: kohinanpoisto, epäterävyyden korjaus, artefaktien poisto, rakeisuuden säilytys, terävöitys… käytännön asiat.

Hiljainen sääntö, joka pitää paikkansa: "paras" skaalaus on usein se, jota tuskin huomaa. Näyttää vain siltä, ​​että sinulla oli alun perin parempi kamera 📷✨


Vertailutaulukko: suosittuja tekoälyn skaalausvaihtoehtoja (ja mihin ne sopivat) 📊🙂

Alla on käytännöllinen vertailu. Hinnat ovat tarkoituksella epämääräisiä, koska työkalut vaihtelevat lisenssin, pakettien, laskentakustannusten ja kaikkien muiden hauskojen ominaisuuksien mukaan.

Työkalu / Lähestymistapa Paras Hintatunnelma Miksi se toimii (suunnilleen)
Topaz-tyyliset pöytätietokoneen skaalaimet ( Topaz Photo , Topaz Video ) Valokuvat, video, helppo työnkulku Maksullinen Vahvat yleismallit + paljon säätöä, yleensä "vain toimivat"... enimmäkseen
Adoben ”Super Resolution” -tyyppiset ominaisuudet ( Adobe Enhance > Super Resolution ) Valokuvaajat, jotka ovat jo mukana kyseisessä ekosysteemissä Tilaus-y Vankka yksityiskohtainen rekonstruktio, yleensä konservatiivinen (vähemmän draamaa)
Real-ESRGAN / ESRGAN-variantit ( Real-ESRGAN , ESRGAN ) Tee-se-itse, kehittäjät, erätyöt Ilmainen (mutta aikaa vievä) Erinomainen tekstuurien yksityiskohdissa, voi olla tulista kasvoilla, jos et ole varovainen
Diffuusioon perustuvat skaalaustilat ( SR3 ) Luovaa työtä, tyyliteltyjä tuloksia Sekoitettu Osaa luoda upeita yksityiskohtia – ja keksiä myös hölynpölyä, joten… jep
Pelien skaalaimet (DLSS/FSR-tyyliset) ( NVIDIA DLSS , AMD FSR 2 ) Reaaliaikainen pelaaminen ja renderöinti Mukana Käyttää liikedataa ja opittuja prioreja - sujuva suorituskyky voittaa 🕹️
Pilvipalveluiden skaalaus Kätevyys, nopeat voitot Maksa käyttökerran mukaan Nopea + skaalautuva, mutta vaihtokauppa kontrollin ja joskus hienovaraisuuden välillä
Videokeskeiset tekoälyyn perustuvat skaalaimet ( BasicVSR , Topaz Video ) Vanhaa materiaalia, animea, arkistoja Maksullinen Tilapäisiä temppuja välkkymisen vähentämiseksi + erikoistuneet videomallit
Älypuhelimen/gallerian skaalaus ylöspäin Satunnainen käyttö Mukana Kevyet mallit, jotka on viritetty miellyttävään tehoon, ei täydellisyyteen (edelleen kätevät)

Muotoiluvirheen tunnustus: "Maksettu" tekee paljon työtä tuossa taulukossa. Mutta ymmärrät varmaan idean 😅


Suuri salaisuus: mallit oppivat vastaamaan matalaresoluutioisia kuvia korkearesoluutioisiin kuviin 🧠➡️🖼️

Useimpien tekoälyn skaalausten ytimessä on ohjattu oppimisympäristö ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):

  1. Aloita korkearesoluutioisista kuvista ("totuus")

  2. Alasnäytteistä ne matalan resoluution versioiksi ("syöttö")

  3. Kouluta malli rekonstruoimaan alkuperäinen korkearesoluutioinen kuva matalaresoluutioisesta kuvasta

Ajan myötä malli oppii korrelaatioita, kuten:

  • "Tällainen silmän ympärillä oleva epätarkkuus kuuluu yleensä silmäripsiin."

  • "Tämä pikselirypäs viittaa usein serif-tekstiin"

  • ”Tämä reunagradientti näyttää kattolinjalta, ei satunnaiselta kohinalta.”

Kyse ei ole tiettyjen kuvien ulkoa opettelusta (yksinkertaisessa merkityksessä), vaan tilastollisen rakenteen oppimisesta ( Deep Learning for Image Super-resolution: A Survey ). Ajattele sitä kuin tekstuurien ja reunojen kieliopin oppimista. Ei runouden kielioppia, vaan pikemminkin… IKEA-käyttöohjeen kielioppia 🪑📦 (kömpelö metafora, mutta lähellä).


Pähkinät ja pultit: mitä tapahtuu päättelyn aikana (kun skaalaat ylöspäin) ⚙️✨

Kun syötät kuvan tekoälyyn skaalaavaan laitteeseen, siinä on tyypillisesti tällainen prosessi:

  • Esikäsittely

  • Ominaisuuksien erottaminen

    • Varhaiset kerrokset havaitsevat reunat, kulmat ja liukuvärit

    • Syvemmät kerrokset havaitsevat kuvioita: tekstuureja, muotoja, kasvojen osia

  • Jälleenrakennus

    • Malli luo korkeamman resoluution ominaisuuskartan

    • Sitten se muunnetaan todelliseksi pikselituloksi

  • Jälkikäsittely

    • Valinnainen teroitus

    • Valinnainen kohinanpoisto

    • Valinnainen artefaktien vaimennus (sointiäänet, halot, lohkomaisuus)

Yksi hienovarainen yksityiskohta: monet työkalut skaalaavat laattoja suuremmaksi ja sitten häivyttävät saumat. Hyvät työkalut peittävät laattojen rajat. Tavalliset työkalut jättävät himmeitä ruudukkojälkiä, jos siristelet silmiäsi. Ja kyllä, siristelet silmiäsi, koska ihmiset rakastavat tarkastella pieniä epätäydellisyyksiä 300 % zoomilla kuin pienet gremliinit 🧌


Tärkeimmät tekoälyn skaalauksessa käytetyt malliperheet (ja miksi ne tuntuvat erilaisilta) 🤖📚

1) CNN-pohjainen superresoluutio (klassinen työjuhta)

Konvoluutiohermoverkot ovat erinomaisia ​​paikallisten kuvioiden, kuten reunojen, tekstuurien ja pienten rakenteiden, analysoinnissa ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ).

  • Hyvät puolet: nopea, vakaa, vähemmän yllätyksiä

  • Haittoja: voi näyttää hieman "käsitellyltä", jos sitä painetaan kovaa

2) GAN-pohjainen skaalaus (ESRGAN-tyyliin) 🎭

GAN-verkot (Generative Adversarial Networks) kouluttavat generaattorin tuottamaan korkearesoluutioisia kuvia, joita erottelulaite ei pysty erottamaan oikeista kuvista ( Generative Adversarial Networks ).

  • Plussat: terävät yksityiskohdat, vaikuttava tekstuuri

  • Haittoja: voi keksiä yksityiskohtia, joita ei ollut olemassa - joskus väärin, joskus outoja ( SRGAN , ESRGAN )

GAN voi antaa sinulle henkeäsalpaavan terävyyden. Se voi myös antaa muotokuvakohteellesi ylimääräisen kulmakarvan. Joten… valitse taistelusi 😬

3) Diffuusioon perustuva skaalaus (luova jokerikortti) 🌫️➡️🖼️

Diffuusiomallit poistavat kohinaa askel askeleelta ja niitä voidaan ohjata tuottamaan korkearesoluutioisia yksityiskohtia ( SR3 ).

  • Hyvät puolet: voi olla uskomattoman hyvä uskottavien yksityiskohtien kanssa, erityisesti luovassa työssä

  • Haittoja: voi ajautua pois alkuperäisestä identiteetistä/rakenteesta, jos ympäristöt ovat aggressiivisia ( SR3 )

Tässä kohtaa "skaalaus ylöspäin" alkaa sekoittua "uudelleenkuvitelmiseen". Joskus se on juuri sitä, mitä haluat. Joskus ei.

4) Videon skaalaus ajallisesti yhdenmukaisella tavalla 🎞️

Videon skaalaus lisää usein liiketunnistusta:

  • Käyttää vierekkäisiä kehyksiä yksityiskohtien vakauttamiseen ( BasicVSR (CVPR 2021) )

  • Yrittää välttää välkkymistä ja ryömiviä artefakteja

  • Usein yhdistää superresoluution kohinanvaimennukseen ja lomituksen poistoon ( Topaz Video )

Jos kuvan skaalaus on kuin yhden maalauksen entisöintiä, videon skaalaus on kuin flipperivihkosen entisöintiä ilman, että hahmon nenän muoto muuttuu joka sivulla. Mikä on… vaikeampaa kuin miltä se kuulostaa.


Miksi tekoälyn skaalaus näyttää joskus väärennetyltä (ja miten sen tunnistaa) 👀🚩

Tekoälyn skaalaus epäonnistuu tunnistettavilla tavoilla. Kun opit kaavat, näet niitä kaikkialla, kuten ostaessasi uuden auton ja yhtäkkiä huomatessasi kyseisen mallin joka kadulla 😵💫

Common kertoo:

  • vahaus (liikaa kohinanpoistoa ja tasoitusta)

  • Yliterävöitetyt halot reunojen ympärillä (klassinen "ylityksen" alue) ( bikuutiointerpolointi )

  • Toistuvat tekstuurit (tiiliseinät muuttuvat kopioi-liitä -kuvioiksi)

  • Rapea mikrokontrasti , joka huutaa "algoritmia"

  • Tekstin vääristyminen , jossa kirjaimista tulee melkein kirjaimia (pahin laatuaan)

  • Yksityiskohtien ajautuminen , jossa pienet ominaisuudet muuttuvat hienovaraisesti, erityisesti diffuusiotyönkuluissa ( SR3 )

Hankala osuus: joskus nämä esineet näyttävät "paremmilta" yhdellä silmäyksellä. Aivosi pitävät terävyydestä. Mutta hetken kuluttua se tuntuu... oudolta.

Hyvä taktiikka on zoomata ulos ja tarkistaa, näyttääkö se luonnolliselta normaalilla katseluetäisyydellä. Jos se näyttää hyvältä vain 400 % zoomilla, se ei ole voitto, se on harrastus 😅


Näin tekoälyn skaalaus toimii: koulutuspuoli ilman matemaattista päänsärkyä 📉🙂

Superresoluutiomallien kouluttaminen sisältää yleensä:

Tyypillisiä tappiotyyppejä:

Jatkuvaa vääntöä käydään:

  • Tee siitä uskollinen alkuperäiselle
    vs.

  • Tee siitä visuaalisesti miellyttävä

Eri työkalut sijoittuvat eri paikkoihin tällä skaalalla. Ja saatat valita yhden mieluummin riippuen siitä, oletko entisöimässä perhevalokuvia vai valmistelemassa julistetta, jossa "hyvännäköisyys" on tärkeämpää kuin rikostekninen tarkkuus.


Käytännön työnkulkuja: valokuvat, vanhat skannaukset, anime ja video 📸🧾🎥

Valokuvat (muotokuvat, maisemakuvat, tuotekuvat)

Paras käytäntö on yleensä:

  • Lievä kohinanpoisto ensin (tarvittaessa)

  • Ylellinen ja konservatiivisissa asetuksissa

  • Lisää viljaa takaisin, jos pinta tuntuu liian sileältä (kyllä, todellakin)

Vilja on kuin suolaa. Liika vilja pilaa illallisen, mutta ei lainkaan voi maistua hieman lattealta 🍟

Vanhat skannaukset ja voimakkaasti pakatut kuvat

Nämä ovat vaikeampia, koska malli saattaa käsitellä puristuslohkoja "tekstuureina".
Kokeile:

  • Artefaktien poistaminen tai eston purkaminen

  • Sitten skaalaa ylöspäin

  • Sitten kevyt teroitus (ei liikaa… tiedän, kaikki sanovat niin, mutta silti)

Anime ja viivapiirrokset

Viivapiirrokset hyötyvät seuraavista:

  • Mallit, jotka säilyttävät puhtaat reunat

  • Vähentynyt tekstuurihallusinaatio.
    Animen skaalaus näyttää usein hyvältä, koska muodot ovat yksinkertaisempia ja johdonmukaisempia. (Onneksi.)

Video

Video lisää lisävaiheita:

  • Kohinanvaimennus

  • Lomituksen poisto (tietyissä lähteissä)

  • Hyväpalkkainen

  • Ajallinen tasoitus tai stabilointi ( BasicVSR (CVPR 2021) )

  • Valinnainen viljan uudelleenistutus koheesion parantamiseksi

Jos ohitat ajallisen johdonmukaisuuden, saat tuon hohtavan yksityiskohdan välkkymisen. Kun huomaat sen, et voi olla huomaamatta. Kuten nariseva tuoli hiljaisessa huoneessa 😖


Asetusten valitseminen arvailematta villisti (pieni lunttilappu) 🎛️😵💫

Tässäpä ihan kelpo lähtökohta:

  • Jos kasvot näyttävät muovisilta
    , vähennä kohinanpoistoa ja terävöittämistä tai kokeile kasvoja säilyttävää mallia tai tilaa.

  • Jos tekstuurit näyttävät liian intensiivisiltä,
    ​​laske ”yksityiskohtien parannus”- tai ”yksityiskohtien palautus” -liukusäätimiä ja lisää hienovarainen rakeisuus jälkikäteen.

  • Jos reunat hehkuvat
    , vähennä terävyyttä ja tarkista halo-vaimennusasetukset.

  • Jos kuva näyttää liian tekoälyiseltä,
    käytä sitä varovaisemmin. Joskus paras vaihtoehto on yksinkertaisesti… vähemmän.

Älä myöskään skaalaa kuvaa 8x vain siksi, että voit. Puhdas 2x tai 4x on usein optimaalinen koko. Sen lisäksi pyydät mallia kirjoittamaan fanifiktiota pikseleistäsi 📖😂


Etiikka, aitous ja kiusallinen kysymys "totuudesta" 🧭😬

Tekoälyn skaalaus hämärtää rajaa:

  • Restaurointi tarkoittaa sen palauttamista, mikä oli olemassa

  • Parannus tarkoittaa sellaisen lisäämistä, jota ei ollut olemassa

Henkilökohtaisten valokuvien kanssa se on yleensä ihan ok (ja ihanaa). Journalismin, oikeudellisten todisteiden, lääketieteellisen kuvantamisen tai minkä tahansa muun kanssa, jossa uskollisuudella on merkitystä… on oltava varovainen ( OSAC/NIST: Standard Guide for Forensic Digital Image Management , SWGDE Guidelines for Forensic Image Analysis ).

Yksinkertainen sääntö:

  • Jos panokset ovat korkeat, tekoälyn skaalausta kannattaa pitää havainnollistavana , ei lopullisena esimerkkinä.

Myös ammatillisissa yhteyksissä tiedonanto on tärkeää. Ei siksi, että tekoäly olisi paha, vaan koska yleisön on oikeus tietää, rekonstruoitiinko vai tallennettiinko yksityiskohtia. Se on vain… kunnioittavaa.


Loppusanat ja lyhyt kertaus 🧡✅

Eli tekoälyn skaalaus toimii näin: mallit oppivat, miten korkean resoluution yksityiskohdat yleensä liittyvät matalan resoluution kuvioihin, ja ennustavat sitten uskottavia ylimääräisiä pikseleitä skaalauksen aikana ( Deep Learning for Image Super-resolution: A Survey ). Malliperheestä (CNN, GAN, diffuusio, video-temporal) riippuen ennuste voi olla konservatiivinen ja tarkka... tai rohkea ja toisinaan horjumaton 😅

Lyhyt kertaus

Jos haluat, kerro minulle, mitä olet skaalaamassa ylöspäin (kasvoja, vanhoja valokuvia, videoita, animeja, tekstiskannauksia), niin ehdotan asetusstrategiaa, joka pyrkii välttämään yleisiä "tekoälyilmeen" liittyviä sudenkuoppia 🎯🙂


Usein kysytyt kysymykset

Tekoälyn skaalaus ja miten se toimii

Tekoälyn skaalaus (usein kutsutaan "superresoluutioksi") parantaa kuvan resoluutiota ennustamalla puuttuvia korkean resoluution yksityiskohtia harjoittelun aikana opituista kuvioista. Sen sijaan, että pikseleitä venytettäisiin vain bikuubisen interpoloinnin tavoin, malli tutkii reunoja, tekstuureja, pintoja ja tekstin kaltaisia ​​viivoja ja luo sitten uutta pikselidataa, joka on yhdenmukainen näiden opittujen kuvioiden kanssa. Se ei niinkään "palauta todellisuutta" vaan pikemminkin "tee uskottavaa arvausta", joka kuulostaa luonnolliselta.

Tekoälyn skaalaus verrattuna bikuubiseen tai perinteiseen koon muuttamiseen

Perinteiset skaalausmenetelmät (kuten bikuubinen) interpoloivat pääasiassa olemassa olevien pikseleiden välillä, tasoittaen siirtymiä luomatta todellisia uusia yksityiskohtia. Tekoälyn skaalaus pyrkii rekonstruoimaan uskottavan rakenteen tunnistamalla visuaalisia vihjeitä ja ennustamalla, miltä näiden vihjeiden korkearesoluutioiset versiot yleensä näyttävät. Siksi tekoälyn tulokset voivat tuntua huomattavasti terävämmiltä ja myös siksi ne voivat lisätä artefakteja tai "keksiä" yksityiskohtia, joita ei ollut lähteessä.

Miksi kasvot voivat näyttää vahamaisilta tai liian sileiltä

Vahamaiset kasvot syntyvät yleensä aggressiivisesta kohinanpoistosta ja tasoituksesta yhdistettynä terävöittämiseen, joka poistaa ihon luonnollisen tekstuurin. Monet työkalut käsittelevät kohinaa ja hienoa tekstuuria samalla tavalla, joten kuvan "puhdistaminen" voi poistaa huokoset ja hienovaraiset yksityiskohdat. Yleinen lähestymistapa on vähentää kohinanpoistoa ja terävöittämistä, käyttää kasvojen säilyttävää tilaa, jos se on saatavilla, ja lisätä sitten hieman rakeisuutta, jotta tulos tuntuu vähemmän muoviselta ja valokuvamaisemmalta.

Yleisiä tekoälyn skaalausvirheitä, joita kannattaa seurata

Tyypillisiä merkkejä ovat reunojen ympärillä olevat halot, toistuvat tekstuurikuviot (kuten kopioi-liitä-tiilet), rapiseva mikrokontrasti ja teksti, joka muuttuu "melkein kirjaimiksi". Diffuusiopohjaisissa työnkuluissa yksityiskohtien vaihtelu näkyy myös silloin, kun pienet ominaisuudet muuttuvat hienovaraisesti. Videossa välkkyminen ja yksityiskohtien liikkuminen ruutujen välillä ovat suuria varoitusmerkkejä. Jos kuva näyttää hyvältä vain äärimmäisellä zoomilla, asetukset ovat luultavasti liian aggressiiviset.

Miten GAN-, CNN- ja diffuusiojakajat eroavat tuloksissaan

CNN-pohjainen superresoluutio on yleensä vakaampi ja ennustettavampi, mutta se voi näyttää "prosessoidulta", jos sitä painetaan liikaa. GAN-pohjaiset asetukset (ESRGAN-tyyliin) tuottavat usein iskevämpää tekstuuria ja havaittavaa terävyyttä, mutta ne voivat hallusinoida virheellisiä yksityiskohtia, erityisesti kasvoilla. Diffuusioon perustuva skaalaus voi tuottaa kauniita ja uskottavia yksityiskohtia, mutta se voi poiketa alkuperäisestä rakenteesta, jos ohjaus- tai voimakkuusasetukset ovat liian voimakkaita.

Käytännöllinen asetusstrategia "liian tekoälyisen" ulkonäön välttämiseksi

Aloita konservatiivisesti: skaalaa 2× tai 4× ennen kuin turvaudut äärimmäisiin tekijöihin. Jos pinnat näyttävät muovisilta, vähennä kohinanpoistoa ja terävöittämistä ja kokeile kasvotietoista tilaa. Jos tekstuurit muuttuvat liian intensiivisiksi, vähennä yksityiskohtien parannusta ja harkitse hienovaraisen rakeisuuden lisäämistä jälkikäteen. Jos reunat hehkuvat, vähennä terävöitystä ja tarkista halojen tai artefaktien häivytys. Monissa prosesseissa "vähemmän" on parempi, koska se säilyttää uskottavan realismin.

Vanhojen skannausten tai voimakkaasti JPEG-pakattujen kuvien käsittely ennen skaalausta

Pakatut kuvat ovat hankalia, koska mallit voivat käsitellä lohkoartefakteja oikeina tekstuureina ja vahvistaa niitä. Yleinen työnkulku on ensin artefaktien poistaminen tai paloista poistuminen, sitten skaalaus ja lopuksi kevyt terävöitys vain tarvittaessa. Skannauksissa hellävarainen puhdistus voi auttaa mallia keskittymään todelliseen rakenteeseen vaurioiden sijaan. Tavoitteena on vähentää "väärennettyjä tekstuurivihjeitä", jotta skaalaajan ei tarvitse tehdä varmoja arvauksia kohinaisten syötteiden perusteella.

Miksi videoiden skaalaus on vaikeampaa kuin valokuvien skaalaus

Videon skaalauksen on oltava yhdenmukaista kaikkien ruutujen välillä, ei vain yhdessä still-kuvassa. Jos yksityiskohdat välkkyvät ruudusta toiseen, tuloksesta tulee nopeasti häiritsevä. Videokeskeiset lähestymistavat käyttävät viereisten ruutujen ajallista tietoa rekonstruktion vakauttamiseksi ja välkkyvien artefaktien välttämiseksi. Monet työnkulut sisältävät myös kohinanpoiston, lomituksen poiston tietyille lähteille ja valinnaisen rakeisuuden palauttamisen, jotta koko sekvenssi tuntuu yhtenäiseltä eikä keinotekoisen terävältä.

Kun tekoälyn skaalaus ei ole tarkoituksenmukaista tai siihen luottaminen on riskialtista

Tekoälyn skaalausta kannattaa pitää parannuksena, ei todisteena. Korkean panoksen yhteyksissä, kuten journalismissa, oikeudellisessa todistusaineistossa, lääketieteellisessä kuvantamisessa tai rikosteknisessä työssä, "uskottavien" pikselien luominen voi johtaa harhaan, koska se voi lisätä yksityiskohtia, joita ei ole tallennettu. Turvallisempi rajaus on käyttää sitä havainnollistavasti ja paljastaa, että tekoälyprosessi rekonstruoi yksityiskohdan. Jos tarkkuus on kriittistä, säilytä alkuperäiset ja dokumentoi jokainen käsittelyvaihe ja ympäristö.

Viitteet

  1. arXiv - Syväoppiminen kuvien superresoluutioon: Kysely - arxiv.org

  2. arXiv - Kuvan superresoluutio syväkonvoluutioverkkojen (SRCNN) avulla - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA-kehittäjä - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. Tietokonenäön säätiön (CVF) avoin julkaisu - BasicVSR: Video Super-Resolutionin keskeisten komponenttien etsintä (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - Generatiiviset kilpailevat verkot - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Havaintokyvyn menetykset (Johnson et al., 2016) - arxiv.org

  12. GitHub - Real-ESRGAN-repo (laatta-asetukset) - github.com

  13. Wikipedia - Bikuubinen interpolointi - wikipedia.org

  14. Topaz Labs - Topaz-valokuva - topazlabs.com

  15. Topaz Labs - Topaz-video - topazlabs.com

  16. Adoben ohjekeskus - Adobe Enhance > Superresoluutio - helpx.adobe.com

  17. NIST / OSAC - Oikeuslääketieteellisen digitaalisen kuvanhallinnan standardiopas (versio 1.0) - nist.gov

  18. SWGDE - Ohjeet rikostekniseen kuva-analyysiin - swgde.org

Löydä uusimmat tekoälytuotteet virallisesta tekoälyavustajakaupasta

Tietoa meistä

Takaisin blogiin