Hogyan működik az AI felskálázása?

Hogyan működik az AI felskálázása?

Rövid válasz: Az AI felskálázás úgy működik, hogy egy modellt párosított alacsony és nagy felbontású képeken tanít be, majd ezeket felhasználva hihető extra pixeleket jósol a felskálázás során. Ha a modell hasonló textúrákat vagy arcokat látott a betanítás során, meggyőző részleteket tud hozzáadni; ha nem, akkor „hallucinálhat” olyan műtermékeket, mint a fényudvarok, a viaszos bőr vagy a videóban a vibrálás.

Főbb tanulságok:

Jóslat : A modell hihető részleteket generál, nem pedig a valóság garantált rekonstrukcióját.

Modellválasztás : A CNN-ek általában stabilabbak; a GAN-ok élesebbnek tűnhetnek, de fennáll a funkciók feltalálásának kockázata.

Tárgyellenőrzések : Figyelj a fényudvarokra, az ismétlődő textúrákra, a „majdnem betűkre” és a műanyagszerű arcokra.

Videó stabilitása : Használjon időbeli módszereket, különben képkockánkénti vibrálást és sodródást fog látni.

Nagy téttel járó felhasználás : Ha a pontosság számít, akkor a feldolgozást nyilvánosságra kell hozni, és az eredményeket illusztrációként kell kezelni.

Hogyan működik a mesterséges intelligencia általi felskálázás? Infografika.

Valószínűleg láttad már: egy apró, ropogós képből olyan éles kép lesz, hogy kinyomtathatod, streamelheted, vagy bedobhatod egy prezentációba anélkül, hogy összerándulnál. Olyan, mint a csalás. És – a legjobb értelemben – valahogy az is 😅

Tehát az AI felskálázás működése valami konkrétabbra redukálható, mint hogy „a számítógép fokozza a részleteket” (kézzel rajzolt minta), és inkább arra, hogy „egy modell valószínűsíthető nagy felbontású struktúrát jósol meg a sok példából tanult minták alapján” ( Deep Learning for Image Super-resolution: A Survey ). Ez az előrejelzési lépés az egész játék – és ezért nézhet ki lenyűgözően az AI felskálázás... vagy egy kis műanyagként... vagy mint amikor a macskád bónusz bajuszt növesztett.

Cikkek, amiket esetleg ezután érdemes elolvasnod:

🔗 Hogyan működik a mesterséges intelligencia
Ismerd meg a modellek, az adatok és a következtetések alapjait a mesterséges intelligenciában.

🔗 Hogyan tanul a mesterséges intelligencia
Nézze meg, hogyan javítják a betanítási adatok és a visszajelzések a modell teljesítményét az idő múlásával.

🔗 Hogyan észleli a mesterséges intelligencia az anomáliákat
Értse meg a mintázatok alapvonalait és azt, hogy a mesterséges intelligencia hogyan jelzi gyorsan a szokatlan viselkedést.

🔗 Hogyan jósolja meg a mesterséges intelligencia a trendeket
Fedezze fel azokat az előrejelzési módszereket, amelyek felismerik a jeleket és előrejelzik a jövőbeli keresletet.


Hogyan működik az AI Upscaling: az alapötlet, hétköznapi szavakkal 🧩

A felskálázás a felbontás növelését jelenti: több pixel, nagyobb kép. A hagyományos felskálázás (mint a bikubikus) alapvetően megnyújtja a pixeleket és simítja az átmeneteket ( bikubikus interpoláció ). Rendben van, de nem tud új részleteket létrehozni - csak interpolál.

Az AI felskálázás valami merészebbet próbál ki (más néven „szuperfelbontást” a kutatási világban) ( Deep Learning for Image Super-resolution: A Survey ):

  • Az alacsony felbontású bemenetet vizsgálja

  • Felismeri a mintákat (élek, textúrák, arcvonások, szövegvonások, szövet szövése…)

  • kellene kinéznie egy nagyobb felbontású verziónak

  • Extra pixeladatokat generál, amelyek illeszkednek ezekhez a mintákhoz

Nem a „valóság tökéletes visszaállítása”, hanem inkább a „nagyon hihető találgatás” ( képszuperfelbontás mély konvolúciós hálózatok használatával (SRCNN) ). Ha ez kicsit gyanúsan hangzik, nem tévedsz – de ez az oka annak is, hogy olyan jól működik 😄

És igen, ez azt jelenti, hogy a mesterséges intelligencia általi felskálázás alapvetően kontrollált hallucináció… de produktív, pixelkímélő módon.


Mitől lesz jó egy AI felskálázási verzió? ✅🛠️

Ha egy mesterséges intelligencián alapuló felskálázót (vagy egy előre beállított értéket) ítélsz meg, akkor a következők szoktak a legfontosabbak lenni:

  • Részletvisszanyerés túlsütés nélkül
    A jó felskálázás ropogósságot és struktúrát ad a képnek, nem ropogós zajt vagy műpórusokat.

  • Élfegyelem
    A tiszta vonalak tiszták maradnak. A rossz modellek miatt az élek remegnek vagy udvarokat hoznak létre.

  • Textúrarealizmus
    A haj nem válhat ecsetvonássá. A tégla nem válhat ismétlődő mintázatúvá.

  • Zaj- és tömörítéskezelés
    Sok hétköznapi képet halálra sűrítenek JPEG formátumban. Egy jó felskálázó nem erősíti fel ezt a kárt ( Real-ESRGAN ).

  • Arc- és szövegfelismerés
    Az arcokon és a szövegen keresztül lehet a legkönnyebben észrevenni a hibákat. A jó modellek finoman bánnak velük (vagy speciális módokkal rendelkeznek).

  • Képkockák közötti konzisztencia (videó esetén)
    Ha a részletek képkockáról képkockára villódznak, a szemed sikítani fog. A videó felskálázása az időbeli stabilitástól függ ( BasicVSR (CVPR 2021) ).

  • Logikus vezérlők
    Olyan csúszkákat szeretnél, amelyek valós eredményekhez kapcsolódnak: zajszűrés, elmosódás-eltávolítás, műtermékek eltávolítása, szemcsézettség megtartása, élesítés… a praktikus dolgok.

Egy csendes szabály, ami megállja a helyét: a „legjobb” felskálázás gyakran az, amit alig veszel észre. Úgy tűnik, mintha eleve jobb kamerád lett volna 📷✨


Összehasonlító táblázat: népszerű AI felskálázási lehetőségek (és mire jók) 📊🙂

Az alábbiakban egy gyakorlati összehasonlítás látható. Az árak szándékosan homályosak, mivel az eszközök licencenként, csomagonként, számítási költségekként és az összes többi érdekesség szerint változnak.

Eszköz / Megközelítés Legjobb Árhangulat Miért működik (nagyjából)
Topaz stílusú asztali felskálázók ( Topaz Photo , Topaz Video ) Fotók, videók, egyszerű munkafolyamat Fizetős Erős általános modellek + sok finomhangolás, többnyire csak „működnek”…
Adobe „Szuperfelbontás” típusú funkciók ( Adobe Enhance > Szuperfelbontás ) A fotósok már jelen vannak ebben az ökoszisztémában Előfizetéses Szilárd részletrekonstrukció, általában konzervatív (kevesebb dráma)
Valódi ESRGAN / ESRGAN variánsok ( Valódi ESRGAN , ESRGAN ) Saját kezűleg, fejlesztők, kötegelt munkák Ingyenes (de időigényes) Nagyszerű a textúra részletgazdagságában, de ha nem vigyázol, csípős lehet az arcon
Diffúzió alapú felskálázási módok ( SR3 ) Kreatív munka, stilizált eredmények Vegyes Gyönyörű részleteket tud alkotni – de ostobaságokat is kitalál, szóval… igen
Játékfelskálázók (DLSS/FSR stílusú) ( NVIDIA DLSS , AMD FSR 2 ) Valós idejű játék és renderelés Csomagban Mozgásadatokat és tanult priorokat használ - sima teljesítménynövekedés 🕹️
Felhőalapú felskálázási szolgáltatások Kényelem, gyors győzelmek Használatalapú fizetés Gyors + skálázható, de az irányítást és néha a finomságot is fel kell adni
Videóra fókuszált AI felskálázók ( BasicVSR , Topaz Video ) Régi felvételek, animék, archívumok Fizetős Ideiglenes trükkök a villogás csökkentésére + speciális videomodellek
„Okos” telefon/galéria felskálázás Alkalmi használat Tartalmazza Könnyű modellek, melyeket a kellemes teljesítményre, nem pedig a tökéletességre hangoltak (még mindig praktikusak)

Formázási furcsaság vallomása: A „fizetett” szó sok munkát végez abban a táblázatban. De érted a lényeget 😅


A nagy titok: a modellek megtanulják a leképezést az alacsony felbontástól a nagy felbontásig 🧠➡️🖼️

A legtöbb mesterséges intelligencia általi felskálázás középpontjában egy felügyelt tanulási beállítás áll ( képszuperfelbontás mély konvolúciós hálózatok használatával (SRCNN) ):

  1. Kezdjük nagy felbontású képekkel (az „igazsággal”)

  2. Lemintavételezzük őket alacsony felbontású verziókra (a „bemenet”)

  3. Modell betanítása az eredeti nagy felbontású kép rekonstruálására az alacsony felbontású képből

Idővel a modell megtanulja az összefüggéseket, mint például:

  • „Ez a fajta elmosódás a szem körül általában a szempillákhoz tartozik.”

  • „Ez a pixelcsoport gyakran talpas szöveget jelöl.”

  • „Ez az élátmenet egy tetővonalra hasonlít, nem véletlenszerű zajra.”

Nem konkrét képek memorizálásáról van szó (az egyszerű értelemben), hanem statisztikai struktúrák tanulásáról ( Deep Learning for Image Super-resolution: A Survey ). Gondolj rá úgy, mint a textúrák és élek nyelvtanának tanulására. Nem költészeti nyelvtanra, inkább… mint… az IKEA kézikönyv nyelvtana 🪑📦 (eseményes metafora, de elég közel áll hozzá).


A lényeg: mi történik a következtetés során (amikor felskálázol) ⚙️✨

Amikor egy képet egy AI felskálázóba táplálunk, általában van egy ilyen folyamat:

  • Előfeldolgozás

  • Jellemzőkivonás

    • A korai rétegek érzékelik az éleket, sarkokat és színátmeneteket

    • A mélyebb rétegek mintákat észlelnek: textúrákat, formákat, arcvonásokat

  • Újjáépítés

    • A modell egy nagyobb felbontású jellemzőtérképet generál

    • Ezután ezt alakítja át tényleges pixelkimenetté

  • Utófeldolgozás

    • Opcionális élezés

    • Opcionális zajszűrés

    • Opcionális műtermék-elnyomás (csengés, ausztrál fényudvarok, blokkosodás)

Egy apró részlet: sok eszköz felnagyítja a csempéket, majd összemossa az illesztéseket. A nagyszerű eszközök elrejtik a csempehatárokat. A közepes eszközök halvány rácsnyomokat hagynak, ha hunyorogsz. És igen, hunyorogni fogsz, mert az emberek imádják a kis tökéletlenségeket 300%-os nagyításban vizsgálgatni, mint a kis gremlinek 🧌


A mesterséges intelligencia felskálázásához használt főbb modellcsaládok (és miért tűnnek különbözőnek) 🤖📚

1) CNN-alapú szuperfelbontás (a klasszikus munkahorny)

A konvolúciós neurális hálózatok kiválóan alkalmasak lokális minták, például élek, textúrák, kis struktúrák vizsgálatára ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ).

  • Előnyök: gyors, stabil, kevesebb meglepetés

  • Hátrányok: kicsit „feldolgozottnak” tűnhet, ha túl erősen nyomkodjuk

2) GAN-alapú felskálázás (ESRGAN-stílus) 🎭

A GAN-ok (Generatív Ellenfél Hálózatok) egy generátort képeznek ki nagy felbontású képek előállítására, amelyeket egy diszkriminátor nem tud megkülönböztetni a valódi képektől ( Generatív Ellenfél Hálózatok ).

  • Előnyök: ütős részletek, lenyűgöző textúra

  • Hátrányok: olyan részleteket is kitalálhat, amelyek nem voltak ott – néha rosszak, néha hátborzongatóak ( SRGAN , ESRGAN )

Egy GAN lélegzetelállító élességet biztosíthat. Ráadásul a portré témájának egy plusz szemöldököt is adhat. Szóval... válaszd ki a csatáidat 😬

3) Diffúzió alapú felskálázás (a kreatív helyettesítő karakter) 🌫️➡️🖼️

A diffúziós modellek lépésről lépésre zajszűréssel működnek, és nagy felbontású részletek előállítására is alkalmasak ( SR3 ).

  • Előnyök: hihetetlenül jó lehet a hihető részletekben, különösen kreatív munkákhoz

  • Hátrányok: eltávolodhat az eredeti identitástól/struktúrától, ha a környezet agresszív ( SR3 )

Itt kezd a „felskálázás” összeolvadni az „újragondolással”. Néha pontosan erre vágysz. Néha nem.

4) Videó felskálázása időbeli konzisztenciával 🎞️

A videó felskálázása gyakran mozgásérzékeny logikát ad hozzá:

  • Szomszédos képkockák használatával stabilizálja a részleteket ( BasicVSR (CVPR 2021) )

  • Igyekszik elkerülni a villódzást és a mászó képhibákat

  • Gyakran kombinálja a szuperfelbontást zajszűréssel és deinterlace-eléssel ( Topaz Video )

Ha a képfelbontás olyan, mint egy festmény restaurálása, akkor a videófelbontás olyan, mint egy lapozható könyv restaurálása anélkül, hogy a karakter orra minden oldalon megváltoztatná az alakját. Ami… nehezebb, mint amilyennek hangzik.


Miért tűnik néha műnek az AI felskálázása (és hogyan lehet ezt észrevenni) 👀🚩

A mesterséges intelligencia felskálázása felismerhető módon kudarcot vall. Ha egyszer megtanulod a mintákat, mindenhol látni fogod őket, például ha veszel egy új autót, és hirtelen minden utcán észreveszed azt a modellt 😵💫

Common azt mondja:

  • Viaszos bőr az arcokon (túl sok zajszűrés + simítás)

  • Túlélezett ausztrál halók az élek körül (klasszikus „túllövés” terület) ( bikubikus interpoláció )

  • Ismétlődő textúrák (téglafalakból másolt-beillesztett minták lesznek)

  • Ropogós mikrokontraszt , ami „algoritmusról” kiált

  • Szövegmanipuláció, ahol a betűk majdnem betűkké válnak (a legrosszabb fajta)

  • Részletbeli eltolódás , ahol apró jellemzők finoman változnak, különösen a diffúziós munkafolyamatokban ( SR3 )

A nehéz rész: ezek a tárgyak néha első pillantásra „jobban” néznek ki. Az agyad szereti az élességet. De egy pillanat múlva már… furcsának tűnik.

Egy jó taktika lehet kicsinyíteni a képet, és megnézni, hogy természetesnek tűnik-e normál nézési távolságból. Ha csak 400%-os zoomon néz ki jól, az nem nyerő, az csak hobbi 😅


Hogyan működik a mesterséges intelligencia általi felskálázás: a betanítás oldala, matekos fejfájás nélkül 📉🙂

A szuperfelbontású modellek betanítása általában a következőket foglalja magában:

Tipikus veszteségtípusok:

Állandó kötélhúzás folyik:

  • Hűvé tegye az eredetihez
    vs.

  • Tedd vizuálisan vonzóvá

A különböző eszközök eltérő helyeken helyezkednek el ezen a spektrumon. És attól függően, hogy családi fotókat restaurálsz, vagy egy plakátot készítesz elő, ahol a „jó megjelenés” fontosabb, mint a kriminalisztikai pontosság, választhatsz egyet.


Gyakorlati munkafolyamatok: fotók, régi szkennelések, animék és videók 📸🧾🎥

Fotók (portrék, tájképek, termékfotók)

A legjobb gyakorlat általában a következő:

  • Először enyhe zajszűrés (ha szükséges)

  • Elegáns, konzervatív beállításokkal

  • Adj hozzá vissza gabonát, ha túl simának érzed a dolgokat (igen, tényleg)

A gabona olyan, mint a só. Túl sok gabona tönkreteszi a vacsorát, de semmi sem lehet egy kicsit lapos 🍟

Régi szkennelések és erősen tömörített képek

Ezek nehezebbek, mert a modell a tömörített blokkokat „textúraként” kezelheti.
Próbáld ki:

  • Műtárgy eltávolítása vagy blokkolás feloldása

  • Aztán felskálázható

  • Aztán enyhe élesítés (nem túl sok… tudom, mindenki ezt mondja, de akkor is)

Anime és vonalrajz

A vonalrajz előnyei:

  • Modellek, amelyek megőrzik a tiszta éleket

  • Csökkentett textúra-hallucináció
    Az anime felskálázása gyakran jól néz ki, mert a formák egyszerűbbek és következetesebbek. (Szerencsések.)

Videó

A videó további lépéseket mutat be:

  • Zajcsökkentés

  • Deinterlace (bizonyos források esetén)

  • Elegáns

  • Időbeli simítás vagy stabilizálás ( BasicVSR (CVPR 2021) )

  • Opcionális szemcsevisszahelyezés a kohézió érdekében

Ha kihagyod az időbeli következetességet, akkor azt a csillogó, vibráló részletet kapod. Ha egyszer észreveszed, nem tudod elfelejteni. Mint egy nyikorgó szék egy csendes szobában 😖


Beállítások kiválasztása találgatás nélkül (egy kis puskalap) 🎛️😵💫

Íme egy jó kiindulópont:

  • Ha az arcok plasztikusnak tűnnek
    , Csökkentsd a zajszűrést, csökkentsd az élesítést, próbálj ki egy arcmegőrző modellt vagy módot.

  • Ha a textúrák túl intenzívek,
    csökkentse a „részletjavítás” vagy a „részletek visszaállítása” csúszkák értékét, majd adjon hozzá finom szemcsézettséget a kép után.

  • Ha a szélek világítanak,
    csökkentse az élesítést, és ellenőrizze a fényudvar-elnyomási beállításokat.

  • Ha a kép túl „mesterséges” hatásúnak tűnik
    , legyél konzervatívabb. Néha a legjobb megoldás egyszerűen… kevesebb.

Továbbá: ne növeld a felbontást 8x-ra csak azért, mert megteheted. Egy tiszta 2x vagy 4x gyakran az ideális érték. Ezen túlmenően arra kéred a modellt, hogy írjon fanfictiont a pixeleidről 📖😂


Etika, hitelesség és az „igazság” kínos kérdése 🧭😬

Az AI felskálázása elmossa a határokat:

  • A helyreállítás azt jelenti, hogy vissza kell szerezni azt, ami ott volt

  • A fejlesztés azt jelenti, hogy olyasmit adunk hozzá, ami nem volt benne

Személyes fotókkal általában rendben van (és szép is). Újságírással, jogi bizonyítékokkal, orvosi képalkotással vagy bármivel, ahol a hűség számít… óvatosnak kell lenni ( OSAC/NIST: Standard Guide for Forensic Digital Image Management , SWGDE Guidelines for Forensic Image Analysis ).

Egy egyszerű szabály:

  • Ha nagy a tét, a mesterséges intelligencia felskálázását illusztrációként , ne pedig végleges megoldásként kezeljük.

A nyilvánosságra hozatal szakmai kontextusban is fontos. Nem azért, mert a mesterséges intelligencia gonosz, hanem azért, mert a közönségnek tudnia kell, hogy a részleteket rekonstruálták vagy rögzítették-e. Ez egyszerűen… tiszteletteljes.


Záró gondolatok és egy gyors összefoglaló 🧡✅

Tehát a mesterséges intelligencia általi felskálázás a következőképpen működik viszonyulnak a nagy felbontású részletek az alacsony felbontású mintákhoz, majd a felskálázás során hihető extra pixeleket jósolnak meg ( Deep Learning for Image Super-resolution: A Survey ). A modellcsaládtól (CNN, GAN, diffúzió, video-temporális) függően ez az előrejelzés lehet konzervatív és hű... vagy merész és időnként féktelen 😅

Gyors összefoglaló

Ha szeretnéd, mondd el, mit skálázol fel (arcokat, régi fotókat, videókat, animéket, szövegbeolvasásokat), és javasolok egy beállítási stratégiát, amivel elkerülhetők a gyakori „mesterséges intelligencia megjelenés” buktatói 🎯🙂


GYIK

AI felskálázás és hogyan működik

Az AI-felskálázás (gyakran „szuperfelbontásnak” is nevezik) növeli a kép felbontását azáltal, hogy a betanítás során tanult mintákból megjósolja a hiányzó nagy felbontású részleteket. A pixelek egyszerű nyújtása helyett, mint például a bikubikus interpoláció, a modell az éleket, textúrákat, lapokat és szövegszerű ecsetvonásokat vizsgálja, majd új pixeladatokat generál, amelyek összhangban vannak ezekkel a tanult mintákkal. Ez kevésbé a „valóság visszaállítása”, és inkább „hihető találgatás”, amely természetesnek hangzik.

AI felskálázás a bicubic vagy hagyományos átméretezéssel szemben

A hagyományos felskálázási módszerek (mint például a bikubikus) főként a meglévő pixelek között interpolálnak, simítva az átmeneteket anélkül, hogy valódi új részleteket hoznának létre. Az AI felskálázás célja a valószínűsíthető struktúra rekonstruálása a vizuális jelek felismerése és annak előrejelzése révén, hogy ezeknek a jeleknek a nagy felbontású verziói hogyan fognak kinézni. Ezért tűnhetnek a mesterséges intelligencia eredményei drámaian élesebbnek, és ezért tudnak olyan műtermékeket bevinni vagy „kitalálni” részleteket, amelyek a forrásban nem voltak jelen.

Miért tűnhet viaszosnak vagy túlságosan simának az arc?

A viaszos arcok általában az agresszív zajcsökkentés és simítás, valamint az élesítés kombinációjából származnak, amely eltávolítja a bőr természetes textúráját. Sok eszköz hasonlóan kezeli a zajt és a finom textúrát, így a kép „tisztítása” eltüntetheti a pórusokat és a finom részleteket. Egy gyakori megközelítés a zajcsökkentés és az élesítés csökkentése, az arcmegőrző mód használata, ha van ilyen, majd egy kis szemcsézettség visszaállítása, hogy az eredmény kevésbé plasztikusnak és inkább fotografikusnak tűnjön.

Gyakori AI-felskálázási hibák, amelyekre figyelni kell

Tipikus jelek közé tartoznak a szélek körüli ausztrál fényudvarok, az ismétlődő textúraminták (mint a másolt-beillesztett téglák), a ropogós mikrokontraszt és a „szinte betűkké” váló szöveg. A diffúzió alapú munkafolyamatokban a részletek eltolódása is megfigyelhető, ahol a kis jellemzők finoman változnak. Videók esetében a villódzás és a részletek képkockákon átívelő elmosódása nagy intő jel. Ha csak extrém zoomnál néz ki jól, akkor valószínűleg túl agresszívak a beállítások.

Hogyan térnek el a GAN, a CNN és ​​a diffúziós felskálázók eredményei?

A CNN-alapú szuperfelbontás általában stabilabb és kiszámíthatóbb, de „feldolgozottnak” tűnhet, ha túl erősen nyomkodjuk. A GAN-alapú opciók (ESRGAN-stílusú) gyakran ütősebb textúrát és érzékelt élességet eredményeznek, de helytelen részleteket hallucinálhatnak, különösen az arcokon. A diffúzión alapuló felskálázás gyönyörű, hihető részleteket generálhat, de eltérhet az eredeti struktúrától, ha a segédvonalak vagy az erősségi beállítások túl erősek.

Gyakorlati beállítási stratégia a „túl mesterséges intelligencia” megjelenés elkerülésére

Kezdj konzervatívan: növeld a képminőséget 2× vagy 4× méretben, mielőtt extrém faktorokhoz folyamodnál. Ha az arcok plasztikusnak tűnnek, vedd vissza a zajszűrést és az élesítést, és próbálj ki egy arcfelismerő módot. Ha a textúrák túl intenzívek lesznek, csökkentsd a részletgazdagságot, és utána fontold meg a finom szemcsézettség hozzáadását. Ha az élek világítanak, csökkentsd az élesítést, és ellenőrizd a fényudvar vagy a műtermékek elnyomását. Sok pipeline-ban a „kevesebb” a nyerő, mert megőrzi a hihető realizmust.

Régi szkennelések vagy erősen JPEG tömörített képek kezelése felskálázás előtt

A tömörített képek bonyolultak, mivel a modellek a blokkokból származó műtermékeket valódi textúraként kezelhetik és felerősíthetik azokat. Egy gyakori munkafolyamat először a műtermékek eltávolítása vagy deblocking (blokkoláscsökkentés), majd a felskálázás, végül pedig csak szükség esetén enyhe élesítés. Szkennelések esetén a finom tisztítás segíthet a modellnek a tényleges szerkezetre koncentrálni a sérülések helyett. A cél a „hamis textúrajelzések” csökkentése, hogy a felskálázónak ne kelljen magabiztos találgatásokat tennie a zajos bemenetek alapján.

Miért nehezebb a videó felskálázása, mint a fotók felskálázása?

A videó felskálázásának képkockákon átívelően kell történnie, nem csak egyetlen állóképen kell jónak lennie. Ha a részletek képkockáról képkockára villódznak, az eredmény gyorsan zavaróvá válik. A videóra fókuszáló megközelítések a szomszédos képkockák időbeli információit használják fel a rekonstrukció stabilizálására és a csillogó műtermékek elkerülésére. Számos munkafolyamat tartalmaz zajszűrést, bizonyos források deinterlace-elését és opcionális szemcseméret-visszaállítást is, így az egész sorozat koherensnek, nem pedig mesterségesen élesnek tűnik.

Amikor a mesterséges intelligencia felskálázása nem megfelelő, vagy kockázatos rá hagyatkozni

A mesterséges intelligencia általi felskálázást legjobb fejlesztésként, nem pedig bizonyítékként kezelni. Nagy téttel bíró helyzetekben, mint például az újságírás, a jogi bizonyítékok, az orvosi képalkotás vagy a törvényszéki munka, a „hihető” pixelek generálása félrevezető lehet, mivel olyan részleteket adhat hozzá, amelyeket nem rögzítettek. Biztonságosabb megfogalmazás, ha illusztrációként használjuk, és felfedjük, hogy egy MI-folyamat rekonstruált egy részletet. Ha a pontosság kritikus fontosságú, őrizzük meg az eredeti dokumentumokat, és dokumentáljunk minden feldolgozási lépést és beállítást.

Referenciák

  1. arXiv - Mély tanulás a képek szuperfelbontásához: Felmérés - arxiv.org

  2. arXiv - Képfelbontás mély konvolúciós hálózatok (SRCNN) használatával - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA fejlesztő - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. Számítógépes Látás Alapítvány (CVF) Nyílt Hozzáférés - BasicVSR: Az alapvető komponensek keresése a videó szuperfelbontásában (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - Generatív Versengő Hálózatok - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Érzékelési veszteségek (Johnson et al., 2016) - arxiv.org

  12. GitHub - Real-ESRGAN repo (csempék beállításai) - github.com

  13. Wikipédia - Bicubic interpoláció - wikipedia.org

  14. Topaz Labs - Topaz fotó - topazlabs.com

  15. Topaz Labs - Topaz videó - topazlabs.com

  16. Adobe Súgóközpont - Adobe Enhance > Szuperfelbontás - helpx.adobe.com

  17. NIST / OSAC - Szabványos útmutató a kriminalisztikai digitális képfeldolgozáshoz (1.0 verzió) - nist.gov

  18. SWGDE - Útmutató a forenzikus képelemzéshez - swgde.org

Találd meg a legújabb mesterséges intelligenciát a hivatalos AI Assistant áruházban

Rólunk

Vissza a bloghoz