
Možno ste už videli sci-fi filmy alebo televízne programy, v ktorých hlavný hrdina žiada priblížiť obrázok a vylepšiť výsledky – odhalenie tváre, poznávacej značky alebo akéhokoľvek iného kľúčového detailu – a najnovšie informácie od Googluumela inteligenciamotory, založené na tom, čo je známe ako difúzne modely, sú schopné urobiť práve tento trik.
Je to náročný proces na zvládnutie, pretože v podstate sa deje to, že sa pridávajú detaily obrázkov, ktoré fotoaparát pôvodne nezachytil, pomocou nejakého superinteligentného odhadu založeného na iných, podobne vyzerajúcich obrázkoch.
Google túto techniku nazýva prirodzená syntéza obrazu a v tomto konkrétnom scenári superrozlíšenie obrazu. Začnete s malou, hranatou, pixelovou fotkou a skončíte s niečím ostrým, jasným a prirodzene vyzerajúcim. Nemusí sa presne zhodovať s originálom, ale je dostatočne blízko, aby vyzeral ako skutočný pre pár ľudských očí.
(Google Research)
Google v skutočnosti odhalil dva nové nástroje AI pre túto prácu. Prvý sa nazýva SR3, príp Super-rozlíšenie prostredníctvom opakovaného spresnenia a funguje to tak, že do obrázka pridáte šum alebo nepredvídateľnosť a potom proces obrátite a odoberiete – podobne ako by sa editor obrázkov mohol pokúsiť vylepšiť vaše zábery z dovolenky.
„Modely difúzie fungujú tak, že poškodzujú tréningové údaje postupným pridávaním Gaussov šum , pomaly vymazáva detaily v údajoch, až sa z nich stane čistý šum, a potom trénuje neurónovú sieť na zvrátenie tohto korupčného procesu,“ vysvetľujú výskumný pracovník Jonathan Ho a softvérový inžinier Chitwan Saharia z Výskum Google .
Prostredníctvom série výpočtov pravdepodobnosti založených na obrovskej databáze obrázkov a niektorých strojové učenie mágia, SR3 si dokáže predstaviť, ako vyzerá verzia blokovaného obrázka s nízkym rozlíšením v plnom rozlíšení. Viac si o tom môžete prečítať v novinách, ktoré Google zverejnil arXiv .
Druhým nástrojom je CDM, príp Kaskádové modely difúzie . Google ich popisuje ako „potrubia“, cez ktoré možno difúzne modely – vrátane SR3 – nasmerovať na vylepšenie rozlíšenia obrazu vysokej kvality. Preberá modely vylepšení a vytvára z nich väčšie obrázky, čo má Google uverejnil príspevok aj na tomto.
CDM v akcii. (Google Research)
Používaním rôznych modelov vylepšenia v rôznych rozlíšeniach je prístup CDM schopný poraziť alternatívne metódy na zväčšenie obrázkov, hovorí Google. Testoval sa nový motor AI ImageNet , gigantickú databázu tréningových obrázkov bežne používaných na výskum vizuálneho rozpoznávania objektov.
Konečné výsledky SR3 a CDM sú pôsobivé. V štandardnom teste s 50 ľudskými dobrovoľníkmi boli obrázky ľudských tvárí vytvorené pomocou SR3 asi v 50 percentách prípadov omylom považované za skutočné fotografie – a ak vezmeme do úvahy dokonalý algoritmus, dalo by sa očakávať, že dosiahne 50 percent, to je pôsobivé.
Stojí za to zopakovať, že tieto vylepšené obrázky sa presne nezhodujú s originálmi, ale sú to starostlivo vypočítané simulácie založené na niektorých pokročilých pravdepodobnostných matematikách.
Google hovorí, že difúzny prístup prináša lepšie výsledky ako alternatívne možnosti, vrátanegeneratívne protichodné siete(GANs), že jama dva neurálne siete proti sebe na spresnenie výsledkov.
(Google Research)
Google si od svojich nových motorov umelej inteligencie a súvisiacich technológií sľubuje oveľa viac – nielen pokiaľ ide o zväčšovanie obrázkov tvárí a iných prírodných objektov, ale aj v iných oblastiach modelovania pravdepodobnosti.
„Sme nadšení, že môžeme ďalej testovať limity modelov difúzie pre širokú škálu problémov generatívneho modelovania,“ vysvetľuje tím .