A Facebook majd felnyitja a szemünket

2018.06.26., kedd

3 perc

Persze nem a világ nagy igazságaira készül rádöbbenteni bennünket, hanem egy új technológiát és a mesterséges intelligenciát segítségül hívva csukott szemes képeinket fogja retusálni - ha egyáltalán valóban bevezetésre kerül majd a tesztelés alatt álló szoftver.

Az ismeretlen völgyben járva

Vannak olyan egyetemes dolgok, melyekben a világon szinte mindenkinek volt már része: például egy jó fotót tönkretenni a pislogásunkkal pont ilyen. A különböző képmanipulációk fejlesztése nem újkeletű dolog, vörösszem-effektus eltávolítása, retusálás, virtuális make-up stb. - mindannyian ismerjük, s bizonyára használtuk is már őket. Csukott szemet felnyitni azonban egyelőre még nem lehetett, vagy ha mégis, abban nem volt túl sok köszönet. A számítógépes arc-korrekció úgy általába véve is kényes területe a technikának, mert az emberi elmét nem lehet könnyen becsapni: még ha tudat alatt is, de kiszúrjuk, amikor valami nem stimmel. Ez az ún. “uncanny valley” jelenség, ami magyarul olyasmit jelent, mint a “természellenesség völgye” - tehát maradunk inkább az angol verziónál. A fogalom egy olyan élményt takar, amit akkor tapasztalunk, ha például animált filmeket nézünk, ahol az emberinek tervezett szereplőket nézve valami nem stimmel. Jó példa erre a Polar Express c. film, ahol Tom Hanks animált mása több gyereket és felnőttet is megmagyarázhatatlan módon kiakasztott a megjelenése idején a mozikban. Persze nem csak az ő karaktere a felelős, a többi szereplőben is volt valami természetellenes, ami hosszú időn keresztül nézve leszállítja az emberi érzékelést az előbb említett völgybe. Hasonló élménnyel szolgálhat Madam Tussaud panoptikuma is, persze senki nem rohan ki onnan sikítozva, de a viaszbábukat nézegetve valami megmagyarázhatatlanul elkezdhet frusztrálni minket. Az “uncanny valley”-ban járva ez az az érzés, hogy van valami nagyon nem emberi az annak szánt alkotásokban - általában az arcuk, pontosabban a szemük, és annak üressége.

A Polar Express-t legkevésbé sem horrornak szánták, mégis sokak számára az lett belőle.

Korábbi módszerek újragondolva

Ez az a jelenség, amivel eddig a különböző “szemfelnyitogató” szoftverek sem tudtak mit kezdeni, hiszen egy emberi tekintetetet nem lehet csak úgy megkonstruálni. A Facebook kutatói és fejlesztői erre a kihívásra reagálnak a jelenleg is tesztelés alatt álló programmal, mely közelebb jár az igazsághoz, mint az eddigiek. Kiadott tanulmányuk szerint az eredmények bizakodásra adnak okot, hiszen minden eddiginél meggyőzőbb helyreállításokat sikerült produkálni a GAN segítségével (General Adversarial Networks). A tanulmány különböző függvényekkel és egyenletekkel is levezeti a módszer működését, aki otthon van a matematikában, annak nagy élményt nyútjhat ezek kibogarászása - mi viszont most nem élnénk a lehetőséggel. :)

A módszer lényege (mely egyébként Exemplar GANs néven fut, és a GAN egy típusaként definiálják), hogy önálló tanulás útján képes egy fotó nem kívánatos elemeit (legyen az most akár egy csukott szem) lecserélni, kijavítani, helyrehozni. A legismertebb eljárás eddig a DNNs (Deep Convolutional Networks) volt, melynek érdemei a tanulmány szerint elvitathatatlanok, ám a csukott szemes képek korrekciójában nem volt túl hatékony. Nem az eredeti kép tulajdonságait vette alapul, hanem hasonló tulajdonságokat mutató arcok nyomán építette fel az immáron nyitott szemeket - így nem volt nehéz olykor “zombis” beütést kölcsönözni az alanyoknak.

Az eddigi próbálkozások a harmadik oszlopban.
Forrás: Facebook

Az ExGANs újítása, hogy az eredeti képet veszi alapul, azaz a javítandó kép tulajdonságaiból, illetve korábbi - saját - képeket elemezve (szemforma, szín) szerzi be azt az extra információt, mely szükséges a pislogás-mentes verzió legyártásához. A korábbi gyakorlatokkal ellentétben az így készült képek megtartják a képen szereplő személy “azonosságát”, nem pedig csak egy hasonló valakit látunk viszont a helyreállítás után, mivel a program az alany eredeti tulajdonságai alapján rajzolja meg a hiányzó testrészt. Az ExGANs legnagyobb erőssége tehát pontosan az, amit a Facebook lazán nyújt neki a munkához: korábbi kép(ek) használata - a legtöbb felhasználónak pedig legalább egy fotó biztosan van feltöltve. Az ínyencek ezen a ponton nézhetnek utána a dolog matematikai oldalának a tanulmányban, mert a módszer két megközelítést is alkalmaz:

Reference image in-painting: ebben az esetben egy “referencia” képet használ a program az új kép megalkotásához.
Code in-painting: ez tűnik bonyolultabbnak, mert ebben az esetben az új kép egy egyedi kód alapján készül el, mely tartalmaz minden fontos tulajdonságot a szem megrajzolásához, a kódhoz pedig később bármikor hozzá lehet férni.

Röviden összefoglalva olyan, mintha egy festő vagy a képünket hordozná a zsebében, onnan másolva le a szükséges elemeket, vagy egy nagyon hosszú és részletes, mindenre kitérő listát kapna szemünk tulajdonságairól, melyek alapján dolgozhat.

Bár az ExGaNs eredményei valóban meggyőzőek, azt az alkotók is elismerik, hogy bőven vannak még hiányosságai, hiszen a szokásostól eltérő alakzatokat, adott esetben egyedi fejformákat nem igazán tudja értelmezni, ahogyan a szemüveges képekkel is meggyűlik a baja.

A lélek tükre

A Facebook-nál egyelőre még nem tudják, mikor válik a felhasználók számára is elérhetővé a program, illetve, hogy egyáltalán bevezetésre kerül-e majd az újdonság a közeli, vagy távoli jövőben.

Nyilvánvalóan bosszantó, amikor egy jól sikerült kép pusztán egy ember rosszkor sikerült pislogása miatt válik használhatatlanná, de talán egy olyan technológiával van most dolgunk, mely ha végül nem készül el, akkor sem dőlünk a kardunkba. Érdekesnek ígérkezik, örömmel használjuk majd, de ha azt az egyszerű megállapítást vesszük alapul, hogy a szem a lélek tükre, akkor érthető, miért nem sikerült eddig egy hatékony módszerrel sem előállni a csukott szemes képek problémájára.