Microsoft publikovaný výskumný dokument z tohto týždňa vyzdvihujúci nový model AI s názvom VASA-1, ktorý dokáže premeniť jeden obrázok a zvukový klip osoby na realistické video, na ktorom sa synchronizuje s perami – s výrazmi tváre, pohybmi hlavy a podobne.
Model AI bol trénovaný na obrázkoch generovaných AI z generátorov, ako je DALL·E-3, ktoré potom výskumníci prevrstvili zvukovými klipmi. Výsledkom sú obrázky a videá rozprávajúcich tvárí.
Výskumníci stavili na technológiu od konkurentov ako napr Dráha a Nvidiaale uviesť v novinách že ich spôsob robenia vecí je kvalitnejší, realistickejší a „výrazne prevyšuje“ existujúce metódy.
Súvisiace: Generátor obrázkov Firefly od Adobe bol čiastočne vyškolený na obrázkoch AI z Midjourney
Výskumníci uviedli, že model dokáže zachytiť zvuk ľubovoľnej dĺžky a generovať hovoriacu tvár v súlade s klipom.
Jediný obrázok, ktorý nevytvorila AI a s ktorým výskumníci experimentovali, bola Mona Lisa. Vytvorili ikonický obraz synchronizácia pier k Anne Hathawayovej“Paparazzi,“ ktorá začína vetami „Jo, som paparazzi, nehrám žiadneho yahtzee.“Snímka obrazovky s videom v strede snímky. Kredit: Podnikateľ
Mona Lisa bola jedným z príkladov fotografického vstupu, na ktorý model AI nebol trénovaný – ale aj tak s ním mohol manipulovať. Model mohol tiež transformovať umelecké fotografie, nasnímať zvukové nahrávky a zvládnuť reč v jazykoch, ktoré neboli angličtina.
Výskumníci zdôraznili, že model môže pracovať v reálnom čase s ukážkovým videom, ktoré ukazuje, že model okamžite oživuje obrázky s pohybmi hlavy a výrazmi tváre.
Deepfakes alebo digitálne pozmenené médiá osoby, ktoré by mohli šíriť dezinformácie alebo prijímať niekoho podobizeň bez dovoleniapredstavujú riziko, ktoré predstavuje pokročilá AI, ktorá dokáže generovať digitálne médiá s relatívne malým počtom referenčných bodov.
Súvisiace: Tennessee schválilo zákon na ochranu hudobníkov pred AI Deepfakes
Spoločnosť Microsoft sa vo všeobecnosti zaoberala touto obavou v novinách, pričom výskumníci uviedli: „Sme proti akémukoľvek správaniu s cieľom vytvoriť zavádzajúci alebo škodlivý obsah skutočných osôb a máme záujem o aplikáciu našej techniky na pokrok v odhaľovaní falzifikátov.“
Výskumníci uviedli, že ich technika má tiež potenciálne pozitívne aplikácie, ako je zlepšenie dostupnosti a zvýšenie vzdelávacieho úsilia.
Google demonštroval a podobný výskumný projekt minulý mesiac predviedla AI schopnú urobiť fotografiu a vytvoriť z nej video, ktoré potom môže používateľ ovládať hlasom. AI dokázala pridať pohyby hlavy, žmurkanie a gestá rúk.
Originál článok: https://www.entrepreneur.com/business-news/microsofts-new-ai-vasa-app-makes-photos-talk-and-sing/472983
__
entrepreneur.com – Všetky práva vyhradené
Average Rating