Redactie - 23 april 2024

AI-model Microsoft genereert deepfake op basis van foto en geluidsopname

Microsoft presenteert VASA-1, een AI-model dat een geanimeerde video kan maken van een persoon op basis van een enkele foto en een stuk audio. Dit maakt onder meer mogelijk zeer realistische avatars te ontwikkelen.

Artificial intelligence Innovation

AI-model Microsoft genereert deepfake op basis van foto en geluidsopname image

"Het opent de deur voor real-time afspraken met levensechte avatars die menselijke gespreksgedragingen emuleren", aldus het bijhorende onderzoeksrapport. Hetzelfde model kan echter ook gebruikt worden om een willekeurige persoon te laten zeggen wat je wil.

Realistische beelden genereren

Het VASA framework gebruikt machine learning om een statisch beeld te analyseren en daar vervolgens realistische videobeelden van te maken. Het AI-model kloont geen stemmen, maar animeert op basis van bestaande audio input. In een mogelijk scenario zou je dus een audiobericht kunnen inspreken, en dat vervolgens realistisch laten animeren voor een avatar. Het AI-model voegt realistische hoofdbewegingen, tics en andere gedragingen toe.

Op zich is het maken van deepfakes niet nieuw. De meeste bestaande technologieën baseren zich echter op meerdere foto’s of langere videobestanden. Het gebruiken van een enkele foto om daar vervolgens emoties en andere gedragingen op te zetten, is wel vrij nieuw. Het VASA-1 model lijkt ook best goed te zijn in het synchroniseren van lippen en het tonen van (generische) tics en hoofdbewegingen. Voor zijn training baseerde Microsoft Research zich op de VoxCeleb2 dataset, een reeks van zo’n miljoen videoclips van meer dan zesduizend celebrities, die uit verschillende YouTube video’s werden gepuurd.

Code vooralsnog niet vrijgegeven

De code van het model wordt voorlopig niet vrijgegeven, deels omdat VASA-1 zou kunnen worden misbruikt. Zeker in combinatie met een gekloonde stem, zouden kwaadwillenden ze kunnen gebruiken om videovergaderingen te vervalsen en zo bijvoorbeeld geld te proberen ontfutselen. Ook het gevaar op desinformatie is nooit ver af.

In samenwerking met Data News

Tip de redactie

AI-model Microsoft genereert deepfake op basis van foto en geluidsopname

Realistische beelden genereren

Code vooralsnog niet vrijgegeven

Meer van Data & Artificial Intelligence

Dutch IT events

Meer over Artificial intelligence

Wil jij dagelijkse updates?