L’outil d’IA de Microsoft transforme vos photos en vidéos hyper réalistes de personnes en pleine conversation ou en train de chanter
Les créateurs admettent eux-mêmes que leur création pourrait être détournée. Quelles pourraient être les conséquences d'un tel détournement ?
- Microsoft Research Asia a dévoilé un nouvel outil expérimental d’IA, VASA-1.
- VASA-1 peut créer un visage parlant réaliste à partir d’une image fixe et d’un fichier audio.
- Les chercheurs sont conscients du potentiel d’abus de cette technologie et sont prudents quant à sa diffusion.
- Malgré son potentiel de mauvaise utilisation, la technologie pourrait être utilisée pour améliorer l’équité éducative et l’accessibilité.
Un nouvel outil d’IA révolutionnaire
Microsoft Research Asia a récemment levé le voile sur une nouvelle technologie expérimentale d’intelligence artificielle, dénommée VASA-1. Cet outil innovant est capable de transformer une image fixe d’une personne en un visage parlant réaliste, en utilisant un fichier audio existant. Les résultats sont si convaincants qu’ils pourraient tromper l’observateur moyen en lui faisant croire à une vidéo réelle.
Des applications potentiellement préoccupantes
Malgré les prouesses techniques de VASA-1, l’outil n’est pas exempt de critiques. En effet, les mouvements de la tête et des lèvres peuvent sembler quelque peu robotiques et désynchronisés à l’inspection. De plus, il est évident que cette technologie pourrait être détournée pour créer facilement et rapidement des vidéos deepfake. Les chercheurs eux-mêmes sont conscients de ce potentiel d’abus et ont donc décidé de ne pas publier davantage de détails sur leur technologie avant d’être certains qu’elle sera utilisée de manière responsable et conforme à la réglementation.
Des bénéfices malgré les risques
Malgré ces inquiétudes, les chercheurs estiment que leur technologie offre de nombreux avantages. Ils ont évoqué l’amélioration de l’équité éducative et de l’accessibilité pour les personnes ayant des difficultés de communication. Selon eux, VASA-1 pourrait également offrir du réconfort et un soutien thérapeutique à ceux qui en ont besoin, en leur donnant accès à un avatar capable de communiquer à leur place.
Un entraînement intensif
Selon l’annonce, VASA-1 a été formée sur le VoxCeleb2 Dataset, qui contient « plus d’un million d’énoncés pour 6 112 célébrités » extraits de vidéos YouTube. L’outil fonctionne également avec des photos artistiques, comme celle de la Mona Lisa, que les chercheurs ont combinée avec un fichier audio de la chanson Paparazzi de Lil Wayne chantée par Anne Hathaway.
L’avis de la rédaction
Au-delà des préoccupations légitimes liées à l’usage éthique de l’IA, on ne peut nier le potentiel impressionnant de VASA-1. Cette technologie pourrait transformer la manière dont nous interagissons avec les personnages virtuels et améliorer l’accessibilité pour ceux qui peinent à communiquer. Toutefois, une vigilance constante sera nécessaire pour prévenir tout abus.
