La nouvelle technologie IA de Google DeepMind pour créer des bandes-son sur mesure pour vos vidéos
Cela fonctionne avec des vidéos générées par intelligence artificielle et des séquences traditionnelles. Comment cela pourrait-il transformer votre façon de créer du contenu vidéo ?
Tl;dr
- DeepMind développe une technologie capable de générer des bandes-son pour des vidéos.
- L’outil utilise des pixels bruts et des invites textuelles pour créer des effets sonores.
- Des invites textuelles positives ou négatives peuvent affiner le produit final.
- Les chercheurs travaillent toujours sur les limitations de la technologie, comme la synchronisation labiale.
Une innovation sonore signée DeepMind
L’intelligence artificielle de Google, DeepMind, fait un pas de géant vers la génération automatique de bandes sonores pour vidéos. Des dialogues aux effets sonores, cette nouvelle technologie, actuellement en développement, promet de révolutionner l’industrie audiovisuelle.
Comprendre et générer
L’outil, baptisé V2A (Video-to-Audio), est capable d’analyser des pixels bruts et de les associer à des invites textuelles pour générer des effets sonores correspondant à ce qui se passe à l’écran. Idéal pour les films muets ou les vidéos dépourvues de son, il peut être couplé avec des outils de création vidéo comme Google Veo ou OpenAI’s Sora.
Une technologie en apprentissage
L’équipe de DeepMind a formé cette technologie en lui fournissant des vidéos, des audios et des annotations générées par l’IA contenant des descriptions détaillées de sons et de dialogues. Grâce à cela, l’outil a appris à associer des sons spécifiques à des scènes visuelles.
Des limites à surmonter
Malgré cette avancée, les chercheurs reconnaissent qu’ils doivent encore travailler sur certaines limitations de la technologie. Parmi elles, la baisse de la qualité audio en cas de distorsions dans la vidéo source et l’amélioration de la synchronisation labiale pour les dialogues générés. Ils s’engagent toutefois à effectuer des “évaluations et des tests de sécurité rigoureux” avant de la proposer au grand public.
L’avis de la rédaction
Cette technologie de DeepMind, si elle est pleinement réalisée, pourrait révolutionner l’industrie audiovisuelle. Elle offre la promesse d’un monde où les bandes sonores pourraient être générées automatiquement, débridant ainsi la créativité des réalisateurs. Toutefois, il est essentiel que les limites actuelles soient adressées pour garantir une expérience utilisateur optimale.