Apple, NVIDIA et Anthropic auraient utilisé illégalement des transcriptions YouTube pour former leurs modèles IA
L'ensemble de données comprend les transcriptions des vidéos YouTube des plus grands créateurs de la plateforme. Vous êtes curieux de savoir quelles informations intéressantes nous pourrions tirer de ces transcriptions ?
Tl;dr
- Des transcriptions de 173,000 vidéos Youtube ont été utilisées sans autorisation pour entraîner des IA.
- La base de données, créée par EleutherAI, a été utilisée par Apple, NVIDIA et Anthropic entre autres.
- Les transcriptions incluent des vidéos de grands créateurs et de grands éditeurs d’actualités.
- Les entreprises d’IA n’ont pas été transparentes sur l’origine de leurs données d’entraînement.
Un scandale de données ébranle le monde de la tech
Une récente enquête menée par Proof News a révélé un scandale majeur dans le monde de la technologie : des géants de la tech ont entraîné leurs modèles d’Intelligence Artificielle (IA) sur des transcriptions de plus de 173,000 vidéos Youtube, et ce, sans autorisation.
EleutherAI, l’entreprise au cœur du scandale
La base de données incriminée a été créée par une entreprise à but non lucratif, EleutherAI. Parmi les entreprises ayant utilisé cette base de données, on retrouve des noms tels que Apple, NVIDIA et Anthropic. Ces révélations mettent en lumière une réalité dérangeante de l’IA : cette technologie est souvent construite à partir de données récupérées sans le consentement ni la compensation des créateurs.
Des transcriptions de vidéos de grands créateurs et éditeurs d’actualités
La base de données ne contient aucune vidéo ou image de Youtube, mais elle regorge de transcriptions de vidéos des plus grands créateurs de la plateforme, comme Marques Brownlee et MrBeast, ainsi que de grands éditeurs d’actualités comme The New York Times, le BBC et ABC News. Les sous-titres de vidéos appartenant à Engadget font également partie de la base de données.
Un manque de transparence criant
Les entreprises d’IA ont jusqu’à présent manqué de transparence sur les données utilisées pour entraîner leurs modèles. Plus tôt ce mois-ci, des artistes et photographes ont critiqué Apple pour avoir omis de révéler la source des données d’entraînement d’Apple Intelligence, la version de l’entreprise de l’IA générative qui sera intégrée à des millions d’appareils Apple cette année.
L’avis de la rédaction
Ce scandale soulève une question cruciale : jusqu’où les entreprises peuvent-elles aller pour obtenir les données nécessaires à l’entraînement de leurs IA ? Il est grand temps que le secteur de la tech prenne ses responsabilités et mette en place des mesures de transparence et de consentement éthiques. Les créateurs de contenu ne doivent pas être les victimes silencieuses de l’avancée technologique.