Découverte choquante : du matériel d’abus d’enfants dans la plus grande base de données d’images IA

Benjamin — publié le 20 décembre 2023 à 17h43, modifié le 20 décembre 2023 à 17h43

Par mesure de précaution, l'organisation à but non lucratif responsable du jeu de données LAION-5B l'a retiré. Quels pourraient être les risques potentiels qui ont motivé cette décision ?

Tl;dr

Des chercheurs de Stanford ont découvert des contenus sexuels impliquant des enfants dans une base de données d’IA.
LAION, l’organisme à l’origine de la base de données, a suspendu temporairement son utilisation.
Le contenu suspect a été confirmé par des tiers tels que PhotoDNA et le Centre canadien pour la protection de l’enfance.
Des modèles d’IA entraînés sur cette base de données pourraient potentiellement générer du contenu illégal.

Contenu illégal dans une base de données d’IA

Selon les chercheurs de l’Observatoire Internet de Stanford, une base de données utilisée pour l’entraînement des outils de génération d’images par IA contiendrait au moins 1,008 instances validées de matériel d’abus sexuels sur les enfants (CSAM). Ceci signifie que les modèles d’IA formés avec ces données pourraient potentiellement générer de nouvelles instances, parfois très réalistes, de CSAM.

La position de LAION

LAION, l’organisation à but non lucratif qui a créé la base de données, a déclaré à 404 Media qu’elle a une « tolérance zéro pour le contenu illégal » et qu’elle prend des mesures pour garantir la sécurité des données avant leur republication. Il convient de souligner que les dirigeants de LAION étaient déjà conscients en 2021 de la possibilité que leurs systèmes captent du CSAM lorsqu’ils collectaient des milliards d’images sur Internet.

Des techniques de recherche sophistiquées

La législation américaine interdit à la plupart des institutions de consulter du CSAM à des fins de vérification. Les chercheurs de Stanford ont donc eu recours à des techniques sophistiquées pour identifier d’éventuels CSAM. Ils ont ainsi utilisé la détection basée sur le hachage perceptuel, la détection basée sur le hachage cryptographique et l’analyse des plus proches voisins en exploitant les incrustations d’images dans la base de données elle-même.

Des implications plus larges

Notons que l’outil de génération d’images de Stability AI, Stable Diffusion, a été formé sur un sous-ensemble de données LAION-5B, tout comme le modèle text-to-image de Google, Imagen. Un porte-parole de Stability AI a déclaré à Bloomberg que l’utilisation de ses systèmes pour des activités illégales, comme la création ou la modification de CSAM, est interdite.

L’avis de la rédaction

Cet incident met en lumière la nécessité de mettre en place des mécanismes de contrôle plus rigoureux pour les bases de données utilisées dans l’IA. Il est essentiel de protéger les plus vulnérables en garantissant que l’IA n’est pas utilisée de manière abusive ou illégale. C’est un enjeu majeur pour l’éthique de l’IA.

Tags : Chercheurs

Partager : X · Facebook · LinkedIn