Reddit met les aspirateurs d’IA en alerte : ce que vous devez savoir
L'alerte survient suite aux rapports indiquant que les entreprises d'IA ont tendance à ignorer régulièrement les consignes leur interdisant de procéder à des collectes de données. Quelles mesures devraient être prises pour contrer ce phénomène ?
Tl;dr
- Reddit met en garde les entreprises d’IA contre le non-respect des règles de scraping.
- Le site mettra à jour son protocole d’exclusion des robots pour bloquer les scrapings automatisés.
- La société Perplexity est accusée de contourner régulièrement le protocole robots.txt.
- Reddit a déjà commencé à facturer l’accès à son API l’année dernière.
Reddit durcit les règles de scraping
Reddit, la populaire plateforme de partage de contenu, a récemment émis un avertissement fort à l’intention des entreprises d’Intelligence Artificielle (IA) et autres scrapers : respectez nos règles ou soyez bloqués. Cette annonce fait suite à une vague de rapports signalant que certaines entreprises d’IA, dont Perplexity, contournent régulièrement les protocoles d’exclusion des robots (robots.txt), utilisés pour signaler aux web crawlers qu’ils ne sont pas autorisés à accéder à leur contenu.
Des changements pour protéger la plateforme
Reddit prévoit de mettre à jour son protocole d’exclusion des robots, ce qui lui permettra de bloquer de manière plus efficace le scraping automatisé de sa plateforme. Par ailleurs, la société continuera à bloquer et à limiter le taux de crawlers et autres bots qui n’ont pas d’accord préalable avec elle. Ces changements, précise-t-elle, ne devraient pas affecter les « acteurs de bonne foi », tels que l’Internet Archive et les chercheurs.
Une position ferme sur l’accès aux données
Ce n’est pas la première fois que Reddit adopte une position ferme en matière d’accès aux données. En effet, l’entreprise a commencé à facturer l’accès à son API l’année dernière, citant l’utilisation abusive de sa plateforme par certaines entreprises d’IA. Depuis lors, elle a conclu des accords de licence avec certaines de ces entreprises, dont Google et OpenAI, leur permettant de former leurs modèles sur l’archive de Reddit. Ces accords ont constitué une source de revenus significative pour Reddit, qui est récemment devenue une entreprise cotée en bourse.
L’avis de la rédaction
Dans un monde où les données sont devenues une ressource précieuse, il est rassurant de voir des entreprises comme Reddit prendre des mesures pour protéger leur contenu. En faisant preuve de fermeté, Reddit envoie un signal fort à tous les acteurs du web : le respect des règles est indispensable pour maintenir un internet ouvert et équitable.