Comment Anthropic, la start-up IA, contourne astucieusement les règles anti-scraping des sites web ?

Benjamin — publié le 27 juillet 2024 à 16h12, modifié le 27 juillet 2024 à 16h12

Selon iFixit et Freelancer, le bot d'Anthropic a exploré leurs sites web de manière agressive. Comment peuvent-ils contrer ce genre de comportement à l'avenir?

Tl;dr

Freelancer et iFixit reprochent à Anthropic d’avoir utilisé leurs données sans autorisation.
Anthropic a été accusé d’ignorer le protocole « do not crawl » des sites.
Un autre cas similaire impliquant Perplexity et le protocole Robots Exclusion a été rapporté.
Anthropic dit respecter le protocole et enquête sur l’affaire.

Anthropic, sous le feu des critiques

La start-up d’intelligence artificielle Anthropic est accusée d’avoir enfreint le protocole « do not crawl » de plusieurs sites Web. Selon Freelancer et iFixit, la société aurait utilisé leurs données sans autorisation. Une pratique loin d’être isolée, au grand dam des acteurs du web.

Une utilisation abusive des données ?

Matt Barrie, le PDG de Freelancer, accuse Anthropic d’avoir effectué 3,5 millions de visites sur son site en seulement quatre heures grâce à son robot, le ClaudeBot. Un volume d’activité qu’il qualifie comme étant « probablement environ cinq fois le volume du numéro deux » des robots d’IA. De son côté, Kyle Wiens, PDG d’iFixit, reproche à Anthropic d’avoir enfreint la politique de son site interdisant l’utilisation de son contenu pour la formation de modèles d’IA.

Un problème plus large

Il est important de noter que Anthropic n’est pas la seule entreprise à se retrouver dans une telle situation. En juin dernier, Wired avait accusé Perplexity, une autre entreprise d’IA, d’avoir utilisé ses données malgré la présence du protocole Robots Exclusion, plus connu sous le nom de robots.txt. Depuis la publication de l’article de Wired, d’autres affaires similaires ont été signalées, impliquant notamment OpenAI.

La réponse d’Anthropic

Face à ces accusations, Anthropic s’est défendue en affirmant respecter le protocole robots.txt et en assurant qu’elle cherche à minimiser les perturbations en étant réfléchie sur la rapidité de ses visites sur les mêmes domaines. En réponse aux activités d’Anthropic, iFixit a dû ajouter une ligne dans son fichier robots.txt pour interdire spécifiquement au robot d’Anthropic d’accéder à son site.

L’avis de la rédaction

Dans cet univers numérique où les données sont devenues une ressource précieuse, les entreprises doivent faire preuve de respect et d’éthique. Les accusations portées contre Anthropic soulèvent des préoccupations légitimes sur la manière dont les entreprises d’IA collectent et utilisent les données. Nous espérons qu’une réglementation plus stricte et un dialogue ouvert pourront conduire à une utilisation plus équitable et transparente des données.

Tags : Anthropic · IA

Partager : X · Facebook · LinkedIn