Malgré les protocoles de blocage, les entreprises d’IA continuent de parcourir les sites web, révèle une enquête

Benjamin — publié le 22 juin 2024 à 17h26, modifié le 22 juin 2024 à 17h26

Selon Reuters, de nombreuses entreprises spécialisées en intelligence artificielle ignorent délibérément les instructions des robots.txt. Quelles pourraient être les conséquences légales de ce non-respect des règles ?

Tl;dr

Perplexity, une entreprise d’IA, est critiquée pour avoir ignoré le protocole Robots Exclusion et récupéré du contenu sans autorisation.
Des accusations similaires sont portées contre d’autres entreprises d’IA, dont OpenAI et Anthropic.
Aravind Srinivas, PDG de Perplexity, nie les accusations, arguant que le protocole n’est pas un cadre juridique.
Srinivas insinue également que Wired a délibérément manipulé les résultats de l’outil de son entreprise.

Controverse autour de Perplexity, une entreprise d’IA

Perplexity, se décrivant comme un « moteur de recherche AI gratuit », fait face à de vives critiques. La société a été mise en cause après que Forbes l’a accusée de vol d’articles et de republication sur diverses plateformes. De plus, Wired a révélé que Perplexity ignorait le protocole d’exclusion des robots (robots.txt), en aspirant du contenu sur son site web et d’autres publications de Condé Nast. Le site technologique The Shortcut a également accusé la société de récupérer ses articles.

Des accusations plus larges

Reuters a rapporté que Perplexity n’est pas la seule entreprise à contourner les fichiers robots.txt pour aspirer du contenu et former ses technologies. Selon un courrier adressé aux éditeurs par TollBit, une startup qui les met en relation avec des entreprises d’IA, « des agents IA de plusieurs sources (pas seulement une entreprise) choisissent de contourner le protocole robots.txt pour récupérer du contenu sur les sites ». Ces fichiers contiennent des instructions pour les robots d’indexation web concernant les pages accessibles ou non. Bien que ce protocole soit utilisé depuis 1994, son respect reste entièrement volontaire.

OpenAI et Anthropic également impliqués

Business Insider a révélé que OpenAI et Anthropic, créateurs des chatbots ChatGPT et Claude, contournaient également les signaux robots.txt. Ces deux sociétés avaient auparavant affirmé qu’elles respectaient les instructions « ne pas indexer » des sites web.

La défense de Perplexity

Aravind Srinivas, PDG de Perplexity, a déclaré à Fast Company que son entreprise « ne néglige pas le protocole d’exclusion des robots puis ne ment pas à ce sujet ». Il a cependant admis que Perplexity utilisait des robots d’indexation tiers, en plus des siens, et que certains d’entre eux pourraient ne pas respecter ce protocole. Il a également suggéré que son entreprise et les éditeurs pourraient devoir établir un nouveau type de relation, étant donné que le protocole n’est pas un cadre juridique.

L’avis de la rédaction

Ce scandale soulève une question fondamentale : avons-nous besoin d’un cadre juridique pour réguler l’indexation web par les IA ? Les protocoles volontaires ne sont visiblement pas suffisants. Un débat s’impose pour concilier innovation technologique et respect de la propriété intellectuelle.

Tags : IA (Intelligence Artificielle) · Intelligence Artificielle

Partager : X · Facebook · LinkedIn