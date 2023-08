Sans fanfare ni annonce officielle, le fabricant de ChatGPT, OpenAI, a lancé cette semaine un nouveau robot d’exploration de sites Web, GPTBot, pour en analyser le contenu afin d’entraîner ses grands modèles de langage (LLM).

En effet, si OpenAI a dévoilé son propre robot d’exploration du Web, et a fourni aux administrateurs de sites Web les moyens de le bloquer s’ils le souhaitent.

Les méthodes d’apprentissage de l’IA sont devenues un sujet brûlant, l’industrie essayant toujours de comprendre la légalité et l’éthique de l’apprentissage des modèles d’IA à l’aide de données sur l’Internet. OpenAI aborde ces questions de front en donnant aux administrateurs de sites Web la possibilité de bloquer GPTBot.

En effet, lorsque OpenAI a ajouté la page d’assistance de GPTBot, elle a également introduit un moyen d’empêcher le service de récupérer les données de votre site Web. Une petite modification du fichier robots.txt d’un site Web empêcherait le contenu d’être partagé avec OpenAI. Toutefois, étant donné l’ampleur de l’exploration du Web, il n’est pas certain que le simple fait de bloquer GPTBot empêchera complètement le contenu d’être inclus dans les données d’entraînement du LLM.

« Nous collectons périodiquement des données publiques sur Internet qui peuvent être utilisées pour améliorer les capacités, la précision et la sécurité des futurs modèles », a déclaré un porte-parole d’OpenAI dans un courriel.

Utilisation Les pages Web explorées par l’agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer de futurs modèles et sont filtrées pour supprimer les sources qui requièrent un accès payant, qui sont connues pour recueillir des informations personnelles identifiables (PII), ou qui contiennent des textes qui violent nos politiques. Permettre à GPTBot d’accéder à votre site peut aider les modèles d’IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité. Nous vous expliquons ci-dessous comment empêcher GPTBot d’accéder à votre site. Désactiver GPTBot Pour interdire à GPTBot d’accéder à votre site, vous pouvez ajouter GPTBot au fichier robots.txt de votre site : User-agent : GPTBot Disallow: /

Ce qui est « connu » ne peut pas vraiment être oublié

Bien qu’un peu plus de contrôle sur l’utilisation du contenu sur le réseau ouvert soit pratique, on ne sait toujours pas dans quelle mesure le simple blocage du GPTBot serait efficace pour empêcher les LLM d’engloutir le contenu qui n’est pas enfermé derrière un paywall. Les LLM et d’autres plateformes d’IA générative ont déjà utilisé des collections massives de données publiques pour former les ensembles de données qu’ils déploient actuellement.

L’ensemble de données Colossal Clean Crawled Corpus (C4) de Google et l’organisation à but non lucratif Common Crawl sont des collections de données d’entraînement bien connues. Si vos données ou votre contenu ont été capturés dans le cadre de ces efforts de scraping, les experts affirment qu’ils font probablement partie intégrante des informations d’entraînement utilisées pour activer les plateformes ChatGPT d’OpenAI, Bard de Google ou LLaMA de Meta. Des services tels que CommonCrawl permettent des blocages robots.txt similaires, mais les propriétaires de sites Web auraient dû mettre en œuvre ces changements avant que des données ne soient collectées.