Dans un effort pour faire pression en faveur d’une norme officielle pour les robots d’exploration (crawlers) Web, Google a rendu open source sa bibliothèque robots.txt d’analyse et de rapprochement avec l’espoir que les développeurs Web seront bientôt en mesure de s’entendre sur une norme pour la façon dont les crawlers Web fonctionnent en ligne.

La bibliothèque C++ est responsable de l’alimentation du propre moteur de recherche Googlebot de l’entreprise qui est utilisé pour l’indexation des sites Web en conformité avec le protocole d’exclusion des robots (REP). Grâce à REP, les propriétaires de sites Web peuvent dicter le comportement des robots d’indexation qui visitent leurs sites pour les indexer. À l’aide d’un fichier texte appelé robots.txt, les robots d’exploration Web tels que Googlebot savent quelles ressources du site Web peuvent être visitées et lesquelles peuvent être indexées.

Les règles REP ont été rédigées par le créateur du premier moteur de recherche, Martijn Koster, il y a 25 ans et depuis lors, REP a été largement adopté par les éditeurs Web, mais n’est jamais devenu une norme officielle sur Internet. Google cherche à changer cela et espère le faire en rendant l’analyseur utilisé pour décoder son fichier robots.txt open source.

Dans un billet de blog, Henner Zeller, Lizzi Harvey et Gary Illyes ont expliqué comment le fait que REP qui n’est pas une norme officielle de l’Internet a conduit à la confusion sur la façon de l’appliquer parmi les développeurs Web, en mentionnant : « Le REP n’a jamais été transformé en une norme Internet officielle, ce qui signifie que les développeurs ont interprété le protocole quelque peu différemment au fil des ans. Et depuis sa création, le REP n’a pas été mis à jour pour couvrir les cas d’utilisation d’aujourd’hui. C’est un problème difficile à résoudre pour les propriétaires de sites Web parce que la norme ambiguë de facto rendait difficile la rédaction correcte des règles ».

Faire du REP une norme

Pour aider à rendre les implémentations REP plus cohérentes à travers le Web, Google fait maintenant pression pour faire du REP une norme de l’Internet Engineering Task Force, et le géant de la recherche a même publié un projet de proposition pour aider ses efforts.

Le brouillon du projet propose d’étendre le fichier robots.txt de HTTP à n’importe quel protocole de transfert basé sur l’URI (comme le FTP et le CoAP), exigeant que les développeurs analysent au moins 500 ko d’un fichier robots.txt et un nouveau temps maximum de mise en cache de 24 heures.

« RFC signifie Request for Comments, et nous le pensons vraiment : nous avons téléchargé le projet vers l’IETF pour obtenir les réactions des développeurs qui se soucient des éléments de base de l’Internet. Alors que nous nous efforçons de donner aux créateurs Web les contrôles dont ils ont besoin pour nous dire combien d’informations ils veulent mettre à la disposition de Googlebot, et par extension, éligible pour apparaître dans Recherche, nous devons nous assurer que nous faisons bien cela », ont ajouté Zeller, Harvey et Illyes.

Instagram permet enfin de changer la musique d’une publication sans la supprimer

Google lance officiellement AI Mode et les Aperçus IA en France : la recherche entre dans une nouvelle dimension

Sony imagine une manette PlayStation modulaire avec écran détachable : un brevet dévoile un concept inédit

Attention à cette arnaque : de faux e-mails de sécurité X cherchent à voler votre mot de passe

Test de la HUAWEI Watch Fit 5 Pro : l’Apple Watch de ceux qui ne veulent pas d’Apple Watch

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Xiaomi 18 : lancement avancé, modèle Ultra abandonné et nouvelle stratégie premium en préparation

Huawei préparerait un smartphone avec une batterie record de 10 000 mAh

StoryKit : Meta teste une application d’IA capable de créer des histoires personnalisées pour les enfants

Galaxy Unpacked 2026 : Comment regarder l’événement dédié au Galaxy Z Fold 8 ?

France et Allemagne : un projet d’IA militaire européenne pour remplacer Palantir

OpenAI dépasse les 10 millions d’utilisateurs hebdomadaires pour ses agents IA ChatGPT Work et Codex

OpenAI reconnaît qu’un de ses modèles d’IA a compromis les systèmes de Hugging Face lors d’un test interne

Google dévoile Gemini 3.6 Flash et une IA dédiée à la cybersécurité capable de détecter davantage de failles

France et Allemagne : un projet d’IA militaire européenne pour remplacer Palantir

OpenAI dépasse les 10 millions d’utilisateurs hebdomadaires pour ses agents IA ChatGPT Work et Codex

OpenAI reconnaît qu’un de ses modèles d’IA a compromis les systèmes de Hugging Face lors d’un test interne

Google dévoile Gemini 3.6 Flash et une IA dédiée à la cybersécurité capable de détecter davantage de failles

Google AI Studio simplifie le déploiement des applications avec des URL personnalisées

Claude Code ajoute un navigateur intégré pour consulter la documentation sans quitter l’IDE

Google Agents CLI : l’outil qui transforme Claude Code et Codex en experts des agents IA

Meta Pocket : créez des mini-jeux avec l’IA simplement en les décrivant

Comment réserver votre nom de profil WhatsApp ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Google veut rendre open source les robots d’indexation Web

Faire du REP une norme

La Fossil Sport 2 pourrait être la prochaine smartwatch Wear OS de la marque

La Galaxy Watch 2 lancée avec le Galaxy Note 10 ? L’invitation le suggère

The author Yohann Poiron

Google veut rendre open source les robots d’indexation Web

Faire du REP une norme

The author Yohann Poiron

vous pourriez aussi aimer