Une nouvelle révélation explosive vient ternir l’image de Google : la firme continuerait d’utiliser les contenus de sites Web, y compris ceux ayant explicitement refusé cette exploitation, pour entraîner son intelligence artificielle, Gemini.
L’affaire, dévoilée lors du procès antitrust intenté par le ministère américain de la Justice (DOJ), relance les débats brûlants autour de la propriété des contenus à l’ère de l’intelligence artificielle.
Le contexte : une IA qui se nourrit de tout, même contre la volonté des auteurs
Depuis plusieurs mois, le secteur technologique est secoué par les pratiques agressives des géants de l’IA, notamment en matière d’entraînement de leurs modèles sur des contenus protégés par le droit d’auteur. Meta est déjà en procès pour avoir aspiré illégalement des millions de livres. OpenAI, de son côté, a reconnu que l’interdiction totale de l’usage de contenus protégés par copyright pourrait rendre ses modèles économiquement invivables.
Google rejoint désormais le banc des accusés. Lors de la phase de détermination des sanctions de son procès antitrust — procès dans lequel Google a été reconnu coupable de monopole illégal dans le domaine de la recherche en ligne —, une révélation de taille a été faite : le géant de la recherche utilise bel et bien les données des éditeurs ayant pourtant explicitement refusé leur usage à des fins d’entraînement IA.
Une ligne floue entre l’entraînement IA et l’amélioration de la recherche
Interrogé par la représentante du DOJ, Diana Aguilar, sur le fait que l’intégration de Gemini dans les résultats de recherche permettait de s’affranchir des refus des éditeurs, Eli Collins, vice-président chez DeepMind (filiale IA de Google), a répondu sans détour : « Correct — for use in search ».
Autrement dit, selon Google, le refus d’un éditeur ne concerne que l’entraînement direct de ses IA (comme DeepMind ou Gemini). Mais si les données sont utilisées pour améliorer l’expérience de recherche, ces refus sont ignorés.
Le seul moyen de se protéger : sortir complètement de l’index de Google
La subtilité est de taille : pour empêcher Google d’utiliser leurs contenus dans ses réponses IA via Gemini, les éditeurs doivent carrément se retirer de l’indexation Google via le fichier robots.txt
. Une décision radicale qui coupe l’accès au trafic généré par le moteur de recherche le plus utilisé au monde.
« Google propose un moyen bien établi pour que les éditeurs gèrent leur contenu dans la Recherche via la norme web robots.txt », a déclaré un porte-parole de l’entreprise.
En clair, pas de demi-mesure possible : soit vous laissez Google accéder à votre contenu — et potentiellement l’utiliser pour son IA — soit vous disparaissez complètement du web aux yeux du moteur.
Un nouvel épisode dans la guerre des droits numériques
Cette révélation risque d’aggraver les tensions déjà vives entre les éditeurs de contenu et les géants de la tech. Les médias et créateurs, déjà en lutte pour une rémunération équitable, voient désormais leurs contenus utilisés sans consentement réel pour entraîner des IA génératives qui pourraient… à terme les remplacer.
Pour l’industrie de l’information, le problème est autant juridique qu’économique : comment faire respecter ses droits dans un écosystème contrôlé par des plateformes dont les règles évoluent sans concertation ?
Et pour les législateurs, la question devient de plus en plus pressante : faut-il mettre en place un cadre réglementaire clair et contraignant autour de l’exploitation des contenus en ligne par l’IA ?
Alors que l’IA devient un pilier central des stratégies des Big Tech, la guerre autour des données d’entraînement ne fait que commencer. La stratégie de Google, consistant à contourner les opt-out via une interprétation technique de la finalité des données, risque de provoquer une réaction en chaîne du côté des éditeurs, juristes et institutions. Dans ce bras de fer, l’équilibre entre innovation technologique et respect des droits fondamentaux du web reste plus que jamais à définir.