Le conflit entre éditeurs et entreprises d’IA entre dans une nouvelle phase. Après les actions engagées par plusieurs groupes de presse et ayants droit, Encyclopaedia Britannica et sa filiale Merriam-Webster ont à leur tour déposé plainte contre OpenAI, l’accusant d’avoir utilisé sans autorisation une vaste quantité de contenus protégés pour entraîner ses modèles.
La plainte a été déposée devant le tribunal fédéral de Manhattan, et vise à la fois le copyright, les usages de type RAG et le droit des marques.
Ce que reprochent Britannica et Merriam-Webster à OpenAI
Au cœur du dossier, Britannica affirme que OpenAI aurait copié près de 100 000 articles d’encyclopédie et de dictionnaire pour entraîner ChatGPT et d’autres modèles. Les plaignants soutiennent aussi que certains résultats générés par ChatGPT reproduisent des formulations très proches, voire quasi verbatim, de leurs contenus. Selon eux, cela transforme l’IA en substitut direct à leurs services éditoriaux, au risque de détourner une partie du trafic qui aurait autrement abouti sur leurs sites.
La plainte ne s’arrête pas à l’entraînement initial des modèles. Britannica cible également l’usage de ses contenus dans les réponses enrichies par récupération d’informations récentes, ce que l’on appelle généralement le RAG. L’entreprise estime qu’OpenAI récupère, copie et réutilise tout ou partie de ses contenus lorsqu’un utilisateur pose une question, ce qui renforcerait encore l’effet de substitution économique.
Autre angle d’attaque : le droit des marques. Britannica accuse ChatGPT d’attribuer parfois à tort certaines réponses ou hallucinations à Britannica ou Merriam-Webster, ce qui, selon les plaignants, risque d’induire les utilisateurs en erreur et d’abîmer la crédibilité de marques construites précisément sur la fiabilité de l’information. La société demande des dommages-intérêts non précisés ainsi qu’une injonction pour empêcher de nouveaux usages litigieux.
Une affaire de plus dans un contentieux devenu structurant
Cette procédure s’ajoute à une série de contentieux déjà engagés contre les grands acteurs de l’IA générative. Reuters rappelle que OpenAI défend de son côté l’idée que l’entraînement sur des données accessibles publiquement relève du fair use, une ligne de défense désormais centrale dans l’industrie. Britannica avait d’ailleurs déjà engagé une action distincte contre Perplexity AI, signe que l’offensive juridique vise plus largement les usages non licenciés de contenus de référence par les moteurs et agents IA.
Que peut-il se passer maintenant ?
La réalité, c’est que le cadre juridique reste encore instable. Les tribunaux américains ont commencé à tracer des lignes, mais il n’existe pas encore de règle simple et définitive disant si l’entraînement d’un modèle sur des œuvres protégées constitue, en soi, une violation du droit d’auteur. Un point semble toutefois se préciser : la question du mode d’acquisition des contenus et celle de la sortie du modèle comptent autant que l’entraînement lui-même.
Le précédent le plus souvent cité est celui d’Anthropic. Dans l’affaire Bartz v. Anthropic, un juge fédéral a estimé que l’entraînement sur des livres légalement acquis pouvait relever d’un usage transformateur et donc du fair use. En revanche, l’utilisation de livres obtenus via des bibliothèques pirates a été traitée séparément comme un problème de contrefaçon, et Anthropic a ensuite conclu un accord de règlement de 1,5 milliard de dollars avec des auteurs et éditeurs, accord approuvé à titre préliminaire par le tribunal.
C’est précisément ce qui rend l’affaire Britannica potentiellement importante. Si le tribunal considère que les réponses de ChatGPT concurrencent directement un éditeur de référence en reproduisant sa valeur éditoriale, le dossier pourrait peser bien au-delà du seul débat abstrait sur l’entraînement. Il toucherait alors à la question la plus sensible pour les éditeurs : celle du remplacement de l’audience, du trafic et, au bout de la chaîne, du modèle économique. Cette lecture reste toutefois une analyse, pas encore une conclusion judiciaire.
Au fond, cette plainte dit quelque chose de très clair sur le moment actuel de l’IA générative : après la phase d’expansion rapide, l’heure est désormais à la confrontation avec les producteurs de contenus qui veulent reprendre la main sur la valeur de leurs archives. Et plus les modèles deviennent capables de répondre directement à la place des sites, plus ce bras de fer s’annonce central pour l’avenir du web.



