L’intelligence artificielle progresse à grande vitesse, mais cette évolution n’est pas toujours synonyme de fiabilité. Les nouveaux modèles GPT o3 et o4-mini d’OpenAI, conçus pour raisonner de manière plus humaine que jamais, posent aujourd’hui une question inquiétante : plus l’IA devient « intelligente », plus elle a tendance à inventer des choses.
L’hallucination : un problème croissant dans l’IA
Le phénomène d’hallucination — ces moments où une IA génère des réponses erronées ou totalement fictives — n’est pas nouveau. Depuis les débuts des chatbots, ce biais reste un obstacle majeur. À chaque nouvelle version, on espérait le voir reculer. Mais d’après une enquête interne relayée par The New York Times, les derniers modèles de OpenAI semblent plus enclins que jamais à « délirer ».
Sur un test de benchmark consacré à des personnalités publiques, GPT o3 a halluciné dans 33 % des cas, soit deux fois plus que son prédécesseur, GPT-o1. Pire encore, le modèle allégé GPT o4-mini a produit des informations erronées dans près de 48 % des réponses.
Trop de raisonnement nuit-il à la fiabilité de l’IA ?
Les modèles GPT-o3 et o4-mini de OpenAI ont été entraînés pour raisonner étape par étape, comme un humain le ferait. Mais cette approche, censée les rendre plus logiques et cohérents, semble les pousser à commettre plus d’erreurs.
Contrairement aux anciens modèles qui se contentaient de générer du texte fluide à partir d’infos sûres, ces nouveaux systèmes tentent de « relier les points » entre des concepts complexes. Résultat : ils peuvent arriver à des conclusions totalement absurdes, mais exprimées avec un aplomb désarmant.
Le test SimpleQA, qui mesure les connaissances générales, est sans appel : GPT o3 s’est trompé 51 % du temps, et o4-mini a halluciné dans 79 % des cas. Des chiffres alarmants, qui sapent la crédibilité de l’IA dans les usages sensibles.
Des modèles plus puissants… mais moins crédibles
Selon OpenAI, cette explosion des hallucinations ne serait pas forcément due au raisonnement lui-même, mais à la tendance des modèles à être plus bavards et confiants. En voulant donner des réponses riches et complètes, ils finissent parfois par mélanger faits réels et théories, vérités et suppositions.
Ce problème devient critique lorsque ces IA sont utilisées dans des secteurs sensibles, comme le droit, la médecine, l’éducation ou les services publics. Un simple « fait halluciné » dans un dossier juridique ou un rapport médical peut avoir des conséquences désastreuses.
Des exemples concrets aux conséquences bien réelles
On se souvient des avocats sanctionnés pour avoir cité des jurisprudences inventées par ChatGPT dans des conclusions judiciaires. Mais qu’en est-il des erreurs plus discrètes dans un rapport d’entreprise, une dissertation ou une politique publique ? À mesure que l’IA s’intègre dans notre quotidien, la marge d’erreur se réduit.
Le paradoxe est simple : plus l’IA est utile, plus ses erreurs deviennent dangereuses. On ne gagne pas de temps si chaque réponse doit être vérifiée manuellement.
Un conseil : traitez l’IA comme un stagiaire trop sûr de lui
Même si GPT-o3 et o4-mini excellent dans le code, l’analyse et la logique, leur propension à halluciner signifie qu’ils ne peuvent pas encore être des sources 100 % fiables. Tant que ce problème ne sera pas maîtrisé, il faut prendre leurs réponses avec précaution. Voyez-les comme ce collègue toujours prompt à répondre, avec assurance, mais qu’on préfère toujours fact-checker avant d’agir.
OpenAI a franchi une étape importante dans la sophistication de ses modèles IA. Mais cette évolution s’accompagne d’une fragilité inquiétante : la vérité est parfois sacrifiée au profit de la cohérence ou de la fluidité.
Tant que les géants de l’IA ne trouveront pas un moyen de limiter ces « hallucinations », l’intelligence artificielle devra rester un assistant, pas une autorité.