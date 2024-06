OpenAI a lancé un nouvel outil appelé CriticGPT, un nouveau Large Language Model (LLM) d’intelligence artificielle (IA) conçu pour aider les humains à repérer les erreurs dans le code écrit par ChatGPT.

Afin d’améliorer la précision et l’utilité de ses modèles GPT, OpenAI utilise une technique appelée Reinforcement Learning from Human Feedback (RLHF), dans laquelle les humains examinent et critiquent les résultats des modèles d’IA. CriticGPT est conçu pour aider les formateurs en IA dans le processus RLHF.

Selon OpenAI, « lorsque les personnes sont aidées par CriticGPT pour réviser le code ChatGPT, elles obtiennent de meilleurs résultats que celles qui n’ont pas d’aide dans 60 % des cas », dans une expérience qui a montré qu’un formateur d’IA humain préférait les critiques d’une équipe composée d’un humain et de CriticGPT à celles d’un humain sans l’outil d’IA dans 60 % des cas.

Le principal avantage de l’association d’un humain et d’une IA pour fournir un retour d’information dans le processus RLHF est que CriticGPT peut rédiger des critiques plus complètes et plus approfondies qu’un humain opérant seul, et que les humains peuvent intervenir lorsque le modèle signale des erreurs hallucinées, ou lorsque CriticGPT signale trop de « pinaillages » inutiles.

Comment CriticGPT a-t-il été formé ?

CriticGPT a également été formé en utilisant les méthodologies RLHF de OpenAI. Les formateurs ont pris le code écrit par ChatGPT et y ont inséré des erreurs. Ils ont ensuite rédigé un exemple de feedback qu’un modèle pourrait fournir s’il avait trouvé l’erreur insérée.

Le formateur a ensuite comparé les résultats du nouveau modèle, en examinant plusieurs critiques du segment de code modifié et en constatant que le modèle avait correctement identifié et expliqué l’erreur insérée.

Quelles sont les limites de CriticGPT ?

Jusqu’à présent, les données d’entraînement de CriticGPT se sont concentrées sur les réponses courtes écrites par ChatGPT et des recherches et développements supplémentaires seront nécessaires pour qu’il puisse traiter des résultats plus longs et plus complexes. En outre, il n’est pas exempt des redoutables hallucinations de l’IA qui affligent les LLM.

Des travaux supplémentaires seront également nécessaires avant que le modèle puisse identifier et critiquer des erreurs dispersées — il ne peut actuellement traiter que des erreurs discrètes qui apparaissent à un seul endroit.

OpenAI a l’intention d’intégrer CriticGPT dans son pipeline RLHF, puis d’étendre le travail et d’accroître son utilité.