OpenAI veut faire passer les assistants vocaux dans une nouvelle phase. Avec GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper, l’API ne se limite plus à écouter et répondre : elle peut raisonner, traduire, transcrire et agir pendant une conversation en direct.
Trois modèles pour réinventer la voix
OpenAI introduit trois nouveaux modèles audio dans sa Realtime API : GPT-Realtime-2, pensé pour les interactions vocales avec raisonnement ; GPT-Realtime-Translate, dédié à la traduction vocale en direct ; et GPT-Realtime-Whisper, conçu pour la transcription streaming à faible latence.
GPT-Realtime-2 devient le plus ambitieux des trois. Il peut gérer des demandes vocales complexes, utiliser des outils pendant l’échange, conserver le contexte sur de longues sessions et adapter son ton selon la situation. OpenAI indique aussi que sa fenêtre de contexte passe à 128K, contre 32K auparavant.
Traduire et transcrire en temps réel
GPT-Realtime-Translate vise les conversations multilingues : il accepte plus de 70 langues en entrée et peut produire de l’audio traduit dans 13 langues, tout en générant une transcription en parallèle. Le modèle est optimisé pour conserver le rythme et le sens, même avec des interruptions ou des accents variés.
GPT-Realtime-Whisper, lui, s’adresse aux cas où chaque seconde compte : sous-titres live, réunions, support client, cours, événements ou notes automatiques. OpenAI le décrit comme un modèle speech-to-text streaming pour produire des transcriptions à faible latence.
La voix devient un système d’exploitation
La stratégie est claire : OpenAI ne voit plus la voix comme une simple commande, mais comme une interface logicielle complète. Un utilisateur peut parler, changer d’avis, interrompre, demander une action, et l’agent doit continuer à comprendre sans casser le flux.
C’est le vrai saut : passer du chatbot vocal au collaborateur vocal capable de réserver, chercher, résumer, traduire ou piloter un workflow.
Prix et disponibilité
Les trois modèles sont disponibles dans la Realtime API. GPT-Realtime-2 coûte 32 dollars par million de tokens audio en entrée et 64 dollars par million de tokens audio en sortie. GPT-Realtime-Translate est facturé 0,034 dollar par minute, et GPT-Realtime-Whisper 0,017 dollar par minute.
Avec cette annonce, OpenAI prépare une évidence : demain, beaucoup d’applications ne se contrôleront plus au clavier, mais à la voix — en continu, en contexte, et avec des agents capables d’agir pendant que l’on parle.



