OpenAI franchit une nouvelle étape dans l’évolution de l’intelligence artificielle en intégrant GPT-4o dans ChatGPT, permettant désormais à tous les utilisateurs de générer des images et des vidéos directement au sein du chatbot.

Cette avancée élimine le besoin de passer par un outil externe comme DALL·E, bien que ce dernier reste disponible pour ceux qui souhaitent continuer à l’utiliser via des GPTs personnalisés. Par ailleurs, OpenAI introduit également son générateur de vidéos Sora, renforçant ainsi les capacités multimodales de ChatGPT et ouvrant de nouvelles possibilités créatives.

Avec cette mise à jour, tous les utilisateurs de ChatGPT, y compris ceux de la version gratuite, peuvent désormais profiter de la génération d’images. Cependant, les abonnés des offres Plus, Team et Pro bénéficient d’un accès plus large et de meilleures performances, notamment en matière de rapidité et de quotas. Les utilisateurs issus du milieu professionnel et éducatif devront patienter une semaine supplémentaire avant de voir cette nouveauté déployée sur leurs comptes.

Jusqu’à présent, la génération d’images avec OpenAI était principalement réservée aux utilisateurs payants, qui avaient accès à DALL·E 3, tandis que les utilisateurs gratuits devaient passer par Microsoft Copilot. Désormais, tout se fait directement dans ChatGPT grâce à GPT-4o, rendant l’expérience plus fluide et accessible à tous.

Une amélioration majeure de la qualité des images

Avec GPT-4o, OpenAI franchit un cap en matière de précision et de réalisme dans la génération d’images. Une des avancées les plus notables concerne le rendu du texte dans les images, qui devient enfin lisible, là où DALL·E 3 échouait systématiquement. Le modèle est également beaucoup plus performant pour interpréter et respecter les détails demandés dans un prompt, notamment en ce qui concerne les formes, les couleurs et les objets multiples au sein d’une même image.

Contrairement aux modèles de diffusion traditionnels, qui appliquent progressivement des détails sur une base aléatoire, GPT-4o utilise un processus autoregressif, générant les images de haut en bas et de gauche à droite. Bien que cette méthode soit légèrement plus lente, elle permet une meilleure précision, notamment lorsqu’il s’agit de respecter des consignes précises. Par exemple, si un utilisateur demande une image contenant un cercle rouge, un triangle bleu, un cœur vert, une étoile rose et un carré violet, GPT-4o ne se trompera pas dans les formes et les couleurs, contrairement à DALL·E 3, qui pouvait mélanger ces éléments.

L’un des autres atouts majeurs de ce nouveau modèle est sa capacité à maintenir la cohérence des personnages et des objets à travers plusieurs générations d’images. Cela signifie qu’un utilisateur peut demander à réutiliser un personnage ou un élément spécifique d’une image précédente, et GPT-4o le reproduira avec une grande fidélité, sans altérer ses couleurs ou ses caractéristiques essentielles.

Une avancée pour le texte intégré aux images

Une des critiques majeures formulées à l’encontre des précédents modèles d’OpenAI portait sur leur incapacité à générer du texte lisible au sein des images. GPT-4o corrige ce défaut en permettant aux utilisateurs de spécifier avec précision le texte qu’ils souhaitent voir apparaître dans leurs créations.

Si un utilisateur demande une image photoréaliste d’une jeune fille écrivant sur un tableau blanc avec une écriture désordonnée, il peut désormais préciser exactement ce qu’elle doit écrire, et GPT-4o respectera cette consigne. Cette nouveauté représente une avancée significative pour de nombreux secteurs, notamment la restauration, où il devient possible de générer des menus stylisés, ou encore le marketing et la publicité, où la création d’affiches promotionnelles devient plus simple et plus efficace.

Une expérience visuelle plus fluide et professionnelle

L’amélioration de la qualité visuelle des images générées ne se limite pas à la lisibilité du texte. Les images photoréalistes produites par GPT-4o sont plus naturelles et mieux détaillées, offrant un rendu beaucoup plus professionnel. La netteté et la clarté des images numériques ont également été améliorées, mettant fin aux effets flous ou granuleux parfois observés avec DALL·E 3.

Un autre ajout majeur concerne la possibilité de générer des images avec un fond transparent. Cette fonctionnalité est particulièrement intéressante pour les designers graphiques, qui peuvent désormais créer des logos et des icônes directement via ChatGPT, ainsi que pour les e-commerçants, qui peuvent obtenir des visuels produits prêts à être utilisés sur des plateformes de vente en ligne.

Des défis et limitations encore présents

Bien que GPT-4o constitue une nette amélioration par rapport aux modèles précédents, certaines limites subsistent. OpenAI reconnaît que son IA souffre encore de « hallucinations », ce phénomène où l’IA génère du contenu erroné ou incohérent. La génération d’éléments mathématiques complexes, comme des graphiques ou des tableaux, reste également difficile, tout comme l’intégration fluide de texte multilingue.

En termes de sécurité, OpenAI a mis en place des garde-fous pour éviter les abus et la diffusion d’images trompeuses. Cependant, ces protections peuvent être contournées avec un peu d’effort. Les images générées sont marquées avec des métadonnées C2PA, signalant qu’elles ont été produites par une IA, mais cette indication reste facilement effaçable, rendant la lutte contre la désinformation plus compliquée.

Un flou persistant autour du droit d’auteur

La question de la propriété intellectuelle et du respect du droit d’auteur continue de faire débat. OpenAI affirme que GPT-4o a été entraîné sur des données « publiquement accessibles » et sur des contenus sous licence, notamment via des partenariats avec Shutterstock. Toutefois, l’origine exacte des données utilisées reste floue, et de nombreuses entreprises d’IA ont déjà été critiquées pour leur manque de transparence en matière d’entraînement des modèles.

Comment reconnaître GPT-4o par rapport à DALL·E 3 ?

Le déploiement de GPT-4o étant encore en cours, certains utilisateurs peuvent parfois encore générer des images avec DALL·E 3. Pour distinguer les deux modèles, il suffit d’observer la manière dont l’image se charge. DALL·E 3 génère les images avec une roue de chargement tournante, tandis que GPT-4o affiche une animation fluide, scannant l’image de haut en bas.

Avec l’intégration de GPT-4o, ChatGPT devient un outil encore plus puissant et polyvalent, facilitant la création d’images et de vidéos avec un réalisme et une précision inédits. L’amélioration de la qualité visuelle, la gestion optimisée des objets et des couleurs, ainsi que la possibilité d’insérer du texte lisible font de cette mise à jour une avancée significative pour les créateurs de contenu, les professionnels du marketing et les entreprises en quête d’automatisation visuelle.

Bien que certaines limitations persistent, notamment en matière de hallucinations et de droits d’auteur, GPT-4o représente un véritable bond en avant dans le domaine de l’IA générative. Il ne reste plus qu’à voir comment cette technologie sera adoptée par les utilisateurs et quels nouveaux usages en émergeront.