À une époque où l’IA est de nouveau au centre de l’attention du monde de la technologie, Google a présenté son générateur d’IA texte-en-image qui peut vous fournir des images en fonction du texte saisi. Il s’agit du système d’IA Imagen, créé par l’équipe de Google Brain, et si l’on en croit Google et le lot d’exemples d’images, il peut générer « des images photoréalistes et un niveau profond de compréhension du langage ».

Comme son nom l’indique, la tâche n’est pas difficile. Tout ce que vous devez faire, c’est taper ce que vous voulez voir et, en se basant sur sa compréhension après avoir lu des tas de données, Imagen va générer une image pour vous. Le site Web d’Imagen présente quelques cas d’utilisation et ce que nous voyons est assez impressionnant. Imagen combine de grands modèles de langage transformateur pour comprendre le texte et des modèles de diffusion pour créer des images de haute qualité.

Les résultats semblent assez précis et concurrencent fortement d’autres modèles d’IA de conversion de texte en image comme le populaire DALL-E d’OpenAI (qui a même un successeur) et VQ-GAN+CLIP. Google en a même la preuve. Il a mis en place un outil de benchmarking appelé DrawBench à cet effet et ses données perçoivent Imagen comme le meilleur.

Google révèle également que sur le COCO, Imagen a pu obtenir un FID de 7,27 et que les évaluateurs humains ont trouvé les résultats « équivalents aux images de référence ».

Mais, il faut savoir que les exemples d’images fournis par ces systèmes d’IA sont souvent ceux qui sont jugés les meilleurs et ceux qui dérapent restent bien en dessous. Ainsi, considérer le modèle d’IA de Google comme le meilleur peut être trop tôt.

Impressionnant… mais effrayant

Le modèle d’IA a également son lot de mises en garde, que Google ne se prive pas de souligner. L’IA peut être utilisée comme un outil pour des activités malveillantes, comme la création de contenus désobligeants ou de fausses images, et c’est pourquoi elle n’est pas encore disponible pour être testée. De plus, l’IA peut être sujette à divers préjugés sociaux.

Sur le site Web d’Imagen, on peut lire : « Imagen présente de sérieuses limitations lorsqu’il s’agit de générer des images représentant des personnes. Nos évaluations humaines ont montré qu’Imagen obtient des taux de préférence significativement plus élevés lorsqu’il est évalué sur des images qui ne représentent pas des personnes, ce qui indique une dégradation de la fidélité de l’image. L’évaluation préliminaire suggère également qu’Imagen encode plusieurs biais et stéréotypes sociaux, y compris un biais général vers la génération d’images de personnes au teint plus clair et une tendance à aligner les images représentant différentes professions sur les stéréotypes de genre occidentaux ».

On peut donc dire qu’Imagen a encore besoin d’un peu de travail pour pouvoir correctement fonctionner. Néanmoins, pour la partie ludique, Imagen semble être un bon choix et si vous avez l’intention de voir quelque chose de loufoque et d’irréel, Imagen peut peut-être vous aider. Que pensez-vous de l’IA texte-image de Google ?