Avis aux graphistes et à ceux qui en dépendent : un nouvel outil est apparu, qui pourrait bien bouleverser la profession pour de bon.

Baptisé COLE, en l’honneur d’Henry Cole, reconnu comme le créateur de la première carte de Noël graphique en 1843, ce nouvel outil permet aux utilisateurs de saisir une idée de projet de conception graphique, et de demander à une IA de générer non seulement l’image, mais aussi le texte qui l’accompagne, le tout intégré.

COLE est en fait une combinaison de différents modèles d’IA, notamment des versions affinées de Llama2-13B de Meta, DeepFloyd IF, LLaVA1.5-13B (lui-même une variante de Llama) et GPT-4V, ainsi que le moteur de rendu graphique open source Skia. Il a été développé par une équipe de 12 chercheurs de Microsoft Research Asia et de l’Université de Pékin.

La combinaison de différents modèles a été choisie en raison de la complexité de la conception graphique et de la pénurie de données de formation disponibles sur l’un des principaux formats du domaine, à savoir les fichiers .SVG. Les chercheurs ont donc opté pour une approche différente : « consolider tous les éléments SVG et les embellissements supplémentaires dans une couche d’image unifiée », puis demander à l’IA d’extraire la couche d’arrière-plan et de la décrire sous forme de texte.

L’équipe COLE a formé son modélisateur d’arrière-plan à l’IA sur « 100 000 images graphiques brutes de haute qualité provenant d’Internet ».

Un framework, pas un produit… pour l’instant

Pour l’instant, COLE s’apparente davantage à un framework qu’à un produit. Mais, les résultats que l’équipe a obtenus en entraînant et en combinant ces différents produits d’IA au service de la conception graphique sont assez stupéfiants : il suffit de taper des invites textuelles, comme le font d’autres générateurs texte-image actuels tels que DALL-E 3 d’OpenAI ou Midjourney, pour que COLE soit capable de générer des conceptions graphiques nettes, organisées et combinant des images et du texte stylisé.

Ce dernier produit n’est pas une mince affaire : la plupart des générateurs d’art IA, y compris les leaders tels que Midjourney et Stable Diffusion, ont eu du mal à intégrer du texte dans l’image. DALL-E 3 peut produire du texte intégré, mais il n’est pas précis à 100 %.

Plus impressionnant encore, COLE produit des images avec des blocs éditables distincts pour les textes et les objets au sein de l’image.

Cela permet aux programmes d’IA en chaîne de produire une image à partir de zéro et, si l’utilisateur humain n’aime pas le résultat final, il n’a pas besoin de revenir en arrière et d’essayer de réviser l’ensemble de la conception, ni de l’exporter vers un autre programme tel qu’Adobe Photoshop ou InDesign pour effacer certains éléments et en introduire d’autres.

Ils peuvent le faire à l’intérieur même du framework COLE, en cliquant sur la zone de texte pour modifier le texte affiché ou la police, ainsi qu’en tapant de nouvelles invites pour différents éléments visuels, transformant un sac d’épicerie d’une image photoréaliste en un dessin animé, par exemple.

Des résultats compétitifs et prometteurs

En outre, les chercheurs ont montré que les résultats produits par COLE sont « d’une qualité très compétitive… même par rapport au dernier DALL-E 3“.

Les chercheurs ont testé COLE sur 200 projets de conception graphique différents, allant de la publicité à la promotion d’événements et au matériel de marketing, en publiant ici toutes les invites qu’ils ont utilisées dans une feuille de calcul.

En outre, COLE « atteint la meilleure qualité lors de la création de couvertures, d’en-têtes ou d’affiches » et est bien entendu plus performant que DALL-E 3 et d’autres logiciels concurrents lorsqu’il s’agit de modifier des éléments spécifiques de l’image, tels que du texte ou des objets distincts.

Cependant, COLE n’est pas une solution miracle pour la conception graphique — du moins, pas encore. Le système ne permet pas aux utilisateurs de modifier la « disposition » ou l’emplacement de ses blocs typographiques, il ne permet pas encore de placer plusieurs blocs typographiques et il n’autorise qu’une seule couleur de typographie par image. Cependant, les chercheurs écrivent « qu’aborder ces questions est une direction que nous aimerions poursuivre dans nos travaux futurs ».

Pour l’instant, COLE n’est pas accessible au public, mais les chercheurs affirment qu’une démo sera bientôt disponible sur la page Web de leur projet GitHub.