Avis aux graphistes et à ceux qui en dépendent : un nouvel outil est apparu, qui pourrait bien bouleverser la profession pour de bon.

Baptisé COLE, en l’honneur d’Henry Cole, reconnu comme le créateur de la première carte de Noël graphique en 1843, ce nouvel outil permet aux utilisateurs de saisir une idée de projet de conception graphique, et de demander à une IA de générer non seulement l’image, mais aussi le texte qui l’accompagne, le tout intégré.

COLE est en fait une combinaison de différents modèles d’IA, notamment des versions affinées de Llama2-13B de Meta, DeepFloyd IF, LLaVA1.5-13B (lui-même une variante de Llama) et GPT-4V, ainsi que le moteur de rendu graphique open source Skia. Il a été développé par une équipe de 12 chercheurs de Microsoft Research Asia et de l’Université de Pékin.

La combinaison de différents modèles a été choisie en raison de la complexité de la conception graphique et de la pénurie de données de formation disponibles sur l’un des principaux formats du domaine, à savoir les fichiers .SVG. Les chercheurs ont donc opté pour une approche différente : « consolider tous les éléments SVG et les embellissements supplémentaires dans une couche d’image unifiée », puis demander à l’IA d’extraire la couche d’arrière-plan et de la décrire sous forme de texte.

L’équipe COLE a formé son modélisateur d’arrière-plan à l’IA sur « 100 000 images graphiques brutes de haute qualité provenant d’Internet ».

Un framework, pas un produit… pour l’instant

Pour l’instant, COLE s’apparente davantage à un framework qu’à un produit. Mais, les résultats que l’équipe a obtenus en entraînant et en combinant ces différents produits d’IA au service de la conception graphique sont assez stupéfiants : il suffit de taper des invites textuelles, comme le font d’autres générateurs texte-image actuels tels que DALL-E 3 d’OpenAI ou Midjourney, pour que COLE soit capable de générer des conceptions graphiques nettes, organisées et combinant des images et du texte stylisé.

Ce dernier produit n’est pas une mince affaire : la plupart des générateurs d’art IA, y compris les leaders tels que Midjourney et Stable Diffusion, ont eu du mal à intégrer du texte dans l’image. DALL-E 3 peut produire du texte intégré, mais il n’est pas précis à 100 %.

Plus impressionnant encore, COLE produit des images avec des blocs éditables distincts pour les textes et les objets au sein de l’image.

Cela permet aux programmes d’IA en chaîne de produire une image à partir de zéro et, si l’utilisateur humain n’aime pas le résultat final, il n’a pas besoin de revenir en arrière et d’essayer de réviser l’ensemble de la conception, ni de l’exporter vers un autre programme tel qu’Adobe Photoshop ou InDesign pour effacer certains éléments et en introduire d’autres.

Ils peuvent le faire à l’intérieur même du framework COLE, en cliquant sur la zone de texte pour modifier le texte affiché ou la police, ainsi qu’en tapant de nouvelles invites pour différents éléments visuels, transformant un sac d’épicerie d’une image photoréaliste en un dessin animé, par exemple.

Des résultats compétitifs et prometteurs

En outre, les chercheurs ont montré que les résultats produits par COLE sont « d’une qualité très compétitive… même par rapport au dernier DALL-E 3« .

Les chercheurs ont testé COLE sur 200 projets de conception graphique différents, allant de la publicité à la promotion d’événements et au matériel de marketing, en publiant ici toutes les invites qu’ils ont utilisées dans une feuille de calcul.

En outre, COLE « atteint la meilleure qualité lors de la création de couvertures, d’en-têtes ou d’affiches » et est bien entendu plus performant que DALL-E 3 et d’autres logiciels concurrents lorsqu’il s’agit de modifier des éléments spécifiques de l’image, tels que du texte ou des objets distincts.

Cependant, COLE n’est pas une solution miracle pour la conception graphique — du moins, pas encore. Le système ne permet pas aux utilisateurs de modifier la « disposition » ou l’emplacement de ses blocs typographiques, il ne permet pas encore de placer plusieurs blocs typographiques et il n’autorise qu’une seule couleur de typographie par image. Cependant, les chercheurs écrivent « qu’aborder ces questions est une direction que nous aimerions poursuivre dans nos travaux futurs ».

Pour l’instant, COLE n’est pas accessible au public, mais les chercheurs affirment qu’une démo sera bientôt disponible sur la page Web de leur projet GitHub.

YouTube explore les publicités sur vidéos en pause : Plus de pubs pour tous

Windows 11 durcit ses exigences : Fin de support pour les anciens processeurs

Microsoft ouvre le code source de MS-DOS 4.0: Un trésor pour les historiens du numérique

La Nintendo Switch 2 pourrait être équipée de Joy-Con magnétiques

Test des Nothing ear (a) : Performance premium à petit prix

Test de la Garmin Forerunner 165 : La montre de sport abordable pour 2024

Découverte de Google Gemini : l’assistant IA qui comprend vraiment

Test de la Navee S65C : une conduite urbaine et tout-terrain sans compromis

eufy étend la compatibilité de ses trackers à Android avec Find My Device

WhatsApp innove : Introduction des discussions favoris pour iOS et Android

OnePlus Nord 4 et Nord CE4 Lite : les principales caractéristiques ont été divulguées

Le Apple Pencil 3 promet une révolution créative avec feedback haptique

Révolutionnez votre montage vidéo avec ces 5 outils IA incontournables

Beats Solo 4 et Solo Buds : Nouveautés Apple pour les amateurs d’audio

OpenAI demande le rejet des poursuites engagées par Elon Musk

Microsoft Store introduit un installateur autonome pour une installation épurée

Découvrez GitLab Duo Chat : l’IA au service du développement logiciel

L’IA transforme le développement : 3/4 des développeurs l’utiliseront en 2028

Maximiser le développement avec ChatGPT : Conseils et limites

Google dévoile Gemini Code Assist : Une révolution IA pour les développeurs

Instagram propose un jeu d’emoji caché, voici comment y jouer

Les secrets du sommeil : comment la qualité du repos influence l’espérance de vie

9 outils d’IA pour vous aider à organiser votre vie en 2024

Optimisez votre MacBook : Guide des meilleures astuces de productivité

COLE combine plusieurs IA pour générer des dessins modifiables à la demande

Un framework, pas un produit… pour l’instant

Des résultats compétitifs et prometteurs

GatorTronGPT : l’IA qui écrit des notes médicales indiscernables de celles des médecins humains

Google Contacts simplifie la gestion des sonneries avec une nouvelle fonctionnalité

The author Yohann Poiron

COLE combine plusieurs IA pour générer des dessins modifiables à la demande

Un framework, pas un produit… pour l’instant

Des résultats compétitifs et prometteurs

The author Yohann Poiron

vous pourriez aussi aimer