Lancement de Gemini for Workspace : Google intensifie l’IA pour les entreprises

par Yohann Poiron le 23 février 2024

Aujourd’hui, Google a annoncé le lancement de Gemini for Workspace, une nouvelle offre centrée sur les entreprises qui apporte la puissance de Gemini Ultra 1.0 — le modèle le plus performant de l’entreprise — dans les applications Workspace telles que Docs et Meet avec des protections de données de niveau entreprise.

Google a récemment franchi une étape importante dans le domaine de l’intelligence artificielle avec la transformation de Bard en Gemini, ainsi que le lancement de la nouvelle application Android Gemini et d’un nouveau forfait Google One conçu spécialement pour ceux souhaitant exploiter les capacités avancées de Gemini Advanced et son modèle d’IA le plus performant, Ultra 1.0.

Ce nouveau niveau d’abonnement, nommé « Google One AI Premium », offre également aux utilisateurs un accès à 2 To de stockage, en plus des autres avantages Google One. Malheureusement, ce dernier n’est pas encore disponible en France.

La nouveauté marquante est l’extension des fonctionnalités de Gemini aux applications Gmail, Docs, Slides, Sheets et Meet, anciennement connues sous le nom de Duet AI dans l’univers Google Workspace, désormais rebaptisées « Gemini » à l’instar de Bard.

Le modèle LLM Ultra 1.0 de Gemini est salué pour ses avancées significatives dans le monde de l’IA, notamment en termes d’efficacité de traitement, de compréhension avancée des instructions et programmes, ainsi que d’amélioration des compétences de résolution de problèmes.

Ce modèle est capable d’analyser et d’expliquer des données, mais aussi de rédiger du code de haute qualité dans de nombreux langages de programmation, enrichissant ainsi l’expérience utilisateur dans les applications Workspace sans nécessiter de changer d’application ou d’onglet.

Respect de la vie privée

Outre l’intégration de Gemini dans les applications, la nouvelle offre permettra également aux utilisateurs de Workspace de bénéficier d’une expérience de chatbot Gemini autonome afin d’accélérer leurs workflows et leur créativité sans se soucier des risques liés à la confidentialité ou à la sécurité.

Google souligne également que, conformément à ses principes de confidentialité des données liées à l’IA, Gemini dans Google Workspace n’utilise pas vos informations personnelles et/ou professionnelles pour former ou améliorer ses modèles d’IA sans votre permission. Cet aspect est crucial à souligner à une époque où les frontières de la vie privée peuvent parfois sembler floues.

Gemini commence aujourd’hui son déploiement dans Gmail et les applications Workspace (anciennement Duet AI) pour les membres AI Premium dans plus de 150 pays en anglais. Comme lors de son lancement, les abonnés AI Premium bénéficient également de Gemini Advanced, de 2 To de stockage utilisables sur tous les services Google (tels que Google Photos et Drive), ainsi que d’autres avantages Google One pour 19,99 dollars par mois, avec deux mois d’introduction gratuits.

Cette initiative devrait renforcer la position de Google face à Microsoft, qui a déjà fait quelque chose d’analogue avec son expérience Copilot pour les entreprises.

Lire plus

Intelligence Artificielle

Google suspend la génération d’images de personnes par Gemini suite à des réactions négatives

par Yohann Poiron le 23 février 2024

Google a suspendu la possibilité de créer des images de personnes à l’aide de la fonction de génération d’images par l’IA Gemini afin de corriger certaines inexactitudes historiques.

Certains utilisateurs de Gemini ont partagé des captures d’écran montrant des inexactitudes historiques apparentes, Gemini créant des images d’un homme amérindien et d’une femme indienne alors qu’on lui demandait de créer un couple allemand représentatif de l’époque des années 1820. Des images de soldats indigènes ont également été créées pour représenter des membres de l’armée allemande de 1929, entre autres exemples.

ah the classic super buff native american and indian couple from 1820 germany. thanks google! pic.twitter.com/4x1H4WsnJd

— kache (sponsored by dingboard) (@yacineMTB) February 20, 2024

Ces résultats ne sont peut-être pas surprenants si l’on se souvient que la génération d’images par l’IA n’apprend que de ce qu’on lui donne. Cela signifie qu’en cas de saisie ou d’erreur humaine, l’IA peut rapidement inventer des réponses ou combler elle-même les lacunes, ce qui se traduit par des résultats inexacts comme ceux-ci. L’IA générative ne peut pas penser par elle-même et fait souvent des sauts rapides pour répondre à une demande.

Google a reconnu pour la première fois les problèmes liés à la génération d’images le mercredi 21 février : « Nous travaillons à l’amélioration immédiate de ce type de représentations. La génération d’images par l’IA de Gemini génère un large éventail de personnes. Et c’est généralement une bonne chose, car des gens du monde entier l’utilisent. Mais dans le cas présent, il n’est pas à la hauteur ».

Réponse de Google aux allégations d’inexactitude historique

Google a annoncé qu’il avait mis en pause la génération d’images de personnes dans Gemini et qu’il prenait des mesures pour résoudre les problèmes. Une version mise à jour devrait être publiée prochainement.

We’re already working to address recent issues with Gemini’s image generation feature. While we do this, we’re going to pause the image generation of people and will re-release an improved version soon. https://t.co/SLxYPGoqOZ

— Google Communications (@Google_Comms) February 22, 2024

Actuellement, Gemini affiche un message d’erreur lorsqu’on lui demande de générer une image incluant une personne, indiquant : « Nous travaillons à améliorer la capacité de Gemini à générer des images de personnes. Nous prévoyons que cette fonctionnalité reviendra bientôt et vous informerons dans les mises à jour de la version lorsqu’elle le fera ».

La solution à ces problèmes comprendra probablement une forme de contexte historique ou réel dans la génération d’images de Gemini. Il reste à voir ce que Google fera exactement pour combler cette lacune et aucun calendrier n’a été donné pour la mise à disposition d’une nouvelle version améliorée, alors qu’une nouvelle mise à jour du modèle a été effectuée la semaine dernière. Gemini est toujours en ligne et ses fonctions de génération d’images fonctionnent toujours pour les sujets non humains.

Lire plus

Intelligence Artificielle

Vers une IA éthique : Google présente sa boîte à outils pour modèles génératifs

par Yohann Poiron le 22 février 2024

Google a publié une sélection d’outils d’IA pour guider le développement de modèles d’IA génératifs responsables. La boîte à outils souligne l’importance de la qualité des données par rapport à la quantité et présente les meilleures pratiques pour créer des ensembles de données de réglage.

C’est une étape importante qui guide les développeurs dans la création éthique de modèles d’intelligence artificielle (IA). Elle est conçue pour garantir que les systèmes d’intelligence artificielle sont sûrs, fiables et exempts de biais. Il s’agit d’une ressource que les développeurs peuvent utiliser pour créer une IA qui respecte les normes éthiques et sert le bien public.

Au cœur de tout système d’IA se trouvent les données à partir desquelles il apprend. La boîte à outils de Google met fortement l’accent sur la nécessité de disposer de données d’entraînement de haute qualité.

Il est entendu que plus les données d’entraînement sont de qualité, plus le modèle d’IA sera robuste et efficace. La boîte à outils fournit des conseils sur la manière de générer des exemples d’entraînement de premier ordre, en particulier pour les Large Language Model (LLM), qui sont essentiels pour le développement de l’IA.

Un aspect innovant de la boîte à outils est sa recommandation d’utiliser des requêtes contradictoires. Il s’agit de prompts stimulants qui mettent à l’épreuve les défenses de l’IA et contribuent à améliorer sa sécurité. En préparant l’IA à gérer une variété de situations réelles, les développeurs peuvent s’assurer que l’IA est robuste et qu’elle peut gérer des entrées inattendues sans compromettre la sécurité.

Boîte à outils d’IA générative responsable de Google

Lorsqu’il s’agit d’affiner les modèles d’IA, les développeurs ont beaucoup de choses à prendre en compte. La boîte à outils souligne l’importance de créer un ensemble de données qui reflète toutes les politiques de contenu et couvre un large éventail de scénarios. Cette couverture complète est essentielle pour un entraînement approfondi des modèles. En outre, la boîte à outils insiste sur la nécessité de diversifier les données utilisées pour affiner le modèle. Cette diversité aide l’IA à répondre avec précision à un large éventail de requêtes.

Un autre point clé de la boîte à outils est l’élimination des données en double. Cette étape est cruciale pour améliorer l’efficacité de l’ensemble de données et les performances du modèle. Elle garantit que l’IA ne se contente pas de répéter les réponses, mais qu’elle fournit des résultats utiles et variés. En outre, la boîte à outils souligne l’importance de séparer les données d’évaluation des données de réglage. Cette séparation est essentielle pour éviter la contamination croisée et pour maintenir une évaluation impartiale du modèle d’IA.

Le traitement éthique des données est également un point important de la boîte à outils. Elle exige des instructions d’identifications claires et l’utilisation de groupes d’évaluateurs diversifiés pour minimiser les préjugés. Cette approche favorise l’équité et l’inclusivité des résultats produits par l’IA.

Pour protéger les données d’entrée et de sortie des modèles d’IA générative, les outils d’IA de Google présentent plusieurs stratégies. Ils suggèrent l’utilisation de modèles de prompts pour orienter l’IA vers des résultats plus sûrs et plus précis. La complexité de la création de prompts efficaces est reconnue et la boîte à outils fournit des conseils à cet égard. Les classificateurs de contenu, tels que l’API Perspective et le service de modération de texte de Google, sont recommandés pour empêcher la génération de contenu préjudiciable. Ces classificateurs agissent comme des gardiens, en veillant à ce que les entrées et les sorties de l’IA respectent les normes de sécurité.

Protocoles de sécurité

La boîte à outils traite également de l’évaluation des protocoles de sécurité. Elle souligne la nécessité de trouver un équilibre entre l’efficacité et l’absence de filtrage excessif, qui pourrait réduire l’utilité de l’application d’IA.

Les outils de Google pour une IA générative responsable offrent un cadre stratégique aux développeurs. Il encourage l’engagement en faveur de la qualité des données, l’utilisation de requêtes contradictoires pour le réglage fin et la mise en œuvre de mesures de sécurité strictes. Cette boîte à outils est prête à façonner l’avenir du développement de l’IA, en promouvant des pratiques éthiques et efficaces qui établissent une référence en matière d’IA responsable.

Lire plus

Intelligence Artificielle

Groq réinvente l’IA avec son processeur LPU ultra-rapide

par Yohann Poiron le 22 février 2024

Lorsque vous utilisez ChatGPT, en particulier le modèle GPT-4, vous avez certainement remarqué la lenteur avec laquelle le modèle répond aux requêtes. Sans parler des assistants vocaux basés sur de Large Language Model, comme la fonction Voice Chat de ChatGPT ou la récente version de Gemini, qui a remplacé Google Assistant sur les smartphones Android, qui sont encore plus lents en raison de la latence élevée des LLM. Mais tout cela devrait bientôt changer, grâce au nouveau et puissant moteur d’inférence LPU (Language Processing Unit) de Groq.

Dans un secteur technologique en constante évolution, la rapidité et l’efficacité des traitements informatiques sont au cœur des préoccupations, particulièrement dans le domaine de l’intelligence artificielle (IA).

À cet égard, la société Groq, co-fondée par Jonathan Ross, ancien ingénieur de Google, fait figure de pionnière avec son tout nouveau moteur d’inférence LPU (Language Processing Unit), promettant de révolutionner la vitesse de traitement des modèles de langage.

Contrairement à l’IA conversationnelle ChatGPT d’OpenAI, qui repose sur des puces Nvidia, le LPU de Groq se distingue par sa capacité à générer jusqu’à 500 tokens par seconde pour un modèle de 7 milliards de paramètres, et 250 tokens par seconde pour un modèle de 70 milliards. Cette performance dépasse largement celle des solutions basées sur les GPU Nvidia, qui oscillent entre 30 et 60 tokens par seconde.

L’histoire de Groq commence en 2016, lorsque Jonathan Ross quitte Google pour fonder sa propre entreprise, emmenant avec lui une partie de l’équipe ayant développé le premier TPU (Tensor Processing Unit). L’approche innovante de Groq repose sur un développement logiciel préalable à la conception matérielle, permettant d’atteindre une performance dite « déterministe », essentielle pour des résultats rapides, précis et prévisibles.

Le LPU de Groq : une architecture sur mesure

L’architecture du LPU de Groq, analogue à celle d’un ASIC (circuit intégré spécifique à une application), est optimisée pour le traitement séquentiel des données dans les Large Language Modal (LLM), contrairement aux CPU et GPU traditionnels. Cette spécialisation, combinée à un compilateur sur mesure, réduit considérablement la latence, offrant une efficacité et une performance accrues.

Bien que conçu principalement pour l’inférence IA, le LPU de Groq ne se prête pas à l’entraînement de modèles en raison de l’absence de mémoire à haute bande passante (HBM). Toutefois, son efficacité énergétique et sa capacité à fonctionner avec des modèles de diffusion en font une solution attrayante pour diverses applications, y compris la génération d’images haute résolution en moins d’une seconde.

Bien que je ne l’ai pas testé, les LPU Groq fonctionnent également avec des modèles de diffusion, et pas seulement des modèles de langage. D’après la démo, il peut générer différents styles d’images à 1024 pixels en moins d’une seconde. C’est assez remarquable.

Groq vs Nvidia : que dit Groq ?

Dans son rapport, Groq affirme que ses LPU sont évolutives et peuvent être reliées entre elles par une interconnexion optique sur 264 puces. Il est possible de les faire évoluer en utilisant des commutateurs, mais cela augmentera le temps de latence. Selon Ross, l’entreprise développe des clusters qui peuvent s’étendre sur 4 128 puces qui seront commercialisées en 2025, et qui sont développées sur le nœud de processus 4 nm de Samsung.

Lors d’un benchmark réalisé par Groq à l’aide de 576 LPU sur un modèle 70B Llama 2, l’inférence AI a été réalisée en un dixième du temps pris par une grappe de GPU H100 de Nvidia.

De plus, les GPU Nvidia ont consommé de 10 à 30 joules d’énergie pour générer des jetons dans une réponse, alors que Groq n’a consommé que de 1 à 3 joules. En résumé, la société affirme que les LPU Groq offrent une vitesse 10x supérieure pour les tâches d’inférence de l’IA à un dixième du coût des GPU Nvidia.

Un futur prometteur pour l’interaction instantanée avec les systèmes IA

Avec la mise en place des LPUs de Groq, les utilisateurs peuvent s’attendre à des interactions quasi instantanées avec les systèmes d’IA, ouvrant la voie à des applications multimodales innovantes. La disponibilité de l’accès API par Groq laisse présager une amélioration significative des performances des modèles d’IA dans un avenir proche.

L’initiative de Groq dans l’espace matériel de l’IA représente une avancée significative, promettant des interactions plus rapides et plus fluides avec les technologies d’intelligence artificielle. Alors que le monde technologique continue d’évoluer, les contributions de Groq pourraient bien marquer un tournant décisif dans notre manière d’interagir avec les machines.

Lire plus

Intelligence Artificielle

L’impact caché de ChatGPT : quand l’IA pèse lourd sur la balance énergétique

par Yohann Poiron le 22 février 2024

Alors que l’intelligence artificielle (IA) s’infiltre de plus en plus dans notre quotidien, peu s’interrogent sur l’empreinte énergétique laissée par ces technologies avancées.

Parmi elles, ChatGPT d’OpenAI, un puissant modèle linguistique, est au cœur d’une problématique cruciale : sa consommation énergétique considérable. Josh Gordon, spécialiste chez Geonode, met en lumière cette question en soulignant que derrière les algorithmes et les codes se cache une consommation d’énergie colossale.

ChatGPT est synonyme d’innovation mais aussi de consommation énergétique élevée. Il est estimé que l’énergie annuelle nécessaire pour alimenter cette technologie pourrait fournir de l’électricité à environ 120 foyers américains moyens.

Cette consommation pose des questions essentielles sur la durabilité des technologies IA.

Pourquoi ChatGPT consomme-t-il autant ?

La réponse réside dans la complexité et la puissance des calculs requis par ChatGPT. Formés sur d’énormes bases de données textuelles, ces modèles nécessitent une capacité de calcul importante pour leur apprentissage et leur fonctionnement quotidien. La formation de ChatGPT consomme à elle seule environ 1,287 gigawattheures (GWh), et son fonctionnement quotidien demande près de 1 GWh, équivalent à l’énergie de 33 000 foyers américains.

La consommation énergétique de ChatGPT n’est pas sans conséquence pour l’environnement. La création de GPT-3, la précédente version de ChatGPT, a généré 552 tonnes de CO2, l’équivalent des émissions annuelles de 120 voitures ou de la consommation électrique de 81 foyers américains. Ces chiffres mettent en perspective l’impact environnemental considérable de ces technologies.

Face à ce constat, la recherche de solutions plus éco-responsables devient impérative. Josh Gordon souligne l’importance de développer des modèles IA plus efficaces, consommant moins d’énergie pour des performances similaires ou supérieures. L’optimisation des infrastructures de serveur, l’utilisation d’énergies renouvelables pour alimenter les datacenters et la conception de modèles moins énergivores sont autant de pistes à explorer pour réduire l’empreinte carbone de l’IA.

Un avenir plus vert pour l’IA

L’histoire de la consommation énergétique de ChatGPT et de ses alternatives souligne un enjeu majeur : la nécessité de concilier progrès technologique et durabilité environnementale. Comme le rappelle Josh Gordon, “L’avenir est quelque chose que nous créons“. Il appartient donc aux acteurs de l’IA de développer des technologies non seulement intelligentes et utiles mais également respectueuses de notre planète.

Cet article met en évidence l’urgence d’adopter des pratiques plus durables dans le développement de l’IA. Alors que les progrès technologiques continuent d’évoluer à un rythme effréné, il est crucial de se questionner sur les moyens de minimiser leur impact environnemental, pour marcher vers un avenir où technologie et écologie peuvent coexister harmonieusement.

Lire plus

Intelligence Artificielle

Google défie ChatGPT avec un interpréteur Python dans Gemini Advanced

par Yohann Poiron le 22 février 2024

Dans le monde en constante évolution de la programmation et de l’intelligence artificielle, Google fait un grand pas en avant avec Gemini Advanced, en y ajoutant régulièrement de nouvelles fonctionnalités pour rivaliser avec ChatGPT Plus.

La dernière mise à jour majeure de Gemini Advanced est particulièrement intéressante pour les développeurs et étudiants en informatique : l’intégration d’un interpréteur Python directement dans son interface.

Cette innovation signifie que les utilisateurs n’ont plus besoin de transférer leur code vers des plateformes externes telles que Google Colab ou Replit pour exécuter et tester leurs scripts Python. L’interpréteur Python de Gemini fonctionne de manière analogue à l’interpréteur de code de ChatGPT, mais avec un avantage notable : la possibilité d’éditer le code Python directement dans l’interface et de l’exécuter en un clic.

Google affirme que cette fonctionnalité est une aubaine pour les étudiants et les développeurs, leur permettant de vérifier instantanément la validité de leur code. Contrairement à l’interpréteur de ChatGPT, Gemini permet non seulement d’exécuter du code mais aussi de le modifier sur place grâce à une icône « crayon » dédiée.

Un gain de temps précieux

Cette capacité d’édition et d’exécution de code Python au sein de Gemini Advanced représente un gain de temps précieux. Elle offre aux étudiants la possibilité d’apprendre et de comprendre divers concepts de programmation à travers des exemples de code, en observant comment les modifications du code influent sur les résultats obtenus.

Il est important de noter que cet interpréteur est différent de l’« Exécution de code implicite » introduite avec Bard l’année dernière. Bien que Gemini se concentre exclusivement sur les tâches de codage, ChatGPT offre un interpréteur de code plus polyvalent, capable d’effectuer des analyses de données, de générer des graphiques, de convertir divers formats de fichiers, et bien plus, grâce à une bibliothèque de plus de 300 paquets Python.

L’introduction de cet interpréteur Python au sein de Gemini Advanced est une avancée significative. Espérons que Google continuera d’élargir ses capacités. À noter que cette fonctionnalité est exclusivement disponible sur Gemini Advanced, la version payante de Gemini.

Pas encore en France

Gemini Advanced est alimenté par le puissant modèle Gemini 1.0 Ultra et est proposé à 20 dollars par mois. Actuellement, Google offre deux mois d’essai gratuit, accompagnés d’avantages Google One, tels que 2 To de stockage et un accès à l’IA dans Docs, Gmail, et plus encore. Malheureusement, il n’est pas encore disponible en France.

L’innovation continue de Google avec Gemini Advanced souligne l’importance croissante de l’accès facile et immédiat à des outils de programmation avancés, facilitant ainsi le développement et l’apprentissage du code pour une nouvelle génération de créateurs numériques.

Lire plus

Intelligence Artificielle

Google Gemini : un guide pour booster votre productivité

par Yohann Poiron le 22 février 2024

Google Gemini représente une avancée notable dans le monde des modèles de langage développés par Google AI, se positionnant aux côtés de modèles renommés tels que ChatGPT.

Ce qui distingue Gemini est son ancrage dans les données propriétaires de Google et sa technologie avancée, lui conférant une capacité exceptionnelle à comprendre et interagir avec des entrées en langage naturel. Capable de générer un large éventail de textes créatifs et d’offrir des services de traduction, des réponses informatives, et un soutien dans diverses tâches liées à l’écriture, Gemini se montre comme un outil prometteur pour accroître l’efficacité personnelle et professionnelle.

Bien que Gemini ne soit pas encore disponible en tant qu’application autonome, comprendre et anticiper ses fonctionnalités permettra d’exploiter pleinement les produits Google qui intégreront ses capacités avancées.

Il est important de noter que Google Gemini est en phase de développement continu, avec des mises à jour permanentes concernant son intégration dans la suite de produits Google.

Voici comment Gemini peut booster votre productivité

Amélioration des résultats de recherche et des résumés de Google

Trouver des informations plus rapidement : Grâce à la compréhension linguistique de Gemini, le moteur de recherche Google sera encore plus à même de saisir les nuances de vos questions. Vous obtiendrez ainsi plus rapidement des résultats précis.
Résumer pour vous : Lorsque vous traitez de grandes quantités de texte (articles longs, rapports, etc.), les outils alimentés par Gemini peuvent fournir des résumés concis pour vous aider à extraire rapidement les informations les plus importantes.

Aide à la rédaction d’e-mail

Rédiger des e-mails en un clin d’œil : Que vous ne sachiez pas comment commencer un e-mail ou que vous manquiez simplement de temps, Gemini peut vous aider. Il peut vous suggérer des projets d’e-mails entiers ou vous aider à rédiger des phrases individuelles, ce qui accélère le processus et vous permet de vous concentrer sur la transmission de votre message.
Répondre aux e-mails de routine : Pour les e-mails simples et répétitifs, les modèles de type Gemini peuvent prendre en charge l’ensemble de l’interaction, ce qui vous permet de gagner du temps et de l’énergie.

Création de contenu et brainstorming

Idées à la demande : Vous avez besoin de nouvelles perspectives ou d’une étincelle de brainstorming ? Gemini peut être un collaborateur fantastique pour le brainstorming et la génération d’idées.
Rédaction de plans et de structures de base : Si vous avez le syndrome de la page blanche ou si vous ne savez pas comment structurer un document, Gemini peut vous aider à élaborer des schémas et des structures de base pour une plus grande efficacité.

Amélioration de la rédaction et de l’édition

Amélioration de la grammaire et du style : Gemini peut vous aider à repérer les erreurs potentielles et vous proposer des suggestions pour affiner votre écriture, ce qui vous permettra d’obtenir des communications soignées et de qualité professionnelle.
Suggestions de réécriture pour plus de clarté et d’impact : Parfois, le bon mot ou la bonne phrase nous échappe. Gemini peut vous proposer des solutions de rechange, afin que vos écrits soient clairs, concis et efficaces.

Recherche et vérification des faits

Processus de recherche efficace : Utilisez Gemini pour poser des questions de recherche ciblées et recueillir des informations de manière efficace.
Vérification des informations : Comme pour tout outil d’intelligence artificielle, il est essentiel de procéder à des vérifications croisées.

Cependant, Gemini peut aider à localiser rapidement des sources fiables pour valider un fait ou explorer une affirmation.

Un mot : prudence

Les angles morts de l’IA : Google Gemini est puissant, mais comme tout modèle d’IA, il est important de faire preuve d’esprit critique. Vérifiez ses réponses, reconnaissez les potentiels biais et ne prenez pas ses résultats pour la vérité absolue.
Protection de la vie privée : Gardez à l’esprit les données que vous partagez avec Google et les informations que vous fournissez lorsque vous sollicitez Gemini.

Perspectives d’avenir

Gemini est une technologie passionnante qui en est encore au stade du développement. Gardez l’œil ouvert car Google étend les capacités de Gemini au sein de son écosystème de produits — cette technologie a un énorme potentiel pour devenir un moteur de productivité encore plus efficace.

Lire plus

Intelligence Artificielle

Gemma de Google : l’IA open source révolutionne le développement

par Yohann Poiron le 22 février 2024

Google DeepMind a récemment annoncé le lancement de Gemma, ses nouveaux modèles open source 2B et 7B, construits à partir des mêmes recherches et technologies que les modèles Gemini précédemment présentés par l’entreprise. Il s’agit d’une étape significative dans l’évolution de l’accès aux technologies d’IA avancées pour les développeurs. En effet, cette initiative marque une étape importante dans le domaine de l’intelligence artificielle, car elle reflète l’engagement de Google dans le partage de technologies avancées avec la communauté des développeurs et chercheurs.

Gemma se positionne comme une alternative plus légère et ouverte, idéalement adaptée à des tâches plus simples telles que la création de chatbots ou la réalisation de résumés. Malgré leur taille réduite, les modèles Gemma se distinguent par leur capacité à surpasser des modèles bien plus importants sur des benchmarks clés, selon Google.

Les modèles Gemma seront disponibles en versions pré-entraînées et ajustées par instruction, accompagnés d’une licence commerciale permissive. Cette démarche est complétée par la mise à disposition d’un nouvel ensemble d’outils pour une IA générative responsable. Google propose également des chaînes d’outils pour l’inférence et le fine-tuning supervisé (SFT) compatibles avec les principaux frameworks tels que JAX, PyTorch, et TensorFlow via Keras 3.0. Des notebooks prêts à l’emploi sur Colab et Kaggle sont fournis, et Gemma est intégré avec des plateformes telles que Hugging Face, MaxText, et NVIDIA NeMo, permettant une exécution sur des ordinateurs portables, des stations de travail, ou sur le cloud de Google.

En parallèle, Nvidia a annoncé avoir collaboré avec Google pour lancer des optimisations sur toutes les plateformes AI de NVIDIA, afin d’accélérer les performances de Gemma. Cette collaboration souligne l’importance de l’interopérabilité et de l’optimisation dans l’écosystème de l’IA.

Jeanine Banks, vice-présidente et directrice générale de Developer X chez Google, a souligné que les modèles Gemma s’inscrivent dans la continuité des efforts de Google pour rendre accessible la technologie d’IA, en offrant à la fois des API et des modèles ouverts. Cette approche vise à fournir un large éventail de capacités à la communauté, facilitant ainsi le prototypage précoce et la personnalisation ultérieure des modèles.

Réduire les risques associés aux modèles d’IA

Google DeepMind s’engage également à publier un ensemble complet de benchmarks pour évaluer Gemma par rapport à d’autres modèles, dans un effort de transparence et de contribution à l’amélioration continue de la sécurité et de la fiabilité des modèles d’IA. Ces évaluations comprennent des tests adversaires automatiques, des red teaming manuels, et des évaluations des capacités des modèles pour des activités potentiellement dangereuses.

L’accent mis sur la sécurité et la conception responsable de Gemma témoigne de l’importance accordée par Google DeepMind aux principes d’IA responsables. L’entreprise cherche à réduire les risques associés aux modèles d’IA en utilisant des techniques automatisées pour filtrer les informations personnelles sensibles et en appliquant un apprentissage par renforcement à partir de retours humains pour aligner les modèles sur des comportements responsables.

Ce développement illustre l’engagement croissant envers une IA ouverte et responsable, en mettant l’accent sur la nécessité d’intégrer diverses perspectives pour améliorer les systèmes de sécurité et encourager une innovation éthique dans le domaine de l’IA.

En nommant ce modèle « Gemma », qui signifie pierre précieuse, Google souligne la valeur et l’importance de ces nouvelles ressources d’IA dans le paysage technologique actuel, offrant aux développeurs des outils puissants et accessibles pour innover et créer de manière responsable.

Lire plus

Intelligence Artificielle

Acrobat réinvente le PDF avec l’IA : une révolution documentaire

par Yohann Poiron le 21 février 2024

Adobe innove une fois de plus en intégrant une expérience d’IA générative à son logiciel de gestion de documents PDF, Acrobat, promettant de « transformer complètement l’expérience du document numérique ».

Baptisé « AI Assistant in Acrobat », Shantanu Narayen, PDG d’Adobe, a souligné la capacité de l’outil à résumer, interagir, répondre aux questions et connecter de manière transparente les informations à travers les documents PDF pour démocratiser l’accès à la grande diversité de documents PDF utilisés. Cet AI Assistant améliore l’accessibilité et l’efficacité de la gestion des documents pour répondre aux besoins changeants des utilisateurs dans un monde numérique.

Adobe a dévoilé mardi sa dernière innovation, en introduisant un assistant à intelligence artificielle (IA) au sein de ses applications Reader et Acrobat, conçu pour rationaliser le traitement des documents.

Actuellement en phase bêta, AI Assistant est déjà accessible sur Acrobat, avec des plans imminents pour son intégration dans Reader. Après la phase bêta, Adobe prévoit de lancer un plan d’abonnement pour cet outil.

Use AI Assistant (beta) with confidence. Learn more about our multilayered approach 🗂️: https://t.co/7ZgTIAhx71

— Adobe Acrobat (@Acrobat) February 20, 2024

Gestion de documents plus efficace et moins contraignante

AI Assistant vise à aider les utilisateurs à comprendre les longs documents PDF en générant des résumés concis de leur contenu, comme l’a rapporté CNBC. Il propose également une interface conversationnelle pour répondre aux questions concernant les informations du document et suggérer de potentielles questions que les utilisateurs pourraient poser. De plus, l’assistant peut produire des citations pour vérifier la source de ses réponses et générer du texte pour différents formats, tels que les e-mails, les présentations et les rapports.

Contrairement à d’autres modèles d’IA comme ChatGPT, qui nécessitent que les utilisateurs téléchargent des PDF pour analyse, AI Assistant est une fonctionnalité intégrée dans les applications Reader et Acrobat.

L’expérience AI Assistant est accessible aux clients Acrobat sur les plans d’abonnement Standard, Pro et Teams, à la fois sur bureau et en ligne, « sans coût supplémentaire » pendant la période bêta.

Une poussée de l’IA

Ce développement fait suite à l’intégration par Adobe AI pour la création de contenu. Nous avons récemment vu Adobe s’associer à TikTok s’étaient associés pour améliorer la production multimédia pour les entreprises et les artistes en intégrant directement l’assistant créatif alimenté par l’IA de TikTok dans Adobe Express. Cette fonctionnalité, disponible pour les utilisateurs gratuits et premium, vise à simplifier l’expérience de création de contenu.

L’add-on Creative Assistant dans Adobe Express facilite la production de contenu de manière transparente sur les plateformes, offrant aux clients d’Adobe Express l’accès à des thèmes, des clips vidéo Adobe Stock, de l’audio, des autocollants et un créateur de vidéo TikTok.

Stacy Martinet, VP de la stratégie marketing et de la communication chez Adobe, souligne les avantages pratiques de cette collaboration, citant la réduction du temps, des efforts et des ressources nécessaires sur les plateformes pendant la production de contenu.

Lire plus

Intelligence Artificielle

Tout ce que vous devez savoir sur Sora : « tout le monde sera cinéaste »

par Yohann Poiron le 19 février 2024

L’arrivée de Sora, le modèle de génération de vidéos à partir de prompts textuels développés par OpenAI, représente une véritable révolution dans le paysage de l’intelligence artificielle.

Cette technologie prometteuse permet de transformer de simples descriptions textuelles en vidéos d’une minute, offrant ainsi une nouvelle dimension à la création de contenu numérique.

OpenAI, déjà connu pour ses avancées significatives avec des produits comme ChatGPT et Dall-E, repousse les limites de l’IA avec Sora, en produisant des vidéos d’une qualité quasi photoréaliste. Si Sora peut « créer des scènes réalistes et imaginatives à partir d’instructions textuelles », selon OpenAI, elle fait déjà parler d’elle sur Internet.

Accès et sécurité de Sora

Contrairement aux précédents précédents qui étaient largement accessibles, Sora est actuellement en phase de test et n’est accessible qu’à un nombre restreint d’utilisateurs, notamment les testeurs internes d’OpenAI et un groupe sélectionné d’artistes visuels et de cinéastes.

Cette approche sélective vise à identifier et à corriger les potentielles failles du système qui pourraient présenter des risques d’abus ou de détournement. OpenAI met en garde contre les annonces frauduleuses promettant un accès non autorisé à Sora, soulignant l’importance de se référer uniquement aux canaux officiels pour les informations d’accès.

Technologie et innovation

Sora s’appuie sur une méthodologie innovante en matière de traitement vidéo. Analogue aux Large Language Model pour le texte, Sora utilise des « patches » de données vidéo, transformées en un espace latent de dimension inférieure, pour générer des vidéos cohérentes et de haute qualité.

Ce processus s’inscrit dans la continuité des modèles de diffusion, une avancée par rapport aux modèles GAN utilisés antérieurement dans la génération de vidéos basées sur le texte. Sora se distingue par sa capacité à comprendre les nuances du langage liées à la réalité physique, permettant une reproduction fidèle et détaillée des scènes décrites.

Défis et perspectives

Malgré ses capacités impressionnantes, Sora n’est pas exempt de défis, notamment en ce qui concerne la représentation précise de la physique et le changement d’état des objets dans les vidéos.

OpenAI a admis ouvertement que Sora n’est pas sans limites et qu’il y a beaucoup de place pour l’amélioration. Il existe actuellement deux limitations majeures :

Sora peut passer à côté de détails basés sur la relation de cause à effet. L’exemple donné par OpenAI est que Sora pourrait être capable de générer une vidéo de quelqu’un en train de croquer dans un biscuit, mais ce biscuit pourrait ne pas être croqué par la suite.
Sora pourrait ne pas tenir compte de certains détails spatiaux plus fins, comme la gauche et la droite, ou des directions spécifiques de la caméra.

OpenAI est consciente de ces limitations et travaille à l’amélioration continue du modèle. Pour prévenir les risques associés aux deepfakes, une signature spécifique est intégrée dans les métadonnées des vidéos générées, accompagnée du développement d’un détecteur dédié.

Questions ouvertes

Des interrogations demeurent quant aux données utilisées pour entraîner Sora, ainsi qu’aux implications sur le marché du travail et aux coûts liés à la génération de contenu vidéo. La collaboration d’OpenAI avec Shutterstock pour l’accès à sa bibliothèque média soulève des questions sur les supports de formation et les droits d’utilisation.

De plus, l’impact de l’IA sur les emplois créatifs et les potentiels coûts pour l’accès à cette technologie avancée font l’objet d’un examen attentif.

Réactions sur Internet

Les réactions en ligne ont été très variées, certains utilisateurs X étant très enthousiastes, tandis que d’autres sont beaucoup plus méfiants. Marques Brownlee, blogueur et critique technique, a déclaré dans un tweet accompagné de quelques vidéos de Sora : « Si cela ne vous inquiète pas au moins un peu, rien ne le fera ».

Every single one of these videos is AI-generated, and if this doesn’t concern you at least a little bit, nothing will

The newest model: https://t.co/zkDWU8Be9S

(Remember Will Smith eating spaghetti? I have so many questions) pic.twitter.com/TQ44wvNlQw

— Marques Brownlee (@MKBHD) February 15, 2024

Gabor Cselle, qui a été directeur chez Google pendant plus de 6 ans, a préparé une comparaison entre Sora et plusieurs autres outils populaires de génération de vidéos, Sora semblant extrêmement prometteur.

.@OpenAI SORA vs @pika_labs vs @runwayml vs @StabilityAI Video.

I gave the other models SORA’s starting frame. I tried my best prompting and camera motion techniques to get the other models to output something similar to SORA.

SORA’s just much better at longer scenes. pic.twitter.com/TK7QR6jaUK

— Gabor Cselle (@gabor) February 16, 2024

De nombreuses personnes ont souligné le potentiel de cet outil pour les cinéastes amateurs.

Conclusion

Sora d’OpenAI illustre les progrès remarquables et les défis persistants dans le domaine de la génération de contenu vidéo par IA. Alors que cette technologie ouvre de nouvelles avenues pour la création de contenu numérique, elle soulève également des questions importantes sur l’éthique, la sécurité et l’accessibilité.

Dans ce contexte, OpenAI poursuit ses efforts pour développer une plateforme à la fois innovante et responsable, prête à transformer le paysage de la création numérique tout en veillant à prévenir les abus potentiels.

Lire plus

Intelligence Artificielle

Valorisation record pour OpenAI : 80 milliards de dollars et au-delà

par Yohann Poiron le 19 février 2024

Selon des informations révélées par le New York Times le 16 février, OpenAI, l’entreprise à l’avant-garde de l’intelligence artificielle, a vu sa valorisation grimper à plus de 80 milliards de dollars.

Cette valorisation résulte d’une transaction particulière, orchestrée par Thrive Capital, impliquant la vente d’actions existantes via une offre publique d’achat. Contrairement aux tours de financement traditionnels, cette opération permet aux employés de monétiser leurs parts, soulignant une approche innovante dans le financement des entreprises technologiques.

Cette nouvelle évaluation marque une croissance significative par rapport à la précédente offre publique d’achat, initiée par des firmes de renom telles que Thrive Capital, Sequoia Capital, Andreessen Horowitz et K2 Global, qui avait valorisé OpenAI à 29 milliards de dollars.

Parallèlement, Sam Altman, PDG d’OpenAI, cherche activement des fonds pour lancer une entreprise de semi-conducteurs visant à augmenter la capacité mondiale de fabrication de puces.

Ce projet ambitieux, visant à renforcer les capacités et à réduire les coûts de l’intelligence artificielle, pourrait nécessiter un investissement colossal de plusieurs trillions de dollars, avec des pourparlers en cours avec des investisseurs, y compris le gouvernement des Émirats arabes unis.

OpenAI lance un générateur de texte-vidéo alimenté par l’IA

Dans un autre développement, OpenAI a fait face à un revers juridique lorsque sa demande de marque pour le terme « GPT » a été rejetée par l’Office américain des brevets et des marques (USPTO), citant la nature générique et large du terme. Cette décision met en lumière les défis de protéger les innovations dans un domaine aussi dynamique que l’intelligence artificielle, où l’équilibre entre la protection de la propriété intellectuelle et la compréhension publique des termes techniques est crucial.

Enfin, OpenAI a récemment dévoilé Sora, un modèle IA révolutionnaire capable de générer des vidéos d’une minute à partir de simples instructions textuelles. Bien que cette technologie promette de redéfinir la génération de contenu vidéo, son accès reste limité au public, OpenAI préférant une évaluation approfondie pour prévenir les potentiels abus.

Cette prudence reflète les inquiétudes croissantes concernant les risques associés aux outils alimentés par l’IA, notamment en termes de désinformation, de contenu haineux et de biais, ainsi que l’impact possible sur l’emploi dans les industries créatives.

Lire plus

Intelligence Artificielle

Stability AI lance Stable Cascade : une révolution dans la génération d’images IA

par Yohann Poiron le 18 février 2024

Le créateur de la célèbre technologie d’IA texte-image Stable Diffusion, Stability AI, a dévoilé un nouveau modèle baptisé Stable Cascade. Ce modèle innovant représente un bond en avant dans la technologie de génération d’images, visant à offrir des solutions plus efficaces et plus flexibles que ses prédécesseurs.

Depuis son lancement initial en 2022, Stability AI n’a cessé d’affiner son modèle Stable Diffusion, ce qui a conduit à des mises à jour importantes avec le SDXL 1.0 en juillet 2023 et le SDXL Turbo en novembre 2023.

Stable Cascade introduit une nouvelle approche de la génération d’images, en utilisant une architecture différente inspirée de l’architecture Würstchen. Cette méthode intègre des techniques avancées pour améliorer à la fois les performances et la précision. Selon le résumé de la recherche de Würstchen, une innovation clé est le développement d’une technique de diffusion latente qui utilise une représentation sémantique de l’image hautement comprimée mais détaillée. Cette approche réduit considérablement les besoins de calcul pour obtenir des résultats de pointe, marquant ainsi une nouvelle étape dans la création d’images pilotée par l’IA.

Contrairement au grand modèle unique utilisé par Stable Diffusion, Stable Cascade utilise une architecture modulaire en trois étapes, comprenant les étapes A, B et C. Cette configuration permet d’améliorer considérablement l’efficacité et la personnalisation de la formation. Le processus commence par l’étape C, qui convertit les prompts textuels en latents compacts de 24 × 24 pixels. Ces latents sont ensuite décodés en images complètes à haute résolution par les étapes A et B. En découplant la génération du texte en image du décodage de l’image, le modèle initial de texte conditionnel peut être formé et affiné avec une plus grande efficacité. Stability AI indique que le réglage fin de l’étape C entraîne à lui seul une réduction des coûts de 16 fois par rapport au réglage fin d’un modèle unique de taille similaire à celui de Stable Diffusion.

L’optimisation directe des préférences (Direct Preference Optimization, DPO) est un autre domaine dans lequel Stable Cascade vise à améliorer la qualité de l’image. La DPO, une alternative à l’apprentissage par renforcement, ajuste les modèles pour les aligner sur les préférences humaines. Le fondateur et PDG de Stability AI, Emad Mostaque, a indiqué que la combinaison de Stable Cascade et de DPO permettrait d’obtenir des images de meilleure qualité. Bien qu’il s’agisse d’un modèle de prévisualisation de recherche, Stable Cascade excelle déjà dans la qualité de l’image et l’alignement rapide, surpassant d’autres modèles artistiques d’IA de premier plan, y compris SDXL, dans les évaluations menées par Stability AI.

Impressionnant

Une avancée notable de Stable Cascade est sa capacité à générer avec précision du texte dans les images, améliorant ainsi l’utilité du modèle pour une large gamme d’applications. Cette fonctionnalité positionne Stable Cascade comme un concurrent important dans l’espace de génération d’art par l’IA, offrant plus de variété et de cohérence dans la création d’images générées par l’IA.

Stable Cascade introduit également des fonctionnalités permettant de générer des variations d’une image donnée tout en conservant le style et la composition, ainsi que d’effectuer des traductions d’image à image. Des techniques avancées telles que l’in-painting et la super-résolution sont prises en charge par les ControlNets. Actuellement disponible pour un usage non commercial dans le cadre d’un aperçu de recherche, le code de Stable Cascade est accessible sur GitHub, invitant les développeurs et les chercheurs à explorer davantage son potentiel.

Lire plus

Intelligence Artificielle

Amazon réinvente le texte vers parole avec BASE TTS

par Yohann Poiron le 18 février 2024

Dans le paysage en constante évolution de l’intelligence artificielle, Amazon vient de marquer un tournant avec l’introduction de BASE TTS, le modèle de conversion texte en parole le plus avancé à ce jour. BASE TTS est au cœur d’une innovation permettant des interactions plus naturelles et humaines.

Le modèle BASE TTS d’Amazon a été entraîné sur une base de données colossale de 100 000 heures de discours en domaine public, intégrant principalement de l’anglais, mais aussi du allemand, du néerlandais, et de l’espagnol. Cette diversité linguistique et cette quantité de données inédite confèrent au modèle une « naturalité de pointe » dans la reproduction de la parole humaine.

Avec 980 millions de paramètres, BASE-large est reconnu comme le modèle texte-parole le plus volumineux jamais conçu. Les chercheurs d’Amazon ont également expérimenté avec des modèles de tailles inférieures pour évaluer leurs performances en comparaison.

BASE TTS se distingue par sa capacité à imiter les caractéristiques vocales d’un locuteur à partir de seulement quelques secondes d’audio de référence, une avancée majeure vers des communications plus personnelles et authentiques avec les IA. Les chercheurs se sont concentrés sur divers aspects de la parole, tels que les noms composés, les émotions, les mots étrangers, et les complexités syntaxiques, soulignant la versatilité du modèle.

Un futur prometteur, mais prudent

Alors que les innovations en intelligence artificielle ont dominé l’année 2023, les percées dans le domaine du texte vers la parole en 2024 pourraient continuer à démocratiser des technologies autrefois considérées comme futuristes. Toutefois, l’approche prudente de l’équipe de recherche rappelle l’importance d’une régulation adéquate, notamment en matière de sécurité et de confidentialité.

Cette évolution vers des interactions plus naturelles et humaines avec la technologie ouvre de nouvelles perspectives, non seulement pour les utilisateurs, mais aussi pour le développement futur de l’intelligence artificielle. BASE TTS d’Amazon pourrait bien être le prélude à une ère où la communication entre l’homme et la machine devient indiscernable de la conversation humaine.

Lire plus

Intelligence Artificielle

Apple va révolutionner Spotlight avec l’IA : nouvelle ère de recherche en 2024

par Yohann Poiron le 16 février 2024

Dans le courant de l’année, Apple va se doter d’une toute nouvelle gamme de fonctionnalités de codage et de test de l’IA, et un nouveau rapport affirme que Apple apporte également un coup de pouce LLM à sa célèbre recherche Spotlight. Cette fonction est surtout connue pour sa disponibilité sur tous les ordinateurs et appareils mobiles Apple, avec la possibilité d’effectuer des recherches dans les fichiers locaux de la technologie, des recherches dans Safari, l’ouverture de diverses applications, et bien plus encore.

Il existe déjà différents rapports sur ce qu’Apple a à apporter concernant sa plongée dans l’intelligence artificielle, éventuellement disponible pour accéder à ses utilisateurs.

Bloomberg a rapporté qu’une nouvelle version de Spotlight sera bientôt disponible sur les appareils Apple tels que l’iPhone, l’iPad et les ordinateurs Mac, et qu’elle bénéficiera d’un coup de pouce de la part de l’entreprise. Cela se fera dans le cadre des diverses fonctionnalités de codage et de test de l’IA qu’elle lancera sur le Xcode, offrant une version plus puissante de Spotlight que les utilisateurs d’Apple ont actuellement.

Il s’agit d’une version « à l’étude » par Apple pour l’instant, qui bénéficierait de fonctions d’IA générative et offrirait des fonctionnalités plus complexes.

La recherche Spotlight est accessible rapidement sur l’iPhone, l’iPad ou l’iPod Touch en balayant vers le bas depuis le haut de l’écran. Elle permet de localiser des fichiers locaux et des e-mails, d’accéder à des applications et d’effectuer des recherches dans Safari, entre autres fonctions.

En revanche, il est possible d’accéder au Mac en le trouvant dans la barre de menu, en haut à droite de l’écran, ou en tapant Commande + Espace (barre d’espacement) sur le clavier.

Les projets massifs d’Apple en matière d’IA générative

Pour en revenir aux projets d’Apple en matière d’IA générative, ils commenceront par Xcode, qui aidera les développeurs à créer des applications et des fonctionnalités, et qui sera également capable de travailler avec GitHub Copilot de Microsoft.

Plus tard dans l’année, cette fonction de Xcode permettra aux développeurs tiers d’accéder à ces fonctionnalités, ainsi qu’à d’autres technologies d’IA prévues pour iOS 18.

L’ancienne entreprise la plus valorisée au monde n’a pas peur de l’IA, mais elle n’a pas précipité le développement de sa version de la technologie la plus puissante du moment, ne rejoignant pas la course comme ses rivaux de la Big Tech. Le PDG d’Apple, Tim Cook, a précédemment déclaré que des développements potentiels de l’IA seraient bientôt intégrés à ses produits, mais qu’ils devraient être placés sous ses yeux méticuleux et qu’ils devraient être responsables de leur réalisation.

En outre, Apple va dans l’autre sens, contrairement à Google et Microsoft qui ont fait en sorte que leur IA et leurs diverses expériences dans le cadre de leurs LLM soient dans le cloud. Dans le cas d’Apple, les rapports affirment qu’elle fonctionnerait sur du matériel, ce qui signifie que les utilisateurs pourraient y accéder localement et dépendre de l’appareil s’il prend en charge la technologie, et qu’elle ne ferait pas partie de son nuage.

Les chercheurs d’Apple ont récemment dévoilé un prototype d’intelligence artificielle générative avec des capacités d’animation de texte et des rumeurs de développement de l’intelligence artificielle pour iOS 18.

Lire plus

Intelligence Artificielle

ChatGPT-5 : date de sortie, prix et ce que nous savons déjà

par Yohann Poiron le 16 février 2024

Lors d’une récente conversation entre les PDG de Microsoft et d’OpenAI, Sam Altman a révélé que ChatGPT-5 devrait bénéficier d’importantes mises à jour de ses capacités en matière de parole, d’images et, à terme, de vidéo.

Dans son podcast « Unconfuse Me », Bill Gates et Sam Altman se sont penchés sur l’avenir de l’intelligence artificielle, notamment sur l’amélioration de sa capacité de raisonnement et de sa fiabilité générale. « La multimodalité sera importante », a déclaré Altman, faisant allusion à un avenir où l’intelligence artificielle (IA) pourra accomplir des tâches de plus en plus complexes et potentiellement remodeler divers secteurs, notamment la programmation, la santé et l’éducation.

La prochaine itération de ChatGPT, connue sous le nom de GPT-5, est attendue avec impatience. Ce grand modèle linguistique avancé est considéré comme une étape cruciale sur la voie de l’intelligence générale artificielle (AGI), qui permet aux machines d’imiter les processus de pensée humains.

Voici ce que l’on peut attendre de la prochaine version de GPT.

Y aura-t-il un ChatGPT-5 et que peut-il faire ?

Comme l’a suggéré Altman, ChatGPT-5 est déjà en cours de développement en tant que version actualisée de son prédécesseur, GPT-4. Le PDG d’OpenAI a déclaré : « Actuellement, GPT-4 ne peut raisonner que de manière extrêmement limitée, et sa fiabilité est également limitée », d’où l’objectif d’améliorer ses fonctionnalités actuelles.

GPT, qui signifie « Generative Pre-trained Transformer » (transformateur génératif pré-entraîné), est un modèle de langage basé sur l’apprentissage profond et conçu pour produire des textes qui ressemblent à l’écriture humaine. Il possède davantage de compétences en matière de traitement du langage naturel et est largement utilisé dans de nombreuses applications.

En plus d’être fiable, Altman a précisé que « l’adaptabilité et la personnalisation seront également très importantes ». « Les gens attendent des choses très différentes de GPT-4 ; des styles différents, des ensembles d’hypothèses différents — nous rendrons tout cela possible », a-t-il ajouté.

Altman a souligné que la capacité de GPT-5 à utiliser les données personnelles, notamment à comprendre les e-mails, les détails du calendrier, les préférences en matière de prise de rendez-vous, et à s’intégrer à des sources de données externes, sera l’une des principales avancées.

L’IA multimodale est conçue pour apprendre et utiliser une variété de types de contenus tels que les images, le son, la vidéo et les données numériques. OpenAI a déclaré que GPT-4 est un modèle multimodal, capable de traiter à la fois du texte et des images, bien qu’il soit limité à la génération de sorties sous forme de texte uniquement, mais que GPT-5 utiliserait plus de données pour s’entraîner.

« Nous avons lancé des images et du son, et la réponse a été beaucoup plus forte que prévu. Nous pourrons aller beaucoup plus loin, mais les progrès les plus importants concerneront peut-être la capacité de raisonnement », a déclaré Altman à Gates dans son podcast.

OpenAI a déjà indiqué qu’elle travaillait sur un assistant « super intelligent » capable de faire fonctionner un ordinateur à la place de son utilisateur. Il rivaliserait avec les assistants de travail IA de Microsoft et de Google, mais ces programmes n’en seraient qu’à leurs balbutiements.

Quand ChatGPT-5 sera-t-il lancé ?

Altman n’a toutefois pas révélé de date précise pour sa sortie. En novembre, il a déclaré au Financial Times que des équipes travaillaient sur le Large Language Model, mais il n’a pas précisé la date de sortie.

S’exprimant lors du World Governments Summit (WGS) à Dubaï cette semaine, Altman a réaffirmé que ChatGPT-5 « sera plus intelligent ».

« Ce n’est pas comme si ce modèle allait s’améliorer un peu, c’est parce que nous allons les rendre tous plus intelligents, ils seront meilleurs dans l’ensemble », a-t-il poursuivi. Il a également déclaré à Bloomberg qu’il s’attendait à ce que l’entreprise « prenne son temps » et s’assure de lancer un produit dans lequel elle se sentira « bien et responsable ».

Sam Altman addresses GPT-5 speculation during a recent Bloomberg interview:

“I don’t know what we’re going to call our next model…I don’t want to be like shipping iPhone 27…I expect us to take our time (developing)”#ChatGPT #ai #genai pic.twitter.com/BLMugmbhfp

— Equity Sesame (@EquitySesame) February 6, 2024

Malgré le lancement rapide de GPT-4 à la suite de ChatGPT, ce dernier a fait l’objet de plus de deux ans de formation, de développement et de tests. Si GPT-5 suit un calendrier similaire, il pourrait arriver en 2025. Néanmoins, cela ne signifie pas que nous ne verrons pas de mises à jour de GPT-4. OpenAI devrait poursuivre le développement de GPT-4 et pourrait même introduire une mise à jour provisoire, potentiellement appelée GPT-4.5, dans l’intervalle.

ChatGPT-5 sera-t-il gratuit ?

Bien qu’il existe une version gratuite de ChatGPT, on ne sait pas si ChatGPT-5 nécessitera un abonnement comme son prédécesseur. Le plan d’abonnement ChatGPT Plus coûte 20 dollars par mois et offre aux abonnés des avantages exclusifs, notamment un accès prioritaire pendant les périodes de forte affluence, des temps de réponse améliorés, la possibilité d’utiliser des plugins et un accès exclusif à GPT-4. Les utilisateurs ont également accès à son modèle d’image IA interne, DALL-E.

Il est également important de noter que les modèles linguistiques actuels sont déjà coûteux à former et à entretenir. Cela signifie que lorsque GPT-5 sera finalement lancé, son accès nécessitera probablement un abonnement à ChatGPT Plus ou Copilot Pro.

En fin de compte, le lancement de GPT-5 pourrait permettre à GPT-4 de devenir plus abordable et accessible. Par le passé, le coût élevé de GPT-4 a dissuadé un certain nombre d’utilisateurs. Cependant, une fois qu’il sera moins cher et largement disponible, la capacité de ChatGPT à gérer des tâches complexes telles que le codage, la traduction et la recherche pourrait s’améliorer de manière significative.

Lire plus

GTA 6 : des employés de Rockstar dénoncent le retour du crunch avant la sortie

Apple perd un ingénieur clé de son équipe robotique au profit de Google DeepMind

Windows 11 modernise le menu Exécuter avec mode sombre et interface plus rapide

Apple accélère sa révolution produit : iPhone 20, lunettes connectées et OLED partout

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Xiaomi Mix 5 : la rumeur démentie, les innovations attendues sur le Xiaomi 18

vivo X Fold 6 : le pliant qui pourrait miser sur MediaTek, 200 mégapixels et une batterie record

Xiaomi 17T et 17T Pro : specs, prix et lancement anticipé fuitent en ligne

OPPO fusionne OnePlus et Realme dans une nouvelle unité interne

Codex Pets : OpenAI ajoute des mascottes animées à son outil de code

Grok 4.3 : xAI mise sur le prix et le raisonnement pour défier OpenAI

Pourquoi ChatGPT parlait de gobelins : OpenAI explique le bug de GPT-5.5

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

Samsung prépare des Galaxy Book sous Android pour remplacer Windows

Codex Pets : OpenAI ajoute des mascottes animées à son outil de code

Grok arrive sur Apple CarPlay avec un mode vocal dédié à la conduite

Apple supprime le Mac mini M4 à 699 euros : le prix d’entrée passe à 949 euros

Quels langages de programmation apprendre en 2026 ? Guide complet pour débutants

Google AI Studio augmente ses quotas pour les abonnés AI Pro et Ultra

Chronicle : OpenAI transforme Codex en assistant contextuel (et ça change tout)

OpenAI Codex : Pourquoi vous n’allez plus jamais quitter votre IDE ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Claude Code vs ChatGPT Codex : Quel agent choisir pour votre workflow en 2026 ?

Intelligence Artificielle

Codex Pets : OpenAI ajoute des mascottes animées à son outil de code

Grok 4.3 : xAI mise sur le prix et le raisonnement pour défier OpenAI

Pourquoi ChatGPT parlait de gobelins : OpenAI explique le bug de GPT-5.5

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

OpenAI renforce la sécurité de ChatGPT avec des clés physiques YubiKey

Gemini génère désormais des fichiers Word, Excel et PDF téléchargeables