Google accusé de tromperie sur les performances de Gemini dans une démo vidéo

par Yohann Poiron le 8 décembre 2023

Google vient d’annoncer Gemini, sa suite de modèles d’IA la plus puissante à ce jour, et l’entreprise a déjà été accusée de mentir sur ses performances. Et, Google compte tellement sur son propre concurrent GPT-4, qu’il a mis en scène certaines parties d’une récente vidéo de démonstration.

Un article d’opinion de Bloomberg affirme que Google a mal présenté la puissance de Gemini dans une récente vidéo. Google a diffusé une impressionnante vidéo intitulée « Hands-on with Gemini: Interacting with multimodal AI » lors de son annonce en début de semaine, et l’éditorialiste Parmy Olson affirme que Gemini semblait remarquablement performant dans la vidéo – peut-être trop performant.

La vidéo de 6 minutes montre les capacités multimodales de Gemini (messages conversationnels vocaux combinés à la reconnaissance d’images, par exemple). Il semble que Gemini reconnaisse rapidement les images, même les images à points, qu’il réponde en quelques secondes et qu’il suive en temps réel une liasse de papier dans un jeu de gobelets et de balles. Bien sûr, les humains peuvent faire tout cela, mais il s’agit d’une IA capable de reconnaître et de prédire ce qui va se passer ensuite.

Mais en cliquant sur la description de la vidéo sur YouTube, Google affiche une importante clause de non-responsabilité :

Pour les besoins de cette démonstration, le temps de latence a été réduit et les sorties de Gemini ont été raccourcies pour plus de concision.

C’est ce que Olson conteste. Selon l’article de Bloomberg, Google a admis, lorsqu’on lui a demandé un commentaire, que la démonstration vidéo ne s’est pas déroulée en temps réel avec des messages vocaux, mais qu’elle a utilisé des images fixes provenant de séquences brutes, puis a rédigé des messages textuels auxquels Gemini a répondu. « C’est très différent de ce que Google semblait suggérer, à savoir qu’une personne pouvait avoir une conversation vocale fluide avec Gemini pendant que celui-ci observait le monde qui l’entourait et y répondait en temps réel », écrit Olson.

Pour être honnêtes avec Google, les entreprises modifient souvent les vidéos de démonstration, notamment parce qu’elles veulent éviter les problèmes techniques liés aux démonstrations en direct. Il est courant de modifier légèrement les choses. Dans une situation comme celle-ci, Olson estime que Google « fait de l’esbroufe » afin d’induire les gens en erreur sur le fait que Gemini est plus rapide que GPT d’OpenAI.

Il n’est pas surprenant que Google nie tout acte répréhensible, en renvoyant à The Verge à un post X écrit par le co-directeur de Gemini, Oriol Vinyals, qui affirme que « toutes les invites et sorties de l’utilisateur dans la vidéo sont réelles » et que son équipe a réalisé la vidéo « pour inspirer les développeurs ». Étant donné l’attention portée par l’industrie et les autorités à l’IA ces derniers temps, le géant de la technologie devrait peut-être faire preuve de plus de tact dans ses présentations dans ce domaine.

Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0

We gave Gemini sequences of different modalities—image and text in this case—and had it respond … pic.twitter.com/Beba5M5dHP

—Oriol Vinyals (@OriolVinyalsML) December 7, 2023

Lire plus

Intelligence Artificielle

Google dévoile Gemini, un ensemble de modèles IA avancés, mais pas encore en Europe

par Yohann Poiron le 8 décembre 2023

Avant-hier, Google a lancé sa réponse très attendue à ChatGPT d’OpenAI (la première version de Bard ne comptait pas vraiment, n’est-ce pas ?). Toutefois, le nouvel ensemble de modèles d’IA générative que Google appelle « le début de l’ère Gemini » ne sera pas encore disponible en Europe, en raison d’obstacles réglementaires.

Le géant de la technologie qualifie Gemini de « modèle le plus performant à ce jour » et affirme qu’il a été formé pour reconnaître, comprendre et combiner différents types d’informations, notamment du texte, des images, du son, de la vidéo et du code.

Selon Demis Hassabis, PDG de Google DeepMind, ce modèle est aussi performant que les meilleurs experts humains dans les 50 domaines différents sur lesquels il a été testé. En outre, il a obtenu un score de plus de 90 % sur les critères de référence de l’industrie pour les Large Language Model (LLM).

Les modèles de la famille Gemini seront disponibles en trois tailles. Gemini Ultra est le plus grand (mais aussi le plus lent), destiné à effectuer des tâches très complexes ; Gemini Pro est le plus performant pour un large éventail de tâches ; et Gemini Nano pour les tâches sur l’appareil.

Google affirme avoir entraîné Gemini 1.0 sur son infrastructure optimisée pour l’IA en utilisant les unités de traitement Tensor (TPU) v4 et v5e de l’entreprise. Parallèlement à la présentation de la famille Gemini, Google a également annoncé la Cloud TPU v5p, spécialement conçue pour l’entraînement de modèles d’IA de pointe.

Le Nano, optimisé pour les appareils mobiles, représente peut-être une véritable évolution dans l’application du LLM. En effet, Nano permettra aux développeurs de créer des applications d’IA qui peuvent également fonctionner hors ligne — avec les avantages supplémentaires d’options améliorées en matière de confidentialité des données.

Expliqué plus en détail par l’entreprise dans un article de blog, Google fournit également l’AI Studio, un outil de développement gratuit basé sur le Web qui permet de créer des prototypes et de lancer des applications à l’aide d’une clé API. Gemini Pro sera mis à la disposition des développeurs et des entreprises clientes à partir du 13 décembre.

Comme pour Bard, l’Europe devra attendre pour Gemini Pro

Une version « affinée » de Gemini Pro a été lancée pour le chatbot Bard de Google dans 170 pays et territoires. L’entreprise précise qu’elle sera également disponible pour d’autres de ses services, tels que Recherche, Adsense et Chrome, dans les mois à venir.

Toutefois, les utilisateurs de l’UE et du Royaume-Uni désireux de tester la « nouvelle ère » de l’IA de Google devront attendre un peu plus longtemps. Google n’a pas donné de détails détaillés, mais a indiqué qu’il prévoyait « d’étendre l’application à différentes modalités et de prendre en charge de nouvelles langues et de nouveaux lieux dans un avenir proche ».

En effet, Google prévoirait de présenter en avant-première, l’année prochaine, « Bard Advanced », alimenté par le système multimodal Gemini Ultra. Google a lancé Bard en mars 2023, mais en raison de problèmes de conformité avec le RGPD, les utilisateurs européens n’ont pu l’utiliser qu’en juin. Voyons combien de temps nous devrons attendre pour Gemini.

Lire plus

Intelligence Artificielle

Grok : le nouveau chatbot de Musk pour X Premium+, audacieux et sans filtre

par Yohann Poiron le 8 décembre 2023

Elon Musk, le magnat de la technologie connu pour ses approches non conventionnelles, a introduit un nouveau chatbot nommé « Grok » pour les utilisateurs de X Premium+. Positionné comme un concurrent direct de ChatGPT, Grok sera exclusivement disponible pour les abonnés Premium+ sur la plateforme anciennement connue sous le nom de Twitter.

Selon Gizmodo, cette dernière nouveauté, décrite comme hargneuse et anti-éveillée, s’inscrit dans le programme plus large de Musk visant à remettre en question le politiquement correct dans les espaces numériques.

Grok is rolling out to 𝕏 Premium+ subscribers with the latest app release.

Have fun!

—Elon Musk (@elonmusk) December 7, 2023

Grok, disponible pour les utilisateurs de X qui s’abonnent au service Premium+ au prix de 19,20 euros par mois, offre une expérience d’interaction unique. Contrairement aux chatbots traditionnels, Grok est programmé pour afficher une personnalité politiquement incorrecte et pleine d’esprit, en s’inspirant de commentateurs conservateurs tels que Tucker Carlson et Joe Rogan.

L’annonce du lancement de Grok par Linda Yaccarino, PDG de X, s’aligne sur la vision de Musk d’une IA qui s’éloigne de la culture « woke » — (« éveillé ») désigne initialement le fait d’être conscient des problèmes liés à la justice sociale et à l’égalité raciale. Musk a fait part de ses inquiétudes concernant la tendance de l’IA à être trop politiquement correcte, préconisant une approche plus directe et plus honnête. Grok est sa réponse, conçue pour être franchement directe et même vulgaire dans ses réponses.

Les premiers utilisateurs de Grok ont fait part de leurs expériences, soulignant la capacité du chatbot à griller les utilisateurs avec un esprit acéré. Par exemple, un utilisateur a reçu une réponse humoristique mais brutale : « C’est à cause de vous que les extraterrestres n’ont pas encore visité la Terre. Ils ont jeté un coup d’œil sur vous et ont dit : “Non, on est bons” ».

Grok fait également preuve d’une impressionnante connaissance en temps réel de l’actualité, y compris des développements récents de la technologie de l’IA. Son intégration à la plateforme X lui donne une longueur d’avance sur les autres chatbots en termes d’accès à l’information et de pertinence.

Les commentaires politiques de Grok

Dans une démarche audacieuse, Grok se lance dans le commentaire politique, offrant des prédictions pour l’élection présidentielle de 2024 et suggérant des candidats non conventionnels tels que Kanye West ou The Rock. Contrairement à d’autres chatbots d’IA qui évitent les sujets sensibles, Grok est conçu pour les aborder de front.

Grok représente un changement important dans le paysage des chatbots d’IA. Alors que des plateformes comme ChatGPT d’OpenAI et Bard de Google optent pour une approche prudente des sujets controversés, Grok les aborde, fournissant aux utilisateurs des réponses non filtrées et provocantes. Cette approche, bien que controversée, fait de Grok un acteur unique dans le monde de l’IA et des réseaux sociaux.

Une partie de l’évolution de X

Reconnaissant le déclin de l’engagement des annonceurs sur X, Elon Musk a réorienté sa stratégie vers la réduction de la dépendance de la plateforme à l’égard de la publicité. En mettant l’accent sur les modèles d’abonnement, le magnat de la technologie envisage de transformer X en une « super application » complète qui répond aux divers besoins des abonnés, englobant la messagerie, les réseaux sociaux et les paiements de pair-à-pair.

Lire plus

Intelligence Artificielle

Meta et IBM lancent l’AI Alliance pour promouvoir l’innovation open source en IA

par Yohann Poiron le 7 décembre 2023

Meta Platforms et International Business Machines (IBM) ont dévoilé conjointement l’AI Alliance, une coalition composée de plus de 50 entreprises d’intelligence artificielle et institutions de recherche. L’AI Alliance vise à promouvoir un modèle « d’innovation et de science ouvertes » dans le secteur de l’IA, avec des contributeurs clés comme Intel, Oracle, l’université de Cornell et la National Science Foundation.Meta et IBM créent l’AI Alliance, regroupant plus de 50 entités pour stimuler l’innovation en IA ouverte.

Darío Gil, vice-président principal d’IBM et directeur d’IBM Research, a déclaré que la création de l’alliance sur l’IA découlait de l’insatisfaction suscitée par le manque de diversité perçu dans les discussions récentes sur l’IA. L’alliance met l’accent sur une approche open source, s’alignant sur la collaboration historique entre les grandes entreprises technologiques, les institutions académiques et les programmeurs indépendants.

L’attention portée à l’IA générative, en particulier depuis l’introduction de ChatGPT d’OpenAI il y a un an, a intensifié le récit. OpenAI et ses homologues comme Anthropic et Cohere ont été à l’avant-garde du développement de systèmes d’IA propriétaires, tandis que les membres de l’AI Alliance, y compris des acteurs industriels comme Intel et Oracle, s’efforcent de se tailler une place sur le marché de l’IA, qui connaît une expansion rapide.

IBM, malgré les difficultés rencontrées par le passé avec son système Watson, présente le système Watsonx comme une nouvelle plateforme. Meta, tout en s’efforçant de renforcer sa présence sur le marché de l’IA, plaide en faveur de son modèle d’IA Llama 2 en tant que système d’IA open source.

« Il s’agit d’une approche beaucoup plus distribuée, mais aussi beaucoup plus résiliente, car aucune institution ne peut faire dérailler le succès du moteur ouvert », a déclaré Gil, cité par le Wall Street Journal.

Atténuer les risques

Dans le contexte des perturbations survenues à OpenAI en novembre, les entreprises explorent de plus en plus d’autres fournisseurs d’IA afin d’atténuer les risques associés à la dépendance à l’égard d’un seul fournisseur. L’AI Alliance sert de plateforme de collaboration pour les organisations qui s’engagent dans cette voie. La création de l’alliance souligne l’intensification du débat sur les avantages et les risques associés à l’adoption d’une approche open source du développement de l’IA.

Yann LeCun, responsable scientifique de Meta pour l’IA, a critiqué les principaux acteurs, dont OpenAI, Google et Anthropic, pour leurs efforts de lobbying en faveur de règles qui pourraient consolider le pouvoir sur le développement de l’IA.

En réponse, le Frontier Model Forum, composé de Meta, Microsoft, Google et Anthropic, a été créé pour répondre aux préoccupations de l’industrie.

Le Center for Humane Technology, qui a vivement critiqué les pratiques de Meta en matière de réseaux sociaux, a souligné les potentiels risques liés à l’open source ou aux fuites de modèles d’IA. Ce débat en cours soulève des questions essentielles sur le déploiement responsable de modèles d’IA auprès du public.

L’AI Alliance ouverte à d’autres acteurs

Le rôle d’IBM dans l’AI Alliance suscite des interrogations sur ses motivations en tant que cofondateur aux côtés de Meta. Malgré l’augmentation de ses revenus provenant de l’IA générative, IBM doit faire face à une forte concurrence de la part de Microsoft et d’OpenAI dans le secteur des services d’IA destinés aux entreprises.

Les exclusions notables des membres initiaux de l’AI Alliance, comme Stanford et le MIT, et les startups d’IA comme Anthropic, Cohere et Adept, ont suscité des interrogations. La réponse d’IBM suggère de se concentrer sur les organisations fortement engagées dans l’innovation ouverte, ce qui laisse de la place pour des ajouts potentiels à l’alliance.

Sriram Raghavan, vice-président de la division AI Research d’IBM, a déclaré que l’AI Alliance se concentrait actuellement sur les membres fortement engagés dans l’innovation ouverte et l’IA à code source ouvert. Anticipant une évolution future, il envisage que d’autres organisations se joignent à l’avenir, comme le rapporte TechCrunch.

Il reste à voir si l’alliance aura un quelconque effet, mais elle semble tracer une ligne dans le sable pour l’orientation future du développement de l’IA, en délimitant ceux qui mettent l’accent sur l’ouverture et la collaboration par opposition aux partisans d’approches plus fermées et propriétaires. Comme sur le marché des logiciels en général, où des plateformes comme Windows et Linux coexistent, il y aura probablement de la place pour les deux approches à l’avenir.

Lire plus

Intelligence Artificielle

Apple lance un framework ML novateur pour les chercheurs en IA sur ses dispositifs

par Yohann Poiron le 7 décembre 2023

Apple, que beaucoup considéraient comme très conservatrice dans son approche de l’IA, a discrètement publié des frameworks et des bibliothèques de modèles conçus pour fonctionner sur ses puces, et peut-être apporter des applications d’IA générative sur les MacBook.

Les équipes d’Apple chargées de l’apprentissage machine (ML) ont publié un nouveau framework ML pour Apple Silicon : MLX, ou ML Explore, arrive après avoir été testé pendant l’été et est maintenant disponible sur GitHub.

Dans un post sur X (anciennement Twitter), Awni Hannun, de l’équipe ML d’Apple, qualifie le logiciel de « … framework efficace d’apprentissage automatique spécialement conçu pour le Apple Silicon (c’est-à-dire votre ordinateur portable !) ».

Just in time for the holidays, we are releasing some new software today from Apple machine learning research.

MLX is an efficient machine learning framework specifically designed for Apple silicon (i.e. your laptop!)

Code: https://t.co/Kbis7IrP80
Docs: https://t.co/CUQb80HGut

— Awni Hannun (@awnihannun) December 5, 2023

L’idée est de rationaliser la formation et le déploiement de modèles d’apprentissage automatique pour les chercheurs qui utilisent du matériel Apple. MLX est une structure de type NumPy conçue pour un apprentissage automatique efficace et flexible sur les processeurs Apple.

Il ne s’agit pas d’un outil destiné au grand public ; il fournit aux développeurs ce qui semble être un environnement puissant dans lequel construire des modèles d’intelligence artificielle. L’entreprise semble également s’être efforcée d’adopter les langages que les développeurs souhaitent utiliser, plutôt que de leur imposer un langage — et elle a apparemment inventé de puissants outils LLM au cours de ce processus.

Familier aux développeurs

La conception de MLX s’inspire de frameworks existants tels que PyTorch, Jax et ArrayFire. Cependant, MLX ajoute la prise en charge d’un modèle de mémoire unifiée, ce qui signifie que les tableaux vivent dans une mémoire partagée et que les opérations peuvent être effectuées sur n’importe quel type de périphérique pris en charge sans effectuer de copies de données.

L’équipe explique : « L’API Python suit de près celle de NumPy à quelques exceptions près. MLX dispose également d’une API C++ complète qui suit de près l’API Python ».

Les notes accompagnant la publication indiquent également :

Le framework est conçu pour être convivial, tout en restant efficace pour la formation et le déploiement de modèles…. Nous avons l’intention de permettre aux chercheurs d’étendre et d’améliorer facilement MLX dans le but d’explorer rapidement de nouvelles idées.

Plutôt bon à première vue

À première vue, MLX semble relativement bon et (comme expliqué sur GitHub) est équipé de plusieurs caractéristiques qui le distinguent.

Apple a fourni une série d’exemples de ce que MLX peut faire. Ces exemples semblent confirmer que l’entreprise dispose désormais d’un modèle de langage très efficace, d’outils puissants pour la génération d’images et d’une reconnaissance vocale très précise. Cela correspond aux affirmations faites plus tôt cette année, et à certaines spéculations concernant la création de mondes virtuels infinis pour les futures expériences Vision Pro.

En fin de compte, Apple semble vouloir démocratiser l’apprentissage automatique. « MLX est conçu par des chercheurs en apprentissage automatique pour des chercheurs en apprentissage automatique », explique l’équipe. En d’autres termes, Apple a reconnu la nécessité de créer des environnements de développement ouverts et conviviaux pour l’apprentissage automatique afin de favoriser les travaux dans ce domaine.

Le fait que MLX soit installé sur Apple Silicon est également important, étant donné que les processeurs d’Apple sont désormais présents dans tous ses produits, y compris le Mac, l’iPhone et l’iPad. L’utilisation du GPU, du CPU et, éventuellement, du moteur neuronal sur ces puces pourrait se traduire par l’exécution sur l’appareil de modèles de ML (pour la protection de la vie privée) avec des performances que d’autres processeurs ne peuvent pas égaler, du moins en ce qui concerne les appareils de pointe.

Est-ce trop peu, trop tard ?

Étant donné l’engouement suscité par ChatGPT d’OpenAI lorsqu’il est apparu à la même époque l’année dernière, Apple est-il vraiment en retard ? Je ne le pense pas.

La société a clairement décidé de mettre l’accent sur l’équipement des chercheurs en ML avec les meilleurs outils possibles, y compris des Mac M3 puissants pour construire des modèles. Elle souhaite maintenant traduire cette attention en outils d’IA viables et axés sur l’humain, pour que le reste d’entre nous puisse en profiter. Il est bien trop tôt pour déclarer Apple vaincu dans une guerre de l’industrie de l’IA qui ne fait que commencer.

Lire plus

Intelligence Artificielle

Imagine de Meta : une nouvelle ère de création d’images IA pour les amateurs créatifs

par Yohann Poiron le 7 décembre 2023

Meta a détaillé aujourd’hui dans un article de blog une série de mises à jour de ses outils Meta AI, dont de nouvelles fonctionnalités pour ses générateurs d’images IA.

L’une d’entre elles est alléchante : un outil qui vous permettra de remixer des images générées par l’IA que vos amis partagent dans un chat Messenger ou Instagram. Les images sont créées à l’aide d’un outil que Meta appelle « imagine », et l’entreprise explique que vous pourrez désormais « réimaginer » les images créées par d’autres personnes dans le chat de groupe en appuyant sur l’image et en la maintenant enfoncée, puis en ajoutant un texte d’incitation.

Meta sort également l’outil Imagine des chats et permet aux utilisateurs américains d’y accéder sur le Web à l’adresse imagine.meta.com. L’entreprise précise que l’outil est conçu pour les « amateurs créatifs » et qu’il est alimenté par son modèle de fondation d’images Emu.

Dans les semaines à venir, Meta annonce qu’un « filigrane invisible » sera ajouté aux images créées à l’aide de son outil Imagine. L’entreprise souhaite ajouter des filigranes aux images réalisées avec ses autres outils d’IA à un moment donné, mais elle n’a pas donné d’engagement très détaillé : « Nous visons à apporter un filigrane invisible à beaucoup de nos produits avec des images générées par l’IA à l’avenir », indique Meta dans son article.

Meta améliore également son assistant Meta AI, qui offrira « des réponses plus détaillées sur mobile » et « des résumés plus précis des résultats de recherche ». Les informations commenceront à apparaître dans vos discussions avec Meta AI. Et, selon TechCrunch, les personnages IA de Meta (qui sont basés sur des célébrités comme Snoop Dogg et Tom Brady) sont maintenant entièrement disponibles dans WhatsApp, Messenger et Instagram aux États-Unis.

L’article de blog de Meta contient une poignée d’autres mises à jour, y compris le fait que Meta « explore » la façon d’utiliser l’IA générative pour offrir des suggestions pour des choses telles que l’écriture de vœux d’anniversaire. Mais la vague d’annonces de l’entreprise est presque certainement sa tentative de couper l’herbe sous le pied de la grande nouvelle Gemini de Google qui a également été annoncée hier.

Lire plus

Intelligence Artificielle

Google mise sur Gemini pour relancer Bard et rivaliser avec ChatGPT

par Yohann Poiron le 7 décembre 2023

Google espère que son nouveau modèle d’IA Gemini pourra relancer son assistant conversationnel Bard, dont les performances médiocres n’ont pas été à la hauteur de l’engouement qu’il a suscité. Bard a été lancé au début de l’année en grande pompe, présenté comme la réponse de Google à ChatGPT d’OpenAI et à Claude d’Anthropic.

Mais si ChatGPT est devenu un phénomène mondial et l’un des produits de consommation à la croissance la plus rapide, Bard de Google a été quelque peu négligé.

En effet, les utilisateurs ont rapidement constaté que les réponses de Bard étaient limitées, imprécises et sujettes à des erreurs. Cela a suscité de nombreuses moqueries sur les réseaux sociaux à propos des capacités insuffisantes de Bard par rapport à ses rivaux. En outre, si le chatbot a régulièrement acquis de nouvelles fonctionnalités, notamment l’accès à vos données dans d’autres produits Google, ses réponses et ses informations ont rarement semblé rivaliser avec ce que vous obtenez de ChatGPT et d’autres bots utilisant GPT-3 et GPT-4.

Toutefois, Google intègre désormais son nouveau et puissant modèle d’IA Gemini dans Bard afin de remédier à bon nombre de ces lacunes. L’entreprise affirme que Gemini surpasse les meilleurs modèles d’IA tels que GPT-3.5 sur plusieurs critères de référence bien connus, en particulier pour la compréhension et le raisonnement.

À partir d’aujourd’hui, pour les utilisateurs anglophones de 170 pays, Bard est désormais alimenté par le nouveau modèle Gemini de Google, qui, selon l’entreprise, correspond à la technologie d’OpenAI et la surpasse même à plusieurs égards. Google précise que Gemini sera disponible dans d’autres langues et d’autres pays « dans un proche avenir » (on peut espérer que ce sera le cas en France également).

Bard utilise maintenant Gemini Pro, le niveau intermédiaire de la série Gemini. Ultra est la plus grande et la plus lente mais la plus performante, Nano est petite et rapide et destinée aux tâches sur l’appareil, et Pro se situe juste au milieu. Elle est rapide et efficace tout en étant aussi performant que possible.

Sissie Hsiao, responsable de Bard et d’Assistant chez Google, a déclaré lors d’une conférence de presse que Gemini représentait « la plus grande et la meilleure mise à jour à ce jour » pour Bard. Il devrait s’agir d’une nette amélioration pour à peu près tout ce que Bard fait déjà : résumer, faire du brainstorming, écrire, etc.

Google sous pression pour rattraper son retard en matière d’IA

Pour l’instant, Bard n’est encore qu’un chatbot : vous tapez, il tape en retour. Mais une nouvelle version de Bard, qui pourrait être beaucoup plus performante, est prévue pour bientôt. L’année prochaine, Google prévoit de lancer en avant-première « Bard Advanced », alimenté par Gemini Ultra, qui est la version la plus puissante et la plus performante du nouveau Large Language Model de Google. Gemini Ultra est également la version multimodale du modèle, ce qui signifie qu’il peut accepter et créer des images, du son et de la vidéo en plus du texte.

Demis Hassabis, directeur de Google DeepMind, explique que c’est dans les interactions non textuelles que Gemini brille vraiment en général. « Nous l’avons conçu pour qu’il soit nativement multimodal dès le départ », explique-t-il. Parmi les démonstrations de Google, le Youtubeur Mark Rober utilise Bard pour fabriquer l’avion en papier parfait — notamment en prenant des photos de ses dessins pour obtenir des commentaires de l’IA — et des parents téléchargent des photos des devoirs de leurs enfants pour obtenir de l’aide afin de déterminer où ils se sont trompés en maths.

Pour l’instant, il ne s’agit que de démonstrations et de vidéos promotionnelles. Pichai a déclaré qu’il considérait ce lancement à la fois comme un grand moment pour Bard et comme le tout début de l’ère Gemini. Mais si l’analyse comparative de Google est correcte, le nouveau modèle pourrait déjà faire de Bard un chatbot aussi performant que ChatGPT. Et c’est déjà un exploit assez impressionnant.

En effet, si Gemini transforme Bard comme promis, Google pourrait regagner le terrain perdu face à ses rivaux en matière d’IA. Avec des avancées aussi rapides dans le domaine de l’IA générative, la course à la suprématie reste très ouverte. Pour l’instant, Google mise sur Gemini pour catapulter Bard dans la course.

Lire plus

Intelligence Artificielle

Google lance Gemini : une avancée majeure dans l’IA multimodale

par Yohann Poiron le 6 décembre 2023

« C’est le début d’une nouvelle ère de l’IA chez Google », déclare Sundar Pichai, PDG de l’entreprise : l’ère Gemini. Gemini est le dernier Large Language Model de Google, que Pichai a présenté pour la première fois lors de la conférence des développeurs I/O en juin et qu’il lance aujourd’hui au grand public.

À entendre Pichai et Demis Hassabis, directeur général de Google DeepMind, il s’agit d’un énorme bond en avant dans un modèle d’IA qui affectera à terme la quasi-totalité des produits de Google. « L’un des grands avantages de ce moment », explique Pichai, « c’est qu’il est possible de travailler sur une technologie sous-jacente, de l’améliorer et de la répercuter immédiatement sur tous nos produits ».

Gemini est plus qu’un modèle d’IA unique. Il existe une version plus légère appelée Gemini Nano, destinée à être exécutée en mode natif et hors ligne sur les appareils Android. Il existe une version plus puissante appelée Gemini Pro qui alimentera bientôt de nombreux services d’IA de Google et qui constitue l’épine dorsale de Bard à partir d’aujourd’hui. Et il y a un modèle encore plus performant appelé Gemini Ultra qui est le LLM le plus puissant que Google ait encore créé et qui semble être principalement conçu pour les datacenters et les applications d’entreprise.

Gemini 1.0

En tant que « modèle le plus capable et le plus général » de Google, Gemini peut « comprendre, opérer à travers et combiner » du texte, du code, de l’audio, des images et de la vidéo. Le fait d’être « nativement multimodal » permet d’améliorer la compréhension, le raisonnement et les capacités de codage.

L’approche actuelle pour créer des modèles multimodaux consiste à « former des composants distincts pour différentes modalités, puis à les assembler ». Bien qu’ils soient performants pour certaines tâches, ces modèles, selon Google, « peinent à effectuer des raisonnements plus conceptuels et plus complexes ».

Pour Gemini, Google a procédé à un « pré-entraînement dès le départ sur différentes modalités » en utilisant les TPU 4 et TPU v5e. Google a également annoncé aujourd’hui que la TPU v5p était son accélérateur d’IA « le plus puissant, le plus efficace et le plus évolutif », en particulier pour les modèles avancés.

Pour démontrer ses capacités de « raisonnement sophistiqué », Google a fait une démonstration de Gemini qui digère 200 000 articles de recherche scientifique, filtre ceux qui sont pertinents et résume les données en une heure environ. Le codage est un autre point fort, Gemini étant capable de « comprendre, expliquer et générer du code de haute qualité » en Python, Java, C++ et Go.

Benchmarks Gemini

En termes de performances, Google a montré que Gemini Ultra surpassait le GPT-4 dans les benchmarks basés sur le texte qui mesurent le raisonnement, les mathématiques et le code. L’entreprise insiste particulièrement sur le fait que Gemini Ultra est le « premier modèle à surpasser les experts humains sur MMLU (compréhension massive du langage multitâche) » avec 90,0 %. Ce critère « utilise une combinaison de 57 sujets tels que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique pour tester à la fois la connaissance du monde et les capacités de résolution de problèmes », l’offre d’OpenAI ayant obtenu un score de 86,4 %.

Sur le plan multimodal, Gemini Ultra a battu GPT-4V dans les tests d’image, de vidéo et d’audio, tandis que Google DeepMind a publié un rapport technique avec plus de détails.

En termes de sécurité, Gemini est considéré comme ayant « les évaluations de sécurité les plus complètes de tous les modèles d’IA de Google à ce jour », avec de nouvelles protections en place pour prendre en compte les capacités multimodales. Google s’attaque en particulier aux biais et à la toxicité.

Bard avec Gemini Pro

La première façon d’expérimenter ce nouveau modèle fondamental est d’utiliser « Bard with Gemini Pro ». Cette « version spécialement adaptée » de Gemini Pro offre des fonctions de raisonnement, de planification et de rédaction plus avancées, ainsi que des fonctions de compréhension et de résumé du contenu. Google a spécifiquement vanté les performances supérieures à celles de GPT 3.5 (dans 6 benchmarks sur 8, y compris MMLU et GSM8K), et a déclaré qu’il s’agissait de la plus grande amélioration de la qualité de Bard depuis le lancement de l’application.

Dans les évaluations à l’aveugle avec nos évaluateurs tiers, Bard est maintenant le chatbot gratuit le plus préféré par rapport aux principales alternatives.

Bard avec Gemini Pro est déployé aujourd’hui en anglais dans 170 pays/territoires, avec une disponibilité au Royaume-Uni et en Europe « dans un futur proche ». Dans un premier temps, Gemini Pro utilisera des prompts textuels, mais d’autres modalités seront bientôt prises en charge.

Gemini Ultra sera quant à lui disponible au début de l’année prochaine. Google procède actuellement à des vérifications approfondies de la confiance et de la sécurité, ainsi qu’à l’affinement du modèle, avant de le mettre à la disposition des développeurs et des entreprises.

Il sera disponible par le biais d’une nouvelle offre « Bard Advanced », que Google présente comme offrant un accès anticipé à ses modèles et capacités les plus avancés, comme Gemini Ultra. Au cours des prochains mois, Gemini arrivera dans Google Search, Chrome, Duet AI et Ads. Les premiers tests ont montré que Gemini réduisait la latence SGE (Search Generative Experience) de 40 %.

Depuis des années, Pichai et d’autres dirigeants de Google évoquent avec poésie le potentiel de l’IA. Pichai lui-même a déclaré plus d’une fois que l’IA transformera davantage l’humanité que le feu ou l’électricité. Dans cette première génération, le modèle Gemini ne changera peut-être pas le monde. Dans le meilleur des cas, il pourrait aider Google à rattraper OpenAI dans la course à la construction d’une grande IA générative. Mais Pichai, Hassabis et tous les autres employés de Google semblent penser qu’il s’agit du début de quelque chose de vraiment énorme. Le Web a fait de Google un géant de la technologie ; Gemini pourrait être encore plus grand.

Lire plus

Intelligence Artificielle

Google lance Gemini Nano pour le Pixel 8 Pro : IA locale et avancée

par Yohann Poiron le 6 décembre 2023

Gemini est peut-être le modèle de langage le plus grand et le plus puissant (LLM) jamais développé par Google, mais il est mieux adapté aux datacenters qu’à votre smartphone. Cependant, avec Gemini Nano, l’entreprise tente de faire la différence : elle a construit une version réduite de son LLM phare qui peut fonctionner localement et hors ligne sur votre appareil.

Enfin, un appareil, en tout cas. Le Pixel 8 Pro est le seul smartphone compatible avec Gemini Nano jusqu’à présent, mais Google considère le nouveau modèle comme un élément central d’Android à l’avenir.

Si vous avez un Pixel 8 Pro, à partir d’aujourd’hui, deux choses sur votre smartphone seront alimentées par Gemini Nano : la fonction de résumé automatique dans l’application Enregistreur, et la partie Réponse suggérée du clavier Gboard. Ces deux éléments font partie de l’offre de fonctionnalités du Pixel pour le mois de décembre. Les deux fonctionnent hors ligne puisque le modèle est exécuté sur l’appareil lui-même, ce qui devrait donner une impression de rapidité et d’originalité.

Google commence très modestement avec Gemini Nano. Même la fonction Réponse suggérée n’est alimentée par Gemini que dans WhatsApp, bien que Google affirme qu’elle sera disponible dans d’autres applications l’année prochaine. Et Gemini dans son ensemble n’est déployé qu’en anglais pour l’instant, ce qui signifie que de nombreux utilisateurs ne pourront pas l’utiliser du tout.

Outre la confidentialité et le fait que les données ne quittent pas l’appareil, Google souligne que la nature de l’appareil « permet des expériences cohérentes avec une latence déterministe, de sorte que les fonctionnalités sont toujours disponibles, même en l’absence de réseau ».

Uniquement pour le Pixel 8 Pro pour le moment

Votre Pixel 8 Pro ne se sentira pas soudainement comme un appareil massivement mis à niveau — bien qu’il puisse le faire avec le temps, si Gemini est aussi bon que Google pense qu’il peut l’être. Et l’année prochaine, lorsque Google apportera un Bard alimenté par Gemini à Assistant sur les smartphones Pixel, vous obtiendrez encore plus de l’expérience Gemini.

Pour l’instant, le processeur Tensor 3 de Google semble être le seul capable d’exécuter le modèle. Mais Google travaille également à l’intégration de Nano dans l’ensemble de l’écosystème Android : il a lancé un nouveau service système appelé AICore que les développeurs peuvent utiliser pour intégrer des fonctions alimentées par Gemini dans leurs applications. Votre smartphone aura toujours besoin d’une puce haut de gamme pour fonctionner, mais l’article de blog de Google annonçant la fonctionnalité mentionne Qualcomm, Samsung et MediaTek comme des entreprises fabriquant des processeurs compatibles. Les développeurs peuvent dès à présent participer au programme d’accès anticipé de Google.

Google a annoncé d’autres améliorations de l’IA pour les smartphones Pixel dans le cadre d’une présentation de fonctionnalités en décembre. Parmi celles-ci, une nouvelle fonctionnalité Video Boost pour améliorer les clips du Pixel 8 Pro en les téléchargeant sur le cloud pour les améliorer, un mode timelapse Night Sight pour le Pixel 8 et le Pixel 8 Pro, un aperçu double écran pour le Pixel Fold qui vous permet d’afficher le viseur de votre appareil photo sur l’écran de couverture, et plusieurs autres mises à jour.

Lire plus

Intelligence Artificielle

Bing révolutionne la recherche avec Deep Search de Microsoft

par Yohann Poiron le 6 décembre 2023

Microsoft a récemment regroupé toutes les fonctions assistées par l’IA de son vaste portefeuille de produits sous le nom de Copilot, avec un nouveau logo et une disponibilité accrue. À l’aube de 2024, l’entreprise a détaillé une poignée de nouvelles fonctionnalités qui seront bientôt déployées.

Mais la plus grande amélioration dans ce domaine est Deep Search, qui sera bientôt disponible pour les utilisateurs de Bing. En résumé, si l’IA était destinée à réimaginer l’expérience de la recherche sur le Web et à la rendre plus gratifiante, Deep Search est la réponse. Elle décompose une requête simple en plusieurs directions et présente des réponses pertinentes pour chacune d’entre elles, ce qui vous évite les étapes de recherche ultérieures.

En effet, Microsoft prépare une nouvelle fonctionnalité de Bing qui devrait vous éviter d’avoir à inventer votre propre requête IA. Cette fonction, baptisée Deep Search (recherche approfondie) et alimentée par GPT-4, prend en compte votre requête Bing et la développe, ce qui permet au moteur de recherche de trouver des réponses sur plusieurs sujets liés à votre question sur le Web.

Selon Microsoft, Deep Search n’est pas une alternative à la recherche traditionnelle sur le Web. Il s’agit plutôt d’un système complémentaire qui tente de poser des questions pertinentes en rapport avec votre requête initiale et qui trouve les réponses de manière proactive.

À titre d’exemple, Microsoft montre comment Bing transforme une recherche vague du type « comment fonctionnent les systèmes de points au Japon » en une requête détaillée qui demande à Bing de :

Expliquer le fonctionnement de divers programmes de cartes de fidélité au Japon, y compris les avantages, les conditions et les limites de chacun d’entre eux. Inclure des exemples de cartes de fidélité populaires dans différentes catégories, telles que les magasins de proximité, les supermarchés et les restaurants. Comparez les avantages et les inconvénients de l’utilisation des cartes de fidélité par rapport aux autres méthodes de paiement au Japon, y compris les récompenses et les avantages actuels. Mettre en évidence les services les plus populaires et les commerçants participants.

Comment fonctionne la recherche approfondie ?

Comme mentionné précédemment, le modèle linguistique GPT-4 de l’OpenAI est au cœur de Deep Search. Lorsqu’un utilisateur tape une phrase de recherche, le modèle d’IA exploite ses capacités de génération et développe la requête de recherche en y ajoutant de multiples extensions contextuelles, comme décrit ci-dessus. Ce faisant, il élargit également l’éventail et le contexte des mots-clés. La façon la plus simple de comprendre ce comportement est de supposer que si votre recherche contient un « pourquoi », Deep Search y ajoutera les parties « comment », « quand » et « où » dans la forme développée.

« Deep Search s’appuie sur GPT-4 pour trouver toutes les intentions possibles et calcule une description complète pour chacune d’entre elles », explique Microsoft. Mais il s’agit au mieux d’une supposition contextuelle prédictive, et même Microsoft reconnaît que le travail d’expansion de Deep Search peut s’avérer défaillant de temps à autre. Pour s’assurer qu’elle guide les utilisateurs dans la bonne direction et ne les submerge pas de réponses inutiles, la section Deep Search proposera un panneau où les utilisateurs pourront sélectionner la bonne extension pour leur requête, tandis que les autres contextes de recherche générés par l’IA seront supprimés.

Un processus de recherche un peu plus lent

Il s’agit d’un processus complexe, en plusieurs étapes, qui se déroule en arrière-plan. Il n’est donc pas surprenant que la compilation et la présentation des résultats d’une recherche approfondie prennent beaucoup plus de temps qu’une recherche Bing classique. Selon la complexité de la requête, Microsoft indique que Deep Search peut prendre jusqu’à 30 secondespour faire apparaître les résultats.

Mais vous n’utiliserez pas Deep Search pour toutes vos recherches sur le Web, surtout si vous souhaitez obtenir une réponse directe. Considérez Deep Search comme un chatbot, tel que ChatGPT ou Bing Chat, mais qui est intrinsèquement lié à la recherche sur Internet et qui tente de trouver des réponses avant même que vous ne puissiez les poser.

Comment essayer Deep Search de Bing ?

Même si Copilot est désormais accessible au public, Deep Search reste une fonctionnalité expérimentale. C’est pourquoi Microsoft adopte une approche prudente dans son déploiement afin de s’assurer que tous les problèmes sont résolus dans la phase initiale avant un déploiement plus large. Pour l’instant, l’entreprise précise que Deep Search n’est disponible que « pour de petits groupes d’utilisateurs sélectionnés de manière aléatoire sur Bing dans le monde entier ». Microsoft ne précise pas si elle privilégie un certain groupe d’utilisateurs ou de clients payants pour l’accès à Deep Search. Mais étant donné qu’il s’agit d’une technologie propre à Bing Search, le meilleur moyen d’y accéder avant les autres est d’utiliser le navigateur Edge.

Dès qu’il sera disponible, vous verrez apparaître un nouveau bouton Deep Search à côté de la zone de recherche textuelle. En attendant, vous pouvez vous tourner vers le navigateur Web de Microsoft, qui dispose désormais d’un Copilot dédié dans le coin supérieur droit de l’écran. En tapant dessus, vous ouvrez la fenêtre Copilot with Bing Chat, dans laquelle vous pouvez saisir une requête ; elle extrait les réponses du Web sous forme de paragraphes, avec les citations des sources. Une fois la réponse fournie, l’interface présente un ensemble de trois requêtes connexes basées sur votre recherche initiale.

Il s’agit d’une version rudimentaire de ce que Deep Search promet d’accomplir. Certaines des améliorations GPT-4 promises par Microsoft pour Copilot, telles que la recherche multimodale, ont déjà commencé à apparaître pour les utilisateurs. Deep Search ne devrait pas tarder à apparaître aux utilisateurs.

Lire plus

Intelligence Artificielle

Google prépare Gemini, le concurrent de GPT-4 : une annonce virtuelle cette semaine ?

par Yohann Poiron le 6 décembre 2023

Google a déjà deux rivaux pour ChatGPT : Google Bard et Google Search SGE. Mais ils n’ont pas vraiment l’air d’être des alternatives à ChatGPT, et ils ne sont certainement pas aussi populaires. Gemini pourrait changer tout cela. Il s’agit du grand produit d’IA générative de Google qui devrait rivaliser avec le meilleur modèle ChatGPT d’OpenAI, GPT-4. Nous attendons l’arrivée de Gemini depuis l’été, et il ne semble pas que nous puissions l’utiliser au quotidien de sitôt.

Google travaille sur son nouveau Large Language Model (LLM) appelé Gemini, qui remplacera à terme son architecture d’IA actuelle PaLM 2. Il semble que Google ait initialement prévu de lancer la nouvelle génération de LLM ce mois-ci, mais le lancement aurait été retardé. Toutefois, il se pourrait que Google envisage maintenant de présenter Gemini en avant-première virtuelle.

Selon un rapport de The Information, des sources au fait de la situation affirment que des événements de lancement de Gemini non annoncés étaient prévus pour cette semaine. Ces lancements, qui auraient eu lieu à New York, Washington et en Californie, auraient été reportés à janvier 2024.

Il semble que la raison de ce retard soit due à un problème de fiabilité. Il semblerait que la fiabilité de Gemini soit quelque peu mise à mal lorsqu’il s’agit de soumettre des messages ou des demandes qui ne sont pas rédigés en anglais. Il s’agit là d’un problème majeur pour un produit que Google souhaite commercialiser dans le monde entier. Les produits d’IA générative tels que GPT-4 et Gemini devraient gérer plusieurs langues.

Bien que les événements de lancement en personne aient été retardés, nous aurons peut-être la chance de voir ce dont l’IA de nouvelle génération de Google est capable. La source anonyme du média affirme que l’entreprise prévoit maintenant de faire une présentation virtuelle qui pourrait avoir lieu dès cette semaine. Une démo virtuelle signifie qu’aucun journaliste ne pourra tester Gemini.

Dépasser GPT-4 ?

Gemini est l’architecture d’IA la plus puissante de Google à ce jour, et l’entreprise espère qu’elle égalera, voire dépassera, GPT-4 d’OpenAI. Sa principale caractéristique est qu’elle est multimodale et qu’elle peut être entraînée sur d’autres éléments que le texte. Gemini serait capable de générer du texte, des images, du son, des vidéos et d’autres types de données.

Une démonstration de la version encore inachevée de Gemini pourrait être une victoire pour Google dans le paysage actuel de l’IA. OpenAI a connu un bouleversement majeur au cours des dernières semaines, en licenciant puis en réembauchant son PDG pour des raisons encore inconnues. Selon certaines théories, les inquiétudes concernant une grande avancée pourraient être à l’origine de cette situation, comme un précurseur de l’IA. D’autres affirment que des divergences plus mineures entre Sam Altman et le conseil d’administration pourraient être à l’origine de ce remue-ménage.

Le report du GPT Store personnalisé, combiné au fait qu’OpenAI restreint toujours l’accès à ChatGPT Plus, est également des développements qui jouent en faveur de Google. C’est certainement le moment de sortir Gemini, en supposant qu’il puisse offrir une expérience décente à la hauteur de GPT-4. Jusqu’à présent, les efforts de Google en matière d’IA, comme Bard et SGE, ont été pour le moins médiocres.

Un nouveau rôle dans l’IA

L’arrivée de Gemini ne mettrait pas seulement la pression sur OpenAI. Elle pourrait également rassurer les investisseurs de Google. ChatGPT est toujours considéré comme le leader de l’IA, et à juste titre.

Google était en retard à cette fête, mais a fini par exploiter le système d’exploitation mobile le plus utilisé au monde. Il pourrait en être de même avec l’IA, mais ce que j’attends, c’est une concurrence accrue qui, je l’espère, favorisera une innovation sûre dans ce domaine.

Google n’a pas encore annoncé sa démo Gemini. Comme il s’agit d’un événement virtuel, l’entreprise pourrait faire son annonce à tout moment de la semaine.

Lire plus

Intelligence Artificielle

Microsoft révolutionne Copilot avec GPT-4 Turbo et DALL-E 3 : nouvelles fonctionnalités à venir

par Yohann Poiron le 6 décembre 2023

Microsoft a annoncé que Copilot — le chatbot d’IA anciennement connu sous le nom de Bing Chat — allait bientôt bénéficier d’une demi-douzaine d’améliorations impressionnantes, dont les derniers modèles d’OpenAI. Cette série d’améliorations devrait rendre le chatbot Copilot considérablement plus puissant à de nombreux égards (en dehors et à l’intérieur de Windows 11).

Tout d’abord, décomposons les améliorations elles-mêmes avant de discuter de la différence qu’elles sont susceptibles de faire.

Copilot sera bientôt compatible avec GPT-4 Turbo, ainsi qu’avec un modèle DALL-E 3 mis à jour, une nouvelle fonction d’interprétation de code et une fonctionnalité de recherche approfondie dans Bing.

Tout d’abord, et c’est le plus important, Copilot reçoit un nouveau cerveau, ou plutôt un cerveau mis à jour sous la forme de GPT-4 Turbo, ce qui signifie essentiellement qu’il « verra » plus de données grâce à une fenêtre contextuelle de 128K. Cette fenêtre de contexte plus large permettra à Copilot de mieux comprendre les requêtes et d’offrir de meilleures réponses. Il s’agit du dernier modèle GPT d’OpenAI, qui présente plusieurs avancées en termes de qualité et de précision.

« Ce modèle est actuellement testé auprès d’utilisateurs sélectionnés et sera largement intégré dans Copilot dans les semaines à venir », explique Yusuf Medhi, EVP et consumer chief marketing officer chez Microsoft.

En attendant que le modèle GPT-4 Turbo apparaisse dans Copilot, Microsoft utilise désormais un modèle DALL-E 3 amélioré dans Bing Image Creator et Copilot. « Vous pouvez désormais utiliser Copilot pour créer des images de meilleure qualité et plus précises grâce au modèle DALL-E 3 mis à jour », explique Medhi.

Microsoft Edge, qui comprend une barre latérale Copilot, se dote également de la possibilité de composer du texte dans la saisie de texte des sites Web afin de réécrire les phrases en ligne. Vous pouvez également utiliser Copilot dans Microsoft Edge pour résumer les vidéos que vous regardez sur YouTube.

Un nouveau Code Interpreter

Les codeurs et les développeurs pourraient être intéressés par la nouvelle fonction Code Interpreter qui sera bientôt disponible dans Copilot. Cette nouvelle fonctionnalité permettra aux utilisateurs de Copilot d’obtenir des calculs plus précis, des analyses de données ou même du code de la part du chatbot IA. « Copilot écrira le code pour répondre à vos demandes complexes en langage naturel, exécutera ce code dans un environnement sandbox et utilisera les résultats pour vous donner des réponses de meilleure qualité », explique Microsoft. « Vous pouvez également télécharger des fichiers vers et depuis Copilot, de sorte que vous pouvez travailler avec vos propres données et codes ainsi qu’avec les résultats de recherche de Bing ».

Du côté de Bing, Microsoft ajoute la « recherche en profondeur » à ses résultats. « Deep Search exploite la puissance de GPT-4 pour fournir des résultats de recherche optimisés sur des sujets complexes », explique Medhi. « L’activation de Deep Search permet d’étendre les requêtes de recherche à des descriptions plus complètes afin de fournir des résultats plus pertinents ».

Tous ces progrès pour Copilot interviennent alors que nous venons d’apprendre que Google retardait ses avancées sur le front de l’IA, repoussant certains lancements majeurs au début de l’année 2024. Microsoft n’est pas en reste en ce qui concerne Copilot, c’est certain, et Google doit trouver un équilibre entre suivre le mouvement et ne pas pousser trop loin au risque de commettre des erreurs.

Lire plus

Intelligence Artificielle

xAI : Elon Musk veut lever un milliard de dollars de fonds et lance une nouvelle offre d’actions

par Yohann Poiron le 6 décembre 2023

La dernière startup d’Elon Musk, xAI, cherche maintenant à lever plus de fonds dans son récent dépôt auprès de la SEC, cherchant à rassembler jusqu’à 1 milliard de dollars de fonds. Cette nouvelle société d’intelligence artificielle est surtout connue pour avoir développé Grok, sa version du chatbot qui concurrence ChatGPT et Google Bard, situé sur le réseau social de son fondateur, X.

CNBC a rapporté que la startup d’Elon Musk, xAI, a déposé un nouveau document auprès de la Securities and Exchange Commission (SEC) des États-Unis pour lever jusqu’à 1 milliard de dollars de fonds. Le média a également été dit qu’il s’agit d’une offre d’actions pour de nouveaux investisseurs, l’entreprise ayant déjà obtenu plusieurs parties intéressées lors de son offre précédente.

Le 29 novembre dernier, xAI a pu recueillir 135 millions de dollars auprès de quatre investisseurs, avec un « accord contraignant et exécutoire » pour les actions restantes, indique le document.

On ne sait pas encore quels développements xAI va réaliser avec sa dernière tentative de levée de fonds, avec une somme massive d’un milliard de dollars à atteindre dans cette dernière demande.

xAI veut comprendre l’univers grâce à une émission d’actions

Lorsque Musk a annoncé xAI pour la première fois, son objectif est de comprendre davantage l’univers que ce que le monde en connaît, en présentant Grok comme le « Guide du voyageur galactique ».

Sur son site web, xAI a révélé que sa version du chatbot d’IA avait bénéficié d’environ 2 mois de formation lors de sa première sortie, et qu’elle était actuellement en phase de test bêta sur le site de xAI.

xAI précise que Grok n’est pas un chatbot IA ordinaire, car il a été conçu pour répondre aux questions « avec un peu d’esprit et un côté rebelle », ajoutant qu’il s’adresse uniquement à ceux qui ont de l’humour. Comme il le décrit, il est plus laxiste lorsqu’il s’agit de répondre aux questions controversées que les utilisateurs ont à l’esprit.

L’IA d’Elon Musk et les entreprises X

Ce n’est que vers la fin du mois de novembre que le monde a pu voir ce sur quoi Musk et xAI ont travaillé, et c’est avec les débuts de Grok qui a offert à la plateforme de réseaux sociaux, X (anciennement Twitter), un chatbot d’IA. Cependant, il n’a pas été mis à la disposition de tous, car l’entreprise l’a caché derrière le niveau X Premium+, l’abonnement le plus cher et le plus riche en fonctionnalités de sa plateforme. Malgré les liens étroits entre Grok et X, xAI est distincte de X Corp, la société mère de X.

Avant de livrer Grok, Musk aurait créé une nouvelle entreprise, qui se concentrerait sur le développement d’une intelligence artificielle capable de rivaliser avec OpenAI, Stability AI et d’autres. Baptisée xAI, elle a pris forme pour la première fois en avril 2023 et ses archives sont centrées sur le Nevada, où elle a été créée, Elon Musk en étant le seul directeur.

Depuis lors, l’objectif de l’entreprise est de mieux comprendre les questions restées sans réponse dans l’univers, mais il y a peu d’informations sur la façon dont elle se forme et sur ses autres aspects.

Lire plus

Intelligence Artificielle

Il y a un an, il n’y avait que ChatGPT : aujourd’hui, les LLM sont partout

par Yohann Poiron le 4 décembre 2023

Lorsque OpenAI a lancé ChatGPT il y a un an aujourd’hui, l’idée d’un assistant personnel piloté par l’IA était nouvelle pour une grande partie du monde.

Nous avions tous vu des chatbots capables de fournir des réponses préprogrammées, mais personne ne pensait pouvoir disposer d’un véritable compagnon de conversation, capable de parler de tout et de rien et de nous aider dans toutes sortes de tâches fastidieuses — qu’il s’agisse de préparer un itinéraire de voyage, d’apporter des éclaircissements sur des sujets complexes ou de rédiger des articles de longue haleine.

Aujourd’hui, malgré toutes les péripéties de l’entreprise — de l’interdiction éphémère de l’Italie à l’éviction de Sam Altman et à son retour triomphal — ChatGPT continue d’être l’assistant d’IA de référence pour des millions d’utilisateurs connectés à l’Internet. Il est présent sur le Web et les appareils mobiles, aidant à accomplir diverses tâches et témoignant d’un engagement à l’échelle de milliards.

Selon SimilarWeb, pour le seul mois d’octobre 2023, ChatGPT a enregistré près de 1,7 milliard de visites sur mobile et sur le Web, avec 193 millions de visiteurs uniques et une durée d’environ 8 minutes par visite. Pour mettre en perspective, c’est bien plus que l’engagement dont témoignent des services populaires sur Internet, notamment Zoom et (214 millions de visites) Google Meet (59 millions de visites).

Mais au-delà de l’introduction de l’IA conversationnelle dans la vie de millions de personnes en l’espace de quelques mois, ChatGPT a également réussi à catalyser l’écosystème de l’IA au sens large. Peu après son lancement, l’IA générative a fait parler d’elle, entraînant le lancement de dizaines d’offres grand public pour la production de texte, de musique, de vidéo et de code.

Pour le chat et le code, beaucoup de ces offres — comme Github Copilot et Perplexity AI — ont exploité des versions affinées de la série de modèles GPT qui alimentent ChatGPT. Plusieurs entreprises et startups ont également exploité les API d’OpenAI pour des applications commerciales internes et la création de GPT personnalisés pour des tâches granulaires telles que l’analyse de données.

Plus important encore, dans cette course à l’IA, de nombreuses startups et géants de la technologie ont également développé leurs propres grands modèles de langage (LLM) et ont produit des chatbots polyvalents tout aussi performants, capables de comprendre, de raisonner et de répondre aux demandes des utilisateurs. Certes, ils ne sont peut-être pas encore aussi populaires que ChatGPT, mais ils ont démocratisé l’espace, en veillant à ce que l’assistant OpenAI ne soit pas le seul de son genre.

L’ère des assistants d’IA conversationnels

Anthropic et Google ont été les premiers à entrer en scène après OpenAI. Quelques mois à peine après le lancement de ChatGPT, les deux entreprises ont présenté leurs assistants conversationnels respectifs : Claude et Bard.

Anthropic, fondée en 2021 par d’anciens employés de OpenAI, se concentre fortement sur la sécurité et l’éthique et a formé son assistant en tant qu’« IA constitutionnelle », où il suit certains ensembles de règles et s’améliore grâce à un retour d’information automatisé. Bard, quant à lui, a été construit sur le modèle de langage Pathways 2 et fonctionne autour de la recherche Google, en utilisant l’accès à Internet et le traitement du langage naturel pour fournir des réponses aux requêtes avec un contexte et des sources détaillées. Ils sont tous deux considérés comme les plus grands rivaux de ChatGPT.

Mais ce n’est pas tout.

Après l’arrivée de Claude et de Bard, d’autres chatbots intéressants ont commencé à apparaître. Il ne faut pas oublier le modèle Llama 2 de Meta Platforms, qui a suscité une vague de développement et de variantes perfectionnées grâce à son caractère open source. Plus récemment, xAI d’Elon Musk a annoncé Grok, qui est doté d’une touche d’humour et de sarcasme et utilise les données X en temps réel pour fournir les informations les plus récentes.

Bien que tous ces assistants aient été conçus pour aider les utilisateurs à effectuer des tâches allant de la recherche générale à l’écriture en passant par le résumé de texte, il faut toujours garder à l’esprit qu’ils sont en constante évolution. Les capacités et les limites qu’ils présentent aujourd’hui ne seront peut-être plus les mêmes quelques mois plus tard.

Après tout, lorsque ChatGPT a été lancé il y a un an, il s’agissait d’un assistant textuel. Aujourd’hui, il prend en charge les commandes vocales et les images, et dispose même de sa propre voix pour répondre, à l’instar d’Alexa.

Les assistants spécifiques à un marché sont également présents

Outre les grands assistants mentionnés ci-dessus, plusieurs assistants d’IA spécifiques à un marché ont également été développés — adaptés à différents secteurs, publics, langues et utilisations plus distinctes.

Il s’agit notamment de HyperClovaX du géant sud-coréen de l’Internet Naver, des célèbres chatbots chinois Ernie et DeepSeek récemment introduits, ainsi que de Poro et Nucleus, ce dernier étant conçu pour le secteur agricole.

La société indienne Reliance Industries a également décidé de lancer un assistant d’IA générative conçu pour les différents dialectes du pays et s’est assuré l’infrastructure informatique de NVIDIA pour ce faire.

Cela dit, avec un grand nombre d’acteurs qui s’efforcent déjà de tenir les promesses de l’IA conversationnelle et de nombreux autres qui s’apprêtent à la lancer, on peut affirmer sans risque de se tromper que la course à l’IA est loin d’être terminée. À mesure que les modèles sous-jacents s’améliorent et que les capacités s’accroissent, notamment la capacité des chatbots à fournir des réponses plus naturelles et pertinentes avec un minimum d’hallucinations, l’écart entre ces acteurs devrait se réduire, ce qui permettra de repousser encore plus loin les limites de l’IA.

Pour son premier anniversaire, ChatGPT reste le leader de la catégorie dans le domaine de l’IA. Il sera toutefois intéressant de voir comment il maintiendra cette position dans les années à venir et évoluera vers une IA sûre et responsable pour tous.

Lire plus

Intelligence Artificielle

L’IA Google Gemini arrive en 2024 pour rivaliser avec la plateforme GPT d’OpenAI

par Yohann Poiron le 4 décembre 2023

Alors que 2023 a été l’année où l’IA a accéléré son accès pour tous, certains prétendent que 2024 sera une année encore plus importante pour la technologie et ses développements. Des rapports circulent également sur les projets de Google concernant la future version de Gemini, son modèle d’IA de nouvelle génération, qu’il avait déjà annoncé en début d’année.

Il est important de noter que l’IA Gemini était auparavant considéré comme un modèle fondamental, un développement par les entreprises qui aide à fournir des capacités multimodales. Gemini est considéré comme l’IA conversationnelle la plus puissante que Google ait créée.

Selon le dernier rapport de The Information, Google prévoit de lancer l’IA Gemini l’année prochaine, et c’est en 2024 que l’entreprise développera pour la première fois son modèle fondamental à venir. Selon la source, ce chatbot multimodal devait être présenté la semaine prochaine lors de plusieurs événements en Californie, à New York et à Washington, où des politiciens et des responsables politiques étaient également attendus.

Mais après quelques recherches en interne, le PDG de Google, Sundar Pichai, a décidé de retarder le lancement de Gemini. Il semblerait que Google ait découvert que l’IA ne traitait pas de manière fiable certaines requêtes en dehors de l’anglais. La prise en charge des langues étrangères est l’un des facteurs clés permettant à Google de faire en sorte que Gemini surpasse GPT-4 d’OpenAI, et comme Gemini n’a pas encore atteint cette norme, son lancement a été retardé.

L’IA Gemini de Google devrait encore améliorer sa technologie actuelle, notamment le chatbot IA, Bard, Google Assistant et la recherche.

Gemini AI contre GPT-4 d’OpenAI

Plus tôt en mai, Google a présenté l’IA Gemini au monde entier lors de la présentation I/O 2023, et ici, la société a considéré qu’elle irait de pair avec PaLM 2, les deux modèles de base étant améliorés. Selon Google, il offre déjà des capacités multimodales inédites dans les précédents modèles.

Gemini a été créé dès le départ pour être multimodal, très efficace en matière d’intégration d’outils et d’API et conçu pour permettre de futures innovations, telles que la mémoire et la planification.

Il est également dit que Gemini a été en mesure de surpasser fortement GPT-4 lors de tests privés, grâce à l’utilisation d’une plus grande puissance de calcul que ce dernier. Le PDG de Google a déclaré en novembre que « l’entreprise se concentre sur la sortie de Gemini 1.0 dès que possible, en s’assurant qu’il est compétitif et à la pointe de la technologie, et nous construirons à partir de là ».

Sissie Hsiao, vice-président de Google et responsable de Bard et de Google Assistant, aurait expliqué les prouesses du chatbot Gemini en donnant un exemple : « J’ai vu des choses assez étonnantes. Par exemple, si j’essaie de faire un gâteau, et que je demande trois images des étapes à suivre pour glacer un gâteau à trois couches, Gemini créera ces images. Il s’agit d’images totalement nouvelles, pas seulement d’images trouvées sur Internet ».

Développement de l’IA chez Google

Le visage de l’IA de Google est centré sur Bard, le célèbre chatbot que la société a lancé au début de l’année, mais qui a déjà fait l’objet de critiques pour ses hallucinations en matière d’IA lors de sa sortie initiale. Cependant, Google a développé le chatbot afin d’apporter de meilleures réponses et informations aux utilisateurs, en se concentrant sur les données précises qu’il présente, Bard étant désormais capable d’accéder à des vidéos YouTube et de répondre à vos questions.

On sait également que DeepMind, la précédente acquisition de Google, s’est lancée à corps perdu dans le développement de nouveaux projets d’IA, afin d’améliorer l’offre de l’entreprise. L’entreprise a déjà créé le « Student of Games », dont l’objectif principal est de battre des joueurs humains dans divers jeux, démontrant ainsi la puissance des modèles informatiques dans le domaine des jeux.

L’IA devrait se développer davantage à l’avenir, car nous ne connaissons pas encore ses limites, puisqu’elle n’en est encore qu’à ses débuts. Cela étant dit, l’IA Gemini est la représentation parfaite des objectifs et des projets de Google en matière d’IA. Des rapports affirment aujourd’hui qu’il fera ses débuts en 2024 et qu’il cherchera à s’attaquer au célèbre OpenAI GPT-4 afin d’améliorer encore ce qu’il a à offrir.

Lire plus

Google intègre Gemini dans Chrome pour iPhone et iPad : l’assistant IA s’invite enfin sur iOS

Google lance Disco, un navigateur expérimental qui transforme les requêtes en apps interactives

YouTube autorise le test A/B de plusieurs titres pour une même vidéo

Google met à jour son AI Mode : plus de liens intégrés, meilleure attribution des sources

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Faut-il craquer pour la Huawei Watch GT 6 Pro ? Les premières impressions

Android 17 pourrait enfin intégrer un verrouillage natif des applications — une fonction attendue depuis des années

Xiaomi 17 Ultra : les précommandes « à l’aveugle » commencent déjà, signe d’un lancement imminent

AirTag 2 : Apple prépare enfin une vraie évolution de son traqueur star

Galaxy S26 : Samsung confronté à une tension critique sur l’approvisionnement en mémoire

Calibre 8.16.1 : l’IA recommande vos prochains livres et transforme l’app de gestion d’e-books

Tiiny AI Pocket Lab : le plus petit supercalculateur IA au monde capable de faire tourner des LLM 120B en local

Huawei lance le WiFi Mesh Router X3 Pro : WiFi 7 déguisé en montagne enneigée lumineuse

Google réinvente Gemini Deep Research : l’agent IA qui prépare l’ère où l’on ne « cherche » plus, on délègue

L’IDE Antigravity de Google supprime le disque efface le disque dur d’un développeur

Antigravity IDE : l’outil AI-first de Google déjà épinglé pour de graves failles de sécurité

Google Antigravity : l’IDE agentique qui pourrait réinventer la manière de coder

Visual Studio Code 1.106 : l’éditeur devient un centre de contrôle pour les agents IA (Agent HQ)

Spotify Wrapped 2025 : comment voir, partager et comprendre votre rétrospective

Pourquoi NotebookLM est un assistant personnel qui vaut son abonnement ?

Qu’est-ce que Starlink ? Le guide complet du service Internet par satellite

Comment installer Windows 11 sans compte Microsoft avec Rufus ?

Intelligence Artificielle

Google réinvente Gemini Deep Research : l’agent IA qui prépare l’ère où l’on ne « cherche » plus, on délègue

ChatGPT lancera son mode adulte au premier trimestre 2026

Disney x OpenAI : Sora pourra générer des vidéos avec Mickey, Marvel et Star Wars

GPT-5.2 est là : OpenAI riposte à Google avec son modèle le plus puissant jamais lancé

Xiaomi développe Mi Chat, un assistant IA basé sur le modèle performant MiMo-7B-RL

Google dément la rumeur : Gemini restera sans publicité