fermer
Couverture MWC  2026

Intelligence Artificielle

L’intelligence artificielle (IA) transforme de nombreux secteurs, de la santé à la finance, en passant par l’éducation et la sécurité. Explorez comment l’IA est utilisée pour automatiser des tâches, augmenter l’efficacité et créer de nouvelles opportunités de marché.

Nos discussions incluent également les défis éthiques et les implications sociétales de l’adoption de l’IA, fournissant une perspective équilibrée sur ce développement technologique clé.

Intelligence Artificielle

Otter Meeting Agent : un assistant IA transforme les réunions, les détails

67e29e9918b96bcf4fc57440 Otter M

Otter, le service de transcription automatique alimenté par l’intelligence artificielle, franchit une nouvelle étape avec le lancement de trois agents IA conçus pour optimiser les réunions et les appels professionnels.

Le plus innovant d’entre eux est Otter Meeting Agent, un assistant vocal intelligent capable d’interagir en temps réel avec les utilisateurs et d’exploiter les données de l’entreprise pour répondre aux questions et accomplir des tâches.

Otter Meeting Agent: Un assistant IA qui transforme les réunions

Otter présente son Meeting Agent comme une évolution majeure de son chatbot IA déjà existant. Jusqu’à présent, l’outil pouvait assister aux réunions en ligne, transcrire les conversations et résumer les échanges. Désormais, il va plus loin : il peut répondre aux questions sur la base des données issues des réunions passées, planifier de nouvelles réunions et même rédiger des emails via une interaction vocale naturelle.

Actuellement, Otter Meeting Agent est compatible avec Zoom et son déploiement progressif est en cours pour tous les utilisateurs d’Otter.ai. Une prise en charge pour Microsoft Teams et Google Meet est prévue dans les prochaines semaines.

Des agents dédiés à la vente et au support client

En plus de son assistant de réunion, Otter dévoile deux autres agents IA spécialisés pour le domaine commercial :

  • Sales Agent : Cet assistant fournit un coaching en temps réel aux commerciaux pendant leurs appels. Il les aide à conclure des ventes, gérer les objections des clients et optimiser leurs performances. Disponible sur toutes les plateformes de visioconférence, il est réservé aux clients professionnels d’Otter.
    Agent SDR (Sales Development Representative Agent) : Plus avancé, cet agent peut présenter un produit et interagir avec des prospects sans intervention humaine. Il est accessible via le site d’Otter, mais les entreprises intéressées doivent contacter la société pour l’adopter.

Vers une expansion de l’IA dans les fonctions clés de l’entreprise

Otter ne compte pas s’arrêter là. L’entreprise prévoit de développer d’autres agents IA, notamment pour le marketing, le recrutement et d’autres services spécialisés. Cette initiative marque une nouvelle étape dans l’intégration de l’IA dans les entreprises, offrant des outils toujours plus performants pour gagner du temps et améliorer l’efficacité des équipes.

L’IA deviendra-t-elle un membre à part entière des équipes de travail ? À suivre dans les prochains mois avec l’évolution des agents Otter.

Lire plus
Intelligence Artificielle

OpenAI Academy : Une plateforme éducative gratuite pour tous, du débutant à l’expert IA

OpenAI Academy : Une plateforme éducative gratuite pour tous, du débutant à l'expert IA

Dans un contexte où l’intelligence artificielle transforme rapidement nos vies professionnelles et personnelles, OpenAI vient d’annoncer le lancement de « OpenAI Academy », une ressource publique gratuite dédiée à la formation en IA, ouverte à tous les niveaux de compétence.

L’initiative vise à rendre l’éducation à l’intelligence artificielle plus accessible, notamment à ceux qui n’ont pas les moyens d’accéder à des formations coûteuses.

Une plateforme éducative gratuite, accessible en ligne

Disponible dès maintenant via academy.openai.com, OpenAI Academy propose une variété de contenus éducatifs en ligne et en présentiel. Il suffit de créer un compte pour y accéder gratuitement. Le programme comprend :

  • Des ateliers pratiques (hands-on workshops),
  • Des discussions entre pairs (peer discussions),
  • Des tutoriels sur des outils IA comme Sora (génération de vidéos), la création de GPTs personnalisés, ou encore l’usage de ChatGPT en mode Deep Research.

Un projet initialement destiné aux développeurs avancés, désormais ouvert à tous

Lancé à l’origine comme un programme en présentiel pour les profils techniques avancés, OpenAI a élargi la portée de Academy pour inclure :

  • Les enseignants,
  • Les étudiants,
  • Les chercheurs d’emploi,
  • Les dirigeants de petites entreprises,
  • Les acteurs du secteur non lucratif.

L’objectif est clair : donner à chacun les clés pour mieux comprendre l’IA, en améliorer l’usage au quotidien, et surtout développer son potentiel économique et personnel grâce à ces nouvelles compétences.

Des partenaires éducatifs et sociaux pour toucher un large public

Pour garantir la qualité et l’accessibilité de ses contenus, OpenAI s’est associé à des acteurs éducatifs et sociaux de premier plan, notamment :

  • Common Sense Media, pour la création de contenus à la demande,
  • Des institutions académiques comme Georgia Tech et Miami Dade College,
  • Des organisations à but non lucratif telles que Goodwill, CareerVillage, Talent Ready Utah, ou encore OATS from AARP.

Exemple concret : un atelier d’IA avec Goodwill Keystone

Un atelier organisé par Goodwill Keystone en Pennsylvanie enseignera aux demandeurs d’emploi comment utiliser ChatGPT pour améliorer leur CV, simuler des entretiens d’embauche, ou encore obtenir des conseils de carrière personnalisés. Une approche concrète et pragmatique pour réduire la fracture numérique et mettre l’IA au service de l’insertion professionnelle.

Un projet à fort impact, gratuit et inclusif

Alors que la majorité des formations IA sont coûteuses et peu accessibles, OpenAI démocratise l’apprentissage de l’IA en supprimant les barrières financières. Avec son statut d’acteur majeur de l’IA, l’entreprise confère à OpenAI Academy une légitimité forte et un attrait certain, notamment auprès des utilisateurs en quête de montée en compétences rapide et efficace.

OpenAI Academy pourrait bien devenir un point de référence mondial pour l’éducation à l’intelligence artificielle. En mêlant accessibilité, contenu de qualité et accompagnement personnalisé, OpenAI entend rendre l’IA compréhensible et utilisable par tous, et contribuer ainsi à un avenir numérique plus équitable et inclusif.

Lire plus
Intelligence Artificielle

ChatGPT suspend la génération d’images après une popularité inattendue de GPT-4o et du style Ghibli

ChatGPT suspend la génération d'images après une popularité inattendue de GPT-4o et du style Ghibli

OpenAI vient de suspendre l’accès à sa nouvelle fonctionnalité de génération d’images via GPT-4o pour les utilisateurs gratuits de ChatGPT, à peine 24 heures après son lancement. Si cette fonctionnalité, propulsée par le modèle de raisonnement GPT-4o, avait pour but d’améliorer le réalisme des images et la qualité du texte généré, elle a rapidement déclenché une tendance virale incontrôlée, poussant OpenAI à revoir sa stratégie de déploiement.

Une fonctionnalité devenue virale en quelques heures

Dès son activation dans la version gratuite de ChatGPT, les utilisateurs se sont rués sur la nouvelle fonctionnalité de génération d’images. Résultat : des milliers de créations dans le style du studio japonais Studio Ghibli ont inondé les réseaux sociaux. On a pu voir :

  • Des photos de famille retravaillées à la sauce Ghibli
  • Des scènes des JO de Paris 2024 ou de films cultes comme Le Parrain ou Star Wars
  • Des mèmes célèbres comme « Distracted Boyfriend » ou « Disaster Girl » reformatés dans ce style enchanteur

Même le CEO d’OpenAI, Sam Altman, a joué le jeu en remplaçant sa photo de profil sur X par une version Ghibli de lui-même, générée avec GPT-4o selon toute vraisemblance. Mais très vite, il a également annoncé sur X que le déploiement de la génération d’images pour la version gratuite de ChatGPT serait reporté, sans fournir de date de retour.

« Images in ChatGPT are wayyyy more popular than we expected », a-t-il reconnu dans son post, en ajoutant que la popularité de la fonctionnalité avait dépassé toutes leurs prévisions.

GPT-4o : génération d’images plus précise et plus réaliste

GPT-4o repose sur une méthode de génération dite « autoregressive », qui crée l’image de gauche à droite et de haut en bas, au lieu de tout générer d’un coup. Cette approche améliore considérablement la cohérence visuelle, en particulier dans le rendu des textes. Contrairement aux anciennes IA connues pour produire des textes flous ou incompréhensibles, GPT-4o est capable de générer du texte net, lisible et contextuellement cohérent.

Selon le Wall Street Journal, OpenAI a soumis GPT-4o à un entraînement post-lancement dirigé par des humains, visant à identifier les erreurs courantes dans les rendus texte/image.

Des questions juridiques et éthiques toujours en suspens

Comme toujours avec l’IA, la popularité d’un outil soulève des interrogations sur les droits d’auteur et la légalité. Selon Evan Brown, avocat spécialisé en propriété intellectuelle chez Neal & McDevitt, les utilisateurs générant des images dans le style Studio Ghibli ne violent techniquement pas la loi, car le style n’est pas protégé par le droit d’auteur. Mais cela reste une zone grise juridique.

Un porte-parole d’OpenAI a également déclaré à TechCrunch que ChatGPT peut imiter le style d’un studio, mais pas celui d’un artiste individuel — une nuance cruciale pour éviter des poursuites juridiques potentielles.

Le succès fulgurant de la génération d’images avec GPT-4o démontre l’immense potentiel créatif et viral de l’IA, mais aussi les défis techniques, juridiques et éthiques qu’il implique. OpenAI semble chercher à reprendre le contrôle de la situation en suspendant temporairement l’accès gratuit, le temps de réévaluer sa capacité technique et de cadrer les usages. En attendant, seuls les abonnés des formules Plus, Pro et Team peuvent toujours profiter de cette fonctionnalité révolutionnaire.

Lire plus
Intelligence Artificielle

Microsoft 365 Copilot : Researcher et Analyst, deux agents IA pour une automatisation avancée

Microsoft 365 Copilot : Researcher et Analyst, deux agents IA pour une automatisation avancée

Alors que Google et OpenAI ont récemment dévoilé leurs avancées en matière d’intelligence artificielle, Microsoft n’est pas en reste et vient d’annoncer plusieurs nouveautés majeures pour Microsoft 365 Copilot. Parmi elles, l’introduction de deux agents d’intelligence artificielle avancés baptisés Researcher et Analyst dans Microsoft 365 Copilot, ainsi que l’amélioration des capacités des agents IA personnalisés.

Pour éviter toute confusion, Microsoft 365 Copilot est essentiellement la version rebaptisée de l’ancienne application Microsoft 365 (Office). Elle est différente de l’application autonome Copilot, qui est plutôt une application de chatbot d’IA à usage général.

Cependant, l’idée générale n’est pas très différente. Vous demandez à l’IA Copilot de fournir des informations approfondies sur un certain sujet ou de créer un plan d’action, et elle s’exécute en produisant un document détaillé qui nécessiterait autrement des heures de recherche et de compilation de la part d’un être humain. Il s’agit d’effectuer des recherches complexes en plusieurs étapes en votre nom en tant qu’agent autonome de l’IA.

Researcher et Analyst : une nouvelle approche du raisonnement en profondeur

Microsoft présente Researcher et Analyst comme les premiers agents IA de raisonnement approfondi conçus pour assister les entreprises dans leurs tâches complexes.

Researcher repose sur un modèle avancé de recherche d’OpenAI, lui permettant d’exécuter des recherches complexes et multi-étapes. Cet agent est capable d’exploiter des données tierces, grâce à des connecteurs intégrés pour des outils comme Salesforce ou ServiceNow. Cette capacité le rend particulièrement utile aux entreprises qui souhaitent extraire des insights à partir de leurs multiples outils et automatiser des tâches de veille stratégique ou d’analyse concurrentielle.

Analyst, quant à lui, est basé sur le modèle de raisonnement o3-mini d’OpenAI et se distingue par sa capacité à traiter et organiser des données complexes. Il peut convertir des données brutes en tableaux détaillés, exécuter du code Python en temps réel avec une visibilité sur son exécution, et fonctionner au niveau d’un véritable data scientist. Grâce à son approche par chaînage de pensées (« chain-of-thought reasoning »), il peut générer des rapports détaillés, automatiser des analyses statistiques et optimiser la gestion des données d’une entreprise.

Disponibilité et intégration dans Microsoft 365 Copilot

Ces nouveaux agents commenceront à être déployés dès avril pour les entreprises disposant d’une licence Microsoft 365 Copilot, via un programme d’accès anticipé. Parallèlement, Microsoft introduit de nouvelles fonctionnalités d’agents autonomes, déjà en cours de déploiement dans Copilot Studio.

Microsoft ambitionne de rendre Microsoft 365 Copilot plus puissant et adaptable en intégrant des flux d’agents intelligents capables d’automatiser des tâches complexes. Grâce à des workflows basés sur des règles et enrichis par l’IA, les entreprises pourront créer des assistants personnalisés adaptés à leurs besoins spécifiques.

Microsoft met en avant des cas d’usage, comme la gestion automatisée des e-mails de feedback, où un agent pourrait classer les demandes et les rediriger vers les équipes appropriées. Cependant, il reste à voir si ces agents surpasseront des méthodes d’automatisation classiques ou s’ils apporteront une réelle valeur ajoutée dans un contexte professionnel.

Une nouvelle étape dans l’évolution des IA d’entreprise

Avec ces annonces, Microsoft renforce sa position sur le marché des intelligences artificielles pour les entreprises, en mettant en avant des outils capables de traiter des tâches avancées, du raisonnement complexe à la gestion automatisée des données. Il faudra attendre les premiers retours d’expérience pour mesurer l’impact réel de ces nouveautés, mais une chose est sûre : l’IA devient un élément incontournable du paysage professionnel moderne.

Lire plus
Intelligence Artificielle

OpenAI GPT-4o : ChatGPT génère images et vidéos avec une qualité inédite

OpenAI GPT-4o : ChatGPT génère images et vidéos avec une qualité inédite

OpenAI franchit une nouvelle étape dans l’évolution de l’intelligence artificielle en intégrant GPT-4o dans ChatGPT, permettant désormais à tous les utilisateurs de générer des images et des vidéos directement au sein du chatbot.

Cette avancée élimine le besoin de passer par un outil externe comme DALL·E, bien que ce dernier reste disponible pour ceux qui souhaitent continuer à l’utiliser via des GPTs personnalisés. Par ailleurs, OpenAI introduit également son générateur de vidéos Sora, renforçant ainsi les capacités multimodales de ChatGPT et ouvrant de nouvelles possibilités créatives.

Avec cette mise à jour, tous les utilisateurs de ChatGPT, y compris ceux de la version gratuite, peuvent désormais profiter de la génération d’images. Cependant, les abonnés des offres Plus, Team et Pro bénéficient d’un accès plus large et de meilleures performances, notamment en matière de rapidité et de quotas. Les utilisateurs issus du milieu professionnel et éducatif devront patienter une semaine supplémentaire avant de voir cette nouveauté déployée sur leurs comptes.

Jusqu’à présent, la génération d’images avec OpenAI était principalement réservée aux utilisateurs payants, qui avaient accès à DALL·E 3, tandis que les utilisateurs gratuits devaient passer par Microsoft Copilot. Désormais, tout se fait directement dans ChatGPT grâce à GPT-4o, rendant l’expérience plus fluide et accessible à tous.

Une amélioration majeure de la qualité des images

Avec GPT-4o, OpenAI franchit un cap en matière de précision et de réalisme dans la génération d’images. Une des avancées les plus notables concerne le rendu du texte dans les images, qui devient enfin lisible, là où DALL·E 3 échouait systématiquement. Le modèle est également beaucoup plus performant pour interpréter et respecter les détails demandés dans un prompt, notamment en ce qui concerne les formes, les couleurs et les objets multiples au sein d’une même image.

hero image 1 whiteboard1

Contrairement aux modèles de diffusion traditionnels, qui appliquent progressivement des détails sur une base aléatoire, GPT-4o utilise un processus autoregressif, générant les images de haut en bas et de gauche à droite. Bien que cette méthode soit légèrement plus lente, elle permet une meilleure précision, notamment lorsqu’il s’agit de respecter des consignes précises. Par exemple, si un utilisateur demande une image contenant un cercle rouge, un triangle bleu, un cœur vert, une étoile rose et un carré violet, GPT-4o ne se trompera pas dans les formes et les couleurs, contrairement à DALL·E 3, qui pouvait mélanger ces éléments.

L’un des autres atouts majeurs de ce nouveau modèle est sa capacité à maintenir la cohérence des personnages et des objets à travers plusieurs générations d’images. Cela signifie qu’un utilisateur peut demander à réutiliser un personnage ou un élément spécifique d’une image précédente, et GPT-4o le reproduira avec une grande fidélité, sans altérer ses couleurs ou ses caractéristiques essentielles.

Une avancée pour le texte intégré aux images

Une des critiques majeures formulées à l’encontre des précédents modèles d’OpenAI portait sur leur incapacité à générer du texte lisible au sein des images. GPT-4o corrige ce défaut en permettant aux utilisateurs de spécifier avec précision le texte qu’ils souhaitent voir apparaître dans leurs créations.

dyda 4a

Si un utilisateur demande une image photoréaliste d’une jeune fille écrivant sur un tableau blanc avec une écriture désordonnée, il peut désormais préciser exactement ce qu’elle doit écrire, et GPT-4o respectera cette consigne. Cette nouveauté représente une avancée significative pour de nombreux secteurs, notamment la restauration, où il devient possible de générer des menus stylisés, ou encore le marketing et la publicité, où la création d’affiches promotionnelles devient plus simple et plus efficace.

Une expérience visuelle plus fluide et professionnelle

L’amélioration de la qualité visuelle des images générées ne se limite pas à la lisibilité du texte. Les images photoréalistes produites par GPT-4o sont plus naturelles et mieux détaillées, offrant un rendu beaucoup plus professionnel. La netteté et la clarté des images numériques ont également été améliorées, mettant fin aux effets flous ou granuleux parfois observés avec DALL·E 3.

minnias cat4

Un autre ajout majeur concerne la possibilité de générer des images avec un fond transparent. Cette fonctionnalité est particulièrement intéressante pour les designers graphiques, qui peuvent désormais créer des logos et des icônes directement via ChatGPT, ainsi que pour les e-commerçants, qui peuvent obtenir des visuels produits prêts à être utilisés sur des plateformes de vente en ligne.

Des défis et limitations encore présents

Bien que GPT-4o constitue une nette amélioration par rapport aux modèles précédents, certaines limites subsistent. OpenAI reconnaît que son IA souffre encore de « hallucinations », ce phénomène où l’IA génère du contenu erroné ou incohérent. La génération d’éléments mathématiques complexes, comme des graphiques ou des tableaux, reste également difficile, tout comme l’intégration fluide de texte multilingue.

En termes de sécurité, OpenAI a mis en place des garde-fous pour éviter les abus et la diffusion d’images trompeuses. Cependant, ces protections peuvent être contournées avec un peu d’effort. Les images générées sont marquées avec des métadonnées C2PA, signalant qu’elles ont été produites par une IA, mais cette indication reste facilement effaçable, rendant la lutte contre la désinformation plus compliquée.

Un flou persistant autour du droit d’auteur

La question de la propriété intellectuelle et du respect du droit d’auteur continue de faire débat. OpenAI affirme que GPT-4o a été entraîné sur des données « publiquement accessibles » et sur des contenus sous licence, notamment via des partenariats avec Shutterstock. Toutefois, l’origine exacte des données utilisées reste floue, et de nombreuses entreprises d’IA ont déjà été critiquées pour leur manque de transparence en matière d’entraînement des modèles.

Comment reconnaître GPT-4o par rapport à DALL·E 3 ?

Le déploiement de GPT-4o étant encore en cours, certains utilisateurs peuvent parfois encore générer des images avec DALL·E 3. Pour distinguer les deux modèles, il suffit d’observer la manière dont l’image se charge. DALL·E 3 génère les images avec une roue de chargement tournante, tandis que GPT-4o affiche une animation fluide, scannant l’image de haut en bas.

Avec l’intégration de GPT-4o, ChatGPT devient un outil encore plus puissant et polyvalent, facilitant la création d’images et de vidéos avec un réalisme et une précision inédits. L’amélioration de la qualité visuelle, la gestion optimisée des objets et des couleurs, ainsi que la possibilité d’insérer du texte lisible font de cette mise à jour une avancée significative pour les créateurs de contenu, les professionnels du marketing et les entreprises en quête d’automatisation visuelle.

Bien que certaines limitations persistent, notamment en matière de hallucinations et de droits d’auteur, GPT-4o représente un véritable bond en avant dans le domaine de l’IA générative. Il ne reste plus qu’à voir comment cette technologie sera adoptée par les utilisateurs et quels nouveaux usages en émergeront.

Lire plus
Intelligence Artificielle

Gemini 2.5 Pro : Google dévoile un modèle IA record, tous les détails sur LMArena et GPQA Diamond

Gemini 2.5 Pro : Google dévoile un modèle IA record, tous les détails sur LMArena et GPQA Diamond

Google a publié un modèle d’IA révolutionnaire appelé Gemini 2.5 Pro qui a obtenu un score de 18,8 % au dernier examen de l’humanité (HLE) sans utiliser de recherche sur le Web ou d’autres outils. Le HLE est un test rigoureux, conçu par des experts en la matière et des universitaires de haut niveau du monde entier pour tester les connaissances approfondies sur divers sujets.

Auparavant, o3-mini-high d’OpenAI avait obtenu 14 % sur le même test sans utiliser d’outils.

Gemini 2.5 Pro est un modèle de réflexion, c’est-à-dire un modèle de raisonnement construit sur un LLM de base plus large, utilisant l’apprentissage par renforcement et l’incitation à la chaîne de pensée. Avant le modèle Gemini 2.5 Pro, Google avait publié le modèle Gemini 2.0 Flash Thinking, plus petit.

Google affirme que le modèle Gemini 2.5 Pro peut « analyser des informations, tirer des conclusions logiques, intégrer le contexte et les nuances, et prendre des décisions éclairées ».

gemini benchmarks cropped light2

Gemini 2.5 Pro était testé sur LMArena sous le nom de code « nebula ». Aujourd’hui, Gemini 2.5 Pro a pris la première place du classement LMArena avec le score le plus élevé de 1 443 points, devançant Grok 3 et GPT-4.5. En ce qui concerne les autres tests, Google indique que Gemini 2.5 Pro obtient des résultats exceptionnels en codage, en mathématiques et en sciences.

Gemini 2.5 Pro : codage et raisonnement avancés

Dans GPQA Diamond, Gemini 2.5 Pro a obtenu un score de 84 % ; dans AIME 2025, le modèle a atteint 86,7 %. Même dans le benchmark vérifié SWE-bench qui teste la capacité à résoudre des problèmes logiciels réels, Gemini 2.5 Pro a obtenu 63,8 %, juste derrière Claude 3.7 Sonnet Extended Thinking, qui a obtenu 70,3 %.

final 2.5 blog 1.width 1000.form

Google affirme que le nouveau modèle Gemini 2.5 Pro est capable de codage et de raisonnement avancés. Il est mis à la disposition des utilisateurs de Gemini Advanced. Ceux qui souhaitent tester gratuitement le modèle Gemini 2.5 Pro peuvent se rendre sur Google AI Studio et sélectionner le modèle « Gemini 2.5 Pro Experimental 03–25 » dans le menu déroulant.

Lire plus
Intelligence Artificielle

Project Astra : testez la nouvelle fonction Gemini, partage d’écran et caméra en direct

Project Astra : testez la nouvelle fonction Gemini, partage d'écran et caméra en direct

Google a tenu sa promesse ! Après avoir présenté Project Astra lors du MWC 2025, l’entreprise commence enfin à déployer cette fonctionnalité d’IA Gemini avancée sur Android. Un utilisateur de Reddit a confirmé que Project Astra est déjà actif sur son smartphone Xiaomi, marquant ainsi l’arrivée tant attendue de cette innovation.

Qu’est-ce que Project Astra ?

Project Astra est une extension de Gemini, l’IA de Google, qui permet aux utilisateurs de partager leur écran ou leur caméra avec Gemini Live pour une interaction en temps réel. Concrètement, cela signifie que l’IA peut voir ce que vous affichez sur votre écran ou à travers votre caméra, et répondre instantanément via un chat vocal ou textuel.

Lors des premières démonstrations, Gemini a été capable d’analyser un écran de téléphone et d’interagir avec l’utilisateur en temps réel. En activant Gemini Live, il est également possible de montrer des objets, des documents ou son environnement pour obtenir des explications instantanées.

Un déploiement progressif et exclusif

Google a confirmé auprès de The Verge que Project Astra est bien en cours de déploiement. Mais attention, cette fonctionnalité n’est pas accessible à tout le monde. Actuellement, Project Astra est uniquement disponible pour les abonnés à Google One AI Premium, une offre facturée 21,99 euros par mois.

Autre limitation : seuls les smartphones Android peuvent, pour l’instant, profiter de cette fonctionnalité. Aucune annonce n’a été faite concernant une éventuelle arrivée sur iOS.

Project Astra face à la concurrence

Google arrive après OpenAI et Microsoft, qui proposent déjà des fonctionnalités analogues :

  • ChatGPT a récemment intégré le partage d’écran et la caméra en direct dans son application, mais facture 20 $ par mois pour y accéder.
  • Microsoft Copilot, en revanche, offre gratuitement une version similaire aux utilisateurs aux États-Unis. Certains utilisateurs Android et iOS ont même signalé avoir reçu un accès à Copilot Vision sans abonnement.

Si Google est en retard sur le marché, la qualité de l’expérience pourrait faire la différence.

Quels usages pour Project Astra ?

L’arrivée de Project Astra pourrait transformer l’usage quotidien des smartphones avec plusieurs applications pratiques :

  • Assistance pour les étudiants : Project Astra peut analyser un texte affiché à l’écran et expliquer des concepts en temps réel.
  • Analyse d’images et de documents : L’IA peut identifier du texte, des objets, des graphiques et fournir des informations pertinentes en direct.
  • Compagnon de voyage : En pointant la caméra vers un monument ou un panneau, Project Astra peut fournir des explications instantanées sur ce que vous voyez.
  • Aide pour le shopping : Vous pouvez scanner un produit et obtenir des détails ou des recommandations.

Google rattrape-t-il son retard en IA ?

Avec Project Astra, Google propose enfin une expérience d’interaction en temps réel via Gemini. Mais le coût élevé de l’abonnement et son exclusivité aux smartphones Android pourraient freiner son adoption.

Alors que Microsoft offre un service similaire gratuitement et que OpenAI séduit déjà avec ChatGPT Plus, Google devra prouver que Project Astra vaut réellement ses 22 euros par mois.

Seul le retour des premiers utilisateurs permettra de juger si cette IA en temps réel est à la hauteur des attentes.

Lire plus
Intelligence Artificielle

Google NotebookLM : Révolutionnez l’analyse de documents avec Mind Map et support multilingue

Screen 2025 03 23 at 11.16.29

Google améliore son outil d’intelligence artificielle NotebookLM avec plusieurs nouvelles fonctionnalités, dont « Mind Map », un outil visuel de synthèse qui promet de transformer la façon dont les utilisateurs interagissent avec leurs documents.

Qu’est-ce que NotebookLM ?

NotebookLM est un assistant IA conçu par Google pour résumer, rechercher et analyser des bibliothèques d’informations. Il permet aux utilisateurs d’importer des documents et d’interagir avec eux via un langage naturel, ce qui est particulièrement utile pour les étudiants et les chercheurs.

Grâce à NotebookLM, il est possible de retrouver rapidement des citations, de garder une trace des informations importantes et de mieux organiser ses idées en analysant un grand volume de texte.

Mind Map: Une vue interactive des informations dans NotebookLM

La principale nouveauté de la mise à jour de NotebookLM est l’ajout de la fonctionnalité Mind Map. Elle permet d’organiser automatiquement les informations contenues dans un carnet en les classant par sujet sous forme de carte interactive.

  • Navigation facilitée : Trouvez rapidement les informations sur un sujet précis.
  • Connexions intelligentes : Identifiez les liens entre différentes sources et thèmes.
  • Analyse comparative : Visualisez les points de convergence et de divergence entre plusieurs sources.
  • Partage et exportation : Téléchargez la carte mentale sous forme d’image et partagez-la facilement.

Cette approche est un atout majeur pour les étudiants et chercheurs qui doivent synthétiser et structurer des informations complexes issues de plusieurs documents.

Une meilleure accessibilité multilingue

Une autre amélioration notable concerne la prise en charge de plusieurs langues. Désormais, NotebookLM permet :

  • D’analyser des documents dans différentes langues et de générer du contenu dans la langue de son choix.
  • D’améliorer l’accessibilité pour les utilisateurs internationaux, en leur offrant plus de flexibilité.

Pour l’instant, cette fonctionnalité est uniquement textuelle, mais Google pourrait bientôt l’étendre à Audio Overviews, son outil de résumé vocal.

Disponibilité et déploiement

Les nouvelles fonctionnalités, y compris Mind Map et le support multilingue, sont déployées. Elles seront accessibles aux utilisateurs gratuits, comme payants.

Avec ces améliorations, NotebookLM se positionne de plus en plus comme un assistant IA incontournable pour l’analyse et la gestion d’informations. Reste à voir quelles seront les prochaines innovations que Google apportera à cet outil prometteur.

Que pensez-vous de ces nouveautés ?

Lire plus
Intelligence Artificielle

Gemini : transformez vos recherches en podcasts audio avec cette nouvelle fonctionnalité IA

Gemini : transformez vos recherches en podcasts audio avec cette nouvelle fonctionnalité IA

Google continue d’améliorer son intelligence artificielle avec une nouvelle fonctionnalité pour son application Gemini. Désormais, vous pouvez transformer des rapports détaillés en podcasts audio interactifs, où deux hôtes IA discutent du sujet de manière fluide et engageante.

Depuis septembre dernier, la fonction « Audio Overviews » permettait déjà aux utilisateurs de l’application NotebookLM de générer des résumés audio pour leurs notes. Aujourd’hui, Google pousse cette innovation plus loin en intégrant cette fonctionnalité directement dans l’application Gemini.

Concrètement, cela signifie que lorsque vous utilisez Deep Research de Gemini, l’outil de Google qui explore un sujet en profondeur en parcourant le Web, vous pouvez désormais écouter un résumé audio de vos recherches.

Une fois que Gemini a généré un rapport détaillé, un nouveau bouton « Generate Audio Overview » vous permet de convertir ce contenu en une discussion entre deux voix IA, donnant l’illusion d’un véritable podcast.

Cette nouvelle fonctionnalité vise à rendre l’apprentissage plus fluide et engageant, en particulier pour ceux qui préfèrent écouter plutôt que lire.

Voici quelques utilisations possibles :

  • Transformer un document de recherche en conversation fluide pour mieux comprendre un sujet.
  • Convertir des diapositives de présentation en résumé audio pour réviser efficacement.
  • Suivre un cours ou un article complexe en format podcast pour l’écouter en déplacement.

L’intérêt est également de pouvoir interagir avec ces résumés audio, en posant des questions ou en demandant des précisions sur certains points abordés par l’IA.

Une fonctionnalité accessible à tous les utilisateurs de Gemini

Google a rendu Audio Overviews disponible aussi bien pour les utilisateurs gratuits que pour les abonnés Gemini Advanced. Cela signifie que tout le monde peut tester cette approche innovante et immersive pour explorer l’information autrement.

Avec cette avancée, Google semble vouloir redéfinir la manière dont nous consommons du contenu informatif, en combinant IA générative et formats interactifs.

Lire plus
Intelligence Artificielle

Anthropic : Claude veut révolutionner l’IA avec le contrôle vocal des PC

image 10

Anthropic, la startup d’intelligence artificielle fondée par d’anciens membres d’OpenAI, s’impose comme un acteur clé de la Silicon Valley. En mettant l’accent sur une approche plus responsable de l’IA, la société développe son propre modèle de langage, Claude, avec pour ambition de transformer le « knowledge work » et d’alléger les tâches bureautiques chronophages.

Mike Krieger, cofondateur d’Instagram et directeur produit chez Anthropic, a partagé avec le Financial Times la vision de l’entreprise : utiliser l’IA pour automatiser le contrôle des PC, notamment par commande vocale.

Une IA agentique pour exécuter des tâches sur votre ordinateur

L’une des innovations majeures que Anthropic souhaite apporter est un système agentique, où Claude pourrait contrôler un ordinateur entier via des commandes en langage naturel.

Il s’agit là d’un concept analogue à Operator de ChatGPT, qui permet déjà de naviguer sur le Web en suivant des instructions vocales ou textuelles, ainsi qu’une alternative à Microsoft Copilot+, qui mise aussi sur le contrôle vocal des PC sous Windows.

Anthropic a déjà démontré un agent capable de contrôler un ordinateur via des commandes écrites, et le passage à la voix semble être la prochaine étape naturelle.

Contrôler son PC par la voix : un projet en cours chez Anthropic

  • Un mode vocal pour Claude est en cours de développement, bien qu’aucune date de sortie n’ait encore été confirmée.
  • L’application mobile Claude, lancée en août 2023, pourrait être le premier endroit où cette fonctionnalité verrait le jour.
  • Une intégration avec Alexa+ d’Amazon, qui utilise déjà les modèles de Claude pour ses interactions vocales.

Pourquoi ce choix ? Amazon a investi 4 milliards de dollars dans Anthropic, ce qui pourrait ouvrir la voie à d’autres collaborations sur des produits vocaux.

Anthropic mise sur les entreprises avant le grand public

Contrairement à OpenAI (ChatGPT) et Google (Gemini), qui cherchent une adoption massive, Anthropic préfère se concentrer sur les partenariats avec les entreprises pour déployer Claude à grande échelle.

« Je veux que Claude touche un maximum de personnes, mais notre priorité n’est pas l’adoption grand public pour l’instant. », a déclaré Mike Krieger, directeur produit chez Anthropic.

Claude face à OpenAI et Google : une bataille sur le contrôle vocal

  • OpenAI et Google ont déjà des modes vocaux avancés avec ChatGPT Voice et Gemini.
  • Anthropic pourrait offrir une expérience plus fluide, notamment via des intégrations stratégiques (Alexa+, entreprises partenaires).
  • Microsoft pousse également Copilot+ pour le contrôle vocal de Windows, une concurrence directe.

L’enjeu est énorme : le premier acteur à proposer un contrôle vocal performant des PC via l’IA pourrait révolutionner la productivité.

Quand pourra-t-on parler à Claude pour contrôler son PC ?

Pour l’instant, Anthropic n’a pas donné de calendrier précis. Cependant, avec l’essor des IA vocales et les avancées de ses concurrents, il est probable que Claude propose un mode vocal dans les mois à venir.

Seriez-vous prêt à utiliser une IA comme Claude pour contrôler votre ordinateur par la voix ?

Lire plus
Intelligence Artificielle

OpenAI o1 pro : plus puissant, plus précis, mais à un prix exorbitant

OpenAI o1 pro : plus puissant, plus précis, mais à un prix exorbitant

OpenAI a dévoilé o1 pro, la dernière version de son modèle d’IA avancé en raisonnement, conçu pour offrir des réponses encore plus précises et complexes. Toutefois, cette amélioration s’accompagne d’un coût très élevé, ce qui laisse à penser que ce modèle cible avant tout les développeurs et les entreprises plutôt que le grand public.

OpenAI a expliqué que o1 pro utilise davantage de puissance de calcul que son prédécesseur, o1, ce qui lui permet d’améliorer la qualité et la cohérence de ses réponses. Parmi ses nouveautés, il supporte la vision, l’appel de fonctions (function calling), les sorties structurées et fonctionne avec les API Responses et Batch.

Un porte-parole d’OpenAI a précisé à TechCrunch que ce modèle est une version de o1 optimisée pour résoudre des problèmes encore plus complexes. Cette mise à niveau répond aux demandes de nombreux développeurs, désireux d’obtenir des résultats plus fiables et détaillés.

o1 pro : Un prix deux fois plus élevé que GPT-4.5

Cette montée en puissance a un coût. OpenAI facture o1 pro à 150 dollars par million de tokens en entrée et 600 dollars par million de tokens en sortie. En comparaison, ce tarif est 2x plus élevé que celui de GPT-4.5 et 10x plus cher que la version standard de o1.

Cet investissement conséquent limite l’accès à o1 pro aux développeurs les plus avancés, notamment ceux des niveaux 1 à 5 du programme API d’OpenAI (les développeurs ayant déjà dépensé un certain montant sur les services de l’API).

Une IA qui divise la communauté

o1 pro mode loading card 1

Bien que ce modèle soit présenté comme une avancée majeure, son lancement ne fait pas l’unanimité. Lorsqu’il a été intégré à ChatGPT Pro il y a quelques mois, plusieurs utilisateurs ont exprimé leur déception, jugeant les améliorations peu significatives en usage réel. Sur Reddit, certains estiment que o1-pro semble excellent sur le papier, mais décevant dans la pratique.

D’autres, en revanche, le considèrent comme un outil puissant pour le développement informatique, particulièrement lorsqu’il est guidé avec des instructions très précises.

Un modèle réservé aux entreprises et aux développeurs exigeants

Avec des performances accrues, mais un prix extrêmement élevé, OpenAI ne destine clairement pas o1 pro aux utilisateurs grand public. Ce modèle est avant tout pensé pour les développeurs, les chercheurs et les entreprises ayant des besoins avancés en IA.

Il reste maintenant à voir si les professionnels seront prêts à payer ce tarif élevé pour un modèle qui, pour certains, peine encore à convaincre.

Lire plus
Intelligence Artificielle

Meta AI : lancement en Europe, mais fonctionnalités limitées, détails et raisons dévoilés

Meta AI : lancement en Europe, mais fonctionnalités limitées, détails et raisons dévoilés

Après près d’un an d’attente, Meta déploie enfin son assistant IA, Meta AI, en Europe. À partir de cette semaine, Meta AI sera intégré à WhatsApp, Facebook, Instagram et Messenger dans 41 pays européens et 21 territoires d’outre-mer. Toutefois, cette version restera limitée aux fonctionnalités de chat textuel, sans les capacités avancées disponibles aux États-Unis.

« Il nous a fallu plus de temps que nous ne l’aurions souhaité pour mettre notre technologie d’IA entre les mains des Européens, car nous continuons à naviguer dans son système réglementaire complexe, mais nous sommes heureux d’y être enfin », a déclaré Meta dans un billet de blog publié jeudi.

Un lancement repoussé à cause des régulateurs européens

Meta AI a été lancé aux États-Unis en 2023, mais son arrivée en Europe a été retardée par les préoccupations des régulateurs en matière de protection des données. L’autorité irlandaise de la protection des données avait demandé à Meta de suspendre la collecte de contenu provenant de Facebook et Instagram pour entraîner ses modèles d’IA.

EMEA Meta AI Header 2

De plus, le modèle multimodal Llama de Meta n’a pas pu être lancé dans l’Union européenne en raison de ces mêmes contraintes réglementaires.

Meta AI en Europe : quelles fonctionnalités disponibles ?

Contrairement à la version américaine, Meta AI en Europe sera uniquement un chatbot textuel. Il pourra :

  • Répondre à des questions et rechercher des informations sur le web.
  • Aider à organiser un voyage ou à générer des idées.
  • Proposer du contenu sur Instagram, en fonction des centres d’intérêt des utilisateurs.

unnamed 1

Mais plusieurs fonctionnalités avancées seront absentes :

Meta veut rassurer les régulateurs

Meta insiste sur le fait que cette version limitée est le résultat d’une collaboration intensive avec les régulateurs européens. L’entreprise affirme vouloir continuer à travailler avec les régulateurs afin de proposer à terme les mêmes fonctionnalités qu’aux États-Unis. Bien que Meta AI soit limité pour le moment, l’entreprise ne cache pas son ambition d’élargir progressivement son offre en Europe.

Meta avait déjà introduit certaines fonctionnalités IA sur ses lunettes connectées Ray-Ban, mais sans les capacités multimodales qui permettent d’analyser ce que l’utilisateur voit.

Meta semble donc suivre une approche progressive et prudente, espérant trouver un équilibre entre innovation et respect des réglementations européennes.

Un premier pas vers une IA plus intégrée ?

Le déploiement de Meta AI en Europe marque une avancée significative pour l’entreprise, qui cherche à rattraper son retard sur OpenAI, Google et Microsoft dans la course à l’intelligence artificielle.

Que pensez-vous de cette version limitée de Meta AI ? Un pas dans la bonne direction ou une IA trop bridée en Europe ?

Lire plus
Intelligence Artificielle

Google Gemini : accès sans compte Google désormais possible, mais avec des limitations

Google Gemini : accès sans compte Google désormais possible, mais avec des limitations

Google continue d’étendre l’accès à Gemini, son assistant IA, en supprimant une contrainte majeure : vous pouvez désormais utiliser Gemini sans compte Google. Jusqu’à présent, se connecter était obligatoire, mais cette restriction disparaît sur la version web.

Dès aujourd’hui, si vous vous rendez sur la page Web de Gemini, vous pouvez commencer à chatter immédiatement, sans devoir vous connecter.

Avantages du mode sans connexion :

  • Pas besoin de compte Google
  • Accès rapide aux fonctionnalités de base
  • Mode « incognito » idéal pour des requêtes discrètes

Limitations du mode invité :

  • Aucun historique de conversation enregistré
  • Pas de génération d’images ni d’ajout de pièces jointes
  • Uniquement le modèle Gemini 2.0 Flash disponible
  • Pas d’accès aux versions avancées de Gemini

Il s’agit donc d’une utilisation simplifiée de Gemini, idéale pour des interactions rapides mais limitée aux fonctions de base.

Screen 2025 03 19 at 11.16.00

Uniquement disponible sur le Web, pas sur mobile

Attention, cette nouveauté ne concerne que la version Web. Sur Android et iOS, il faut toujours se connecter pour utiliser Gemini.

Google teste peut-être cette approche avant de l’étendre aux applications mobiles, mais pour l’instant, les options restent restreintes pour ceux qui ne souhaitent pas utiliser leur compte Google.

Une bonne idée ou un changement inutile ?

L’ouverture de Gemini sans compte Google est une bonne nouvelle pour la confidentialité, permettant de l’utiliser sans laisser de traces. Cependant, les limitations rendent l’expérience moins complète, forçant les utilisateurs à se connecter pour accéder aux meilleures fonctionnalités.

Que pensez-vous de cette nouveauté ? Utile ou trop limité ?

Lire plus
Intelligence Artificielle

Google : l’IA au service de la santé, résumés de recherche, API médicale et modèles Gemma

Google : l'IA au service de la santé, résumés de recherche, API médicale et modèles Gemma

Google continue d’intégrer l’intelligence artificielle dans ses services et annonce des améliorations significatives pour la recherche d’informations médicales. Lors de son événement annuel The Check Up, consacré aux innovations en santé, Google a dévoilé l’extension de ses résumés IA dans les résultats de recherche, rendant ainsi l’accès aux informations plus rapide et plus intuitif.

Désormais, ces résumés générés par l’IA couvriront des milliers de nouveaux sujets médicaux, bien au-delà des simples requêtes sur des maladies courantes, comme la grippe. De plus, Google a annoncé que ces résultats seront bientôt disponibles en espagnol, portugais et japonais, en plus de l’anglais, avec un déploiement initial sur mobile.

En complément de cette amélioration, Google introduit une nouvelle section baptisée « What People Suggest », qui proposera des conseils issus de forums et de plateformes publiques telles que Reddit et Quora. Cette fonctionnalité sera dans un premier temps limitée aux utilisateurs américains effectuant des recherches sur mobile. Toutefois, bien que ces outils puissent faciliter l’accès à des informations médicales pertinentes, Google insiste sur le fait que ses réponses peuvent comporter des erreurs et ne doivent en aucun cas se substituer à un avis médical professionnel.

tipsandtricks large.width 1000.format webp

API, IA, etc. : Google mise beaucoup sur la santé

En parallèle de ces avancées dans la recherche d’informations, Google continue d’innover dans le domaine de la santé connectée et de la recherche médicale. L’entreprise a lancé l’API Medical Records, qui vise à permettre le partage des dossiers médicaux entre différentes applications de santé et de fitness sur Android. Cette initiative s’inscrit dans le cadre de sa plateforme Health Connect, qui cherche à unifier les données médicales et améliorer l’interopérabilité entre les services numériques de santé.

Google mise également sur l’IA pour accélérer la découverte de nouveaux médicaments en mettant à disposition des chercheurs des modèles légers de la famille Gemma. Ces modèles sont conçus pour analyser les interactions moléculaires connues et aider les laboratoires à identifier plus rapidement des solutions thérapeutiques prometteuses.

L’entreprise expérimente aussi un projet ambitieux dans le domaine de l’oncologie pédiatrique. Elle teste actuellement Capricorn, un outil basé sur l’IA conçu pour aider les médecins à proposer des traitements personnalisés aux jeunes patients atteints de cancer. Ce programme pilote est en cours d’expérimentation dans un hôpital aux Pays-Bas, avec l’objectif d’optimiser la prise en charge des enfants malades.

L’ambition de Google de devenir un acteur majeur dans la santé

Ces annonces illustrent l’ambition de Google de devenir un acteur majeur dans l’intégration de l’IA dans le domaine de la santé. Toutefois, des défis subsistent, notamment en ce qui concerne la fiabilité des algorithmes et la protection des données des patients. L’entreprise devra encore convaincre les professionnels du secteur et les autorités de santé de la pertinence et de la sécurité de ses solutions.

Avec ces innovations, Google montre une volonté de transformer l’accès aux informations médicales et de faciliter la recherche en santé. Reste à savoir si ces avancées répondront réellement aux attentes des patients et des professionnels de la médecine.

Lire plus
Intelligence Artificielle

Nvidia GR00T N1 : l’IA au service des robots humanoïdes, une nouvelle ère pour la robotique ?

GR00T N1 Image

Nvidia a lancé Isaac GR00T N1, un modèle de base open source révolutionnaire. Pré-entraîné et personnalisable, il promet d’accélérer le développement de robots humanoïdes. « L’ère de la robotique généraliste est arrivée », a déclaré Jensen Huang, PDG de Nvidia, lors de la conférence GTC 2025.

« Avec Nvidia Isaac GR00T N1 et les nouveaux frameworks de génération de données et d’apprentissage robotique, les développeurs de robotique du monde entier ouvriront la prochaine frontière de l’ère de l’IA ».

GR00T N1 s’appuie sur une architecture à double système inspirée de la cognition humaine :

  • Système 1 : Un modèle d’action rapide, analogue aux réflexes humains, entraîné sur des données de démonstrations humaines et de simulations Omniverse.
  • Système 2 : Un modèle de raisonnement lent, basé sur la vision et le langage, qui planifie les actions avant de les transmettre au système 1.

Huang a démontré les capacités de GR00T N1 avec le robot NEO Gamma de 1X, capable de tâches de rangement autonomes. D’autres entreprises, comme Boston Dynamics (Atlas), Agility Robotics, Mentee Robotics et Neura Robotics, ont également testé ce modèle.

« L’avenir des humanoïdes réside dans l’adaptabilité et l’apprentissage », déclare Bernt Børnich, PDG de 1X Technologies. « Le modèle GR00T N1 de NVIDIA représente une avancée majeure pour le raisonnement et les compétences des robots. Avec une quantité minimale de données de post-entraînement, nous avons pu le déployer entièrement sur NEO Gamma, poursuivant ainsi notre mission de créer des robots qui ne sont pas des outils, mais des compagnons capables d’aider les humains de manière significative et incommensurable ».

Personnalisation et accessibilité de GR00T N1

Bien que pré-entraîné, GR00T N1 peut être adapté à des besoins spécifiques via le post-entraînement. Les données d’entraînement et les scénarios d’évaluation sont disponibles sur Hugging Face et GitHub, facilitant ainsi son adoption.

Isaac GR00T N1 marque une étape cruciale pour la robotique humanoïde. Son approche open source et personnalisable ouvre la voie à des robots plus intelligents et adaptables, capables d’assister les humains dans de nombreuses tâches.

Nvidia a mis les données d’entraînement GR00T N1 et les scénarios d’évaluation des tâches disponibles au téléchargement via Hugging Face et GitHub.

Lire plus