ChatGPT Search : Des résultats rapides, mais peu fiables selon une étude

par Yohann Poiron le 4 décembre 2024

Lancé en octobre dernier par OpenAI, l’outil ChatGPT Search ambitionnait de fournir des réponses rapides et précises, accompagnées de liens vers des sources fiables. Cependant, une récente étude menée par le Tow Center for Digital Journalism de l’Université de Columbia révèle que ChatGPT Search peine à offrir des réponses véritablement fiables.

L’étude a évalué la capacité de ChatGPT Search à identifier correctement les sources de citations extraites d’articles. Pour ce faire, les chercheurs ont soumis 200 citations issues de 20 publications différentes au chatbot. Ces citations comprenaient des extraits provenant de médias partenaires d’OpenAI, de plaignants ayant intenté des actions en justice contre l’entreprise, ainsi que de médias indépendants ayant bloqué l’accès à leurs données.

Les résultats montrent que ChatGPT Search a échoué à fournir des réponses précises dans 153 cas. Pire encore, l’outil n’a reconnu son incapacité à répondre correctement qu’à sept reprises, se contentant d’énoncer des réserves comme « il semble », « c’est possible » ou « je n’ai pas trouvé l’article exact ».

ChatGPT Search, exemples marquants d’erreurs et d’attributions incorrectes

L’étude documente plusieurs exemples où ChatGPT Search a généré des réponses incorrectes ou trompeuses :

Erreur d’attribution : Une citation issue d’une lettre d’opinion publiée par l’Orlando Sentinel a été attribuée à tort à un article de Time Magazine.
Lien vers un site plagiaire : En cherchant la source d’une citation du New York Times sur des baleines en voie d’extinction, l’outil a renvoyé un lien vers un site tiers ayant entièrement plagié l’article original.

Ces erreurs ne sont pas isolées et révèlent une tendance inquiétante pour un outil censé s’appuyer sur des sources fiables et bien identifiées.

Face aux critiques, OpenAI a répondu que l’étude de Columbia n’utilisait pas une méthodologie représentative des usages réels de ChatGPT Search. Dans une déclaration au Columbia Journalism Review, l’entreprise a indiqué que les résultats seraient difficiles à corriger sans un accès complet aux données et à la méthodologie de l’étude.

Malgré cela, OpenAI a promis de continuer à améliorer la précision de son outil, tout en soulignant les défis inhérents à la correction des erreurs d’attribution.

Un impact sur la crédibilité et les éditeurs

Les problèmes de ChatGPT Search ne se limitent pas à OpenAI : ils risquent d’avoir un impact négatif sur les éditeurs eux-mêmes. Lorsque des articles sont mal attribués ou lorsque des sites plagiaires sont mis en avant, cela compromet la réputation des médias légitimes tout en renforçant les mauvaises pratiques en ligne.

De plus, ces erreurs pourraient nuire à la confiance des utilisateurs envers ChatGPT Search, d’autant plus que l’outil prétend fournir des réponses rapides et fiables basées sur des sources authentiques.

Un avenir incertain pour ChatGPT Search

En dépit de ses promesses, ChatGPT Search semble encore loin d’être une alternative crédible à des moteurs de recherche établis comme Google. La capacité de générer des réponses fluides ne suffit pas si l’exactitude et la transparence font défaut.

Pour regagner la confiance des utilisateurs et des éditeurs, OpenAI devra non seulement améliorer son outil, mais aussi renforcer ses partenariats avec les médias pour garantir une utilisation éthique et responsable de leurs contenus.

En attendant, cette étude souligne une fois de plus les défis de l’intégration de l’intelligence artificielle dans le domaine de la recherche d’information et de l’attribution des contenus. OpenAI devra redoubler d’efforts pour transformer ChatGPT Search en un outil véritablement fiable.

Lire plus

Intelligence Artificielle

Amazon Nova : Modèles d’analyse et de création de contenu alimentés par l’IA

par Yohann Poiron le 4 décembre 2024

Lors de la conférence AWS re:Invent à Las Vegas, Amazon a annoncé sa nouvelle famille de modèles d’IA baptisée Nova, qui sera intégrée à la bibliothèque de modèles Amazon Bedrock sur AWS. Ce lancement stratégique marque une étape clé pour Amazon, qui se positionne comme un acteur incontournable dans la course à l’intelligence artificielle, rivalisant avec OpenAI, Google, et d’autres.

La gamme Nova se distingue par deux catégories principales : les modèles d’analyse et les modèles de création de contenu.

Les modèles d’analyse (“Understanding Models”)

Trois modèles d’analyse sont disponibles dès aujourd’hui :

Nova Micro : Un modèle textuel optimisé pour la rapidité et les coûts réduits.
Nova Lite : Un modèle multimodal à très faible coût, capable de traiter des images, des vidéos et du texte pour générer du contenu textuel.
Nova Pro : Un modèle multimodal hautement performant, adapté à une variété de tâches complexes.

En début d’année 2025, Amazon prévoit d’ajouter le modèle Nova Premier, conçu pour des tâches complexes nécessitant des capacités avancées de raisonnement.

Les modèles de création de contenu

Les modèles axés sur la génération de contenu comprennent :

Nova Canvas : Un modèle de génération d’images avec des capacités de filigranage pour encourager une utilisation responsable.
Nova Reel : Un modèle avancé de génération vidéo, permettant la création de vidéos dynamiques avec des fonctionnalités comme le panoramique et le zoom 360°.

Amazon a partagé un exemple de publicité fictive pour une marque de pâtes, illustrant les capacités créatives de Nova Reel.

Des avancées prévues pour 2025

D’ici la fin de l’année prochaine, Amazon prévoit de lancer deux nouveaux modèles innovants :

Un modèle speech-to-speech : Permettant des interactions vocales naturelles.
Un modèle “multimodal-to-multimodal” : Capable de traiter et de générer du texte, des images, de l’audio et des vidéos, facilitant des traductions et des modifications transparentes entre les différents formats.

Un supercluster d’IA alimenté par Trainium 2

Amazon a également dévoilé la construction d’un supercluster d’IA massif, en partenariat avec Anthropic, une startup spécialisée dans l’IA dans laquelle Amazon a investi 8 milliards de dollars. Ce supercluster, qui repose sur les puces Trainium 2 d’Amazon, devrait devenir le plus grand cluster d’IA disponible à ce jour, selon Amazon.

Anthropic, qui développe actuellement des modèles d’IA de nouvelle génération, utilisera cette infrastructure pour former et déployer ses modèles futurs.

Un avantage stratégique : La confiance des grandes entreprises

Alors que la concurrence s’intensifie dans le domaine de l’IA, Amazon bénéficie d’un avantage stratégique grâce à la domination d’AWS dans l’infrastructure internet. De nombreuses grandes entreprises pourraient être enclines à adopter les solutions d’IA d’Amazon, bénéficiant de la fiabilité et de la réputation déjà établies de la plateforme.

Lors de la conférence, un cadre d’Apple est monté sur scène pour expliquer comment la société utilise les puces d’IA personnalisées d’Amazon, soulignant encore davantage la portée et l’impact de la technologie d’Amazon dans les secteurs les plus exigeants.

Alexa 2.0 : L’assistant vocal IA d’Amazon en attente de lancement

En parallèle de ces annonces, Amazon travaille sur une version remaniée et boostée par l’IA de son assistant vocal Alexa. Bien que ce lancement ait été initialement prévu pour cet automne, il semble maintenant reporté à 2025, renforçant l’engagement de l’entreprise à intégrer l’IA dans des produits de grande consommation.

Avec la gamme Nova, un supercluster d’IA de pointe, et des partenariats stratégiques, Amazon se positionne pour devenir un leader de l’intelligence artificielle. Grâce à des outils robustes et à une infrastructure éprouvée, l’entreprise vise à offrir des solutions qui révolutionneront la façon dont les entreprises et les consommateurs interagissent avec la technologie.

Lire plus

Intelligence Artificielle

5 fonctions avancées de Google Gemini qui transforment la productivité

par Yohann Poiron le 3 décembre 2024

Google Gemini Advanced est la version premium de Google Gemini, dotée de fonctionnalités améliorées et d’une puissance de traitement nettement accrue, idéale pour les utilisateurs qui exploitent régulièrement les outils d’IA.

Alimenté par le modèle de langage Gemini 1.5 Pro, cette version avancée est destinée à transformer l’expérience utilisateur en matière de productivité et de créativité, que ce soit pour des chercheurs, des professionnels du business ou des passionnés de technologie.

Une avancée de puissance avec le modèle Gemini 1.5 Pro

Au cœur de Google Gemini Advanced se trouve le modèle de langage Gemini 1.5 Pro, une prouesse technologique qui repousse les limites des capacités de l’IA. Ce modèle offre une fenêtre contextuelle impressionnante d’un million de tokens, ce qui permet une interaction fluide avec de vastes documents et ensembles de données. Voici les principales implications de cette capacité élargie :

Analyse de livres entiers jusqu’à 1 500 pages sans segmentation
Examen de documents juridiques ou de rapports complexes dans leur intégralité
Synthèse de plusieurs rapports volumineux en parallèle

Pour les professionnels de l’enseignement supérieur, du droit et de l’intelligence économique, cette capacité d’analyse complète ouvre la voie à des recherches approfondies et à des insights plus poussés sans le besoin de diviser les textes manuellement.

Gestion et analyse de documents sans effort

Gemini Advanced facilite également la gestion des documents avec une intégration transparente à Google Drive, créant un écosystème puissant pour l’analyse et la gestion des fichiers :

Téléversement et analyse directe de gros documents dans la plateforme
Accès aux fichiers Google Drive sans quitter l’interface de Gemini
Organisation et catégorisation des documents en fonction des insights générés par l’IA
Collaboration en équipe à travers des dossiers partagés

Screen 2024 12 03 at 12.40.56 — Accès à Google Drive depuis Gemini

Ce workflow simplifié est particulièrement avantageux pour les chercheurs, analystes d’affaires et toute personne manipulant de grandes quantités de données textuelles.

Productivité accrue grâce à l’intégration aux services Google

L’une des fonctionnalités phares de Gemini Advanced est son intégration profonde avec l’écosystème Google, permettant d’étendre les capacités de l’IA à travers des services populaires :

Google Agenda : planification et organisation assistées par IA
Google Keep: prise de notes intelligente et organisation des idées
Gmail : assistance avancée à la rédaction et suggestions de réponse
Google Docs : export direct des contenus générés pour l’édition collaborative
YouTube : analyse et résumé de contenu vidéo enrichis

En intégrant ces capacités dans les outils quotidiens, Gemini Advanced transforme les workflows et améliore la productivité en permettant des transitions fluides entre les tâches.

Personnalisation avancée : des fonctionnalités sur mesure

Reconnaissant que chaque utilisateur a des besoins spécifiques, Google Gemini Advanced offre des options de personnalisation pour adapter l’IA aux exigences particulières de chacun :

Création de « Gems » pour automatiser les tâches récurrentes, comme la génération de rapports hebdomadaires
Personnalisation des prompts pour façonner la personnalité et le style de réponse de l’IA
Conception de chatbots spécialisés pour des projets spécifiques.Mise en place de workflows personnalisés combinant plusieurs fonctions d’IA

Cette personnalisation garantit que Google Gemini Advanced s’adapte aux besoins uniques de chaque utilisateur, que ce soit un créatif, un analyste de données ou un stratège d’affaires.

Au-delà du texte : des fonctionnalités multimodales

Google Gemini Advanced dépasse les interactions textuelles traditionnelles en offrant une gamme de fonctionnalités multimodales :

Génération d’images : création de contenu visuel à partir de descriptions textuelles
Extraction de texte : récupération des informations pertinentes depuis des images et documents
Chat vocal : interaction mains libres avec l’IA (disponible sur Android avec Gemini Live)
Analyse multimodale : combinaison de texte, image, et potentiellement audio pour des insights complets

Ces fonctionnalités élargies ouvrent de nouvelles perspectives pour les créatifs, les chercheurs, et quiconque souhaite utiliser l’IA dans divers types de médias.

Un essai gratuit pour découvrir Google Gemini Advanced

En plus de ses fonctionnalités puissantes, Google offre un essai gratuit d’un mois pour que les utilisateurs puissent tester les capacités impressionnantes du système avancé d’IA qu’ils ont développé.

Google Gemini Advanced se révèle ainsi être un outil indispensable pour ceux qui cherchent à exploiter pleinement le potentiel de l’IA dans leur travail quotidien, offrant des gains de productivité, des flux de travail simplifiés, et des analyses plus approfondies dans différents domaines.

Lire plus

Intelligence Artificielle

Olympus : Amazon développe un modèle d’IA pour l’analyse vidéo et image

par Yohann Poiron le 2 décembre 2024

Amazon serait en train de travailler sur un modèle d’intelligence artificielle spécifique aux vidéos et images, connu sous le nom de « Olympus », selon un rapport de The Information. Ce projet pourrait marquer une nouvelle étape pour le géant du e-commerce, qui cherche à réduire sa dépendance à son partenaire actuel, la startup Anthropic.

Le modèle Olympus serait capable d’analyser des contenus vidéo et image de manière avancée. Grâce à cette technologie, les utilisateurs pourraient effectuer des recherches spécifiques en utilisant des requêtes textuelles simples, comme demander à voir « la scène où un personnage entre dans la pièce » dans une vidéo.

Actuellement, Amazon repose fortement sur les modèles Claude d’Anthropic, y compris sur son service Amazon Web Services (AWS). Avec Olympus, Amazon pourrait rivaliser directement avec d’autres géants de l’IA en offrant une solution propriétaire dans le domaine de l’analyse multimédia.

Annonce prévue lors de l’événement AWS re:Invent

Des sources proches du projet suggèrent que Amazon pourrait officiellement annoncer Olympus dès cette semaine lors de sa conférence annuelle AWS re:Invent. Cet événement rassemble des clients et des partenaires pour présenter les nouveautés et stratégies d’AWS.

Cette révélation intervient peu après que Amazon ait renforcé son partenariat avec Anthropic, investissant 4 milliards de dollars dans la startup en échange d’une participation minoritaire. Cet accord inclut un partenariat stratégique pour développer des modèles d’IA de haute performance, tout en utilisant AWS comme fournisseur de cloud principal.

We're expanding our collaboration with AWS.

This includes a new $4 billion investment from Amazon and establishes AWS as our primary cloud and training partner.https://t.co/npE4dbM5jj

— Anthropic (@AnthropicAI) November 22, 2024

Un projet qui reflète une double stratégie

D’un côté, Amazon continue de collaborer étroitement avec Anthropic, offrant à ses clients AWS un accès exclusif à certaines fonctionnalités personnalisées via Amazon Bedrock, un service qui permet de construire des modèles d’IA sur mesure.

D’un autre côté, le développement d’Olympus montre que Amazon souhaite établir une solution autonome, probablement pour mieux répondre à ses besoins internes et offrir des services innovants à ses clients AWS.

Claude vs Olympus: quelles ambitions pour Amazon ?

Anthropic a déjà présenté sa gamme de modèles multimodaux Claude 3 plus tôt cette année, et il reste à voir si Amazon continuera de s’appuyer sur ces modèles ou si Olympus représentera une rupture technologique majeure.

Avec Olympus, Amazon semble viser une indépendance stratégique dans le domaine de l’intelligence artificielle, tout en diversifiant ses capacités, notamment dans l’analyse et la recherche de contenu visuel.

Une annonce très attendue

L’arrivée d’Olympus pourrait bouleverser le paysage des modèles d’IA multimodaux. Alors que des entreprises comme Google et Microsoft investissent massivement dans des modèles capables de traiter des contenus visuels et textuels, Amazon cherche à s’imposer avec une solution puissante et propriétaire.

L’annonce d’Olympus lors de AWS re:Invent sera un moment clé, et il reste à voir si ce modèle pourra rivaliser avec les leaders actuels ou si Amazon continuera de jongler entre sa collaboration avec Anthropic et ses ambitions internes.

Lire plus

Intelligence Artificielle

Midjourney explore le matériel informatique avec une équipe dédiée

par Yohann Poiron le 1 décembre 2024

Célèbre pour être l’un des meilleurs générateurs d’images basés sur l’IA, Midjourney, explore de nouveaux horizons en se lançant dans le domaine du matériel informatique. Cette annonce a été faite sur X (anciennement Twitter), où l’entreprise a sollicité des candidatures pour rejoindre sa nouvelle équipe dédiée au hardware.

Pour l’instant, les détails sur le type de matériel que Midjourney envisage de développer restent flous. Dans des publications ultérieures, l’entreprise a précisé qu’il ne s’agira pas d’un pendentif et qu’elle envisage plusieurs « formats » différents. Midjourney a également laissé entendre qu’elle souhaitait créer quelque chose de plus immersif, bien qu’un post suggérant que ce matériel pourrait être quelque chose « à l’intérieur de soi » semble plus humoristique qu’informatif.

Bien que l’entreprise cherche à recruter pour son équipe matériel, elle a déjà attiré un nom important dans le domaine. Ahmad Abbas, ancien responsable de l’ingénierie matérielle pour le casque Apple Vision Pro, a rejoint Midjourney l’année dernière en tant que chef de la division matériel.

Abbas, qui a travaillé avec le PDG de Midjourney, David Holz, chez Leap Motion, apporte avec lui une solide expérience en réalité virtuelle et en ingénierie matérielle, ce qui pourrait soutenir les ambitions audacieuses de Midjourney.

We're officially getting into hardware. If you're interested in joining the new team in San Francisco please email us at hardware@midjourney.com

— Midjourney (@midjourney) August 28, 2024

Contexte et défis pour Midjourney

L’incursion de Midjourney dans le matériel intervient à un moment où l’entreprise fait face à une concurrence accrue de la part d’autres créateurs d’images basés sur l’IA, tels que Flux, intégré sur X via le chatbot Grok, ainsi que le récemment amélioré Ideogram. Diversifier ses activités en se lançant dans le matériel semble être une stratégie logique, mais le marché des dispositifs IA s’avère difficile. C’est peut-être pour cette raison que Midjourney a explicitement rejeté l’idée de développer un pendentif, un format adopté par d’autres startups comme Humane avec son AI Pin.

Malgré l’enthousiasme suscité parmi les fans de Midjourney, l’entreprise devra innover pour que son matériel soit perçu comme intéressant, utile, et bien accueilli sur le marché.

Même des géants de la tech comme Meta ou Snapchat ont du mal à atteindre leurs objectifs de vente pour leurs dispositifs IA, tels que les lunettes connectées. Cependant, il reste intéressant d’imaginer ce que Midjourney pourrait proposer : un matériel permettant une interaction plus directe avec les visuels générés par l’IA, ou même une incursion dans le domaine du métavers, autrefois très attendu, mais aujourd’hui un peu en retrait.

Les défis du matériel IA

Le projet de Midjourney de se lancer dans le matériel est ambitieux et plein de promesses, mais il est aussi semé d’embûches. La clé du succès résidera dans la capacité de l’entreprise à offrir une innovation véritablement disruptive, qui saura captiver non seulement ses utilisateurs fidèles, mais aussi un public plus large, dans un marché où même les grands noms peinent à s’imposer.

Lire plus

Intelligence Artificielle

IA : La fin de l’ère de « scalabilité » et l’avènement du « scalabilité de l’inférence » ?

par Yohann Poiron le 30 novembre 2024

Les récentes discussions autour de l’extension des Large Language Model (LLM) révèlent un tournant majeur dans la recherche de l’intelligence artificielle (IA) générale, aussi appelée intelligence générale artificielle (AGI). Depuis des années, la stratégie dominante a consisté à faire évoluer les modèles en augmentant le nombre de paramètres et en les entraînant sur des volumes de données toujours plus importants, dans l’espoir que cela déboucherait sur une intelligence plus avancée. Cependant, de récents rapports et des avis d’experts suggèrent que cette approche atteint peut-être ses limites. OpenAI, par exemple, revoit sa stratégie après avoir constaté que les gains de performance de son futur modèle « Orion » sont modestes par rapport aux percées des modèles précédents.

Ilya Sutskever, ancien scientifique en chef d’OpenAI, autrefois fervent défenseur de l’idée que la simple « scalabilité » permettrait d’atteindre une intelligence plus avancée, a récemment fait part d’un changement de perspective. Il a affirmé que l’industrie de l’IA entre dans une « ère de découverte et de recherche » où il ne s’agit plus seulement d’augmenter la taille des modèles, mais de mieux cibler les objectifs à « scaler ». Ce passage d’une « ère de l’échelle » à une ère d’exploration de nouvelles techniques indique que des approches novatrices seront nécessaires pour continuer à débloquer le potentiel de l’IA.

L’une des avancées clés dans cette nouvelle direction est le concept de « scalabilité de l’inférence ». OpenAI a récemment introduit des modèles « o1 » qui reposent sur cette idée : permettre aux IA de prendre plus de temps pour réfléchir à une tâche en phase d’inférence (lorsque le modèle génère des réponses). Plutôt que de simplement augmenter la taille des modèles, la scalabilité de l’inférence permet aux modèles d’utiliser davantage de ressources de calcul au moment où ils génèrent leurs réponses. En conséquence, cette méthode permet aux modèles de passer plus de temps à affiner leurs réponses et a déjà montré qu’elle produisait des résultats plus précis pour des tâches complexes.

D’autres géants technologiques, comme Google et Anthropic, explorent également la scalabilité de l’inférence pour améliorer les performances des modèles sans pour autant augmenter leur taille. Le chercheur d’OpenAI, Noam Brown, a même évoqué l’idée que les futures versions des modèles pourraient être conçues pour réfléchir pendant des jours, voire des semaines, ouvrant la voie à des solutions pour des problèmes complexes dans des domaines comme la médecine, l’énergie propre, et les mathématiques.

Bien que ce type d’inférence approfondie soit coûteux en ressources, il pourrait être justifié par son potentiel à résoudre des problématiques de grande envergure.

Des débats autour de l’IA artificielle (AGI)

Cependant, certains restent sceptiques face à la scalabilité de l’inférence comme solution pour atteindre l’AGI. Les critiques soutiennent que l’amélioration des capacités de génération de réponses ne suffira peut-être pas à développer la flexibilité et l’adaptabilité cognitives nécessaires pour une intelligence véritablement générale. François Chollet, chercheur chez Google, et Yann LeCun, scientifique en chef de l’IA chez Meta, expriment leurs réserves, estimant que sans nouvelles architectures ou méthodes fondamentales, l’augmentation de la taille ou de la durée d’inférence des modèles actuels ne permettra pas de combler le fossé vers l’AGI.

Alors que les entreprises épuisent les données disponibles pour entraîner leurs modèles, la pression pour innover se fait plus forte. Que la scalabilité de l’inférence ou d’autres approches novatrices permettent un véritable bond en avant reste incertain, mais il est de plus en plus évident que l’ère où l’on se contentait d’agrandir les modèles touche à sa fin. La question de savoir si l’AGI est véritablement à portée de main, ou encore très éloignée, ne pourra être éclaircie que dans les prochaines années.

Lire plus

Intelligence Artificielle

Gemini : Analyse de code avancée pour les développeurs

par Yohann Poiron le 30 novembre 2024

Google semble sur le point de donner à son assistant d’intelligence artificielle,Gemini, un nouvel atout pour absorber et expliquer du code logiciel.

Selon un rapport d’Android Authority, une fonctionnalité encore non publiée permettra à Gemini d’analyser des dossiers entiers de code, une avancée qui pourrait rendre cet outil beaucoup plus utile pour les développeurs travaillant sur des projets complexes.

Actuellement, Gemini est limité à l’analyse d’un seul fichier à la fois, ce qui peut freiner son utilité pour les développeurs confrontés à de vastes bases de code. La mise à jour détectée dans les lignes de code inédites de Google permettra à Gemini de traiter un dossier entier, jusqu’à 1 000 fichiers et 100 Mo, en une seule fois.

Bien que cette évolution ne soit pas révolutionnaire en soi, elle vise à rattraper des concurrents comme ChatGPT ou GitHub Copilot, qui offrent déjà des fonctionnalités analogues. La capacité à analyser un codebase entier permettra à Gemini de fournir une vision plus globale d’un projet, d’en expliquer les mécanismes et de proposer des améliorations potentielles.

Un gain de temps considérable pour les développeurs avec Gemini

En rendant possible le téléchargement d’un dossier complet, Gemini pourra accélérer considérablement des processus comme le débogage ou l’optimisation. Au lieu de passer en revue les fichiers un par un, l’assistant pourra offrir une analyse transversale et détecter des patterns ou des faiblesses globales dans le projet.

Cela pourrait également rendre plus fluide la collaboration entre développeurs et IA, notamment pour comprendre des projets open-source complexes ou résoudre des bugs récurrents.

Bien que cette amélioration soit prometteuse, elle comporte quelques limites. Une capacité maximale de 1 000 fichiers et 100 Mo par dossier sera suffisante pour les petits projets ou les développeurs indépendants, mais pourrait s’avérer insuffisante pour des bases de code à l’échelle entreprise, où les projets peuvent compter des milliers de fichiers et dépasser largement cette taille.

De plus, comme pour toute IA, l’intervention humaine reste essentielle. Bien que Gemini puisse suggérer des améliorations ou corriger des bugs, la vérification par un développeur humain sera toujours nécessaire pour garantir la qualité et la fiabilité du code.

Un outil utile pour les développeurs moins expérimentés

Cette mise à jour devrait être particulièrement utile pour les développeurs juniors ou les petites équipes, qui manquent parfois de ressources pour analyser ou optimiser leur code. Imaginez un étudiant travaillant sur un projet complexe ou un développeur indépendant cherchant à résoudre des bugs dans une application : avec Gemini, poser des questions en langage naturel sur l’ensemble d’un projet deviendra plus simple et plus intuitif.

Le rapport ne précise pas quand cette fonctionnalité sera déployée ni si elle sera réservée aux abonnés premium. Cependant, elle suscite déjà un vif intérêt chez les développeurs qui préfèrent utiliser les outils de Google plutôt que ceux de concurrents comme OpenAI ou Microsoft.

En conclusion, cette évolution de Gemini marque un pas important pour rendre le développement de logiciels plus accessible et plus efficace. Bien qu’il ne remplacera pas les développeurs humains, cet outil pourrait devenir un allié précieux pour simplifier les tâches répétitives et accélérer les flux de travail. Les amateurs de technologie attendent avec impatience l’annonce officielle de cette mise à jour par Google.

Lire plus

Intelligence Artificielle

ChatGPT Plus : Plus précis que les médecins pour le diagnostic ?

par Yohann Poiron le 29 novembre 2024

Une nouvelle étude menée par des chercheurs de l’UVA Health révèle que ChatGPT Plus, un modèle de langage avancé, a obtenu une précision diagnostique supérieure à celle des médecins travaillant seuls dans certains cas complexes.

L’étude a mobilisé 50 médecins spécialisés en médecine familiale, interne et d’urgence, répartis en deux groupes. La moitié des participants a utilisé ChatGPT Plus pour diagnostiquer des cas cliniques complexes, tandis que l’autre moitié s’est appuyée sur des méthodes conventionnelles, comme les sites de référence médicale ou Google.

Les résultats montrent une précision similaire entre les deux groupes lorsqu’ils ont travaillé seuls. Cependant, lorsque ChatGPT a fonctionné indépendamment des médecins, il a surpassé les deux groupes.

« Notre étude démontre que l’IA seule peut être un outil puissant et efficace pour poser des diagnostics », explique Andrew S. Parsons, professeur de médecine à l’Université de Virginie et co-directeur du Clinical Reasoning Research Collaborative. « Nous avons été surpris de constater que l’ajout d’un médecin réduisait la précision diagnostique, bien que cela améliorait l’efficacité. Cela souligne la nécessité d’une formation formelle pour intégrer l’IA dans la pratique clinique ».

With many hospitals already using AI for patient care, a new study found that using Chat GPT Plus does not significantly improve doctors’ diagnoses. #MedX 🔎 https://t.co/YRzZcrywv3 pic.twitter.com/m0AfoDBXhb

— UVA Health (@uvahealthnews) November 13, 2024

Des résultats impressionnants pour ChatGPT Plus

Lors des tests, ChatGPT Plus a atteint une précision diagnostique médiane de plus de 92 % lorsqu’il fonctionnait seul. Dans le cadre de la comparaison entre médecins :

Le groupe utilisant ChatGPT Plus a obtenu une précision médiane de 76,3 %, contre 73,7 % pour ceux utilisant des approches classiques.
Les diagnostics basés sur ChatGPT Plus ont été posés plus rapidement : en moyenne 519 secondes, contre 565 secondes pour le groupe conventionnel.

Ces résultats proviennent d’un essai contrôlé randomisé mené dans trois grands hôpitaux : UVA Health, Stanford, et le Beth Israel Deaconess Medical Center de Harvard. Les participants ont travaillé sur des vignettes cliniques basées sur des cas réels, intégrant l’historique du patient, les examens physiques et les résultats de laboratoire.

Les limites et l’avenir de l’IA en médecine

Cependant, les chercheurs soulignent que la performance exceptionnelle de ChatGPT Plus peut être liée aux prompts spécifiques utilisés dans l’étude. En conditions réelles, où les facteurs contextuels et le raisonnement clinique jouent un rôle crucial, les performances pourraient différer.

« Alors que l’IA s’intègre davantage dans le système de santé, il est essentiel de comprendre comment tirer parti de ces outils pour améliorer les soins aux patients et l’expérience des médecins », précise Parsons.

L’étude met en lumière un point clé : les médecins devront apprendre à maîtriser l’utilisation des IA comme ChatGPT, notamment en optimisant les prompts pour en tirer le meilleur parti.

Un avenir prometteur, mais encore incertain

Bien que ces résultats soient prometteurs, ils soulignent également que l’optimisation de la collaboration entre médecins et IA reste un défi. Cette étude constitue une étape importante dans l’évaluation de l’impact des outils d’IA sur la médecine moderne, mais appelle à davantage de recherche et de formation pour maximiser leur potentiel dans les environnements cliniques réels.

Avec l’évolution rapide des technologies d’IA, des ajustements seront nécessaires pour s’assurer qu’elles complètent efficacement l’expertise humaine, tout en maintenant un niveau élevé de sécurité et de soin pour les patients.

Lire plus

Intelligence Artificielle

Anthropic révolutionne l’intégration des données pour l’IA avec le Model Context Protocol

par Yohann Poiron le 28 novembre 2024

Anthropic poursuit son avancée dans le domaine de l’intelligence artificielle avec l’annonce du Model Context Protocol (MCP), un outil open source destiné à simplifier la manière dont les systèmes d’IA interagissent avec les sources de données.

Conçu pour être un standard universel, MCP permet aux modèles d’IA, comme Claude AI, de se connecter directement à des bases de données, des fichiers ou des API, rendant l’accès aux données plus fluide et l’intégration plus simple.

Jusqu’à présent, les développeurs devaient écrire du code spécifique pour chaque source de données à laquelle ils souhaitaient connecter leurs modèles d’IA. Cette approche morcelée rallongeait les délais de développement et complexifiait la gestion des systèmes d’IA manipulant plusieurs ensembles de données. Avec MCP, cette difficulté pourrait devenir un problème du passé.

Selon Alex Albert, responsable des relations Claude chez Anthropic, MCP offre une solution innovante : « Les développeurs peuvent intégrer MCP une seule fois dans leur système d’IA, puis connecter leurs modèles à n’importe quelle source de données via un protocole standardisé ».

Here’s a quick demo using the Claude desktop app, where we’ve configured MCP:

Watch Claude connect directly to GitHub, create a new repo, and make a PR through a simple MCP integration.

Once MCP was set up in Claude desktop, building this integration took less than an hour. pic.twitter.com/xseX89Z2PD

— Alex Albert (@alexalbert__) November 25, 2024

Une approche universelle pour les données et l’IA

L’un des atouts majeurs de MCP est son ambition de fonctionner non seulement avec les modèles d’IA Claude d’Anthropic, mais aussi avec toutes sortes de systèmes d’IA et de sources de données. En proposant un protocole universel, MCP permet aux agents d’IA de maintenir leur contexte lorsqu’ils passent d’un outil ou d’une base de données à une autre, remplaçant ainsi les intégrations fragmentées actuelles par une architecture plus efficace et pérenne.

Contrairement à la fonctionnalité récemment testée par OpenAI, « Work with Apps », qui cible spécifiquement certaines applications de codage sur Mac, MCP se veut agnostique vis-à-vis des plateformes et extensible à de nombreux cas d’usage.

Adoption et applications dans l’industrie

Des entreprises comme Replit, Codeium et Sourcegraph utilisent déjà MCP pour créer des agents d’IA avancés capables d’exécuter des tâches complexes. Ces premières intégrations illustrent le potentiel de MCP à simplifier le développement de solutions basées sur l’IA et à améliorer la productivité des entreprises.

MCP pourrait également devenir un pilier du développement de l’IA agentive, une technologie émergente où les systèmes d’IA agissent de manière autonome au nom des utilisateurs. Grâce à MCP, ces agents pourraient accéder à des sources de données variées et exécuter des tâches avec une plus grande efficacité et précision.

Une évolution majeure de l’infrastructure de l’IA

Anthropic voit MCP comme bien plus qu’un simple outil d’intégration. L’entreprise imagine ce protocole comme la base d’une nouvelle génération de systèmes d’IA interopérables, capables de maintenir leur contexte à travers différentes bases de données et outils.

« Plutôt que de maintenir des connecteurs séparés pour chaque source de données, les développeurs peuvent désormais travailler avec un protocole standard », explique Anthropic. « À mesure que l’écosystème mûrit, les systèmes d’IA pourront conserver leur contexte lorsqu’ils interagissent avec différents outils et ensembles de données ».

Une avancée majeure pour les développeurs

L’arrivée de MCP représente une avancée significative pour la communauté des développeurs d’IA. En éliminant la nécessité de coder des intégrations redondantes et en créant un standard universel, Anthropic accélère le déploiement de solutions d’IA plus fiables et plus rapides.

Avec des serveurs MCP préconfigurés pour des plateformes populaires, telles que Google Drive, GitHub, Slack et Postgres, les développeurs peuvent dès à présent commencer à tirer parti de ce protocole. Les entreprises, comme les développeurs indépendants, ont également la possibilité de créer leurs propres serveurs MCP en utilisant Python ou TypeScript.

Le Model Context Protocol d’Anthropic marque une étape importante dans la standardisation de l’intégration des données pour l’IA. En facilitant la connexion des modèles à des sources de données multiples, MCP prépare le terrain pour une IA non seulement plus intelligente, mais aussi plus adaptative et collaborative.

À mesure que son adoption s’étend, MCP pourrait devenir un outil incontournable pour le développement des applications d’IA de prochaine génération, rendant l’interaction entre IA, outils et données plus fluide que jamais.

Lire plus

Intelligence Artificielle

Grok : l’IA de Musk bientôt en application autonome pour rivaliser avec ChatGPT ?

par Yohann Poiron le 28 novembre 2024

Le chatbot développé par xAI, Grok, pourrait bientôt franchir une nouvelle étape importante en lançant une application autonome dès décembre, selon un rapport du Wall Street Journal. Cette initiative vise à positionner xAI en concurrent direct d’OpenAI et de son célèbre ChatGPT, tout en cherchant à étendre l’influence de Grok au-delà de l’écosystème de X (anciennement Twitter).

Elon Musk a fondé xAI comme alternative à OpenAI, une entreprise qu’il a contribué à créer avant de s’en éloigner en raison de divergences idéologiques. Avec ce projet, Musk semble vouloir entrer en concurrence directe avec des géants comme OpenAI, Google (avec Gemini), et Anthropic (avec Claude), tous déjà bien implantés sur le marché des chatbots grâce à leurs applications autonomes et produits gratuits.

Actuellement, Grok est uniquement accessible via l’application X, mais réservé aux abonnés Premium et Premium+ de la plateforme. Ce modèle payant limite son adoption face à des solutions comme ChatGPT ou Gemini, qui proposent des versions gratuites pour attirer un large public.

Selon des sources anonymes citées par le Wall Street Journal, l’application autonome de Grok serait un moyen pour xAI de se démarquer et de gagner du terrain. En parallèle, Grok alimente déjà des fonctionnalités de support client pour Starlink, le service Internet par satellite de SpaceX, une autre des entreprises de Musk.

Grok arrive dans un marché saturé, mais prometteur

L’arrivée d’une application autonome pour Grok pourrait offrir à xAI une plus grande visibilité sur un marché déjà saturé de solutions performantes et établies. Des acteurs comme OpenAI, avec son application ChatGPT, ou Google, avec Gemini, offrent déjà une panoplie de fonctionnalités avancées et accessibles sans frais.

Pour se démarquer, Grok devra apporter des innovations uniques et répondre à des besoins spécifiques. Sa particularité réside dans son ton sarcastique et plein d’esprit, une marque de fabrique qui reflète directement l’influence d’Elon Musk.

Objectifs ambitieux et défis à venir

Avec cette annonce, xAI cherche à s’imposer dans la course aux chatbots en offrant une expérience utilisateur à la fois performante et originale. Cependant, les attentes sont élevées : pour rivaliser avec ChatGPT ou Gemini, l’application Grok devra non seulement séduire par son approche distinctive, mais aussi offrir des fonctionnalités pratiques et innovantes.

L’échéance de décembre approche rapidement, et le lancement d’une application autonome pourrait marquer un tournant pour Grok et xAI. Reste à voir si cette stratégie permettra à Musk de rivaliser efficacement avec les leaders actuels du secteur de l’IA.

Lire plus

Intelligence Artificielle

Sora: OpenAI accusé de « Blanchiment artistique » par des artistes

par Yohann Poiron le 27 novembre 2024

Le modèle de génération vidéo développé par OpenAI et encore non commercialisé, Sora, a fait l’objet d’une fuite mardi dernier par un groupe d’artistes protestant contre ce qu’ils appellent les pratiques de « blanchiment artistique » de l’entreprise.

Selon un post de l’utilisateur @legit_rumors sur X, les membres de ce collectif, nommé Sora PR Puppets, ont pris cette initiative pour dénoncer les conditions de leur participation au programme d’accès anticipé.

Les Sora PR Puppets, ayant bénéficié d’un accès précoce à l’API de Sora, ont utilisé des tokens d’authentification pour créer une interface frontale permettant à quiconque de générer des clips vidéo avec le modèle. Bien que ce projet n’ait été accessible qu’environ 3 heures avant que Hugging Face (ou OpenAI elle-même) ne révoque l’accès, plusieurs utilisateurs ont eu le temps de publier leurs créations sur les réseaux sociaux.

Dans un manifeste publié en ligne, le groupe critique vivement OpenAI, estimant que des centaines d’artistes offrent un travail gratuit sous forme de tests, retours d’expérience et expérimentations artistiques, sans compensation, pour une entreprise valorisée à 150 milliards de dollars.

« Ce programme d’accès anticipé semble moins axé sur l’expression créative et la critique, et davantage conçu comme un outil de publicité et de relations publiques », écrivent-ils.

Sora, un modèle prometteur, mais des problèmes persistants

Le groupe dénonce également une politique stricte d’OpenAI, qui impose une validation préalable des vidéos générées par les artistes avant qu’elles ne soient publiées. « Nous avons publié cet outil pour permettre à tout le monde d’expérimenter ce que 300 artistes ont eu : un accès libre et illimité à cet outil », justifient-ils.

Try it here:https://t.co/gnnkoj0jc2

If Sora, it looks like an optimised version. Can generate up to 1080 10-second clips.

Suggest duplicating the space (if that works – my test didn’t!).
One example: pic.twitter.com/npphRJgyrd

— Kol Tregaskes (@koltregaskes) November 26, 2024

Les utilisateurs ayant accédé rapidement à l’interface avant sa suppression ont pu générer des clips vidéo de 10 secondes en résolution 1080p, à l’aide d’une version optimisée de Sora surnommée « turbo ». Contrairement à la version initialement présentée par OpenAI en février, cette version semble significativement plus rapide et capable de produire des vidéos en un temps réduit.

Cependant, des informations rapportées par The Information révèlent que les premières itérations de Sora avaient de sérieux problèmes : elles nécessitaient 10 minutes de calcul pour produire une minute de vidéo et peinaient à maintenir un style esthétique cohérent tout au long des clips.

Une critique ouverte de la gestion d’OpenAI

Malgré leur ouverture à l’utilisation de l’IA dans les arts, les Sora PR Puppets appellent OpenAI à revoir son approche :

Nous ne sommes pas contre l’utilisation de la technologie IA comme outil pour les arts. Ce que nous dénonçons, c’est la manière dont ce programme artistique a été déployé et la direction que prend cet outil avant son éventuel lancement public. Nous partageons cette information dans l’espoir qu’OpenAI devienne plus transparent, plus respectueux des artistes et soutienne les arts au-delà des simples opérations de relations publiques.

La fuite de Sora soulève des questions éthiques importantes sur la manière dont les entreprises d’IA collaborent avec les artistes et exploitent leur créativité, alors même que le potentiel de cet outil reste indéniable. Si OpenAI veut regagner la confiance des artistes, il devra non seulement améliorer la gestion de ses programmes, mais aussi offrir un soutien tangible à ceux qui contribuent à façonner ses technologies.

Lire plus

Intelligence Artificielle

Claude AI : Adaptez le ton et le style de votre assistant IA

par Yohann Poiron le 27 novembre 2024

Anthropic, une entreprise d’intelligence artificielle soutenue par de grands investisseurs technologiques, a annoncé aujourd’hui une mise à jour majeure de son assistant Claude AI. Cette évolution permet aux utilisateurs de personnaliser le style de communication de l’IA, marquant une étape importante dans la manière dont les entreprises intègrent l’IA dans leurs processus.

Le nouveau module de styles, disponible dès aujourd’hui sur Claude.ai, permet de choisir entre trois modes prédéfinis : formel, concis ou explicatif.

En outre, les utilisateurs peuvent créer des styles personnalisés en téléchargeant du contenu qui reflète leur ton ou leur manière de communiquer. Claude peut ensuite adapter ses réponses pour correspondre à ces préférences, qu’il s’agisse de rédiger des documents techniques ou de répondre à des emails professionnels.

Dans un marché de plus en plus concurrentiel dominé par OpenAI et Google, Anthropic cherche à se démarquer par la personnalisation. Contrairement aux assistants IA qui adoptent un style de communication unique, Claude offre une flexibilité qui répond aux besoins variés des entreprises.

Adoption précoce : des résultats prometteurs en entreprise

Des entreprises comme GitLab, qui ont intégré cette fonctionnalité dans leurs processus, rapportent déjà des avantages notables. Taylor McCaslin, responsable produit AI/ML chez GitLab, explique : « La capacité de Claude à maintenir une voix cohérente tout en s’adaptant à différents contextes nous permet d’utiliser les styles pour rédiger des argumentaires, mettre à jour la documentation utilisateur et créer ou traduire du contenu marketing ».

Anthropic met également l’accent sur la confidentialité des données. Contrairement à certains concurrents, l’entreprise garantit que les données des utilisateurs ne sont pas utilisées pour entraîner ses modèles par défaut. « Ce que les utilisateurs téléchargent reste privé et n’alimente pas nos modèles », a affirmé le porte-parole d’Anthropic, soulignant une approche respectueuse de la confidentialité.

Si la possibilité de partager des styles au sein d’équipes n’est pas encore disponible, Anthropic semble préparer le terrain pour des fonctionnalités élargies.
« Nous travaillons à rendre Claude aussi efficace et intuitif que possible pour répondre aux besoins variés des industries et des workflows, » ajoute le porte-parole, laissant entendre que de nouvelles mises à jour sont en préparation.

Vers une IA plus adaptée aux réalités des entreprises

Avec cette mise à jour, Anthropic opère un virage stratégique en misant sur l’expérience utilisateur et l’adaptabilité, plutôt que sur des métriques brutes ou des tailles de modèles. Cette approche devrait séduire les grandes entreprises cherchant à standardiser les interactions IA tout en maintenant une voix et une identité de marque cohérentes.

Dans un contexte où l’IA s’éloigne des démonstrations purement techniques pour se concentrer sur des applications pratiques, la fonctionnalité Styles d’Anthropic apparaît comme une réponse aux véritables besoins des entreprises. L’intelligence artificielle ne se contente plus d’être intelligente : elle doit aussi parler leur langage, un enjeu crucial dans le domaine compétitif de l’IA d’entreprise.

Lire plus

Intelligence Artificielle

Samsung et OpenAI : Un partenariat pour défier Google dans l’IA mobile ?

par Yohann Poiron le 25 novembre 2024

L’intelligence artificielle (IA) continue de transformer le paysage technologique, notamment dans l’industrie des smartphones, en intégrant des fonctionnalités innovantes et utiles.

Parmi ces avancées, Traduction vocale en temps réel de Samsung illustre parfaitement comment l’IA peut révolutionner les interactions humaines.

La fonctionnalité Traduction vocale en temps réel de Samsung, alimentée par l’IA, permet à deux personnes parlant des langues différentes de mener une conversation fluide en temps réel. Grâce à cette innovation, ce qui est dit dans une langue est immédiatement traduit et restitué à l’interlocuteur dans sa propre langue via l’écouteur du smartphone.

Imaginez un appel entre un acheteur anglophone cherchant à commander des détecteurs de fumée pour un hôtel et un fournisseur coréen ne parlant que le coréen. Traduction vocale en temps réel élimine la barrière linguistique, permettant aux deux parties de négocier efficacement. Cette capacité d’IA n’est pas seulement impressionnante : elle est véritablement utile et ouvre des opportunités auparavant inimaginables.

L’avenir de l’IA sur mobile : Entre productivité et divertissement

Outre Traduction vocale en temps réel, d’autres fonctionnalités alimentées par l’IA commencent à s’imposer comme des outils essentiels sur les smartphones. Par exemple, des plateformes permettent désormais de résumer des e-mails ou des sites Web, économisant ainsi du temps et permettant aux utilisateurs de se concentrer sur l’essentiel.

À l’inverse, certaines innovations, comme le Genmoji d’Apple, qui génère des emojis personnalisés à partir de descriptions textuelles, apportent un aspect ludique mais manquent d’utilité pratique. Bien que divertissant, Genmoji n’a pas le même impact fonctionnel que des outils comme Live Translate ou les résumés assistés par IA.

OpenAI et Samsung : Un partenariat en vue ?

Des rumeurs suggèrent que Samsung est en pourparlers avec OpenAI pour intégrer les capacités d’IA de cette dernière sur ses appareils Galaxy. Si ce partenariat voit le jour, il pourrait marquer un tournant significatif pour Samsung, qui s’appuie actuellement sur la plateforme d’IA de Google pour les fonctionnalités de ses smartphones.

OpenAI is in talks with Samsung Electronics to bring its AI capabilities to Samsung’s electronic devices, media report, which could mean a challenge to Google, which already provides AI services on Samsung smartphones. The OpenAI-Samsung discussions are said to mirror that…

— Dan Nystedt (@dnystedt) November 23, 2024

L’analyste financier Dan Nystedt a récemment confirmé cette spéculation dans un tweet, soulignant les discussions entre Samsung et OpenAI. Cette évolution pourrait mettre Google dans une position délicate, d’autant plus qu’OpenAI envisage de s’attaquer aux marchés des moteurs de recherche et des navigateurs, des domaines où Google domine actuellement.

Deux plateformes d’IA sur le même appareil : Une tendance êmergente

Ni Apple ni Samsung ne semblent prêts à limiter leurs smartphones à une seule plateforme d’IA.

Apple, avec son Apple Intelligence propulsé par OpenAI, aurait entamé des discussions pour ajouter l’IA Gemini de Google à ses appareils.
Samsung, de son côté, pourrait ajouter les capacités d’OpenAI tout en maintenant son partenariat historique avec Google via Android.

Cette dynamique suggère que les smartphones de demain pourraient supporter plusieurs plateformes d’IA, offrant aux utilisateurs le meilleur des deux mondes.

Une collaboration bénéfique pour les consommateurs ?

Si les smartphones haut de gamme adoptent deux plateformes d’IA, cela pourrait ouvrir de nouvelles opportunités pour les consommateurs. En combinant les forces de chaque IA, les utilisateurs pourraient bénéficier d’une expérience plus diversifiée, fonctionnelle et enrichissante.

Cependant, cette intégration devra être soigneusement orchestrée pour éviter la redondance et garantir une expérience fluide. L’avenir de l’IA sur mobile repose donc sur une collaboration stratégique entre les géants de la technologie, chacun apportant ses compétences uniques pour créer un écosystème intelligent et cohérent.

Des fonctionnalités comme Traduction vocale en temps réel de Samsung montrent comment l’IA peut dépasser le simple gadget pour devenir un outil essentiel dans la vie quotidienne. Avec des collaborations potentielles entre des acteurs majeurs comme OpenAI, Google et Apple, l’IA sur mobile s’apprête à redéfinir ce que nous attendons de nos smartphones.

Si tout est bien géré, cette convergence des plateformes pourrait inaugurer une nouvelle ère où la productivité et le divertissement coexistent harmonieusement, offrant aux utilisateurs une expérience sans précédent.

Lire plus

Intelligence Artificielle

Claude : L’IA qui interagit avec votre ordinateur, révolution ou gadget ?

par Yohann Poiron le 25 novembre 2024

Depuis le lancement par Anthropic de la fonctionnalité « Computer Use » pour Claude en octobre, l’idée d’agents d’intelligence artificielle capables d’interagir directement avec des interfaces graphiques (GUI) a suscité beaucoup d’enthousiasme. Une récente étude menée par le Show Lab de l’Université Nationale de Singapour analyse les performances de cette technologie et met en lumière ses promesses et ses limites.

Claude se distingue comme un modèle capable d’interagir avec un appareil via des interfaces utilisateur graphiques, exactement comme le ferait un humain. Il accède uniquement à des captures d’écran de bureau et utilise des actions simulées de clavier et de souris pour interagir.

Cette approche permet aux utilisateurs de décrire des tâches en langage naturel pour les automatiser, sans nécessiter d’accès API aux applications concernées. Ce mode de fonctionnement ouvre des perspectives pour simplifier des tâches complexes sans développement personnalisé.

Une évaluation basée sur divers scénarios

Les chercheurs ont testé Claude sur quatre catégories principales :

Recherche sur le web : naviguer sur des sites, acheter des produits, ou s’abonner à des services.
Workflows multi-applications: extraire des données d’un site et les insérer dans une feuille de calcul.
Productivité bureautique : envoyer des e-mails, formater des documents ou créer des présentations.
Jeux vidéo : accomplir des tâches nécessitant logique et planification.

Chaque tâche a été évaluée selon trois dimensions :

Planification : définir un plan clair pour atteindre l’objectif.
Action : exécuter les étapes nécessaires (ouvrir un navigateur, cliquer, taper).
Critique : évaluer le progrès, détecter les erreurs et ajuster si besoin.

Des résultats impressionnants, mais inégaux

Les points forts de Claude

Claude s’est montré particulièrement performant dans des tâches complexes nécessitant plusieurs étapes :

Planification avancée : le modèle peut prévoir toutes les étapes d’un processus, même celles impliquant plusieurs applications.
Coordination multi-applications : il est capable de copier des informations d’une page Web pour les coller dans un tableau, en s’assurant que les données sont bien alignées avec l’objectif final.
Révision finale : dans certains cas, Claude revoit les résultats obtenus pour vérifier leur cohérence.

Ces performances indiquent que Claude possède une compréhension générale des outils et sait les utiliser de manière coordonnée.

Les limites de Claude

Cependant, l’IA a également montré des failles surprenantes :

Erreurs triviales : par exemple, elle n’a pas scrollé pour trouver un bouton d’abonnement ou n’a pas réussi à remplacer un texte simple.
Manque d’auto-évaluation : lorsque Claude échoue, il a du mal à comprendre ses erreurs et propose parfois des explications incorrectes.

Ces lacunes soulignent un problème dans ses mécanismes d’auto-évaluation, ce qui peut limiter sa fiabilité dans des contextes sensibles.

Implications pour les entreprises

L’idée de simplifier l’automatisation des tâches grâce à des descriptions textuelles est séduisante. Mais pour l’instant, la technologie n’est pas prête pour une adoption massive.

Instabilité des modèles : les comportements imprévisibles de l’IA peuvent entraîner des erreurs coûteuses, notamment dans des secteurs sensibles comme la finance ou la santé.
Sécurité : donner à des modèles d’IA le contrôle du clavier et de la souris expose à des risques, comme des attaques adverses que les humains éviteraient facilement.
Efficacité limitée : interagir avec des interfaces conçues pour les humains n’est pas aussi rapide ou fiable que l’utilisation d’API dédiées.

Un outil pour l’exploration

Malgré ces défis, des fonctionnalités comme Claude Computer Use offrent un potentiel pour les équipes produit :

Prototypage rapide : tester des idées sans investissement immédiat dans le développement.
Itérations rapides : explorer différentes solutions avant de créer les infrastructures nécessaires à une mise en œuvre robuste.

Claude et d’autres agents GUI représentent une avancée significative dans le domaine de l’automatisation basée sur l’IA. Cependant, leurs limites actuelles les rendent mieux adaptés à l’expérimentation qu’à une adoption à grande échelle.

Pour l’instant, des solutions traditionnelles basées sur des API sécurisées et des microservices restent indispensables pour automatiser les tâches de manière fiable et à grande échelle. Mais à mesure que les agents GUI gagnent en maturité, ils pourraient devenir un outil clé dans la boîte à outils des entreprises, ouvrant la voie à une nouvelle ère d’automatisation intelligente.

Lire plus

Intelligence Artificielle

GPT-4o : La mise à jour de novembre déçoit et soulève des inquiétudes

par Yohann Poiron le 25 novembre 2024

Le modèle de langage phare d’OpenAI, GPT-4o, fait face à des critiques après qu’un rapport de Artificial Analysis a révélé une régression significative de ses performances.

Selon cette analyse, la nouvelle version du modèle serait désormais au même niveau que GPT-4o-mini, une version beaucoup plus petite et moins puissante, remettant en question l’efficacité des dernières améliorations annoncées.

La veille de la publication du rapport, OpenAI avait annoncé une mise à jour de GPT-4o avec des promesses d’amélioration en matière d’écriture créative, de gestion des fichiers téléchargés et de réponses plus approfondies et pertinentes. L’entreprise avait affirmé que ces changements visaient à rendre le modèle « plus naturel, engageant et adapté ».

Cependant, les résultats publiés par Artificial Analysis contredisent ces affirmations, soulevant des doutes sur l’efficacité réelle de cette mise à jour dans des contextes d’utilisation concrets.

Wait – is the new GPT-4o a smaller and less intelligent model?

We have completed running our independent evals on OpenAI’s GPT-4o release yesterday and are consistently measuring materially lower eval scores than the August release of GPT-4o.

GPT-4o (Nov) vs GPT-4o (Aug):
➤… pic.twitter.com/gjY2pBFuUv

— Artificial Analysis (@ArtificialAnlys) November 21, 2024

GPT-4, des résultats de performance en baisse

D’après le rapport, plusieurs métriques essentielles montrent une nette régression de GPT-4o :

Indice de Qualité d’Artificial Analysis (AAQI) : Une baisse de 77 (version d’août) à 71, plaçant le modèle au niveau de GPT-4o-mini.
Benchmark GPQA Diamond: Une chute de 51 % à 39 %, signalant une diminution de la capacité à répondre à des questions complexes.
Benchmark MATH: Une baisse de 78 % à 69 %, indiquant une performance réduite dans les tâches de raisonnement mathématique.

Ces baisses soulèvent des préoccupations chez les développeurs et les utilisateurs qui comptent sur ce modèle pour des applications avancées.

Vitesse accélérée, mais à quel prix ?

Un aspect notable de la mise à jour de novembre est l’augmentation significative de la vitesse de réponse du modèle, qui a plus que doublé, passant de 80 tokens par seconde à 180 tokens par seconde.

Cependant, cette accélération semble s’être faite au détriment de la qualité. Artificial Analysis émet l’hypothèse que la version de novembre est basée sur un modèle plus petit, ce qui explique les réponses plus rapides mais moins précises.

Une préoccupation commerciale

Malgré cette régression perçue, OpenAI n’a pas réduit les tarifs pour cette nouvelle version, ce qui a poussé Artificial Analysis à conseiller aux développeurs de tester minutieusement le modèle avant de migrer leurs charges de travail vers la version de novembre.

Lancé en mai 2024, GPT-4o avait été conçu pour surpasser les modèles précédents, GPT-3.5 et GPT-4, avec des capacités de pointe dans les domaines de la voix, des langues multilingues et des tâches visuelles. Ces avancées ont fait de GPT-4o un outil essentiel pour des applications comme la traduction en temps réel et l’intelligence artificielle conversationnelle.

Cependant, les résultats de cette mise à jour risquent de nuire à sa réputation et de limiter son adoption.

Pour les développeurs et les utilisateurs

Les résultats mitigés de la mise à jour de novembre soulignent un défi clé pour le développement de l’IA : trouver un équilibre entre amélioration des performances, rapidité et efficacité. Les développeurs qui utilisent GPT-4o dans des applications critiques sont fortement encouragés à évaluer rigoureusement le modèle mis à jour avant de s’y engager pleinement.

Bien que la mise à jour de novembre ait suscité des critiques, elle met également en lumière la complexité croissante de la gestion des modèles d’IA de pointe. Pour OpenAI, cette situation souligne l’importance de la transparence et de la constance dans la qualité des futures mises à jour.

Alors que le paysage de l’IA continue d’évoluer rapidement, les développeurs et les utilisateurs suivront avec attention les actions d’OpenAI pour résoudre ces problèmes et garantir que GPT-4o réponde aux attentes initiales.

Lire plus

Perplexity Comet devient enfin crédible sur iPad avec Split View et le multi-fenêtre

Apple signe un trimestre record, porté par l’iPhone 17 et les Services

Amazon transforme Wondery : le podcast devient une machine à commerce

John Ternus prépare l’ère IA d’Apple : moins de promesses, plus d’expériences utiles

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Xiaomi 17T Pro : Dimensity 9500, 12 Go de RAM et batterie 7 000 mAh en fuite

Redmi K100 : prix en forte hausse, Snapdragon haut de gamme et lancement attendu

OnePlus Strix G15 : la manette qui transforme le OnePlus Ace 6 Ultra en console portable

Xiaomi 17 Max : le géant à batterie 8 000 mAh se préciserait pour mai

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

OpenAI renforce la sécurité de ChatGPT avec des clés physiques YubiKey

Gemini génère désormais des fichiers Word, Excel et PDF téléchargeables

Android et IA : l’Europe veut forcer Google à ouvrir Gemini à la concurrence

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

Notepad++ arrive sur macOS en version native gratuite, 23 ans après Windows !

Adieu Google Assistant : Gemini débarque dans votre voiture (et change tout)

DJI Osmo Pocket 4P : vidéo verticale, 4K 240 fps et zoom amélioré

Quels langages de programmation apprendre en 2026 ? Guide complet pour débutants

Google AI Studio augmente ses quotas pour les abonnés AI Pro et Ultra

Chronicle : OpenAI transforme Codex en assistant contextuel (et ça change tout)

OpenAI Codex : Pourquoi vous n’allez plus jamais quitter votre IDE ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Claude Code vs ChatGPT Codex : Quel agent choisir pour votre workflow en 2026 ?

Intelligence Artificielle

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

OpenAI renforce la sécurité de ChatGPT avec des clés physiques YubiKey

Gemini génère désormais des fichiers Word, Excel et PDF téléchargeables

Android et IA : l’Europe veut forcer Google à ouvrir Gemini à la concurrence

IA et santé : pourquoi les chatbots restent peu fiables pour les décisions médicales

Gemini évolue : Google transforme son IA en assistant personnel avec mémoire et import de données