Lancement de GPT-4o par OpenAI : Une ère nouvelle pour ChatGPT

par Yohann Poiron le 14 mai 2024

Hier soir, lors de son événement Spring Updates, Mira Murati, Chief Technology Officer de OpenAI, a annoncé un nouveau Large Language Model (LLM) multimodal, GPT-4o (abréviation de GPT-4 Omni), qui sera mis à la disposition de tous les utilisateurs gratuits de ChatGPT dans les semaines à venir, ainsi qu’une application de bureau ChatGPT pour macOS (plus tard pour Windows) qui permettra aux utilisateurs d’accéder à d’autres applications que le Web et les applications mobiles.

« GPT-4o raisonne sur la voix, le texte et la vision », a déclaré Murati. Cela inclut l’acceptation et l’analyse de vidéos en temps réel capturées par les utilisateurs sur leurs applications smartphone ChatGPT, bien que cette capacité ne soit pas encore accessible au public.

« Cela semble tellement magique, et c’est merveilleux, mais nous voulons éliminer une partie du mysticisme et vous permettre de l’essayer par vous-même », a ajouté le directeur technique d’OpenAI.

Le nouveau modèle réagit en temps réel, même en cas d’audio, détecte les émotions et peut adapter sa voix pour transmettre différentes émotions, à l’instar de la startup d’IA rivale Hume.

Lors d’une démonstration, un présentateur a demandé à ChatGPT sur son téléphone, alimenté par GPT-4o, de raconter une histoire avec une voix de plus en plus dramatique et théâtrale, ce qu’il a fait correctement et rapidement.

OpenAI a publié des vidéos de démonstration et des exemples des capacités de GPT-4o sur son site Web : « Il peut répondre à des entrées audio en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse d’un être humain dans une conversation ».

GPT-4o diffère de ses précédents modèles

L’entreprise a expliqué en quoi le GPT-4o diffère de ses précédents modèles et comment il permet de nouvelles expériences :

Avant le GPT-4o, vous pouviez utiliser le mode vocal pour parler à ChatGPT avec des temps de latence de 2,8 secondes (GPT-3.5) et de 5,4 secondes (GPT-4) en moyenne. Pour ce faire, le mode vocal est un pipeline composé de trois modèles distincts : un modèle simple transcrit l’audio en texte, GPT-3.5 ou GPT-4 prend du texte et en produit, et un troisième modèle simple reconvertit le texte en audio. Ce processus signifie que la principale source d’intelligence, GPT-4, perd beaucoup d’informations : elle ne peut pas observer directement le ton, les locuteurs multiples ou les bruits de fond, et elle ne peut pas restituer les rires, les chants ou exprimer des émotions.

Avec GPT-4o, nous avons formé un nouveau modèle unique de bout en bout pour le texte, la vision et l’audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT-4o étant notre premier modèle combinant toutes ces modalités, nous n’en sommes encore qu’au stade de l’exploration des possibilités du modèle et de ses limites.

Il peut même être utilisé pour générer des vues multiples d’une seule image qui peuvent, à leur tour, être transformées en objets 3D :

variable binding is pretty much solved
“An image depicting three cubes stacked on a table. The top cube is red and has a G on it. The middle cube is blue and has a P on it. The bottom cube is green and has a T on it. The cubes are stacked on top of each other. pic.twitter.com/T0LsNIZ9P2

—will depue (@willdepue) May 13, 2024

Cependant, OpenAI n’a pas déclaré qu’elle ouvrirait GPT-4o ni aucun de ses modèles d’IA plus récents — ce qui signifie que, bien que les utilisateurs puissent essayer le nouveau modèle de base et ses capacités sur le site Web d’OpenAI et par le biais de ses applications et de son API, ils n’auront pas un accès complet aux poids sous-jacents pour personnaliser le modèle à leur guise, ce que les critiques, y compris le cofondateur devenu rival Elon Musk, ont souligné comme un exemple de l’éloignement d’OpenAI de sa mission fondamentale.

Un nouveau modèle apporte plus de puissance et de capacités aux utilisateurs gratuits de ChatGPT

Les fonctionnalités offertes par GPT-4o représentent une amélioration significative de l’expérience actuelle pour les utilisateurs gratuits de ChatGPT, qui étaient jusqu’à présent bloqués sur le modèle GPT-3.5 uniquement textuel, sans les puissantes capacités de GPT-4 pour analyser les images et les documents téléchargés par les utilisateurs.

Désormais, les utilisateurs gratuits de ChatGPT auront accès à un modèle nettement plus intelligent, à la navigation sur le Web, à l’analyse de données et à la création de graphiques, au GPT Store, et même à une mémoire permettant à l’application de stocker les informations que l’utilisateur souhaite sur lui et ses préférences, simplement en les tapant ou en les lui demandant de manière audible.

Lors d’une démonstration, les présentateurs de OpenAI ont montré comment ChatGPT powered by GPT-4o pouvait être utilisé comme une application de traduction en temps réel, écoutant et traduisant automatiquement les mots d’un locuteur de l’italien à l’anglais et vice-versa.

OpenAI has just demonstrated its new GPT-4o model doing real-time translations 🤯 pic.twitter.com/Cl0gp9v3kN

—Tom Warren (@tomwarren) May 13, 2024

Dans un article de blog annonçant GPT-4o, OpenAI a noté que : « ChatGPT prend désormais en charge plus de 50 langues (s’ouvre dans une nouvelle fenêtre) pour l’inscription et la connexion, les paramètres de l’utilisateur, etc ». En outre, OpenAI a écrit : « GPT-4o est bien meilleur que n’importe quel modèle existant pour comprendre et discuter des images que vous partagez ».

En outre, il peut être utilisé pour créer des personnages d’art IA cohérents, ce qui a échappé à la plupart des générateurs d’art IA à ce jour.

GPT-4o serait déployé pour les utilisateurs gratuits

OpenAI a également indiqué que, bien qu’il soit éventuellement disponible pour les utilisateurs gratuits de ChatGPT, GPT-4o serait d’abord déployé pour les abonnés payants :

Nous commençons à déployer GPT-4o pour les utilisateurs de ChatGPT Plus et Team, avec une disponibilité prochaine pour les utilisateurs Enterprise. Nous commençons également à déployer ChatGPT Free avec des limites d’utilisation dès aujourd’hui. Les utilisateurs Plus auront une limite de messages jusqu’à 5 fois supérieure à celle des utilisateurs gratuits, et les utilisateurs Team et Enterprise auront des limites encore plus élevées.

Sur X, le compte de l’entreprise OpenAI a indiqué que si « la saisie de texte et d’images » est déployée aujourd’hui dans l’API d’OpenAI, les capacités vocales et vidéo seront disponibles « dans les semaines à venir ».

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

—OpenAI (@OpenAI) May 13, 2024

Sur son blog personnel, le PDG et cofondateur d’OpenAI, Sam Altman, a écrit que l’état d’esprit d’OpenAI concernant la construction de l’IA avait changé : « Notre conception initiale, lorsque nous avons lancé OpenAI, était que nous allions créer l’IA et l’utiliser pour créer toutes sortes d’avantages pour le monde. Aujourd’hui, nous pensons plutôt que nous allons créer l’IA et que d’autres personnes l’utiliseront pour créer toutes sortes de choses étonnantes dont nous bénéficierons tous ».

Avant le lancement de GPT-4o aujourd’hui, des rapports contradictoires prédisaient que OpenAI annonçait un moteur de recherche IA pour rivaliser avec Google et Perplexity, un assistant vocal intégré à GPT-4, ou un modèle totalement nouveau et amélioré, GPT-5. Bien entendu, OpenAI a veillé à ce que ce lancement ait lieu juste avant la Google I/O, la conférence phare du géant de la technologie, où nous nous attendons à voir le lancement de divers produits d’IA de l’équipe Gemini.

Lire plus

Intelligence Artificielle

Comment suivre la conférence de OpenAI à 19 heures aujourd’hui ?

par Yohann Poiron le 13 mai 2024

OpenAI s’apprête à faire des annonces très attendues concernant ChatGPT et GPT-4 lors d’une diffusion en direct intitulée « Spring Updates », prévue aujourd’hui à 19 heures, heure française, sur son site Web.

Bien qu’aucune information officielle n’ait été divulguée sur le contenu exact de ces annonces, l’effervescence des dernières semaines suggère fortement l’introduction d’un moteur de recherche propulsé par ChatGPT, capable de rivaliser directement avec Google.

Cette révélation intervient juste avant la conférence annuelle de développeurs de Google, Google I/O 2024, où l’on attend également des annonces significatives, notamment sur Gemini, la nouvelle suite de modèles d’IA de Google. Cependant, les nouveautés de OpenAI pourraient éclipser quelque peu les annonces de Google, particulièrement avec le lancement anticipé d’un moteur de recherche basé sur ChatGPT et partiellement alimenté par Microsoft Bing.

L’événement d’aujourd’hui pourrait aussi être l’occasion pour OpenAI de dévoiler un assistant multimodal innovant, capable de gérer des prompts visuels, de reconnaître et traduire des images du monde réel. Ces innovations pourraient poser un sérieux défi aux produits phares de Google, y compris Google Recherche et les assistants numériques tels que Google Assistant et Gemini.

Ces développements marquent une étape cruciale pour OpenAI, qui non seulement affirme sa présence dans le domaine des technologies d’intelligence artificielle, mais redéfinit également les paradigmes de recherche et d’interaction utilisateur dans un écosystème numérique en rapide évolution.

Comment suivre l’événement de OpenAI à 19 heures ?

Pour assister à l’événement, vous pouvez vous rendre sur la page d’accueil d’OpenAI à 19 heures (heure française) ce lundi 13 mai, où vous pourrez découvrir les mises à jour du modèle d’IA le plus populaire au monde. L’événement devrait durer environ une heure.

Lire plus

Intelligence Artificielle

OpenAI prévoit de lancer un assistant numérique multimodal révolutionnaire

par Yohann Poiron le 13 mai 2024

L’industrie de la technologie assiste avec intérêt aux préparatifs d’OpenAI pour son événement de lundi, où la société pourrait dévoiler une avancée significative avec un nouveau modèle d’IA multimodal.

On assiste à des spéculations croissantes autour de OpenAI, la société derrière ChatGPT, qui pourrait révolutionner son offre avec un assistant numérique multimodal. Ce développement, contrairement aux rumeurs antérieures, ne pointerait pas vers un moteur de recherche classique, mais vers une innovation pouvant toujours remettre en question la suprématie de Google.

L’assistant multimodal envisagé serait capable de traiter divers types d’entrées, pas seulement du texte. Selon un rapport de The Information, ce modèle serait capable de reconnaître les objets et de comprendre la parole, offrant une interprétation plus rapide et plus précise des images et des sons que les modèles actuels de transcription et de synthèse vocale.

Cette capacité permettrait, par exemple, d’analyser des informations visuelles via une caméra et de fournir des réponses audibles, enrichissant l’interaction avec l’utilisateur. Imaginez pointer votre caméra vers un panneau dans une langue étrangère, demander à ChatGPT d’identifier et de traduire le texte, puis recevoir une réponse vocale.

Cette fonctionnalité ressemble à ce que proposent déjà des outils comme Google Lens et Google Assistant, et même le récent Google Gemini. Néanmoins, la promesse d’OpenAI semble intégrer ces capacités dans une interface unique, renforçant l’efficacité et l’accessibilité.

Rendez-vous ce soir à 19 heures pour les annonces OpenAI

Les sources anonymes citées par The Information soulignent que cette IA pourrait non seulement améliorer l’efficacité des agents de service client en analysant l’intonation ou le sarcasme des appelants, mais également aider les étudiants avec les mathématiques ou traduire des panneaux en temps réel. Bien que le nouveau modèle puisse surpasser GPT-4 Turbo dans certains types de réponses, il reste sujet à l’erreur, parfois avec une grande assurance.

Ce lundi, lors de l’événement prévu, il est probable que l’entreprise dévoile un modèle GPT amélioré, bien que ce ne soit pas le GPT-5 tant attendu, attendu seulement pour fin 2024.

We’ll be streaming live on https://t.co/OcO6MLUYGH at 10AM PT Monday, May 13 to demo some ChatGPT and GPT-4 updates.

— OpenAI (@OpenAI) May 10, 2024

Le timing de cet événement est stratégique, se déroulant juste avant la Google I/O, où Google devrait révéler ses propres avancées en IA. Ce rendez-vous d’OpenAI, fixé ce lundi 13 mai à 19 heures, heure de Paris, pourrait non seulement ébranler la dominance de Google mais aussi ajuster les attentes du marché sur les capacités évolutives de l’IA en interaction directe avec les utilisateurs.

Lire plus

Intelligence Artificielle

Apple s’associera à OpenAI pour intégrer ChatGPT à iOS 18

par Yohann Poiron le 13 mai 2024

Apple, le géant de la technologie reconnu pour ses innovations, semble marquer le pas dans le domaine de l’intelligence artificielle générative et des Large Language Model (LLM). À l’opposé, Google intègre activement sa technologie Gemini dans de nombreux aspects de ses services, y compris le système d’exploitation Android. Cependant, tout indique que la situation d’Apple pourrait rapidement évoluer, bien que cela ne se fasse pas nécessairement en interne.

Au cours des derniers mois, des informations ont filtré selon lesquelles Apple aurait entamé des discussions avec Google et OpenAI, la société derrière ChatGPT, pour intégrer leurs LLM dans les futures fonctionnalités d’iOS. Selon l’analyste industriel Mark Gurman, un accord avec OpenAI serait sur le point d’être conclu.

BREAKING: Apple is finalizing a deal with OpenAI to power some Generative AI features — like a chatbot — for the new iOS this year. Talks with Google to integrate Gemini are ongoing but no deal has been reached. https://t.co/8CqoiLM2uO

— Mark Gurman (@markgurman) May 11, 2024

Bien qu’il soit encore prématuré de le confirmer, il semble de plus en plus probable que OpenAI puisse jouer un rôle clé dans certaines fonctionnalités d’iOS 18. Parallèlement, les négociations avec Google se poursuivent, laissant entrevoir la possibilité que les futures mises à jour d’iOS soient alimentées par les technologies des deux entreprises, ce qui serait un développement notable.

Un élément manquant dans cette équation est le propre LLM d’Apple, actuellement en développement sous le nom de code « Ajax ». Cependant, il est plausible qu’Apple accuse un retard dans le développement d’Ajax, au point de ne pas pouvoir l’intégrer à temps pour iOS 18. Cela expliquerait pourquoi Apple explore activement des collaborations avec OpenAI et Google : ne disposant pas encore de sa propre solution robuste, la firme ne peut se permettre d’attendre plus longtemps, au risque de se retrouver à la traîne face à ses concurrents.

Une IA omniprésente dans iOS 18 ?

Nous ne savons pas exactement quelles sont ces fonctionnalités, mais comme entendu ces derniers jours, certaines applications iOS comme Safari et Messages pourraient se retrouver avec une fonction de résumé qui utilisera des mots-clés pour fournir un résumé concis du contenu à l’écran. Apple chercherait à donner à Siri une nouvelle version de l’IA qui rendrait l’assistant numérique virtuel plus compétent.

Apple devrait annoncer officiellement iOS 18 lors de sa Worldwide Developers Conference (WWDC) en juin. Nous saurons alors avec certitude comment ces accords se sont concrétisés et quelle direction Apple a décidé de prendre pour intégrer l’intelligence artificielle dans son écosystème.

Lire plus

Intelligence Artificielle

OpenAI : pas de GPT-5 aujourd’hui, mais le prochain projet « ressemble à de la magie

par Yohann Poiron le 13 mai 2024

À une époque où les technologies d’intelligence artificielle remodèlent rapidement nos interactions et nos infrastructures, OpenAI est à l’avant-garde des percées transformatrices. Ce lundi, lors d’un événement en direct très attendu, la puissance de l’IA devrait révéler les dernières avancées de ses modèles renommés, ChatGPT et GPT-4.

Le buzz a atteint son paroxysme suite à l’intrigant teaser du PDG d’OpenAI, Sam Altman, sur les réseaux sociaux, où il promettait que les prochaines mises à jour ressembleraient à de la « magie ».

not gpt-5, not a search engine, but we’ve been hard at work on some new stuff we think people will love! feels like magic to me.

monday 10am PT. https://t.co/nqftf6lRL1

— Sam Altman (@sama) May 10, 2024

L’annonce a suscité des spéculations et de l’enthousiasme au sein de la communauté technologique. Des rumeurs avaient circulé sur de potentielles mises à jour révolutionnaires, notamment un moteur de recherche avancé doté d’une intelligence artificielle qui pourrait rivaliser avec la domination de Google ou la sortie d’un modèle GPT-5 de nouvelle génération. Cependant, les récents messages d’Altman ont mis les choses au clair, indiquant que si les mises à jour n’incluront pas ces fonctionnalités spéculées, ce qui sera révélé pourrait être tout aussi révolutionnaire.

Cet événement à venir souligne l’engagement de OpenAI à faire progresser les capacités de l’intelligence artificielle et sa stratégie d’innovation constante et percutante. En choisissant de dévoiler ces mises à jour à la veille de la conférence I/O de Google, OpenAI se positionne intelligemment sous les feux de la rampe, démontrant son rôle de leader dans le développement et l’application de l’IA.

We’ll be streaming live on https://t.co/OcO6MLUYGH at 10AM PT Monday, May 13 to demo some ChatGPT and GPT-4 updates.

— OpenAI (@OpenAI) May 10, 2024

Ce choix stratégique souligne la nature compétitive de l’industrie technologique, où les principaux acteurs s’efforcent continuellement de se surpasser les uns les autres avec des améliorations technologiques qui captivent et révolutionnent le marché et les paysages des consommateurs.

L’anticipation se développe autour de potentielles capacités de l’assistant vocal

Alors que le monde de la technologie attend avec impatience la prochaine annonce d’OpenAI, les spéculations vont bon train sur le fait que l’entreprise pourrait faire un grand pas en avant dans la technologie des assistants vocaux. La possibilité pour OpenAI d’intégrer une interaction audio directe et en temps réel à ses modèles de langage pourrait faire progresser de manière significative la façon dont les utilisateurs interagissent avec les systèmes d’IA.

Une telle évolution améliorerait la fonctionnalité d’appareils tels que les smartphones et les enceintes connectées et élargirait les possibilités d’accessibilité, rendant la technologie plus intuitive et plus réactive pour un public plus large.

Changer la donne en matière d’interaction avec l’IA

Selon les experts du secteur, si OpenAI introduit un assistant vocal avec une latence minimale et la capacité de traiter directement les entrées audio et d’y répondre, il pourrait établir une nouvelle norme dans le secteur. « Cela changerait la donne en matière d’interaction avec l’IA », a déclaré un chercheur de premier plan dans le domaine de l’IA. « En réduisant les étapes de la communication vocale avec l’IA, OpenAI pourrait réduire considérablement les temps de réponse, rendant l’interaction presque impossible à distinguer d’une conversation avec un humain ».

Les implications d’une telle technologie vont au-delà de la simple commodité. Par exemple, un assistant vocal d’IA plus réactif pourrait contribuer à la surveillance et aux soins des patients, en fournissant des mises à jour et des alertes en temps réel. Il pourrait offrir des expériences d’apprentissage plus attrayantes et interactives dans le domaine de l’éducation, en répondant de manière dynamique aux questions des étudiants et à leurs besoins éducatifs.

Presser les géants de la technologie comme Amazon, Google et Apple

En outre, l’introduction d’une technologie vocale avancée par OpenAI pourrait intensifier la pression concurrentielle sur d’autres géants de la technologie comme Amazon, Google et Apple, qui ont beaucoup investi dans leurs technologies d’assistants vocaux. « Si OpenAI parvient à ses fins, cela poussera l’ensemble du secteur à accélérer l’amélioration de ses systèmes », ajoute un analyste de l’industrie technologique. « Nous pourrions assister à un changement significatif des attentes des consommateurs et de leur fidélité aux marques ».

L’attente de l’événement de lundi souligne le rythme rapide de l’innovation dans le domaine de l’IA et met en évidence le rôle de OpenAI pour repousser les limites de ce que ces technologies peuvent accomplir. Alors que des acteurs de différents secteurs — des passionnés de technologie aux entreprises clientes — suivent le flux en direct, la potentielle annonce d’une nouvelle capacité d’assistant vocal pourrait marquer un moment important dans l’évolution de l’interaction entre l’homme et l’IA.

L’impact des technologies vocales avancées

La potentielle annonce par OpenAI de technologies vocales avancées pourrait remodeler radicalement le paysage des interactions avec l’IA, en offrant de nouvelles capacités qui pourraient aller bien au-delà des offres actuelles du marché. Ce développement redéfinirait les expériences des utilisateurs et améliorerait l’efficacité des applications de l’IA dans divers secteurs, en créant des interactions plus naturelles et plus engageantes.

Dans le domaine du service à la clientèle, par exemple, un assistant vocal avancé capable de comprendre et de répondre avec une latence réduite pourrait révolutionner la manière dont les entreprises interagissent avec leurs clients. Cette technologie permettrait des conversations plus complexes et plus nuancées, ce qui améliorerait les capacités de résolution des problèmes et la satisfaction des clients. « La capacité d’intégrer ces systèmes vocaux avancés dans le service client pourrait transformer les centres d’appels, en réduisant les temps d’attente et en améliorant la qualité générale du service », explique un stratège de l’expérience client.

Repousser les limites du possible

Enfin, le développement de ces technologies pourrait faire progresser de manière significative les applications d’apprentissage des langues. Les utilisateurs pourraient s’entraîner à parler et à écouter en temps réel en interagissant avec une IA qui traite la langue de manière plus efficace, en recevant un retour d’information et des corrections immédiats. Le processus d’apprentissage pourrait s’en trouver grandement amélioré et l’expérience éducative plus immersive.

Alors que OpenAI continue de repousser les limites de ce qui est possible avec l’intelligence artificielle, la potentielle introduction de technologies vocales avancées représente un pas en avant décisif. Cela pourrait améliorer les applications existantes et ouvrir de nouvelles possibilités d’innovation dans de nombreux secteurs, marquant ainsi une étape importante dans l’évolution de l’IA.

Un timing stratégique avant la conférence Google I/O

La date stratégique de l’annonce OpenAI, prévue juste un jour avant la conférence annuelle I/O de Google, est une décision tactique qui souligne l’intensification de la concurrence au sein de l’industrie de l’IA. En se positionnant avant l’un des événements les plus importants du monde de la technologie, OpenAI capte l’attention des médias et établit une référence qui pourrait influencer les discussions et les attentes autour des présentations ultérieures de Google.

Ce timing préventif est particulièrement poignant dans la rivalité actuelle entre OpenAI et Google, en particulier dans le domaine de l’intelligence artificielle. Alors que Google se prépare à présenter ses avancées en matière d’IA, les mises à jour d’OpenAI pourraient potentiellement lui voler la vedette, obligeant Google à réagir à des innovations qu’il n’avait peut-être pas anticipées. « L’annonce d’OpenAI pourrait très bien donner le ton de la conférence Google I/O, en influençant la manière dont les nouveaux produits de Google sont accueillis et en obligeant l’entreprise à mettre en avant sa spécificité et sa supériorité », note un analyste de l’industrie technologique.

OpenAI : un concurrent direct de Google

En outre, en faisant des annonces importantes juste avant la conférence Google I/O, OpenAI affirme sa présence dans le secteur et démontre sa confiance dans ses produits. Cette stratégie peut accroître l’intérêt et les attentes, en fixant un niveau élevé que Google devra atteindre ou dépasser, intensifiant ainsi l’atmosphère concurrentielle. « C’est un signal clair qu’OpenAI se considère comme un concurrent direct de Google, prêt à remettre en question le statu quo dans le domaine de l’IA », a expliqué un stratège du marché.

Le choix du moment reflète également la compréhension par OpenAI du cycle médiatique et sa capacité à maximiser l’exposition aux nouvelles technologies. En programmant ses annonces juste avant un événement industriel majeur comme Google I/O, OpenAI s’assure que ses mises à jour font partie de la conversation générale tout au long de la conférence, maintenant ainsi sa visibilité et sa pertinence parmi les nombreux dévoilements technologiques.

En fin de compte, la décision de précéder Google I/O met en évidence l’approche stratégique d’OpenAI en matière de marketing et de relations publiques dans le paysage technologique extrêmement concurrentiel. Elle met en valeur les innovations d’OpenAI et positionne intelligemment l’entreprise comme un précurseur dans le domaine de l’IA, défiant les géants de l’industrie et affirmant son rôle d’acteur clé dans le façonnement de l’avenir de la technologie.

Explorer au-delà de la recherche traditionnelle

Alors que les premières spéculations portaient sur le lancement par OpenAI d’un moteur de recherche alimenté par l’IA, la clarification de l’entreprise met l’accent sur d’autres potentielles innovations qui pourraient redéfinir la manière dont on accède à l’information et dont on l’utilise. L’évolution de ChatGPT et son intégration avec les sources de données Internet laissent entrevoir de nouvelles façons d’interagir avec l’information, bien au-delà du modèle traditionnel des moteurs de recherche. « Nous cherchons à rendre la recherche d’informations plus rapide et plus intuitive », a déclaré un porte-parole d’OpenAI. Cette approche pourrait déboucher sur des développements où l’IA aiderait les utilisateurs non pas en se contentant de rechercher des informations, mais en comprenant le contexte, en synthétisant les données et en proposant des solutions fondées sur une compréhension approfondie de l’intention de l’utilisateur et de ses interactions antérieures.

Quant à ChatGPT-5, il semble que son lancement soit encore reporté à une date ultérieure. Les versions futures de ChatGPT promettent de surpasser toutes les versions précédentes et de rendre la version actuelle, GPT-4, obsolète, voire « embarrassante » selon les termes d’Altman.

Malgré l’absence d’annonces majeures attendues, le livestream d’OpenAI reste un événement très attendu qui pourrait apporter des innovations significatives pour ChatGPT-4 et poser les bases pour de futurs développements.

Lire plus

Intelligence Artificielle

« Med-Gemini », la nouvelle IA médicale de Google surprend les médecins

par Yohann Poiron le 11 mai 2024

La nouvelle IA médicale de Google, « Med-Gemini », surprend les médecins

Google a dévoilé un modèle d’IA révolutionnaire appelé Med-Gemini, spécialement conçu pour aider les médecins et le personnel soignant. Cet outil d’IA médicale innovant vise à améliorer de manière significative la précision et l’efficacité des diagnostics et des consultations médicales, marquant ainsi une étape importante dans l’intégration de l’intelligence artificielle dans le domaine médical.

Med-Gemini s’appuie sur le modèle Gemini de Google, qui a été affiné et enrichi de fonctionnalités adaptées au diagnostic et aux applications médicales. Le modèle intègre un raisonnement avancé, une compréhension multimodale et un traitement approfondi du contexte, ce qui le rend particulièrement apte à relever les défis complexes posés par les données médicales.

Ces caractéristiques innovantes permettent à Med-Gemini de traiter et d’analyser efficacement de grandes quantités d’informations médicales, ce qui se traduit par des recommandations de diagnostic plus précises et aide les professionnels de la santé à prendre des décisions bien informées.

Med-Gemini, un modèle d’IA médicale supérieur

Med-Gemini a démontré des performances supérieures à celles des précédents modèles d’IA médicale dans le traitement et l’analyse des données médicales. Sa capacité à synthétiser de nombreuses informations permet de formuler des recommandations de diagnostic plus précises, ce qui permet aux professionnels de la santé de prendre des décisions fondées sur des données.

L’une des caractéristiques les plus remarquables de Med-Gemini est sa méthode innovante d’auto-apprentissage. Le modèle génère de nouveaux exemples de formation à partir de ses résultats, créant ainsi une boucle de rétroaction continue qui améliore la précision de son diagnostic et son adaptabilité à de nouveaux scénarios médicaux. Cette capacité d’auto-amélioration réduit la nécessité d’un recyclage fréquent, ce qui permet à Med-Gemini de rester à la pointe de la technologie de l’IA médicale.

Mises à jour des connaissances en temps réel

Med-Gemini intègre de manière transparente des informations externes par le biais de recherches sur le Web, une caractéristique cruciale dans le domaine médical qui évolue rapidement. En mettant continuellement à jour sa base de connaissances avec les dernières recherches et pratiques cliniques, Med-Gemini conserve sa précision et sa pertinence au fil du temps. Cette capacité garantit que les professionnels de la santé qui utilisent le modèle d’IA ont accès aux informations les plus récentes, ce qui améliore la qualité des soins prodigués aux patients.

Le traitement sophistiqué des données à contexte long et l’intégration complète des connaissances médicales font de Med-Gemini un atout inestimable pour les professionnels de la santé. Il fournit des analyses détaillées des données des patients, ce qui permet de prendre des décisions médicales plus précises et plus opportunes et, en fin de compte, d’améliorer les diagnostics et la planification des traitements.

Modèles d’IA dans le secteur de la santé

Med-Gemini s’appuie sur les points forts des modèles d’IA antérieurs, tels qu’Amy, tout en intégrant des fonctionnalités supplémentaires qui renforcent considérablement son utilité dans le domaine médical. Il surmonte certaines des limites des systèmes d’IA précédents, telles que les exigences en matière de données pour un diagnostic précis, ce qui en fait un outil plus efficace et plus polyvalent pour les professionnels de la santé.

Le lancement de Med-Gemini représente une avancée significative par rapport aux modèles d’IA précédents dans le domaine de la santé. Ses capacités améliorées, sa méthode d’auto-apprentissage et ses mises à jour de connaissances en temps réel en font un catalyseur dans le domaine de l’IA médicale.

L’IA façonne l’avenir des soins de santé

L’introduction de Med-Gemini souligne le potentiel de transformation de l’IA dans les soins de santé. Elle laisse entrevoir un avenir où l’IA ne se contentera pas de soutenir, mais améliorera également les diagnostics médicaux et les soins aux patients, ce qui pourrait accroître la qualité globale des services de santé.

Alors que l’IA continue d’évoluer et de s’intégrer dans divers aspects des soins de santé, des outils comme Med-Gemini joueront un rôle crucial dans les domaines suivants :

Améliorer la précision du diagnostic
Améliorer la planification des traitements
Optimiser l’allocation des ressources
Réduire les coûts des soins de santé

Le développement de Med-Gemini représente une avancée significative dans l’exploitation des capacités de l’IA pour transformer le secteur des soins de santé. Il témoigne de l’engagement de Google à repousser les limites de la technologie de l’IA afin d’améliorer les résultats pour les patients et d’aider les professionnels de la santé dans leur pratique quotidienne.

À mesure que Med-Gemini est adopté et intégré dans les systèmes de santé du monde entier, il a le potentiel de transformer la manière dont les diagnostics et les consultations médicales sont menés. En fournissant aux professionnels de la santé un outil puissant pour analyser et interpréter les données médicales, Med-Gemini vise à améliorer l’efficacité et la précision des services médicaux, pour le plus grand bénéfice des patients et l’amélioration de la qualité globale des soins de santé.

Pour lire l’article officiel et en savoir plus sur la dernière IA médicale de Google, rendez-vous sur l’article de recherche officiel. Ce document explique en détail le développement de Med-Gemini.

Modèles d’IA Gemini en médecine

Les chercheurs responsables de la création de Med-Gemini expliquent plus en détail son développement :

L’excellence dans une grande variété d’applications médicales pose des défis considérables à l’IA, nécessitant un raisonnement avancé, l’accès à des connaissances médicales actualisées et la compréhension de données multimodales complexes. Les modèles Gemini, avec leurs fortes capacités générales en matière de raisonnement multimodal et de contexte long, offrent des possibilités passionnantes en médecine.

En s’appuyant sur les points forts de Gemini 1.0 et Gemini 1.5, nous présentons Med-Gemini, une famille de modèles multimodaux hautement performants, spécialisés dans la médecine et capables d’intégrer de manière transparente l’utilisation de la recherche sur le Web, et qui peuvent être adaptés efficacement à de nouvelles modalités à l’aide d’encodeurs personnalisés. Nous évaluons Med-Gemini sur 14 points de référence médicaux couvrant des applications textuelles, multimodales et à contexte long, établissant une nouvelle performance de pointe (SoTA) sur 10 d’entre eux, et surpassant la famille de modèles GPT-4 sur chaque point de référence où une comparaison directe est viable, souvent avec une marge importante.

Sur le benchmark populaire MedQA (USMLE), notre modèle Med-Gemini le plus performant atteint une performance SoTA de 91,1 % de précision, en utilisant une nouvelle stratégie de recherche guidée par l’incertitude, surpassant de 4,6 % notre meilleur précédent modèle Med-PaLM 2. Notre stratégie basée sur la recherche se généralise avec la performance SoTA sur des défis diagnostiques complexes du New England Journal of Medicine (NEJM) et le benchmark GeneTuring. Sur 7 benchmarks multimodaux incluant les défis d’images du NEJM et MMMU (santé et médecine), Med-Gemini améliore GPT-4V avec une marge relative moyenne de 44,5 %.

Nous démontrons l’efficacité des capacités de Med-Gemini en matière de contexte long grâce aux performances de SoTA sur une tâche de récupération d’une aiguille dans une botte de foin à partir de dossiers médicaux dépersonnalisés et de réponses à des questions sur des vidéos médicales, surpassant les méthodes antérieures sur mesure qui n’utilisent que l’apprentissage en contexte. Enfin, les performances de Med-Gemini suggèrent une utilité dans le monde réel en surpassant les experts humains dans des tâches telles que le résumé de textes médicaux et la génération de lettres de recommandation, ainsi que des démonstrations d’un potentiel prometteur pour le dialogue médical multimodal, la recherche médicale et l’éducation. Dans l’ensemble, nos résultats offrent des preuves convaincantes de la promesse de Med-Gemini dans de nombreux domaines de la médecine, bien qu’une évaluation plus rigoureuse soit cruciale avant le déploiement dans le monde réel dans ce domaine critique pour la sécurité.

Lire plus

Intelligence Artificielle

OpenAI prépare le terrain : Un nouveau moteur de recherche IA dévoilé lundi ?

par Yohann Poiron le 11 mai 2024

Le projet de moteur de recherche concurrent d’OpenAI pourrait être lancé dès lundi prochain (13 mai), selon certaines informations.

Selon Reuters, deux personnes proches du dossier ont indiqué lundi comme date probable pour l’annonce, tout en précisant que cette date n’est pas gravée dans le marbre et qu’elle pourrait être modifiée à la dernière minute.

Cette nouvelle rumeur va dans le sens de rapports antérieurs de qui suggèrent également que OpenAI développe un produit basé sur l’IA capable d’effectuer des recherches sur Internet. Selon les sources, la fonction de recherche d’OpenAI sera intégrée à son chatbot ChatGPT et inclura des citations, tandis que d’autres sources laissent entendre que le service de recherche d’OpenAI pourrait être « partiellement alimenté par Bing ».

OpenAI est confrontée à une forte concurrence dans le domaine de l’IA de la part de Claude et Copilot, et se diversifier dans la recherche en temps réel semble donc être une expansion naturelle. Cependant, avec des entreprises comme Perplexity, soutenue par Bezos, et le géant de la technologie Google, qui explorent la recherche basée sur l’intelligence artificielle (IA), OpenAI aura du pain sur la planche.

Certains pensent que l’annonce de lundi est une tentative délibérée d’OpenAI de détourner l’attention de la conférence annuelle I/O de Google, qui commence mardi et qui présentera certainement des mises à jour sur les technologies d’IA sur lesquelles Google travaille, ainsi que d’autres nouvelles de l’entreprise californienne.

Qu’est-ce que la recherche OpenAI ?

Nous ne savons pas grand-chose de ce à quoi ressemblera le moteur de recherche concurrent d’OpenAI, ni de la manière dont il fonctionnera, car l’entreprise n’a encore fait aucune annonce officielle. Cependant, nous pouvons faire quelques suppositions éclairées.

Selon un initié, l’application de recherche combinera les capacités du moteur de recherche de Microsoft Bing avec ChatGPT pour générer des résultats de recherche plus profonds avec plus de contexte et d’informations supplémentaires. Les réponses pourraient inclure des citations d’autres sites tels que Wikipédia, ainsi que des images et des diagrammes, le cas échéant.

Par exemple, si vous cherchez « comment nettoyer le coude en U de l’évier », les résultats pourraient inclure un article de blog sur le sujet, un diagramme montrant comment dévisser les tuyaux et un guide étape par étape. Les futures améliorations de l’algorithme pourraient lui permettre d’inclure des informations contextuelles telles que la manière de trouver votre robinet d’arrêt d’eau.

Défier Google est une excellente nouvelle

Avec le moteur de recherche d’OpenAI, la startup soutenue par Microsoft est prête à défier Google sur son produit phare. Même si la migration de Google vers d’autres moteurs de recherche ne sera pas immédiate, la présence d’un concurrent de poids dans le secteur des moteurs de recherche signifie que Google sera sur ses gardes. Actuellement, Google détient une part de marché de près de 91 % et Bing ne représente que 3,64 %.

En d’autres termes, Google détient un monopole sur le marché des moteurs de recherche. L’arrivée d’un nouvel acteur ne peut être qu’une bonne nouvelle pour les consommateurs. Google intègre également l’IA dans la recherche (appelée Search Generative Experience), mais elle génère souvent des informations erronées.

Par ailleurs, le moteur de recherche d’OpenAI est également susceptible d’affecter Perplexity, qui agit comme une alternative à Google Search et inclut diverses citations du web pour ses réponses. Attendons maintenant lundi pour voir ce qu’OpenAI nous réserve.

Lire plus

Intelligence Artificielle

L’IA transforme le lieu de travail : Opportunités et défis selon Microsoft et LinkedIn

par Yohann Poiron le 10 mai 2024

Le rôle des outils d’IA sur le lieu de travail est appelé à s’élargir au fur et à mesure que la technologie prend de l’ampleur, mais les entreprises et les employés doivent s’assurer qu’ils en tirent le meilleur parti tant qu’ils le peuvent, selon une nouvelle étude.

Le dernier Work Trend Index de Microsoft et LinkedIn a révélé que les attitudes à l’égard de l’IA restent positives, bien que de nombreuses entreprises ne sachent pas comment l’utiliser au mieux.

Le rapport, qui a interrogé environ 31 000 personnes dans 30 pays, révèle que l’IA a déjà eu un impact majeur sur la façon dont beaucoup d’entre nous travaillent, et qu’il s’agit maintenant d’utiliser la technologie de la manière la plus efficace possible.

« L’IA démocratise l’expertise au sein de la population active », a déclaré Satya Nadella, PDG de Microsoft. « Notre dernière étude met en évidence l’opportunité pour chaque organisation d’appliquer cette technologie afin d’améliorer la prise de décision, la collaboration et, en fin de compte, les résultats de l’entreprise ».

Le rapport a révélé que les trois quarts (75 %) des personnes interrogées utilisent désormais l’IA au travail d’une manière ou d’une autre, affirmant que la technologie aide non seulement à stimuler leur créativité, mais aussi à gagner et à libérer du temps pour se concentrer sur des tâches cruciales.

Encore des inquiétudes sur l’IA

Cependant, les cadres supérieurs et les patrons ont encore quelques inquiétudes : un peu plus de la moitié (59 %) craignent de ne pas pouvoir quantifier les gains de productivité de l’IA, et une proportion similaire (60 %) craint que leur entreprise ne dispose pas d’une vision et d’un plan pour une mise en œuvre efficace de l’IA.

L’un des domaines où l’IA est utile est la recherche d’emploi et le renforcement des compétences, les compétences en IA étant particulièrement demandées, bien que seulement 39 % des utilisateurs aient reçu une forme de formation à l’IA de la part de leur entreprise — et seulement un quart (25 %) s’apprêtent à en fournir une avant la fin de l’année.

Mais là encore, les dirigeants se montrent inquiets, 55 % d’entre eux déclarant avoir du mal à trouver les talents nécessaires pour occuper les postes vacants dans leur entreprise, les domaines de la cybersécurité, de l’ingénierie et de la conception créative étant particulièrement en difficulté.

« L’IA redéfinit le travail et il est clair que nous avons besoin de nouveaux manuels de jeu », a déclaré Ryan Roslansky, PDG de LinkedIn. « Ce sont les dirigeants qui construisent pour l’agilité au lieu de la stabilité et qui investissent dans le renforcement des compétences en interne qui donneront à leurs organisations un avantage concurrentiel et créeront des équipes plus efficaces, plus engagées et plus équitables ».

Lire plus

Intelligence Artificielle

Google va étendre les capacités de Gemini avec une extension pour YouTube Music

par Yohann Poiron le 9 mai 2024

Google continue de renforcer les capacités de son chatbot IA, Gemini, pour rivaliser avec ChatGPT. Si Gemini n’a fait ses débuts officiels qu’à la fin de l’année dernière, Google n’a cessé depuis d’ajouter des fonctionnalités à sa plateforme d’IA.

La dernière avancée, rapportée par Android Authority, concerne l’intégration d’une extension pour YouTube Music dans Gemini.

Les extensions permettent normalement à Gemini d’accéder à des informations et à des fonctionnalités dans diverses applications et services Google. Avec cette extension, encore en développement, permettra de rechercher de la musique, créer des playlists et découvrir de nouveaux artistes directement via Gemini.

Par exemple, demander à Gemini de jouer une playlist pour l’entraînement ou de trouver de la musique de fond relaxante pourrait directement interagir avec votre bibliothèque YouTube Music. Gemini va au-delà de la simple recherche ; il apprend de vos préférences pour suggérer de nouveaux morceaux et créer des stations de radio personnalisées.

YouTube Music dans Gemini pas encore disponible pour le grand public

Découverte dans la version de débogage AssembleDebug de l’application Google (v15.17.28.29.arm 64), cette extension semble intégrer YouTube Music de manière plus poussée que simplement en tant qu’application musicale par défaut. Cette approche pourrait rappeler aux utilisateurs de Google Workspace les extensions existantes, comme celle qui résume les documents et e-mails ou celle de Google Maps qui fournit des informations géographiques pertinentes.

Bien que l’extension YouTube Music ne soit pas encore disponible, son état avancé suggère un lancement proche. Cette initiative illustre la détermination de Google à faire de Gemini une solution IA de premier plan, en se démarquant par des fonctionnalités intégrées et uniques dans un marché en rapide évolution des chatbots alimentés par l’IA.

Lire plus

Intelligence Artificielle

MAI-1 de Microsoft : Un nouveau titan dans l’arène de l’intelligence artificielle

par Yohann Poiron le 9 mai 2024

Microsoft se prépare à dévoiler MAI-1, un Large Language Model (LLM) développé en interne, signe de son ambition de s’aligner, voire de surpasser, les géants technologiques tels que Google, Anthropic et OpenAI.

Le modèle MAI-1, selon Reuters, vise à égaler la complexité et l’ampleur des modèles d’IA les plus avancés actuellement disponibles sur le marché.

C’est la première fois que Microsoft développe un modèle d’IA interne de cette ampleur depuis qu’elle a investi plus de 10 milliards de dollars dans OpenAI pour obtenir les droits de réutilisation des modèles d’IA de la startup. GPT-4 d’OpenAI alimente non seulement ChatGPT, mais aussi Microsoft Copilot.

La supervision du développement de MAI-1 est confiée à Mustafa Suleyman, une figure emblématique dans la communauté de l’IA, qui a précédemment travaillé chez Google DeepMind et était le PDG de la startup Inflection. Microsoft, ayant acquis Inflection pour 650 millions de dollars, utilise cette expertise bien que MAI-1 soit un projet indépendant.

MAI-1, un objectif encore flou

Avec environ 500 milliards de paramètres, MAI-1 sera nettement plus grand que les précédents modèles open source de Microsoft (tels que Phi-3), ce qui nécessitera plus de puissance de calcul et de données d’entraînement. Cela place MAI-1 dans une ligue similaire à GPT-4 d’OpenAI, qui aurait plus de 1 000 milliards de paramètres (dans une configuration de mélange d’experts) et bien au-dessus de modèles plus petits comme Meta et les modèles de 70 milliards de paramètres de Mistral.

Il semblerait que l’objectif exact de MAI-1 n’ait pas été déterminé (même au sein de Microsoft), et que son utilisation la plus idéale dépendra de ses performances. Pour entraîner le modèle, Microsoft a alloué une grande grappe de serveurs équipés de GPU Nvidia et a compilé des données d’entraînement provenant de diverses sources, notamment du texte généré par GPT-4 d’OpenAI et des données publiques d’Internet.

En fonction des progrès réalisés dans les semaines à venir, la source rapporte que Microsoft pourrait présenter MAI-1 en avant-première dès sa conférence Build pour les développeurs, à la fin du mois.

Augmentation des dépenses IA de Microsoft

Microsoft montre un engagement accru envers l’IA, comme le souligne CNBC, avec une hausse de 79 % de ses dépenses en capital atteignant 14 milliards de dollars, en grande partie destinés à l’infrastructure IA. Cependant, l’entreprise est confrontée à des défis, notamment une pénurie d’infrastructures de datacenters, ce qui pourrait ralentir le déploiement de ses capacités.

Les services d’IA sont devenus un élément central de la plateforme de cloud computing Azure de Microsoft, qui a vu ses revenus augmenter de 31 %. Cette croissance est significativement alimentée par l’IA, bien que les contraintes d’approvisionnement, notamment de fournisseurs de matériel comme Nvidia, représentent un obstacle.

Plans d’expansion future

Face à une demande croissante, Microsoft prévoit d’intensifier ses investissements dans l’infrastructure cloud et IA. Azure et ses services IA sont au cœur de la concurrence avec Amazon Web Services, Microsoft planifiant d’accroître les dépenses en capital pour renforcer ses capacités.

En conclusion, Microsoft, avec MAI-1, se positionne non seulement comme un concurrent sérieux dans le domaine de l’IA, mais cherche aussi à définir les futures directions technologiques de l’industrie.

Lire plus

Intelligence Artificielle

OpenAI introduit des filigranes et outils de détection pour les images DALL-E

par Yohann Poiron le 9 mai 2024

OpenAI a ajouté un nouvel outil pour détecter si une image a été créée avec son générateur d’images d’IA DALL-E, ainsi que de nouvelles méthodes de filigrane pour signaler plus clairement le contenu qu’il génère.

La richesse de l’intelligence artificielle (IA) et des outils génératifs qui ont explosé sur la scène au cours des 18 derniers mois a rendu de plus en plus difficile la distinction entre un contenu authentique et un contenu généré par l’IA. À mesure que ces technologies continuent de progresser, la nécessité de disposer de méthodes fiables pour vérifier l’origine et l’authenticité des contenus numériques devient primordiale. La provenance du contenu numérique, c’est-à-dire le processus de traçage et de certification de l’origine des ressources numériques telles que les images, les vidéos et les sons, est devenue un aspect crucial du maintien de la confiance et de l’intégrité dans le domaine numérique.

OpenAI, organisation pionnière dans la recherche et le développement de l’IA, à l’origine de ChatGPT, reconnaît l’importance de la provenance des contenus numériques et travaille activement sur des solutions innovantes pour relever ce défi. En développant des technologies innovantes qui renforcent l’intégrité du contenu numérique, OpenAI vise à fournir des outils capables d’identifier avec précision le contenu généré par l’IA et de garantir l’authenticité des actifs numériques.

OpenAI garantit l’authenticité du contenu

L’engagement de OpenAI en faveur de l’authenticité du contenu est évident dans ses récents efforts pour développer des méthodes de provenance avancées. L’organisation se concentre sur la mise en œuvre de filigranes inviolables et de classificateurs de détection robustes pour permettre une identification précise des contenus générés par l’IA. Ces technologies sont conçues pour résister aux modifications et aux altérations, ce qui permet de vérifier l’origine du contenu même s’il subit des changements après sa création.

Le filigrane infalsifiable consiste à intégrer dans le contenu numérique des signaux invisibles qu’il est difficile de supprimer ou de modifier sans qu’ils soient détectés. Cette technique permet l’identification permanente de la source du contenu, même s’il est partagé ou modifié sur différentes plateformes. Les classificateurs de détection, quant à eux, sont des outils d’IA spécifiquement formés pour évaluer la probabilité qu’un contenu soit généré par des modèles d’IA tels que DALL-E 3. Ces classificateurs analysent diverses caractéristiques et modèles au sein du contenu afin d’en déterminer l’origine.

Efforts de collaboration et de normalisation

OpenAI reconnaît l’importance de la collaboration et de la normalisation dans le domaine de la provenance des contenus numériques. L’organisation participe activement à des initiatives telles que la Coalition for Content Provenance and Authenticity (C2PA), qui rassemble des leaders du secteur, des fournisseurs de technologie et des créateurs de contenu afin d’établir des normes et des meilleures pratiques pour la provenance du contenu.

En intégrant les normes de métadonnées de la C2PA dans le contenu créé à l’aide des outils de OpenAI, l’organisation garantit que l’origine et l’authenticité du contenu peuvent être facilement vérifiées par d’autres systèmes et plates-formes adhérant à ces normes. Cette approche collaborative favorise l’interopérabilité et encourage l’adoption généralisée des technologies de provenance dans l’écosystème numérique.

Extension de la provenance aux contenus vocaux et audio

Outre le contenu visuel, OpenAI se concentre également sur l’extension des techniques de provenance au contenu vocal et audio. Étant donné la prévalence croissante des modèles vocaux générés par l’IA et du risque d’abus, il devient de plus en plus important de garantir l’authenticité du contenu audio.

OpenAI développe des techniques de filigrane pour les moteurs vocaux qui intègrent des filigranes dans les modèles vocaux personnalisés créés à l’aide de ses outils. Cela permet de vérifier l’origine et l’authenticité du contenu audio, offrant ainsi une couche supplémentaire de sécurité et de confiance dans les applications et les services basés sur la voix.

Transparence et confiance

Les efforts de OpenAI pour développer des technologies de provenance avancées vont au-delà des aspects techniques. L’organisation reconnaît les implications plus larges de ces outils dans la promotion d’un écosystème numérique plus transparent et plus fiable.

Grâce à des initiatives telles que la Researcher Access Program, OpenAI s’engage activement auprès de laboratoires de recherche sélectionnés et d’organisations journalistiques à but non lucratif pour tester et fournir un retour d’information sur leurs nouveaux outils de provenance. Cette approche collaborative garantit que les technologies sont rigoureusement évaluées et affinées sur la base d’applications réelles et des besoins des utilisateurs.

En rendant ces outils plus largement accessibles et en encourageant leur adoption dans divers secteurs, OpenAI vise à donner aux créateurs de contenu, aux éditeurs et aux consommateurs les moyens de vérifier l’authenticité du contenu numérique. Cela permet de lutter contre la diffusion de fausses informations, de « deepfakes » et d’autres formes de contenus manipulés susceptibles d’éroder la confiance dans le monde numérique.

L’avenir de la provenance des contenus numériques

À mesure que l’IA et les technologies génératives continuent d’évoluer, le domaine de la provenance des contenus numériques va sans aucun doute s’étendre et s’adapter. L’engagement de OpenAI à développer des solutions innovantes dans ce domaine sert de catalyseur à la recherche et au développement de technologies connexes.

L’intégration de la technologie blockchain, par exemple, offre la possibilité de créer des enregistrements immuables de la provenance du contenu numérique. En tirant parti de la nature décentralisée et inviolable de la blockchain, les origines et l’authenticité des actifs numériques peuvent être stockées et vérifiées en toute sécurité sur des réseaux distribués.

Les techniques cryptographiques avancées, telles que les preuves à connaissance nulle et le chiffrement homomorphique, peuvent également jouer un rôle important dans l’amélioration de la sécurité et de la confidentialité des données de provenance. Ces techniques permettent de vérifier l’authenticité du contenu sans révéler d’informations sensibles, ce qui garantit la protection de la propriété intellectuelle et de la vie privée des utilisateurs.

En outre, l’élaboration de normes mondiales pour l’authenticité des médias numériques, telles que celles promues par la C2PA, sera cruciale pour établir un cadre cohérent et interopérable pour la provenance du contenu. En s’alignant sur ces normes, les outils de OpenAI peuvent s’intégrer de manière transparente à d’autres systèmes et plateformes, ce qui permet de créer un écosystème numérique plus cohérent et plus fiable.

Alors que OpenAI continue d’innover et de collaborer dans le domaine de la provenance des contenus numériques, ses efforts façonneront sans aucun doute l’avenir de la façon dont nous créons, partageons et consommons les contenus numériques. En fournissant des outils et des technologies robustes qui garantissent l’authenticité et l’intégrité des actifs numériques, OpenAI ouvre la voie à un paysage numérique plus transparent et plus fiable.

Lire plus

Intelligence Artificielle

OpenAI s’apprête à concurrencer Google : ChatGPT apprend à faire des recherches sur le Web

par Yohann Poiron le 9 mai 2024

Selon Bloomberg, OpenAI serait en train d’améliorer ChatGPT avec une nouvelle fonctionnalité qui permet à l’IA d’effectuer des recherches sur le Web et de citer des sources. Cette ajout positionnera ChatGPT comme un concurrent direct du moteur de recherche de Google et des startups d’IA telles que Perplexity.

Cette évolution pourrait modifier considérablement la manière dont les utilisateurs interagissent avec ChatGPT en intégrant des informations plus dynamiques et référencées directement à partir du Web.

Selon des sources de Bloomberg, la nouvelle fonctionnalité en cours de développement permettrait aux utilisateurs de ChatGPT de poser des questions et de recevoir des réponses qui tirent des informations de diverses ressources en ligne. Ces réponses pourraient inclure des citations de Wikipédia, des articles de blog, voire des aides visuelles telles que des diagrammes, le cas échéant. Par exemple, une question sur la manière de changer une poignée de porte pourrait donner lieu à un guide étape par étape accompagnée d’un diagramme illustrant le processus.

La décision d’étendre les capacités de ChatGPT intervient alors que OpenAI est confrontée à une concurrence croissante dans le secteur de l’IA, où les fonctions de recherche sont devenues un champ de bataille important. Des concurrents comme Perplexity, qui a récemment atteint une valorisation d’un milliard de dollars, et le géant de la technologie Google améliorent également leurs technologies de recherche avec l’IA afin d’améliorer la précision et l’expérience de l’utilisateur.

L’initiative d’OpenAI d’intégrer une fonction de recherche directement dans ChatGPT pourrait établir une nouvelle norme pour les systèmes d’IA interactifs en fournissant aux utilisateurs un outil plus complet et autonome pour la recherche d’informations et l’aide à la réalisation de tâches.

On attend l’annonce de OpenAI pour ChatGPT

La potentielle introduction d’une fonction de recherche par OpenAI a suscité de nombreuses spéculations en ligne, notamment après que les utilisateurs de réseaux sociaux ont remarqué une URL, search.chatgpt.com, qui conduisait à un message « introuvable », mais laissait entrevoir de futures capacités. Au cours d’un weekend, l’URL a été brièvement redirigée vers le site principal de ChatGPT, alimentant les rumeurs sur le lancement imminent de cette nouvelle fonctionnalité.

Actuellement, la possibilité de faire des recherches sur le Web n’est accessible qu’aux abonnés de ChatGPT Plus et permet de répondre à des questions telles que les conditions météorologiques actuelles. Toutefois, des problèmes sont apparus, tels que des réponses obsolètes, soulignant la nécessité d’améliorer la manière dont ChatGPT récupère et vérifie les données en temps réel.

Lire plus

Intelligence Artificielle

Google Threat Intelligence est prêt à révolutionner la cybersécurité avec l’IA

par Yohann Poiron le 7 mai 2024

À l’ère où l’intelligence artificielle (IA) transforme chaque secteur, Google fait un pas audacieux en intégrant l’IA dans le domaine de la cybersécurité. En effet, Google vient de dévoiler sa dernière innovation dans le domaine de la cybersécurité : Google Threat Intelligence.

Cette nouvelle plateforme intègre les compétences de la division de cybersécurité de Google, Mandiant, et de la plateforme de renseignement sur les menaces, VirusTotal.

En fusionnant ces ressources avec les capacités avancées du modèle d’IA Gemini, Google propose une solution complète et efficace pour contrer les menaces cybernétiques.

L’objectif principal de Google Threat Intelligence est de démystifier les rapports de menaces complexes, les rendant plus accessibles et compréhensibles pour les utilisateurs de différents secteurs. Cette initiative reflète l’évolution de l’application de l’IA, qui dépasse désormais la simple manipulation d’images pour s’orienter vers des applications pratiques cruciales telles que la cybersécurité.

Google Threat Intelligence: capacités améliorées grâce à l’IA

Google Threat Intelligence s’appuie sur le Large Language Model (LLM) Gemini 1.5 Pro pour accélérer le processus de compréhension des attaques de logiciels malveillants. Par exemple, en février, ce modèle a analysé le code du virus WannaCry de 2017, une attaque de rançongiciel notoire, en seulement 34 secondes. Il a rapidement identifié un coupe-circuit, démontrant ainsi sa capacité à lire et écrire du code de manière efficace.

Au sein de la cybersécurité, Gemini propose une application novatrice : il condense les rapports de menaces en langage clair dans le cadre de Threat Intelligence. Cette fonctionnalité permet aux entreprises d’évaluer avec précision l’impact potentiel des attaques imminentes, évitant ainsi de sous-estimer ou de surestimer la gravité des menaces.

Google Threat Intelligence bénéficie également d’un vaste réseau d’informations pour la surveillance préventive des menaces, permettant aux utilisateurs de gagner une compréhension approfondie et de prioriser efficacement les mesures de sécurité. L’expertise humaine de Mandiant, avec ses professionnels dédiés à la surveillance des groupes suspects et ses consultants qui aident à prévenir les attaques, complète la plateforme.

De plus, la communauté de VirusTotal partage continuellement des indicateurs de menaces, améliorant ainsi les capacités de détection de la plateforme.

Préserver la sécurité dans les projets d’IA

En 2022, Google a acquis Mandiant, la firme de cybersécurité réputée pour avoir révélé l’attaque cybernétique SolarWinds contre le gouvernement fédéral américain en 2020. Google prévoit d’utiliser l’expertise de Mandiant pour évaluer les risques de sécurité dans les projets d’IA. Mandiant examinera la robustesse des modèles d’IA dans le cadre du cadre sécurisé d’IA de Google et aidera à simuler des cyberattaques potentielles. Bien que les modèles d’IA soient précieux pour analyser les menaces et détecter les logiciels malveillants, ils peuvent également être ciblés par des acteurs malveillants.

Un exemple de menace est le « data poisoning », où du code malveillant est inséré dans les données utilisées par les modèles d’IA, les empêchant de répondre de manière précise. Cette intégration de capacités avancées positionne Google à l’avant-garde de la lutte contre les menaces cybernétiques, renforçant la sécurité numérique dans un monde de plus en plus connecté.

Il est important de souligner que Google n’est pas la seule entreprise à fusionner IA et cybersécurité. Microsoft a lancé Copilot for Security, alimenté par GPT-4 et son propre modèle d’IA spécifique à la cybersécurité, permettant aux professionnels de poser des questions sur les menaces. La véritable utilité de l’IA générative dans ce domaine reste à prouver, mais son application promet de transformer le paysage de la cybersécurité bien au-delà des simples créations d’images.

Lire plus

Intelligence Artificielle

Google réinvente l’interaction avec Gemini, son Assistant avancé, à travers Chrome

par Yohann Poiron le 7 mai 2024

Nous avons tous vu comment Microsoft a poussé Copilot à travers Windows et toutes ses applications de bureau et mobiles, et Google tente une stratégie analogue. L’assistant d’intelligence artificielle Gemini de Google a fait son apparition sur les smartphones pour remplacer Google Assistant.

Il est également disponible en version Web, le niveau le plus élevé de Google One permettant de débloquer le modèle “Gemini Advanced“, plus avancé. Désormais, vous pouvez lui parler de n’importe où dans Chrome.

Bien qu’il reste encore du chemin à parcourir avant que Gemini atteigne sa pleine maturité, Google continue de faire progresser rapidement son produit grâce à des mises à jour itératives. La dernière en date inclut l’élargissement de la disponibilité de Gemini à davantage de langues et de pays, ainsi qu’une intégration accrue avec Google Chrome, simplifiant son accès.

L’une des innovations majeures annoncées est l’intégration de Gemini directement dans la barre d’adresse de Chrome, qui sert déjà de champ de recherche rapide.

Désormais, en tapant @gemini suivi de votre requête dans cette barre d’adresse, vous déclenchez automatiquement le chargement de l’application Web de Gemini avec votre réponse préparée.

L’application mobile Gemini, qui était déjà accessible dans 167 pays, voit son support linguistique considérablement élargi. Auparavant disponible principalement en anglais, japonais et coréen via Google Assistant sur Android ou dans un onglet dédié sur iOS, elle est maintenant accessible dans une gamme de langues beaucoup plus vaste incluant l’espagnol, le français, le portugais (y compris le brésilien), le chinois, l’italien, et l’allemand. Ce déploiement exclut le Royaume-Uni, l’EEE et la Suisse.

En complément de cette expansion, les Extensions Gemini (anciennement Extensions Bard) sont désormais disponibles dans toutes les langues et tous les pays supportés par Gemini. Ces extensions permettent à Gemini de récupérer des informations provenant d’autres applications et services Google. Par exemple, lors de la planification d’un voyage, Gemini peut trouver des dates dans Gmail qui conviennent à tous, rechercher des vols et des hôtels, et même trouver des vidéos YouTube pour aider à faire vos bagages, le tout dans une seule conversation.

Un accès simplifié à Gemini depuis Chrome

Ces mises à jour visent à rendre Gemini non seulement plus accessible, mais aussi plus intégré dans l’écosystème Google, facilitant une expérience utilisateur fluide et intuitive. Que vous utilisiez Android ou iOS, l’accès à Gemini s’élargit et se simplifie, promettant une assistance plus personnalisée et efficace.

Google continue de façonner Gemini pour qu’il devienne un assistant virtuel de premier plan, rivalisant avec les capacités actuelles du Google Assistant tout en introduisant des innovations distinctes qui maximisent l’utilisation des technologies d’IA avancées.

Lire plus

Intelligence Artificielle

Partenariat stratégique entre OpenAI et Stack Overflow pour enrichir l’IA

par Yohann Poiron le 7 mai 2024

OpenAI et la plateforme de développement Stack Overflow ont annoncé un partenariat qui promet d’améliorer les performances des modèles d’intelligence artificielle et d’enrichir ChatGPT avec des informations techniques plus poussées.

Grâce à cet accord, OpenAI aura accès à l’API de Stack Overflow et bénéficiera du retour d’expérience de la communauté des développeurs pour affiner ses modèles d’IA. En échange, OpenAI créditera Stack Overflow — autrement dit, il inclura des liens vers ses contenus — dans les réponses de ChatGPT.

Les utilisateurs du chatbot auront ainsi accès à un réservoir plus riche d’informations techniques issues de l’archive de connaissances de Stack Overflow lorsqu’ils poseront des questions sur la programmation ou des sujets techniques. Les entreprises indiquent dans leur communiqué de presse que cela permettra de « renforcer l’engagement envers le contenu ».

De son côté, Stack Overflow utilisera les Large Language Model (LLM) d’OpenAI pour développer son Overflow AI, une application d’IA générative annoncée l’année dernière. Overflow AI intégrera une recherche en langage naturel alimentée par l’IA à Stack Overflow.

La plateforme prévoit de combiner les retours de sa communauté et les tests internes des modèles d’OpenAI pour créer davantage de produits d’IA destinés à ses utilisateurs.

Stack Overflow et OpenAI, l’intégration en juin

Les premières intégrations devraient être disponibles lors de la première moitié de l’année, bien que Stack Overflow n’ait pas précisé quelles intégrations seront déployées en premier. Stack Overflow avait conclu un accord analogue avec Google en février, permettant aux utilisateurs de Gemini for Google Cloud (à ne pas confondre avec le chatbot Gemini) d’obtenir des suggestions de codage directement depuis Stack Overflow.

Depuis des années, les développeurs se tournent vers Stack Overflow pour résoudre leurs questions de codage. Stack Overflow a réalisé une importante campagne de recrutement en 2022, mais l’entreprise a licencié 28 % de ses employés en octobre. Stack Overflow n’a pas fourni de raison pour ces licenciements, bien que ces dernières aient coïncidé avec la montée en puissance du codage assisté par IA.

En 2022, Stack Overflow a temporairement interdit à ses utilisateurs de partager des réponses de ChatGPT sur son site.

Stack Overflow doit désormais adopter l’IA

Malgré ces défauts apparents, les développeurs adoptent les outils d’IA générative pour certaines tâches de codage. Dans un sondage de Stack Overflow de juin 2023, 44 % des développeurs ont déclaré utiliser désormais des outils d’IA dans leur processus de développement, tandis que 26 % prévoient de le faire prochainement.

Cela a provoqué une sorte de crise existentielle pour Stack Overflow. Le trafic vers la plateforme a considérablement diminué depuis la sortie de nouveaux modèles d’IA générative compétents l’année dernière — des modèles qui ont souvent été entraînés sur des données issues de Stack Overflow.

Désormais, alors qu’elle réduit ses coûts, Stack Overflow poursuit des accords de licence avec des fournisseurs d’IA.

Lire plus

Google Meet améliore son IA de prise de notes avec une section Décisions

Xbox Mode arrive sur Windows 11 : le PC devient plus proche d’une console

Perplexity Comet devient enfin crédible sur iPad avec Split View et le multi-fenêtre

Apple signe un trimestre record, porté par l’iPhone 17 et les Services

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Xiaomi Smart Band 10 Pro : lancement en mai et version céramique en fuite

Oura intègre la contraception hormonale dans le suivi des cycles

Galaxy S27 Ultra : Samsung pourrait supprimer le zoom 3x pour intégrer un aimant Qi2

iPhone 18 Pro : Apple pourrait garder les prix, mais augmenter les options

Pourquoi ChatGPT parlait de gobelins : OpenAI explique le bug de GPT-5.5

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

OpenAI renforce la sécurité de ChatGPT avec des clés physiques YubiKey

Gemini génère désormais des fichiers Word, Excel et PDF téléchargeables

Pourquoi ChatGPT parlait de gobelins : OpenAI explique le bug de GPT-5.5

Mac mini et Mac Studio : Apple annonce plusieurs mois de pénurie, porté par l’IA locale

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

Notepad++ arrive sur macOS en version native gratuite, 23 ans après Windows !

Quels langages de programmation apprendre en 2026 ? Guide complet pour débutants

Google AI Studio augmente ses quotas pour les abonnés AI Pro et Ultra

Chronicle : OpenAI transforme Codex en assistant contextuel (et ça change tout)

OpenAI Codex : Pourquoi vous n’allez plus jamais quitter votre IDE ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Claude Code vs ChatGPT Codex : Quel agent choisir pour votre workflow en 2026 ?

Intelligence Artificielle

Pourquoi ChatGPT parlait de gobelins : OpenAI explique le bug de GPT-5.5

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

OpenAI renforce la sécurité de ChatGPT avec des clés physiques YubiKey

Gemini génère désormais des fichiers Word, Excel et PDF téléchargeables

Android et IA : l’Europe veut forcer Google à ouvrir Gemini à la concurrence

IA et santé : pourquoi les chatbots restent peu fiables pour les décisions médicales