Meta dévoile Llama 3 : Un nouveau standard en IA pour raisonnement et codage

par Yohann Poiron le 26 avril 2024

Suite au lancement du nouveau Large Language Model Llama 3 par Meta et Mark Zuckerberg, WorldofAI a testé les performances et les capacités de Llama 3 pour le raisonnement et le codage. WorldofAI a testé les performances et les capacités de Llama 3 en matière de raisonnement et de codage. Llama 3 s’est déjà imposé comme un véritable catalyseur dans le domaine de l’intelligence artificielle (IA), établissant de nouvelles références en matière de performance de l’IA et démontrant ses capacités supérieures dans un large éventail de tâches.

Ce LLM open source a non seulement dépassé ses prédécesseurs, mais aussi ses principaux concurrents, tels que le modèle GPT-4 d’OpenAI et le modèle Claude 3 Haiku d’Anthropic, en particulier dans des domaines tels que le raisonnement, les mathématiques et le codage.

Les impressionnantes performances de Llama 3 peuvent être attribuées à ses capacités cognitives avancées et à son robuste framework. Lorsqu’il est soumis à diverses évaluations axées sur les compétences de résolution de problèmes du monde réel, Llama 3 démontre constamment sa supériorité dans la gestion de requêtes et de tâches complexes. Sa capacité à relever des défis sophistiqués avec facilité souligne son potentiel à transformer le paysage de l’IA.

L’un des principaux atouts de Llama 3 réside dans sa capacité d’adaptation, qui se manifeste à travers ses diverses configurations de paramètres. Le modèle a été testé à la fois avec 8 milliards et 70 milliards de paramètres, cette dernière configuration montrant une vitesse de traitement et une efficacité exceptionnelles. Llama 3 est donc particulièrement bien adapté au traitement de tâches plus exigeantes et plus complexes, ce qui souligne encore sa polyvalence et son potentiel d’application dans divers domaines.

Les prouesses de Llama 3 vont au-delà de sa puissance de traitement brute, puisqu’il a démontré des capacités remarquables en matière de raisonnement et de codage. Lors de tests destinés à évaluer sa capacité à simplifier des concepts complexes, Llama 3 a réussi à expliquer des théories complexes, telles que la théorie de la relativité, en des termes que même un jeune enfant peut comprendre.

Cette prouesse souligne le potentiel du modèle en tant qu’outil éducatif transformateur, capable de rendre des sujets complexes plus accessibles à un public plus large.

Performance de codage de Llama 3

Dans le domaine du codage, Llama 3 a fait ses preuves en s’attaquant facilement à des défis de programmation avancés. Le modèle a généré avec succès un code fonctionnel pour diverses applications, y compris des jeux populaires comme Snakes and Ladders. Cela souligne non seulement l’utilité pratique de Llama 3 dans le développement de logiciels, mais laisse également entrevoir son potentiel d’innovation dans la conception de jeux et d’autres domaines centrés sur la programmation.

Performances supérieures dans les tâches de raisonnement, de mathématiques et de codage
Adaptation à diverses configurations de paramètres, avec une efficacité exceptionnelle pour 70 milliards de paramètres
Capacité à simplifier des concepts complexes pour en faciliter la compréhension.
Génère du code fonctionnel pour diverses applications, y compris des jeux.

Alors que l’équipe de développement de Llama 3 se fixe des objectifs encore plus ambitieux, tels que la création d’un modèle de 400 milliards de paramètres, l’avenir de l’IA semble de plus en plus prometteur. Cette prochaine itération devrait repousser encore plus loin les limites des performances de l’IA, ce qui pourrait influencer le développement de modèles ultérieurs tels que GPT-4.5 ou GPT-5.

Pour les développeurs et les chercheurs désireux d’exploiter la puissance de Llama 3, des plateformes telles que Hugging Face et Meta AI offrent l’infrastructure nécessaire pour des tests et des développements approfondis. Ces plateformes fournissent aux utilisateurs les outils et les ressources nécessaires pour explorer pleinement les capacités du Llama 3 dans des scénarios pratiques, ce qui leur permet de tirer parti de son potentiel d’innovation et de progrès dans leurs domaines respectifs.

Façonner l’avenir de l’IA

Alors que Llama 3 continue de redéfinir l’excellence dans le domaine des Large Language Model, son impact sur l’avenir de l’intelligence artificielle ne peut être surestimé. Grâce à ses performances inégalées en matière de raisonnement, de codage et de résolution de problèmes, ce modèle révolutionnaire est en passe de façonner la trajectoire du développement de l’intelligence artificielle pour les années à venir.

Les améliorations et les applications potentielles du Llama 3 sont vastes et d’une grande portée, offrant de précieuses opportunités aux développeurs, aux chercheurs et aux industries. À mesure qu’un plus grand nombre d’individus et d’organisations commencent à reconnaître le pouvoir de transformation de ce modèle, nous pouvons nous attendre à une augmentation des projets innovants et des percées qui tirent parti de ses capacités.

Lire plus

Intelligence Artificielle

Adobe intègre l’IA générative pour révolutionner la conception numérique

par Yohann Poiron le 25 avril 2024

Adobe Systems Incorporated, l’un des piliers des outils de créativité numérique, est à l’origine d’une transformation du monde de la conception en mettant en œuvre de manière stratégique l’intelligence artificielle générative (IA). Cette initiative améliore la gamme de produits Adobe et stimule considérablement la productivité et les flux de revenus en répondant aux besoins évolutifs des designers professionnels et des spécialistes du marketing.

Au cours de l’année écoulée, Adobe a méthodiquement intégré l’IA générative dans ses produits phares, notamment le mastodonte Photoshop et le polyvalent Adobe Express. Ces améliorations sont spécifiquement adaptées aux workflows créatifs des professionnels, permettant une personnalisation et une efficacité sans précédent dans la création de contenu.

David, porte-parole d’Adobe, a souligné l’ampleur de ces intégrations lors d’une récente discussion. « L’introduction de modèles d’IA pour l’imagerie, les vecteurs et la conception a révolutionné la façon dont nos applications Creative Cloud améliorent la productivité », a-t-il noté. Cette suite d’outils permet aux professionnels de la création de produire rapidement un contenu de haute qualité adapté aux exigences spécifiques d’un projet, réduisant ainsi les délais d’exécution et augmentant la réactivité du marché.

L’une des avancées les plus significatives est l’intégration de l’IA dans Photoshop. Cela a permis aux utilisateurs de manipuler et de créer facilement des images complexes, en tirant parti de l’IA pour automatiser les parties fastidieuses du processus créatif. Pour les designers, cela signifie qu’ils consacrent moins de temps aux tâches routinières et plus de temps à l’exploration créative, repoussant ainsi les limites de l’art numérique.

En outre, Adobe est pionnier dans la gestion et l’utilisation des données pour la formation à l’IA. Contrairement à certains concurrents qui s’appuient sur des données synthétiques ou des contenus sans licence, Adobe a construit ses modèles d’IA à partir d’une vaste bibliothèque d’images et de ressources exclusives. Cette approche éthique garantit le respect des lois sur la propriété intellectuelle et fait d’Adobe un leader en matière de développement responsable de l’IA.

Adobe garanti une approche éthique

« Nous adhérons strictement à un cadre que nous appelons ART (accountability, responsibility, transparency) », explique David. Ce processus rigoureux garantit que tous les modèles d’IA expédiés par Adobe ont fait l’objet d’une évaluation et d’une modération approfondies, ce qui permet de s’assurer que le contenu généré est conforme à la législation et de la plus haute qualité.

À l’avenir, Adobe s’apprête à dévoiler des fonctionnalités révolutionnaires de conversion de texte en vidéo, afin d’améliorer encore son écosystème de logiciels créatifs. Cette nouvelle fonctionnalité permettra de traduire des descriptions écrites en contenus vidéo riches et détaillés, une aubaine pour les professionnels de la publicité, du cinéma et des médias. En outre, la collaboration d’Adobe avec des innovateurs tiers dans le domaine de l’IA, tels que Sora, Runway et PCA, devrait élargir les possibilités créatives offertes aux utilisateurs, garantissant ainsi que les outils d’Adobe restent à la pointe de la technologie.

Ces avancées représentent un grand pas en avant pour les concepteurs qui s’appuient sur la gamme complète d’outils Adobe. L’intégration de l’IA générative rationalise le workflow et enrichit le processus créatif, permettant aux concepteurs d’en faire plus avec moins d’efforts. En outre, l’engagement d’Adobe en faveur d’une utilisation éthique de l’IA rassure à une époque où les questions de confidentialité des données et de droits d’auteur sont primordiales.

Adobe continue d’innover et d’intégrer l’IA

Alors qu’Adobe continue d’innover et d’intégrer l’IA dans sa gamme de produits, les professionnels de la conception peuvent s’attendre à des outils encore plus performants qui facilitent la créativité et l’efficacité. L’avenir de la conception est là, et Adobe en écrit les premières ébauches grâce aux coups de pinceau intelligents de l’IA générative.

Lire plus

Intelligence Artificielle

Apple présente les modèles OpenELM pour booster l’IA sur ses appareils

par Yohann Poiron le 25 avril 2024

Apple est restée discrète sur ses projets en matière d’IA générative, mais avec la publication de nouveaux modèles d’IA OpenELM aujourd’hui, il semble que les ambitions immédiates de l’entreprise se situent résolument dans le domaine de l’exécution locale de l’IA sur les appareils Apple.

Apple a récemment fait une incursion remarquée dans le domaine des modèles de langage avec le lancement d’OpenELM, une série de Large Language Model mais efficaces, conçus pour fonctionner entièrement sur des appareils individuels. Cette démarche représente un changement de stratégie pour la firme, traditionnellement réputée pour sa culture du secret et ses systèmes fermés.

Apple is joining the public AI game with 4 new models on the Hugging Face hub! https://t.co/oOefpK37J9

— clem 🤗 (@ClementDelangue) April 24, 2024

OpenELM, qui signifie « Open-source Efficient Language Models », comprend 8 versions de modèles, chacune conçue pour des tâches spécifiques de génération de texte et d’instruction. Il existe quatre tailles : 270 millions de paramètres, 450 millions de paramètres, 1,1 milliard de paramètres et 3 milliards de paramètres.

Les paramètres désignent le nombre de variables qu’un modèle comprend pour prendre des décisions à partir de ses ensembles de données d’apprentissage. Par exemple, le modèle Phi-3 de Microsoft, récemment publié, se limite à 3,8 milliards de paramètres, tandis que Gemma de Google propose une version à 2 milliards de paramètres. Les petits modèles sont moins coûteux et optimisés pour fonctionner sur des appareils tels que les smartphones et les ordinateurs portables.

Quatre tailles d’OpenELM

Les modèles OpenELM ont été pré-entraînés sur des ensembles de données publics comprenant des sources telles que Reddit, Wikipedia et arXiv, atteignant un impressionnant total de 1,8 trillion de tokens. Apple a utilisé une stratégie de mise à l’échelle par couche dans la construction de ces modèles, permettant une utilisation optimisée des ressources de calcul tout en améliorant l’exactitude des résultats.

Les benchmarks publiés montrent que les modèles, en particulier la variante de 450 millions de paramètres, réalisent des performances respectables, mais pas révolutionnaires, sur des benchmarks tels que ARC-C, MMLU et HellaSwag. Cela positionne OpenELM comme une alternative viable pour les applications ne nécessitant pas les capacités extrêmes des modèles plus grands et plus gourmands en ressources.

Applications et implications de OpenELM

L’approche d’Apple, permettant l’exécution de ces modèles sur des dispositifs individuels comme les MacBook et les smartphones, sans nécessiter de connexion à des serveurs cloud, souligne une avancée vers plus d’autonomie dans le traitement des tâches d’IA.

Les poids des modèles OpenELM sont disponibles sous une licence sample code, ce qui encourage leur utilisation et modification dans des projets commerciaux, tout en respectant certaines conditions de redistribution.

Avec OpenELM, Apple ne cherche pas seulement à rattraper ses concurrents comme Google ou Microsoft, qui ont également leurs propres modèles pouvant fonctionner sur des appareils. La firme cherche plutôt à pousser les limites de ce qui est possible avec l’IA en open source, tout en restant fidèle à ses principes de performance et d’efficacité. Les modèles OpenELM représentent donc une étape significative vers des applications d’IA plus accessibles et éthiquement responsables.

Apple mise beaucoup sur l’IA

Tim Cook, le PDG d’Apple, a laissé entendre que des fonctions d’IA générative allaient être intégrées aux appareils de la société, déclarant en février qu’Apple consacrait « énormément de temps et d’efforts » à ce domaine. Cependant, Apple n’a pas encore donné de détails sur ce que pourrait être son utilisation de l’IA.

La société a déjà lancé d’autres modèles d’IA, mais elle n’a pas encore publié de modèle de base d’IA pour une utilisation commerciale, comme l’ont fait ses concurrents.

Lire plus

Intelligence Artificielle

Phi-3 : Le nouveau modèle d’IA abordable et efficace de Microsoft

par Yohann Poiron le 24 avril 2024

Microsoft a lancé son plus petit modèle d’IA, Phi-3, le premier d’un trio de modèles légers. Alors que de plus en plus de modèles d’IA arrivent sur le marché, Microsoft s’oriente vers des modèles formés sur des ensembles de données plus petits qu’à l’accoutumée.

The Verge rapporte que Phi-3 Mini dispose de 3,8 milliards de paramètres (le nombre d’instructions complexes qu’un modèle peut comprendre) et est désormais disponible sur Azure, Hugging Face et Ollama, avec des projets de lancement de deux autres modèles. Phi-3 Small dispose de 7 milliards de paramètres et Phi-3 Medium 14 milliards de paramètres. Pour donner une idée de l’échelle, on pense que GPT-4 a plus de 1 000 milliards de paramètres.

Le Phi-2 de Microsoft a été lancé en décembre 2023, avec 2,7 milliards de paramètres, mais avec la capacité d’atteindre des niveaux de performance analogue à ceux de certains modèles plus grands. L’entreprise affirme aujourd’hui que Phi-3 peut surpasser son prédécesseur, en offrant des réponses proches de celles de 10x sa taille.

Les avantages de Phi-3 Mini ?

Les petits modèles d’IA sont généralement moins coûteux à créer et à exploiter. Leur taille réduite signifie qu’ils fonctionnent bien sur des appareils personnels tels que les smartphones et les ordinateurs portables, ce qui facilite leur adaptation et leur lancement sur le marché de masse.

Microsoft dispose d’une équipe chargée de développer des modèles d’IA plus petits, chacun d’entre eux étant conçu pour cibler des domaines spécifiques. Orca-Math, par exemple, se concentre sur la résolution de problèmes mathématiques, comme son nom l’indique.

Ce n’est pas la seule entreprise à cibler ce domaine, avec Gemma 2B et 7B de Google centrés sur le langage et les chatbots, Claude 3 Haiku d’Anthropic conçu pour lire et résumer de longs articles de recherche (similaire à CoPilot de Microsoft), et Llama 3 8B de Meta prêt à aider au codage.

Si les modèles d’IA de petite taille conviennent mieux aux appareils personnels, ils peuvent également être utilisés par les entreprises. Les ensembles de données internes des entreprises étant généralement plus petits, ces modèles d’IA sont bien adaptés à une utilisation interne, car ils sont plus faciles et plus rapides à installer et à utiliser, tout en étant plus abordables.

L’IA responsable au premier plan

Microsoft a développé Phi-3 en tenant compte dès le départ de ses principes d’IA responsable. Les données d’entraînement du modèle ont été examinées pour détecter toute toxicité et tout biais, et des mesures de sécurité supplémentaires ont été mises en place avant la publication. Cela permet aux entreprises, en particulier celles des secteurs réglementés, d’exploiter en toute confiance les capacités de Phi-3.

D’un point de vue technique, Phi-3 fonctionne sur le ONNX Runtime optimisé pour les GPU NVIDIA et peut être déployé de manière distribuée sur plusieurs GPU ou machines afin d’optimiser le débit. L’architecture du modèle utilise des mécanismes d’attention efficaces et une précision numérique optimisée pour atteindre des performances élevées avec un nombre relativement faible de paramètres.

Lire plus

Intelligence Artificielle

Nouvelle ère de créativité : Adobe intègre l’IA Firefly 3 dans Photoshop 2024

par Yohann Poiron le 24 avril 2024

La version 2024 de Photoshop CC d’Adobe était une mise à jour importante. Bien qu’Adobe ait déjà commencé à jouer avec les fonctions d’IA, la version de l’année dernière a été la première à être correctement équipée pour l’ère de l’IA générative. La nouvelle fonction de « remplissage génératif » vous permet d’utiliser l’IA pour modifier des parties d’une image, agrandir des images et, de manière générale, modifier des images à votre guise à l’aide de l’IA. Aujourd’hui, une version améliorée de cette fonctionnalité est prévue pour la prochaine version 2025 de Photoshop.

Lors de la MAX London, le grand événement annuel d’Adobe, Adobe a dévoilé une nouvelle version bêta de Photoshop, qui présente des avancées en matière de remplissage génératif et apporte des améliorations globales à Photoshop avec un grand nombre de nouveaux ajouts en matière d’IA.

Toutes ces nouveautés sont alimentées par le nouveau modèle d’IA Firefly 3 d’Adobe, plus performant que ses prédécesseurs, et devraient se traduire non seulement par de nouvelles fonctionnalités d’IA, mais aussi par des améliorations de toutes les fonctionnalités auxquelles vous aviez déjà accès. Les images et les résultats générés par le modèle devraient être plus beaux, plus réalistes, plus détaillés, et le modèle devrait également mieux suivre vos instructions. Ce n’est pas le seul ajout d’IA par Adobe à ses logiciels ces dernières années, mais les fonctions d’IA de Photoshop sont peut-être parmi les plus utilisées.

L'image de référence téléchargée guide les résultats générés par l'IA de Photoshop, évitant ainsi aux utilisateurs d'effectuer des ajustements fréquents aux prompts textuels. — L’image de référence téléchargée guide les résultats générés par l’IA de Photoshop, évitant ainsi aux utilisateurs d’effectuer des ajustements fréquents aux prompts textuels.

Les générations d’IA de Photoshop n’étaient pas mauvaises, loin de là, mais lorsque d’autres modèles de génération d’images comme DALL-E 3 ont commencé à débarquer, les résultats de Photoshop ont commencé à paraître un peu faibles en comparaison, et cette amélioration était donc plus que nécessaire. Elle permet également d’utiliser de nouvelles fonctionnalités telles que Image de référence, Générer une image, Générer similaire, Générer un arrière-plan et Améliorer le degré de détail, offrant ainsi aux utilisateurs des outils leur permettant de donner rapidement vie à leurs visions créatives.

Adobe présente Générer un arrière-plan comme un outil permettant d'ajouter rapidement de la variété aux photographies de produits sans avoir à refaire les prises de vue. — Adobe présente Générer un arrière-plan comme un outil permettant d’ajouter rapidement de la variété aux photographies de produits sans avoir à refaire les prises de vue.

Générer une image permet aux utilisateurs de générer une image entièrement à partir de zéro, comme le fait DALL-E 3, tandis que Image de référence permet de prendre une image existante comme référence pour la génération d’une IA. Par exemple, au lieu de modifier à plusieurs reprises la description d’un prompt comme « un camion vintage bleu avec des autocollants de fleurs », les utilisateurs peuvent fournir une image de référence que Photoshop utilisera comme guide. Les fonctions Générer similaire et Améliorer les détails se décrivent également d’elles-mêmes.

Les outils Firefly produisent trois résultats générés à choisir dans Photoshop - si vous souhaitez voir des versions similaires de l'un d'entre eux, Générer similaire s'en chargera. — Les outils Firefly produisent trois résultats générés à choisir dans Photoshop – si vous souhaitez voir des versions similaires de l’un d’entre eux, Générer similaire s’en chargera.

De la génération d’image assistée par l’IA sur Photoshop

En dehors de l’IA générative, Adobe ajoute également à Photoshop de nouveaux outils standard susceptibles d’accélérer les processus créatifs. Il s’agit notamment d’un pinceau de réglage qui permet aux utilisateurs de Photoshop d’apporter des modifications non destructives, telles que des ajustements de couleur, à des sections spécifiques d’une image. Il existe également un nouveau préréglage d’ajustement qui permet de modifier rapidement une image à l’aide de filtres, ainsi qu’un navigateur de polices amélioré qui permet aux utilisateurs d’accéder en temps réel à plus de 25 000 polices dans le cloud d’Adobe sans quitter l’application Photoshop.

Plutôt que de recourir au masquage ou à d'autres processus laborieux, les utilisateurs peuvent modifier rapidement des éléments tels que la couleur à l'aide du nouveau pinceau de réglage. — Plutôt que de recourir au masquage ou à d’autres processus laborieux, les utilisateurs peuvent modifier rapidement des éléments tels que la couleur à l’aide du nouveau pinceau de réglage.

Ces fonctionnalités sont désormais disponibles dans la version bêta de Photoshop, et si vous souhaitez vous y essayer, vous pouvez le faire sur votre ordinateur dès maintenant. La version « finale » de ces améliorations sera disponible dans le courant de l’année. Si vous ne souhaitez pas jouer avec un logiciel de niveau bêta, il est donc préférable d’attendre.

Lire plus

Intelligence Artificielle

Apple prépare un coup de maître en IA pour iOS 18 avec l’acquisition de Datakalab

par Yohann Poiron le 23 avril 2024

Apple aurait acquis Datakalab, une startup d’intelligence artificielle basée à Paris, dans le cadre de son projet de fournir des outils d’intelligence artificielle sur les appareils. Cette nouvelle intervient juste après que Mark Gurman a rapporté qu’Apple développait un Large Language Model (LLM) propriétaire afin d’apporter des fonctionnalités d’IA aux iPhone.

Ne nous voilons pas la face, 2024 est l’année de l’IA. Si votre smartphones n’est pas doté de capacités d’IA, vous pourriez tout aussi bien vivre à côté des Pierrafeu. C’est évidemment une exagération, mais vous savez que la WWDC 2024 sera scrutée comme jamais auparavant, car Apple dévoilera la plus grande mise à jour de l’histoire d’iOS.

Selon le magazine économique Challenges, cette acquisition a été finalisée en décembre 2023. Bien que les détails financiers n’aient pas été divulgués, cette décision intervient alors qu’Apple devrait intégrer une série de fonctions d’IA à la prochaine version d’iOS 18 et à la série d’iPhone 16.

En ce qui concerne la startup acquise, Datakalab est réputée pour son expertise en matière de compression d’algorithmes et de développement de systèmes d’IA embarqués. Elle a été fondée en 2016 par Xavier et Lucas Fischer.

Depuis, la société a fait des progrès notables dans la technologie de l’IA en se concentrant sur les algorithmes de faible puissance, efficaces en termes de temps d’exécution et d’apprentissage profond qui fonctionnent sur l’appareil, sans s’appuyer sur des systèmes basés sur le cloud. Un bon exemple d’outil d’IA basé sur le cloud est la fonction de fond d’écran génératrice d’IA sur les smartphones Pixel, Samsung et Nothing.

Cette approche est étroitement liée à l’engagement d’Apple de fournir des performances fiables tout en préservant la confidentialité des utilisateurs et la sécurité des données. Lorsque les données sont traitées, cela garantit des réponses plus rapides et minimise le risque de violation des données. L’intérêt d’Apple est probablement motivé par la compétence de la startup en matière d’optimisation des réseaux neuronaux pour les appareils portables tels que les smartphones et les tablettes.

Une grosse expérience pour Datakalab

Avant d’être supprimé, le site Web de Datakalab indiquait : « Datakalab est une société technologique française qui développe des algorithmes d’analyse d’images informatiques pour mesurer les flux dans l’espace public. Les images sont instantanément transformées en données statistiques anonymes traitées localement en 100 ms. Datakalab ne stocke aucune image ou donnée personnelle et ne conserve que des données statistiques. Les produits Datakalab sont construits selon le principe du “Privacy by Design” ». Avant l’accord avec Apple, l’entreprise comptait entre 10 et 20 employés.

En mai 2020, Datakalab s’est associée au gouvernement français pour déployer des outils d’IA dans les systèmes de transport parisiens afin de vérifier si les usagers portaient des masques de protection. L’entreprise a également fait ses preuves auprès de Disney et d’autres acteurs.

Datakalab a également développé une technologie capable d’analyser les émotions humaines par le biais de la reconnaissance faciale et des données visuelles. Plus tard, ces technologies ont été utilisées pour surveiller en temps réel les réactions du public lors des projections au cinéma.

Il convient de mentionner que ni Apple ni DatakaLab n’ont encore reconnu l’acquisition. Selon Challenges, l’opération a été signalée ce mois-ci à l’Union européenne. Selon le rapport, les deux fondateurs de Datakalab n’ont pas rejoint Apple, mais plusieurs autres employés ont changé de poste.

Un LLM exécuté en local

Récemment, Mark Gurman a rapporté qu’Apple développait un LLM qui fonctionnera sur l’appareil, contrairement à la plupart des services d’IA existants qui fonctionnent sur le cloud. Étant donné que le LLM sur appareil d’Apple pourrait être moins puissant que ses rivaux directs basés sur le cloud, le géant technologique de Cupertino pourrait “combler les lacunes” en accordant des licences sur la technologie de Google ou d’autres fournisseurs de services d’IA.

Nous saurons tout sur la stratégie d’Apple en matière d’IA lors de la conférence annuelle WWDC (Worldwide Developers Conference), qui se tiendra du 10 au 14 juin 2024.

Lire plus

Intelligence Artificielle

Google pousse Gemini dans l’ère du streaming musical

par Yohann Poiron le 23 avril 2024

Cela fait un moment que Google a lancé Gemini sur les appareils Android. Si son IA générative et son intégration à la suite d’applications de Google sont louables, il lui manquait l’intégration aux applications de streaming musical. La bonne nouvelle, c’est que Gemini permettra bientôt aux utilisateurs de sélectionner une application de streaming musical par défaut.

En effet, Gemini est sur le point de devenir beaucoup plus utile grâce à la prise en charge de services de streaming musicaux tiers comme Spotify et Apple Music.

La source AssembleDebug, via Piunika Web, a repéré la fonction cachée dans les paramètres de Gemini. Cette fonction vous permet de « Choisir votre fournisseur de médias par défaut ». Selon sa description, l’option Musique dans les paramètres de Gemini permet de « sélectionner les services préférés utilisés pour lire de la musique ».

Bien que l’écran « Choisissez votre fournisseur de médias par défaut » semble vide pour l’instant, Google pourrait bientôt y ajouter une liste de populaires applications de streaming musicales. Les utilisateurs pourront ainsi sélectionner une application de streaming comme service par défaut. Cela permettra à Gemini de commencer à accepter des commandes liées au streaming musical, comme « Jouer mes chansons préférées ».

✨Gemini to finally let you choose your preferred music service provider on Android

📝 Read – https://t.co/cjjPPLr7Lx #Google #Gemini #Android #AI pic.twitter.com/qaurr02HAU

— AssembleDebug (@AssembleDebug) April 21, 2024

Google Assistant, quant à lui, prend en charge cette fonction depuis des années, et c’est l’une des caractéristiques qui empêchent les utilisateurs de passer à Gemini. Jusqu’à récemment, le chatbot de Google ne pouvait pas exécuter les commandes liées aux Rappels et à Google Maps.

Gemini va bientôt se doter de réponses en temps réel sur mobile

AssembleDebug rapporte également que Google travaille à l’ajout d’un bouton « Réponses en temps réel ». Cela permettrait à Gemini d’envoyer des réponses en temps réel plutôt que de prendre le temps de les traiter et de les envoyer ensuite.

✨ Gemini assistant to bag a new “Real-time responses” option (also a toggle to disable location access specifically for gemini)

📝 https://t.co/nv4NJYJ46K #Google #Gemini #AI #Android pic.twitter.com/A26BpMVvch

— AssembleDebug (@AssembleDebug) April 22, 2024

Il semble que la version actuelle de Gemini soit loin de l’idéal souhaité par Google, mais le rythme auquel Google ajoute de nouvelles fonctionnalités, combiné à la fusion de ses équipes d’intelligence artificielle et de matériel, devrait permettre d’accélérer le développement des fonctionnalités et leur diffusion sur les appareils.

Lire plus

Intelligence Artificielle

L’intégration de Llama 3 de Meta sur Snapdragon : Une nouvelle ère pour l’IA mobile

par Yohann Poiron le 23 avril 2024

Si vous êtes à la recherche de votre prochain produit phare Android — ou si vous envisagez d’abandonner l’iPhone et d’essayer quelque chose de différent — il y a de fortes chances que votre prochain appareil soit équipé d’une puce Snapdragon, un chipset de la société de semi-conducteurs de renommée mondiale Qualcomm.

Dans un avenir pas si lointain, ceux qui choisissent de rejoindre l’équipe Snapdragon pourraient utiliser le dernier modèle d’IA de Meta : Llama 3.

La semaine dernière, Meta a annoncé que le modèle Llama 3 alimentait le nouvel assistant Meta AI que l’on trouve sur WhatsApp, Instagram, Facebook et Messenger dans certains pays du monde. Le modèle Llama 3 est censé posséder des capacités de raisonnement impressionnantes et une meilleure aptitude à suivre les instructions.

Qualcomm et Meta viennent d’annoncer un partenariat visant à optimiser l’exécution du Llama 3 de Meta directement sur les smartphones, les PC, les casques VR/AR, les véhicules, etc. Cette collaboration permet au nouveau modèle d’IA de fonctionner sur les appareils, offrant des avantages tels qu’une meilleure réactivité, une plus grande confidentialité, une plus grande fiabilité et des expériences personnalisées pour les utilisateurs.

Nous célébrons l’approche ouverte de Meta avec Meta Llama 3, et nous partageons son engagement à donner aux développeurs les moyens d’agir et à stimuler l’innovation en matière d’IA. Notre leadership dans le domaine de l’IA sur les appareils, associé à notre vaste portée sur différents appareils en périphérie, nous permet d’étendre les avantages de l’écosystème Llama dans le monde entier et de permettre aux clients, partenaires et développeurs de créer une nouvelle génération d’expériences révolutionnaires en matière d’IA.

Intégration de Llama 3

C’est ce qu’a déclaré Durga Malladi, Vice-président senior et Directeur général de Qualcomm en charge de la technologie, de la planification et des solutions de périphérie.

Cette collaboration vise à démocratiser l’accès aux capacités d’IA générative en permettant aux OEM et aux développeurs d’intégrer Llama 3 dans les appareils équipés des prochaines plateformes phares Snapdragon. Les développeurs auront accès aux ressources et aux outils nécessaires pour optimiser Llama 3 sur les plateformes Snapdragon grâce au Qualcomm AI Hub, qui propose environ 100 modèles d’IA optimisés.

L’iPhone pourrait bénéficier du soutien de Google en matière d’IA

Alors que les modèles phares d’Android vont intégrer le modèle d’IA de Meta grâce aux futures puces Snapdragon, les prochains iPhone pourraient bénéficier d’un coup de pouce en matière d’IA de la part de… Google. Le mois dernier, nous avons entendu des rumeurs sur le fait qu’Apple était en pourparlers pour obtenir une licence de l’IA Gemini de Google afin d’améliorer Siri et d’ajouter de nouvelles fonctionnalités à iOS.

En bref, Apple serait en pourparlers avec Google pour obtenir une licence de son IA Gemini, dans le but d’améliorer Siri et d’introduire de nouvelles fonctionnalités d’IA dans iOS 18.

Les négociations entre Apple et Google ont progressé, mais tout accord impliquant Gemini nécessiterait probablement l’approbation des organismes de réglementation en raison des enquêtes en cours sur le partenariat existant entre Apple et Google, qui fait de Google le moteur de recherche par défaut sur Safari et qui verserait à Apple près de 20 milliards de dollars par an.

Lire plus

Intelligence Artificielle

Google optimise Gemini avec une fonction de réponses en temps réel sur mobile

par Yohann Poiron le 22 avril 2024

L’IA est à l’honneur dans le monde entier en ce moment (et le restera probablement dans un avenir proche). Il est donc essentiel que les applications d’IA sur les smartphones soient souvent améliorées.

Google ne cesse de peaufiner Gemini, son assistant intelligent, qui a connu un démarrage quelque peu houleux. D’après un récent rapport, une innovation majeure pourrait rendre l’application Android plus rapide : l’intégration d’une fonction de réponses en temps réel sur Gemini.

Cette fonctionnalité, révélée par PiunikaWeb et l’expert Android AssembleDebug, introduirait une option nommée « Réponses en temps réel » directement accessible dans l’application Gemini. Ils ont même réussi à activer manuellement cette option, comme le montre l’image ci-dessous.

Cette nouvelle fonction permettrait aux utilisateurs de l’application de lire les réponses au fur et à mesure de leur génération, à l’instar de la version Web de l’assistant. Actuellement, les utilisateurs de l’application doivent attendre que la réponse soit entièrement générée avant de pouvoir la lire. L’amélioration en cours sera très utile.

Cette amélioration serait donc particulièrement utile, économisant quelques précieuses secondes et permettant de commencer à lire dès que possible. Cela s’avérerait particulièrement avantageux si l’utilisateur s’intéresse principalement aux premiers paragraphes ou lignes d’une réponse longue.

Gemini rattrape son retard

En outre, cette mise à jour intervient après un rapport de PiunikaWeb indiquant que Gemini pourrait intégrer le support de Spotify et d’autres services de streaming musical. Ce serait un grand pas en avant, Gemini comblant ainsi certaines lacunes par rapport à son concurrent, Google Assistant.

L’assistant Gemini n’a pas vraiment eu la vie facile dès sa création. Initialement appelé Google Bard, il a été quelque peu négligé par rapport à d’autres concurrents dotés d’une intelligence artificielle. Mais aujourd’hui, Google semble enfin rattraper son retard.

Lire plus

Intelligence Artificielle

Maximiser la productivité avec Google Gemini : Le guide ultime

par Yohann Poiron le 22 avril 2024

Dans ce guide, on va voir comment vous pouvez utiliser des outils d’IA comme Google Gemini pour stimuler votre productivité. À l’ère du numérique, où le temps est aussi précieux que n’importe quelle monnaie, il est essentiel d’exploiter les bons outils pour rationaliser votre workflow.

C’est là qu’intervient Google Gemini, le dernier-né de la gamme d’outils de productivité de l’espace de travail Google. Conçu pour améliorer l’efficacité de diverses tâches, de la gestion des e-mails à la création de documents et à l’analyse de données, Google Gemini témoigne du potentiel de l’IA à révolutionner notre façon de travailler.

Si vous souhaitez améliorer votre productivité, voici comment Gemini peut vous aider.

Intégration de Gmail et de Google Docs : Un workflow transparent

En commençant par la gestion des e-mails, l’intégration de Gemini dans Gmail change la donne. Imaginez que vous puissiez rechercher, composer et gérer vos e-mails avec une facilité sans précédent. Il suffit d’utiliser le prompt @Gmail pour que Gemini entre en action directement dans votre boîte de réception, ce qui permet une expérience de messagerie plus fluide.

De plus, les utilisateurs de Google Docs trouveront inestimables les capacités de Gemini à rédiger des documents, à résumer des informations et à créer divers formats de texte. Cette intégration garantit que, que vous rédigiez un courriel ou un rapport, votre flux de travail reste ininterrompu et plus efficace que jamais.

Maîtriser l’analyse des données et les prompts pour obtenir des résultats pertinents

L’analyse des données est traditionnellement une tâche qui prend du temps, mais grâce à la capacité de Gemini à extraire des informations à partir d’images, de PDF et même de vidéos YouTube, le processus est considérablement rationalisé. En convertissant les données visuelles en résumés organisés ou en feuilles de calcul, Gemini permet non seulement de gagner du temps, mais aussi d’améliorer la précision de vos informations.

En outre, il est essentiel de comprendre l’art de l’incitation pour libérer tout le potentiel de Gemini. Être spécifique, fournir un contexte et expérimenter les formats de commande sont des stratégies clés pour obtenir les meilleures réponses de Gemini.

Gestion des e-mails : Au-delà de la communication de base

L’époque où il fallait fouiller dans une boîte de réception surchargée est révolue. Les capacités de recherche rapide de Gemini vous permettent de trouver facilement des e-mails liés à des expéditeurs ou à des sujets spécifiques. La rédaction et le résumé des e-mails sont également simplifiés, ce qui permet une communication plus efficace.

Par exemple, des commandes telles que « @Gmail aides-moi à rédiger une réponse à cet e-mail » peuvent aider à surmonter l’angoisse de la page blanche, tandis que « @Gmail résume ce fil de discussion » offre une vue d’ensemble rapide des longues conversations.

Création de documents et recherche : La simplicité redéfinie

La création de contenu peut souvent être décourageante, mais Gemini simplifie cette tâche grâce à des fonctionnalités telles que des aperçus sans effort et une aide à la rédaction améliorée. À partir d’une invite telle que « @Docs créez un plan pour un article sur [sujet] », Gemini structure votre contenu, ouvrant la voie à un processus de rédaction fluide. De même, résumer des documents complexes devient un jeu d’enfant, vous permettant de vous concentrer sur l’essence de votre recherche sans vous perdre dans les détails.

Des informations fondées sur des données : Une image qui vaut mille mots

Les prouesses de Gemini s’étendent à l’analyse d’images et de vidéos pour obtenir des informations complètes. Qu’il s’agisse de convertir un tableau en feuille de calcul ou de résumer un PDF, le modèle gère les tâches avec précision. De plus, l’analyse de vidéos YouTube pour en extraire des informations clés ou des informations sur le public s’effectue sans effort, ce qui démontre la polyvalence de Gemini dans le traitement de divers formats de données.

Pour tirer le meilleur parti de Gemini, la précision de vos messages est essentielle. Des instructions claires associées à un contexte adéquat permettent d’obtenir les meilleurs résultats. N’hésitez pas à expérimenter différentes commandes et fonctionnalités, car cette exploration peut révéler de nouvelles façons d’améliorer votre productivité. N’oubliez pas que les résultats initiaux peuvent nécessiter des améliorations. C’est pourquoi vous devez répéter vos invites et fournir des commentaires pour adapter Gemini à vos besoins spécifiques.

Google Gemini représente une avancée majeure dans le domaine des outils de productivité alimentés par l’IA. Grâce à ses fonctionnalités avancées et à son intégration transparente dans les workflows quotidiens, il permet aux utilisateurs de travailler plus intelligemment, et non plus difficilement. En adoptant des assistants d’IA comme Gemini, rester en tête dans un environnement de travail en évolution rapide devient non seulement possible, mais sans effort.

Lire plus

Intelligence Artificielle

Meta AI déploie le chatbot IA Llama 3 dans ses principales applications

par Yohann Poiron le 19 avril 2024

Meta prend aujourd’hui plusieurs mesures importantes pour promouvoir ses services d’IA sur l’ensemble de sa plateforme. L’entreprise a mis à jour son chatbot d’IA avec son plus récent Large Language Model, Llama 3, et elle le fait désormais fonctionner dans la barre de recherche de ses quatre principales applications (Facebook, Messenger, Instagram et WhatsApp) dans plusieurs pays.

Parallèlement, l’entreprise a lancé d’autres nouvelles fonctionnalités, comme la génération plus rapide d’images et l’accès aux résultats de recherche sur le Web. En outre, l’entreprise lance également un nouveau site meta.ai pour permettre aux utilisateurs d’accéder au chatbot.

Cette nouvelle souligne les efforts de Meta pour se positionner en tant qu’acteur majeur dans le contexte actuel de l’engouement des consommateurs pour les outils d’IA générative. Poursuivant d’autres services populaires sur le marché, tels que ceux d’OpenAI, Mark Zuckerberg a déclaré aujourd’hui que Meta AI était probablement « l’assistant d’IA le plus intelligent que vous puissiez utiliser librement ».

Meta a d’abord déployé Meta AI aux États-Unis l’année dernière. Elle étend maintenant le chatbot en langue anglaise à plus d’une douzaine de pays, dont l’Afrique du Sud, l’Australie, le Canada, le Ghana, la Jamaïque, le Malawi, la Nouvelle-Zélande, le Nigeria, le Pakistan, Singapour, l’Ouganda, la Zambie et le Zimbabwe. Malheureusement, pas encore la France.

La semaine dernière, l’entreprise a commencé à tester Meta AI dans des pays comme l’Inde et le Nigéria, mais l’Inde n’est pas mentionnée dans l’annonce d’aujourd’hui. Meta a déclaré qu’elle prévoyait de maintenir Meta AI en mode test dans le pays pour le moment. « Nous continuons à apprendre des tests de nos utilisateurs en Inde. Comme nous le faisons avec beaucoup de nos produits et fonctionnalités d’IA, nous les testons publiquement dans des phases variables et dans une capacité limitée », a déclaré un porte-parole de l’entreprise dans un communiqué.

Nouvelles fonctionnalités de Meta AI avec Llama 3

Les utilisateurs pouvaient déjà demander à Meta AI des suggestions d’écriture ou de recettes. Désormais, ils peuvent également demander des résultats liés au Web fournis par Google et Bing.

L’entreprise a déclaré qu’elle rendait également la génération d’images plus rapide. En outre, les utilisateurs peuvent demander à Meta AI d’animer une image ou de la transformer en GIF. Les utilisateurs peuvent voir l’outil d’IA modifier l’image en temps réel pendant qu’ils tapent. L’entreprise a également travaillé à l’amélioration de la qualité des photos générées par l’IA.

Les outils de génération d’images alimentés par l’IA ne parviennent pas à épeler les mots. Meta affirme que son nouveau modèle a également apporté des améliorations dans ce domaine.

Meta adopte l’approche consistant à rendre Meta AI disponible dans le plus grand nombre d’endroits possible. Le chatbot est disponible dans la barre de recherche, dans les discussions individuelles et de groupe, et même dans le fil d’actualité.

L’entreprise a déclaré que vous pouvez poser des questions liées aux publications dans votre flux Facebook. Par exemple, si vous voyez une photo d’une aurore boréale, vous pouvez demander à Meta AI de vous suggérer la meilleure période pour visiter l’Islande et voir les aurores boréales.

Lire plus

Intelligence Artificielle

Llama 3 de Meta : Une nouvelle ère pour les modèles d’IA open source

par Yohann Poiron le 19 avril 2024

Après presque 9 mois, Meta a introduit une nouvelle famille de modèles Llama 3. Et ils sont open source, comme auparavant, sous l’accord de licence communautaire de Meta. Actuellement, Meta a annoncé des modèles Llama 3 en deux tailles : Llama 3 avec des paramètres de 8B et Llama 3 avec des paramètres de 70B.

Ces modèles, dotés respectivement de 8 milliards et 70 milliards de paramètres, marquent une avancée significative par rapport aux précédentes versions, Llama 2 8B et Llama 2 70B. Les performances accrues des nouveaux modèles sont attribuées à leur entraînement sur deux clusters GPU personnalisés de 24 000 unités.

Meta est également en train de former son plus grand modèle multimodal avec 400 milliards de paramètres, qui sera disponible dans un proche avenir. Cependant, nous ne savons pas si Meta choisira de mettre en open source son plus grand modèle lorsqu’il le rendra public.

Un déploiement de Meta AI basé sur Llama 3 en cours

Dès à présent, Meta intègre ses modèles Llama 3 dans toutes ses applications de réseaux sociaux, y compris Facebook, Instagram, WhatsApp, Messenger, et sur le Web également. Oui, tout comme ChatGPT, vous pouvez maintenant discuter gratuitement avec des modèles de lama 3 via meta.ai. Et sur les apps, vous pouvez trouver Meta AI à l’œuvre dans votre flux, vos chats et vos recherches.

Vous pouvez utiliser Meta AI pour générer des images et des GIF instantanés, trouver des informations actuelles sur n’importe quel sujet (en utilisant à la fois Google et Bing), poser des questions à partir de votre flux, et bien plus encore.

Meta déploie des expériences d’IA dans ses applications de réseaux sociaux et lance le portail Web en anglais dans plusieurs régions : Afrique du Sud, Australie, Canada, Ghana, Jamaïque, Malawi, Nigéria, Nouvelle-Zélande, Ouganda, Pakistan, Singapour, Zambie et Zimbabwe. L’entreprise précise que d’autres pays seront ajoutés dans les prochains jours.

Meilleur que la concurrence selon Meta

En ce qui concerne les modèles de Llama 3, Meta affirme que son modèle 8B est meilleur que les modèles Gemma 7B et Mistral 7B de Google. Quant au modèle Llama 3 70B, il dépasse de peu le Gemini 1.5 Pro et obtient également de meilleurs résultats que le Claude 3 Sonnet dans le test de benchmark MMLU.

Outre les benchmarks, Meta a également développé son propre ensemble de tests pour évaluer les performances des Llama 3 dans des domaines variés allant de la programmation à la rédaction créative. Malgré le développement interne de ces tests, Meta assure avoir maintenu l’objectivité en isolant les équipes de modélisation.

En termes de contenu, les Llama 3 bénéficient d’un ensemble de données nettement plus vaste, 7x plus grand que celui utilisé pour les Llama 2, et intégrant une proportion significative de données non anglophones pour améliorer la performance dans diverses langues. Cependant, ce choix pourrait susciter des controverses, notamment en raison de l’utilisation présumée de données protégées par le droit d’auteur dans des formations précédentes.

Meta a également pris des mesures pour améliorer la gestion des problèmes de biais et de toxicité souvent associés aux modèles d’IA générative, en développant de nouvelles méthodes de filtrage des données et en mettant à jour ses outils de sécurité IA, tels que Llama Guard et CybersecEval.

Certaines restrictions imposées à Llama 3

Enfin, bien que les modèles Llama 3 soient décrits comme « ouverts », Meta impose certaines restrictions, notamment l’interdiction d’utiliser ces modèles pour entraîner d’autres modèles génératifs et des exigences de licence spéciales pour les développeurs d’applications à grand échelle.

Évidemment, il faudra tester ces modèles de manière approfondie pour évaluer sa position par rapport aux modèles concurrents. Mais pour l’instant, il semble que Meta ait lancé des modèles performants avec la famille Llama 3.

Lire plus

Intelligence Artificielle

Découverte de Grok-1.5V : Un modèle d’IA multimodal révolutionnaire

par Yohann Poiron le 18 avril 2024

xAI, une entreprise liée au célèbre innovateur Elon Musk, a dévoilé Grok 1.5 Vision, alias Grok-1.5V, un modèle d’IA multimodal innovant qui représente une avancée significative dans le domaine de l’intelligence artificielle.

Cette technologie sophistiquée est conçue pour interpréter et traiter une vaste gamme de données visuelles, ce qui représente une étape importante dans le développement de l’IA.

En explorant les subtilités de Grok-1.5V, il devient évident que ce modèle n’est pas une simple mise à jour incrémentale, mais un bond en avant qui a le potentiel de transformer notre interaction avec la technologie.

👀https://t.co/etua7Jqih8

— xAI (@xai) April 13, 2024

Capacités multimodales de Grok-1.5V Preview

Grok-1.5V est compétitif par rapport aux modèles multimodaux avant-gardiste existants dans un certain nombre de domaines, allant du raisonnement multidisciplinaire à la compréhension de documents, de diagrammes scientifiques, de graphiques, de captures d’écran et de photographies.

Nous sommes particulièrement enthousiasmés par les capacités de Grok à comprendre notre monde physique. Grok surpasse ses pairs dans notre nouveau benchmark RealWorldQA qui mesure la compréhension spatiale du monde réel. Pour tous les ensembles de données ci-dessous, nous évaluons Grok dans le cadre d’une prise de vue zéro, sans sollicitation de la chaîne de pensée.

L’une des caractéristiques les plus remarquables de Grok-1.5V est son intégration transparente du traitement des informations textuelles et visuelles. Cette fonctionnalité multimodale permet à l’IA de s’attaquer à des tâches complexes que les systèmes à mode unique ont du mal à réaliser. La capacité d’adaptation de Grok-1.5V est évidente : il navigue sans effort dans les documents, les diagrammes et les images, et promet de transformer la façon dont nous gérons et interprétons les données visuelles.

Intégration transparente du traitement des informations textuelles et visuelles
Capacité à gérer des tâches complexes dépassant le cadre des systèmes à mode unique
Adaptabilité à la navigation dans différents types de données visuelles

Grok-1.5V fait preuve de prouesses exceptionnelles en matière d’analyse spatiale de l’IA. Sa performance sur le benchmark RealWorldQA, développé par xAI et comprenant plus de 700 paires image-question, montre la remarquable capacité du modèle à comprendre et à interpréter les espaces et les objets du monde réel. Cette intelligence spatiale distingue Grok-1.5V de ses concurrents et met en évidence son potentiel pour les applications du monde réel.

Grok-1.5V : Apprentissage à partir de zéro et génération de code

Un autre domaine dans lequel Grok-1.5V excelle est celui de l’évaluation à partir de zéro. Le modèle fait preuve d’une capacité impressionnante à comprendre des tâches sans exemples préalables, démontrant ainsi son adaptabilité et sa flexibilité.

En outre, Grok-1.5V peut générer du code Python à partir de diagrammes, ce qui simplifie le processus de codage et stimule considérablement la productivité. À elle seule, cette fonctionnalité pourrait transformer le développement de logiciels et donner aux développeurs un outil puissant de prototypage et de mise en œuvre rapides. Ces diverses applications démontrent la polyvalence et la practicité de Grok-1.5V, ce qui en fait un outil précieux dans divers secteurs et domaines.

Comparaison avec d’autres modèles

Lorsqu’on le compare à d’autres modèles d’IA de premier plan, tels que GPT-4 Vision, CLA 3 Opus et Gemini 1.5 Pro, Grok-1.5V fournit systématiquement des résultats compétitifs, voire supérieurs, dans toute une série de benchmarks. Ces performances soulignent l’engagement de xAI à repousser les limites de l’IA multimodale, qui englobe les images, l’audio et la vidéo. La capacité de Grok-1.5V à tenir tête aux modèles établis témoigne de sa robustesse et de son efficacité.

Bien que Grok-1.5V ne soit pas encore disponible, xAI prévoit de le mettre bientôt à la disposition des premiers testeurs et des utilisateurs actuels de Grok, en guise de preview.

Lire plus

Intelligence Artificielle

Google lance MedLM pour la santé : modèles d’IA accessibles aux organisations aux États-Unis

par Yohann Poiron le 14 avril 2024

Google a indiqué qu’elle mettait MedLM, une famille de modèles de base adaptés au secteur de la santé, à la disposition des organisations basées aux États-Unis par l’intermédiaire de Vertex AI. Ce modèle s’appuie sur le modèle de base Med-PaLM 2 introduit au début de l’année et devrait bientôt être mis à jour à l’aide de Gemini.

L’IA générative, qui peut être utilisée pour créer de nouveaux contenus tels que du texte ou des images, est devenue un sujet de plus en plus populaire dans le secteur de la santé, et des géants de la technologie tels que Microsoft, Oracle et Amazon ont annoncé des produits destinés à ce secteur cette année.

Bien que relativement peu d’organismes de santé aient actuellement adopté des outils d’IA générative, plus de la moitié des dirigeants ont déclaré qu’ils envisageaient d’acheter ou de mettre en œuvre ces produits au cours de l’année prochaine, selon une récente enquête de Klas Research.

La dernière famille de modèles de base s’appuie sur Med-PaLM 2, le Large Language Model de Google formé à partir d’informations médicales. Le LLM a été révélé en mars de cette année, et le géant de la technologie a annoncé cet été qu’il étendrait l’accès à davantage d’organisations de soins de santé après qu’un groupe restreint — dont HCA Healthcare, Mayo Clinic et Meditech — a commencé à tester les outils.

Les deux modèles de soins de santé visent à offrir de la flexibilité aux organismes de soins de santé lorsqu’ils mettent en œuvre l’IA pour différentes tâches, ont écrit Yossi Matias, vice-président de l’ingénierie et de la recherche chez Google, et Aashima Gupta, directeur mondial de la stratégie et des solutions de soins de santé chez Google Cloud, dans l’article de blog.

MedLM : Divers modèles utilisés

L’opérateur d’hôpitaux à but lucratif HCA a utilisé les modèles avec les produits de documentation Augmedix dans les salles d’urgence pour créer des notes médicales rédigées à partir de conversations avec les patients, qui peuvent ensuite être examinées par les médecins avant d’être transférées dans un dossier médical électronique.

Les modèles MedLM ont également été testés par la société de services professionnels Accenture pour automatiser la lecture des documents cliniques, l’inscription et le traitement des demandes de remboursement ; par le cabinet de conseil Deloitte pour aider les bénéficiaires de régimes de santé à trouver les prestataires de services du réseau ; et par la société BenchSci, spécialisée dans la découverte de médicaments par l’IA, pour accélérer la recherche et le développement précliniques.

Le premier des deux modèles MedLM est plus grand et conçu pour les tâches complexes, tandis que le second peut être étendu à d’autres fonctions.

Le géant de la technologie a ajouté que de nombreuses entreprises qui ont testé MedLM sont en train de passer les outils en production ou d’élargir leurs expériences.

Lire plus

Intelligence Artificielle

Claude 3 Haiku : L’IA qui transforme vos paroles en code !

par Yohann Poiron le 14 avril 2024

Imaginez un monde où il vous suffirait de parler à votre ordinateur pour qu’il écrive du code à votre place. Il ne s’agit pas d’une scène tirée d’un film de science-fiction ; c’est en train de se produire.

L’intelligence artificielle (IA) modifie la façon dont nous créons des logiciels en nous permettant de convertir nos paroles en code informatique. Cette avancée change la donne pour tous les programmeurs, rendant le codage plus accessible et plus efficace.

Au cœur de cette innovation se trouve un moteur sophistiqué de traitement du langage naturel (NLP). Cette technologie écoute votre voix, comprend vos instructions et les transforme en code fonctionnel dans des langages tels que Python, JavaScript, Go et HTML. Le processus commence par la transcription précise de vos paroles par l’IA, qui saisit votre intention avec précision. Elle détermine ensuite le langage de programmation à utiliser et se met au travail pour écrire le code.

L’une des principales caractéristiques de ce système est le modèle Claude 3 Haiku. Ce modèle garantit que le code qu’il écrit est non seulement correct, mais qu’il s’exécute efficacement. Il est suffisamment intelligent pour gérer les dépendances, en ajoutant les bibliothèques ou les frameworks nécessaires pour s’assurer que le code s’exécute sans problème.

Claude 3 Haiku : Utilisation de Speech-to-Code

Les erreurs font partie intégrante du codage, mais ce système d’IA est conçu pour en tirer des leçons. À chaque tentative, il s’améliore pour comprendre vos commandes et produire le code que vous imaginez. Ce qui est vraiment impressionnant dans ce système, c’est sa flexibilité. Il peut être mis à jour pour prendre en charge les nouveaux langages de programmation au fur et à mesure de leur apparition, de sorte qu’il reste utile, quelle que soit l’évolution de la technologie. Vous pouvez même le personnaliser pour qu’il réponde à vos besoins spécifiques.

Le système a déjà montré qu’il était capable de prendre en charge toute une série de tâches. Il peut créer des fichiers, construire des pages Web et gérer des opérations complexes, le tout à l’aide de commandes vocales. Ces prouesses montrent à quel point le système est puissant et adaptable.

Claude 3 Haiku

Claude 3 Haiku est un modèle d’IA révolutionnaire qui établit une nouvelle norme en matière de vitesse, de prix et de polyvalence dans sa catégorie d’intelligence. Avec des capacités de vision de pointe et des performances impressionnantes dans les tests de référence de l’industrie, Haiku est une solution convaincante pour un large éventail d’applications d’entreprise. Son intégration dans l’API Claude et sa disponibilité sur claude.ai pour les abonnés Claude Pro le rendent facilement accessible aux entreprises qui cherchent à tirer parti de ses puissantes capacités.

L’une des caractéristiques les plus remarquables de Claude 3 Haiku est sa vitesse exceptionnelle. En traitant 21 000 tokens (environ 30 pages) par seconde pour des requêtes inférieures à 32 000 tokens, Haiku est trois fois plus rapide que ses homologues pour la majorité des charges de travail. Cette vitesse est cruciale pour les utilisateurs en entreprise qui ont besoin d’analyser de grands ensembles de données et de générer des résultats rapidement pour des tâches telles que l’assistance à la clientèle. De plus, la rapidité de production de Haiku permet des expériences de chat réactives et engageantes, ainsi que la capacité d’exécuter plusieurs petites tâches simultanément.

Un autre avantage clé de Claude 3 Haiku est sa rentabilité. Avec un ratio de 1:5 pour les jetons d’entrée et de sortie, le modèle de tarification de Haiku est adapté aux charges de travail des entreprises qui impliquent souvent des prompts plus longs. Cela permet aux entreprises d’analyser de gros volumes de documents, tels que des déclarations trimestrielles, des contrats ou des affaires juridiques, pour la moitié du coût des autres modèles de son niveau de performance. Par exemple, Claude 3 Haiku peut traiter et analyser un nombre impressionnant de 400 affaires de la Cour suprême ou 2 500 images pour seulement un dollar américain.

Au-delà de sa vitesse et de son prix abordable, Claude 3 Haiku donne la priorité à la sécurité et à la robustesse de niveau entreprise. Des tests rigoureux sont effectués pour minimiser le risque de sorties nuisibles et de jailbreaks, garantissant ainsi que les modèles sont aussi sûrs que possible. Les mesures de sécurité supplémentaires comprennent la surveillance continue des systèmes, le renforcement des points d’extrémité, des pratiques de codage sécurisées, des protocoles de chiffrement des données solides et des contrôles d’accès rigoureux pour protéger les données sensibles. Des audits de sécurité réguliers et la collaboration avec des testeurs de pénétration expérimentés renforcent encore l’identification proactive et l’atténuation des vulnérabilités.

Un changement dans la façon dont nous concevons la programmation

Avec ce lancement, les clients peuvent désormais exploiter les capacités de Claude 3 Haiku via l’API Claude ou avec un abonnement Claude Pro sur claude.ai. Le modèle est également disponible sur Amazon Bedrock et sera bientôt accessible sur Google Cloud Vertex AI, ce qui en fait une solution polyvalente et largement disponible pour les entreprises qui cherchent à exploiter la puissance de l’IA dans leurs opérations.

Cette approche du codage axée sur l’IA est plus qu’un nouvel outil, c’est un changement dans la façon dont nous concevons la programmation. Elle rend le codage plus inclusif, simplifie le processus de développement et favorise le travail d’équipe. Lorsque vous verrez vos idées se transformer en code réel et fonctionnel, vous comprendrez que l’avenir de la programmation ne se résume pas à la saisie, mais bien à la parole.

Lire plus

Windows 11 modernise le menu Exécuter avec mode sombre et interface plus rapide

Apple accélère sa révolution produit : iPhone 20, lunettes connectées et OLED partout

Gemini + NotebookLM : L’écosystème ultime pour vos recherches est là

Google Meet améliore son IA de prise de notes avec une section Décisions

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

TSMC accélère sur le 2 nm : l’IA pousse le fondeur dans une course industrielle inédite

Alerte Samsung : La mémoire devient le nouveau pétrole (et les stocks s’épuisent)

iPhone 18 Pro : une fuite montre une Dynamic Island beaucoup plus petite

Honor Watch 6 Plus : une autonomie record grâce à la batterie Qinghai Lake ?

Codex Pets : OpenAI ajoute des mascottes animées à son outil de code

Grok 4.3 : xAI mise sur le prix et le raisonnement pour défier OpenAI

Pourquoi ChatGPT parlait de gobelins : OpenAI explique le bug de GPT-5.5

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

Codex Pets : OpenAI ajoute des mascottes animées à son outil de code

Grok arrive sur Apple CarPlay avec un mode vocal dédié à la conduite

Apple supprime le Mac mini M4 à 699 euros : le prix d’entrée passe à 949 euros

Grok 4.3 : xAI mise sur le prix et le raisonnement pour défier OpenAI

Quels langages de programmation apprendre en 2026 ? Guide complet pour débutants

Google AI Studio augmente ses quotas pour les abonnés AI Pro et Ultra

Chronicle : OpenAI transforme Codex en assistant contextuel (et ça change tout)

OpenAI Codex : Pourquoi vous n’allez plus jamais quitter votre IDE ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Claude Code vs ChatGPT Codex : Quel agent choisir pour votre workflow en 2026 ?

Intelligence Artificielle

Codex Pets : OpenAI ajoute des mascottes animées à son outil de code

Grok 4.3 : xAI mise sur le prix et le raisonnement pour défier OpenAI

Pourquoi ChatGPT parlait de gobelins : OpenAI explique le bug de GPT-5.5

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

OpenAI renforce la sécurité de ChatGPT avec des clés physiques YubiKey

Gemini génère désormais des fichiers Word, Excel et PDF téléchargeables