Gemini Advanced : Découvrez Gemini-Exp-1206, l’IA ultra-puissante !

par Yohann Poiron le 18 décembre 2024

Google pousse encore plus loin les capacités de son IA avec l’introduction de Gemini-Exp-1206, un modèle expérimental accessible aux abonnés Gemini Advanced. Cette nouveauté arrive peu après le lancement du modèle expérimental Gemini 2.0 Flash, témoignant de la cadence rapide à laquelle Google enrichit son offre en IA générative.

Dans le sélecteur de modèles accessible sur les plateformes Web (mais pas encore via l’application mobile), une nouvelle option baptisée « 2.0 Experimental Advanced » permet de tester le modèle Gemini-Exp-1206. Selon Google, ce modèle se distingue particulièrement dans les domaines suivants :

Codage : meilleur traitement des bases de code complexes.
Mathématiques : résolution avancée de problèmes et calculs multi-étapes.
Raisonnement : capacité accrue à fournir des réponses précises sur des sujets exigeant une réflexion approfondie.
Instruction sur mesure : génération de plans d’affaires personnalisés ou instructions détaillées pour des projets complexes.

Ce modèle Gemini-Exp-1206 promet des améliorations significatives en termes de performance et d’efficacité, bien que Google précise qu’il est encore en phase de « prévisualisation précoce ». Cela signifie que certaines fonctionnalités existantes de Gemini ne sont pas encore compatibles et que le modèle n’a pas accès à des informations en temps réel.

Élargir l’écosystème Gemini

Depuis son lancement, Gemini Advanced a introduit plusieurs modèles puissants, notamment les versions 1.0 Ultra et 1,5 Pro. Il est possible que Gemini-Exp-1206 devienne la version 2.0 Pro ou une variante encore plus avancée, préparant ainsi le terrain pour un développement futur.

En outre, Google prévoit de déployer plus de tailles de modèles Gemini 2.0 en janvier 2025, incluant la disponibilité de Gemini 2.0 Flash pour les développeurs. Ces évolutions marquent une nouvelle étape dans l’expansion de la plateforme Gemini et confirment l’ambition de Google de rivaliser avec des leaders comme OpenAI dans le domaine de l’IA générative.

Coût et accès

Pour explorer Gemini-Exp-1206, les utilisateurs doivent souscrire à l’abonnement Gemini Advanced via l’offre Google One AI Premium, au tarif de 21,99 euros par mois. Cet abonnement donne accès à des modèles d’IA hautement performants, ainsi qu’aux nouvelles fonctionnalités expérimentales.

Ce modèle témoigne du potentiel croissant des technologies d’IA générative. Bien que Gemini-Exp-1206 soit encore en phase de test, ses capacités dans des domaines complexes montrent à quel point l’IA peut transformer des tâches techniques en solutions accessibles et puissantes.

L’avenir s’annonce passionnant pour les amateurs de technologie et les professionnels qui dépendent de ces outils avancés. Alors que Google continue d’affiner et d’étendre sa gamme Gemini, il sera intéressant de voir comment ces innovations redéfiniront le paysage de l’IA générative dans les années à venir.

Lire plus

Intelligence Artificielle

OpenAI o1 : Le modèle d’IA avancé arrive sur l’API !

par Yohann Poiron le 18 décembre 2024

Dans le cadre de son événement « 12 Days of OpenAI », OpenAI a franchi une nouvelle étape en rendant son modèle o1 complet disponible pour les développeurs via son API. Ce lancement marque un moment clé pour les entreprises et développeurs cherchant à intégrer des capacités d’IA avancées dans leurs applications et flux de travail.

Le modèle o1 complet, désormais référencé comme o1-2024-12-17, excelle dans les tâches de raisonnement complexes et multi-étapes. Comparé à la version o1-preview, ce modèle améliore considérablement la précision, l’efficacité et la flexibilité. Par exemple, les performances sur des benchmarks tels que SWE-bench Verified ont grimpé de 41,3 à 48,9, tandis que les résultats aux tests de mathématiques AIME ont bondi de 42 à 79,2.

Cette amélioration rend le modèle idéal pour des cas d’usage variés, tels que :

L’optimisation du support client.
La résolution de problèmes analytiques complexes.
L’automatisation des processus logistiques.

Nouvelles fonctionnalités pour les développeurs liées au modèle o1

OpenAI a introduit plusieurs nouvelles fonctionnalités pour le modèle o1 :

Structured Outputs : Les réponses du modèle respectent des formats personnalisés tels que des schémas JSON, assurant une interaction cohérente avec les systèmes externes.
Function Calling : Le modèle peut désormais appeler des fonctions API et interagir avec des bases de données pour générer des réponses plus précises.
Reason over visual inputs : Les développeurs peuvent analyser des images, des documents et des schémas pour répondre à des cas d’usage industriels, scientifiques ou techniques.
Reasoning_effort : Cette nouvelle option permet de contrôler le temps alloué à une tâche, équilibrant la performance et le temps de réponse.

API Realtime : Une IA vocale et conversationnelle optimisée

OpenAI a également mis à jour son API Realtime pour offrir une expérience audio et vocale en temps réel avec une faible latence, idéale pour les assistants vocaux, les outils de traduction en direct et les tuteurs virtuels.

Les principales améliorations incluent :

Intégration WebRTC : Cette mise à jour simplifie considérablement le développement d’applications vocales grâce à une prise en charge native de la diffusion audio, de la suppression du bruit et de la gestion de la congestion.
Tarification réduite : Le coût des tokens audio pour GPT-4o baisse de 60 %, passant à 40 dollars par million de tokens d’entrée et 80 dollars par million de tokens de sortie. De plus, le modèle GPT-4o mini devient disponible à un prix encore plus compétitif : 10 dollars pour un million de tokens d’entrée et 20 dollars pour un million de tokens de sortie.
Contrôle accru : Les développeurs peuvent désormais exécuter des tâches en arrière-plan sans interrompre l’expérience utilisateur grâce aux réponses concurrentes.

Ces améliorations visent à rendre les applications conversationnelles et interactives plus fluides, précises et accessibles.

Fine-Tuning préférentiel : Plus de personnalisation

OpenAI a également introduit une nouvelle méthode de fine-tuning appelée « Preference Fine-Tuning ». Contrairement au fine-tuning supervisé classique, cette méthode repose sur des comparaisons par paires pour indiquer quelles réponses sont préférées. Cela s’avère particulièrement utile pour des tâches subjectives, comme la rédaction créative, le résumé de contenus et les cas où le ton et le style sont essentiels.

Pour faciliter l’intégration, OpenAI a élargi ses outils avec de nouveaux SDK pour Go et Java, rejoignant les bibliothèques existantes pour Python, Node.js et .NET.

Avec la disponibilité du modèle o1 via son API, OpenAI renforce sa capacité à offrir des solutions d’IA performantes et flexibles aux développeurs. Que ce soit pour le raisonnement complexe, les interactions vocales en temps réel ou la personnalisation avancée, ces nouvelles mises à jour permettent aux entreprises et aux développeurs de repousser les limites de l’intégration d’IA dans leurs applications.

Le futur de l’IA semble plus accessible que jamais, avec des performances accrues, des coûts réduits et des outils plus puissants pour bâtir des expériences intelligentes, créatives et interactives.

Lire plus

Intelligence Artificielle

Bixby : Le retour en force avec l’IA générative !

par Yohann Poiron le 17 décembre 2024

Samsung semble prêt à réintroduire Bixby dans la course des assistants intelligents. Jadis éclipsé par des concurrents comme Google Assistant, Bixby pourrait faire son grand retour grâce à une mise à jour majeure intégrant un modèle de langage étendu (LLM).

Bixby avec IA générative : Un lancement mondial en janvier 2025

Selon le média coréen ETNews, le nouveau Bixby LLM, déjà disponible sur les modèles chinois W25 Fold et W25 Flip, sera lancé mondialement avec la série Galaxy S25 prévue pour janvier 2025. Samsung semble vouloir marquer un tournant avec cette version nettement améliorée, à l’image de la montée en puissance de solutions comme Gemini Nano.

Initialement, Samsung envisageait de lancer cette nouvelle version de Bixby avec les Z Fold 6 et Z Flip 6, mais des problèmes de calendrier ont retardé ce plan. Avec l’arrivée imminente de One UI 7, le déploiement mondial de Bixby LLM ne semble désormais plus qu’à quelques semaines.

Samsung a déjà dévoilé quelques capacités du nouvel assistant à travers ses modèles W25 en Chine. Parmi les fonctionnalités les plus attendues :

Génération de documents : Bixby pourra créer des documents, probablement grâce à une IA générative intégrée, permettant de rédiger des rapports, des notes ou des présentations rapidement.
Traitement vocal avancé : Avec une meilleure reconnaissance et une compréhension plus naturelle des commandes vocales, Bixby pourrait rattraper, voire surpasser ses concurrents en fluidité et efficacité.
Capacités sur appareil : Contrairement à certains assistants dépendant du cloud, Bixby offrirait de nombreuses fonctionnalités directement sur l’appareil, garantissant une utilisation plus rapide et privée.

Des fonctionnalités supplémentaires pourraient être annoncées lors du lancement global en janvier.

Un concurrent sérieux pour Google Assistant ?

Avec ce nouveau départ, Samsung espère repositionner Bixby comme une alternative crédible à Google Assistant, en particulier pour les utilisateurs des appareils Galaxy. L’intégration directe dans l’écosystème One UI et les appareils Samsung pourrait séduire ceux recherchant une expérience fluide et centrée sur leur smartphone.

Le lancement mondial du nouvel assistant Bixby représente une étape majeure pour Samsung dans le domaine de l’IA et des assistants intelligents. Avec des fonctionnalités prometteuses et des performances renforcées grâce à l’IA générative, Bixby pourrait bien renaître de ses cendres.

Lire plus

Intelligence Artificielle

ChatGPT : La recherche Web gratuite pour tous !

par Yohann Poiron le 17 décembre 2024

Dans le cadre de son événement « 12 Days of OpenAI », OpenAI a annoncé une mise à jour majeure pour ChatGPT, rendant sa fonctionnalité de recherche sur le Web accessible aux utilisateurs gratuits.

Auparavant réservée aux abonnés des plans ChatGPT Plus ou Pro, cette fonctionnalité, qui permet d’explorer Internet et de synthétiser des réponses à partir de contenus en ligne, est désormais disponible pour tous les utilisateurs connectés.

Kevin Weil, directeur produit d’OpenAI, a présenté cette mise à jour lors du livestream de lundi : « Nous avons lancé cette fonctionnalité pour les utilisateurs payants il y a environ deux mois. Je ne peux plus imaginer utiliser ChatGPT sans Search. Je suis tellement ravi de la rendre accessible gratuitement à tous, dès aujourd’hui ».

Une recherche Web intégrée à ChatGPT pour tous

La fonctionnalité de recherche est conçue pour offrir une alternative aux moteurs de recherche traditionnels comme Google. Contrairement à ces derniers, ChatGPT synthétise les données en réponses conversationnelles, éliminant le besoin de cliquer à travers une page de résultats. Cela rapproche ChatGPT d’applications analogues, comme Perplexity AI, qui gagne également en popularité.

Avec cette mise à jour, ChatGPT s’aligne davantage sur les moteurs de recherche traditionnels tout en gardant sa valeur ajoutée en synthétisant des réponses à partir des données trouvées en ligne. Voici ce qui change :

Résultats enrichis sur mobile : Lorsque vous recherchez des lieux, tels que des restaurants ou des attractions locales, ChatGPT affiche désormais une liste avec des images, évaluations, horaires d’ouverture, et bien plus encore. En cliquant sur un lieu, vous obtenez des détails supplémentaires, et vous pouvez même afficher une carte avec des itinéraires directement dans l’application.
Liens directs pour des recherches spécifiques : Si vous recherchez des sites spécialisés, comme des plateformes de réservation d’hôtels, ChatGPT fournit des liens avant de générer une réponse détaillée. Cela rend la recherche plus rapide et plus ciblée.

Fonctionnement et disponibilité

Disponible à l’échelle mondiale sur toutes les plateformes, la fonctionnalité ChatGPT Search est intégrée au Mode vocal avancé, permettant de poser des questions à ChatGPT via la voix tout en exploitant les capacités de recherche en temps réel. « Nous apportons ChatGPT Search à tous les utilisateurs connectés de ChatGPT gratuitement, sur n’importe quelle plateforme, à partir d’aujourd’hui », a ajouté Weil.

Des résultats confiants… mais parfois erronés

Malgré son potentiel, la recherche par ChatGPT présente encore des limites. Une récente étude menée par le Tow Center for Digital Journalism de l’université Columbia a révélé que ChatGPT pouvait fournir des réponses « confiantes mais erronées » dans de nombreux cas.

L’étude a testé la capacité de ChatGPT à identifier l’origine d’extraits de texte tirés de 20 éditeurs différents. Sur 200 tests, ChatGPT a fourni des réponses partiellement ou entièrement incorrectes dans 153 cas, bien qu’il ait admis son incapacité à répondre correctement dans seulement sept cas.

« Ces erreurs montrent que, même avec des fonctionnalités de recherche en temps réel, ChatGPT reste parfois limité dans sa capacité à interpréter et restituer des informations avec précision », ont noté les chercheurs.

Un ajout à une semaine riche en annonces

Cette mise à jour marque le 8e jour de l’événement 12 Days of OpenAI. Parmi les autres annonces marquantes, OpenAI a dévoilé :

Sora, son modèle de génération vidéo,
La version complète de son modèle de raisonnement avancé o1,
Une nouvelle option d’abonnement Pro à 200 dollars/mois,
La fonctionnalité Projets pour organiser ses conversations et données,
Des améliorations à Canvas,
Et l’ajout de fonctionnalités vidéo au mode vocal avancé.

Avec cette extension de la fonctionnalité ChatGPT Search, OpenAI démocratise une puissante capacité, permettant aux utilisateurs gratuits de bénéficier de recherches enrichies et synthétiques. Si des améliorations restent nécessaires, notamment en matière de précision, cette mise à jour consolide ChatGPT comme un outil central dans l’écosystème de l’IA conversationnelle.

Lire plus

Intelligence Artificielle

Veo 2 : La génération vidéo 4K par IA de Google est lancée !

par Yohann Poiron le 17 décembre 2024

DeepMind, la division d’IA de Google, a officiellement lancé Veo 2, son modèle de génération vidéo basé sur l’intelligence artificielle, conçu pour rivaliser avec le modèle Sora d’OpenAI.

Alors que Sora se limite à créer des clips de 20 secondes avec une résolution maximale de 1080p, Veo 2 se distingue en produisant des vidéos de plusieurs minutes en résolution 4K époustouflante. Selon Google, Veo 2 excelle grâce à sa compréhension des « lois physiques du monde réel » et des « subtilités des mouvements et expressions humaines », ce qui améliore grandement le réalisme des vidéos générées.

Today, we’re announcing Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts. 🎥

We’re also releasing an improved version of our text-to-image model, Imagen 3 – available to use in ImageFX through… pic.twitter.com/h6ejHaMUM4

— Google DeepMind (@GoogleDeepMind) December 16, 2024

Veo 2, une précision sans précédent dans la génération vidéo

Dans mes quelques tests avec Sora, j’ai remarqué que le modèle d’OpenAI manque souvent de précision en matière de physique, produisant des anomalies telles que des doigts supplémentaires ou des objets inattendus. Veo 2 promet de surmonter ces défauts grâce à des résultats plus réalistes et moins de phénomènes hallucinés.

Avec Veo 2, les utilisateurs peuvent également générer des vidéos dans divers styles, en définissant des éléments comme :

L’objectif utilisé
Le genre cinématographique
Les effets de mise en scène
Des angles spécifiques comme les plans rapprochés ou les travellings en contre-plongée

Disponibilité de Veo 2

Veo 2 est en cours de déploiement progressif via plusieurs plateformes : VideoFX, YouTube et Vertex AI. Pour l’instant, les clips générés sont actuellement limités à 8 secondes et une résolution 720p, loin des capacités théoriques de 2 minutes en 4K.

Les utilisateurs intéressés peuvent rejoindre une liste d’attente pour y accéder. Google prévoit également d’intégrer Veo 2 à YouTube Shorts dès l’année prochaine, ce qui permettra de démocratiser la génération vidéo par IA sur l’une des plus grandes plateformes vidéo au monde. Pour garantir l’intégrité des vidéos générées par Veo 2, Google utilise la technologie SynthID, une marque invisible intégrée dans chaque vidéo pour signaler qu’elle a été créée par une IA.

Annonce de Imagen 3 : génération d’images IA encore plus puissante

Parallèlement à Veo 2, Google a présenté Imagen 3, son modèle de génération d’images, qui propose désormais des visuels plus lumineux, mieux composés, et d’une précision accrue. Imagen 3 prend en charge une grande variété de styles artistiques, notamment : Abstrait, Anime, Photoréalisme et Impressionnisme.

Imagen 3 est déjà largement déployé via ImageFX dans plus de 100 pays, offrant une solution polyvalente pour les créateurs.

Présentation de Whisk : un outil expérimental pour fusionner scènes, sujets et styles

En complément, Google a dévoilé Whisk, un outil innovant permettant aux utilisateurs de créer des images uniques en combinant plusieurs éléments :

Sujets : possibilité d’ajouter une photo ou un objet principal.
Scènes : description ou choix d’un décor précis.
Styles : application d’un style visuel pour obtenir des rendus personnalisés.

Whisk utilise la puissance combinée d’Imagen 3 et de la compréhension visuelle de Gemini pour fusionner les entrées et générer une image totalement nouvelle. L’outil est accessible sur Google Labs pour les utilisateurs désireux d’expérimenter cette nouvelle approche créative.

Un écosystème d’outils IA en pleine expansion

Avec le lancement de Veo 2, Imagen 3, et Whisk, Google montre sa volonté de repousser les limites de la création numérique. Que ce soit pour la vidéo, l’image ou la combinaison des deux, ces nouveaux outils promettent de transformer la manière dont les créateurs travaillent et imaginent leurs projets.

Lire plus

Intelligence Artificielle

Phi-4 : L’IA de Microsoft qui bat les géants !

par Yohann Poiron le 16 décembre 2024

Microsoft a dévoilé Phi-4, un modèle d’intelligence artificielle qui redéfinit les standards de l’industrie en combinant raisonnement mathématique avancé et efficacité informatique.

Avec ses 14 milliards de paramètres, Phi-4 surpasse régulièrement des modèles bien plus volumineux, tels que le Gemini Pro 1.5 de Google, tout en utilisant bien moins de ressources computationnelles. Ce lancement marque une rupture avec la course effrénée aux modèles gigantesques, privilégiant une approche plus ciblée et efficace.

Petite taille, grandes performances : Un changement de paradigme

Alors que des modèles tels que GPT-4o d’OpenAI ou Gemini Ultra de Google comptent des centaines de milliards de paramètres, Phi-4 démontre que la taille n’est pas un gage absolu de performance. Grâce à une architecture optimisée, il offre des résultats remarquables, notamment en raisonnement mathématique complexe, surpassant souvent des modèles beaucoup plus grands sur des tests rigoureux.

Microsoft positionne Phi-4 à la pointe de l’efficacité-performance, un indicateur crucial pour les entreprises cherchant à réduire leurs coûts d’exploitation tout en maintenant un haut niveau de précision.

Une réduction drastique des coûts pour les entreprises

Les implications pour les entreprises sont considérables. Contrairement aux modèles géants nécessitant des ressources massives, Phi-4 offre une solution beaucoup plus économique en réduisant les coûts énergétiques et d’infrastructure liés au déploiement de l’IA.

Accessibilité accrue : Les entreprises de taille moyenne ou avec des budgets limités pourront profiter de capacités IA avancées auparavant réservées aux grands groupes.
Efficacité énergétique : Une adoption plus large d’un modèle économe comme Phi-4 pourrait considérablement réduire l’empreinte carbone des solutions IA, un point crucial dans un contexte de durabilité.

Ce développement intervient alors que de nombreuses organisations hésitent à intégrer pleinement l’IA en raison des coûts associés aux modèles actuels. Phi -4 pourrait devenir une solution clé pour accélérer l’adoption de l’IA dans des secteurs variés.

Des capacités exceptionnelles en mathématiques et au-delà

Phi-4 excelle particulièrement dans la résolution de problèmes mathématiques complexes. Lors des tests AMC 10/12 de novembre 2024, organisés par la Mathematical Association of America, le modèle a obtenu les meilleurs résultats, surpassant même des géants comme Gemini Pro.

Applications scientifiques : Ces performances laissent entrevoir un potentiel immense pour des domaines comme la recherche scientifique, l’ingénierie ou la modélisation financière, où la précision mathématique est essentielle.
Excellence ciblée : Phi-4 démontre qu’un modèle bien conçu et spécialisé peut surpasser des IA généralistes plus volumineuses dans des contextes spécifiques, rendant ses capacités idéales pour des applications métier.

Engagement en matière de sécurité et déploiement mesuré

Microsoft adopte une approche prudente pour le déploiement de Phi-4, en le rendant initialement accessible via sa plateforme Azure AI Foundry sous un accord de licence de recherche. La société prévoit une diffusion élargie sur Hugging Face, accompagnée d’outils robustes pour garantir la sécurité et éviter les abus.

Outils d’évaluation : Les développeurs peuvent analyser la qualité et la sécurité du modèle grâce aux outils disponibles sur Azure.
Filtrage de contenu : Des mécanismes intégrés aident à prévenir les usages malveillants, une préoccupation croissante dans l’industrie de l’IA.

Cette attention à la sécurité souligne une volonté de répondre aux défis éthiques liés à l’IA tout en offrant des solutions pratiques aux entreprises.

Un futur centré sur l’efficacité

Avec Phi-4, Microsoft montre que l’avenir de l’intelligence artificielle pourrait ne pas résider dans des modèles toujours plus massifs, mais dans la conception de systèmes optimisés capables d’en faire plus avec moins.

Pour les entreprises cherchant à intégrer l’IA de manière rentable et durable, Phi-4 pourrait inaugurer une nouvelle ère de déploiements pratiques et économiques, tout en élargissant les possibilités dans des secteurs nécessitant une précision accrue.

Lire plus

Intelligence Artificielle

NotebookLM Plus : Google lance une version premium pour les pros !

par Yohann Poiron le 14 décembre 2024

Google continue d’améliorer son application NotebookLM, renommée pour sa version professionnelle en NotebookLM Plus, et étend son usage à de nouveaux secteurs, notamment les entreprises et les équipes collaboratives.

Depuis son lancement en avant-première en juillet dernier, NotebookLM a gagné en popularité, devenant accessible au grand public en décembre. Désormais, la version premium propose des fonctionnalités supplémentaires pour les utilisateurs intensifs, en plus de mises à jour innovantes, comme l’interaction audio en temps réel.

NotebookLM Plus : Pensé pour les entreprises et les équipes

Google a observé une adoption croissante de NotebookLM dans les projets d’entreprise, ce qui a motivé la création de NotebookLM Plus. Cette version offre 5x plus de ressources que la version gratuite, incluant davantage de Audio Overviews, de cahiers, et de sources par notebook. De plus, les utilisateurs premium peuvent personnaliser le style et le ton des réponses, partager des notebooks avec leurs collègues, et accéder à des analyses d’utilisation détaillées.

En matière de sécurité et de confidentialité, NotebookLM Plus intègre des fonctionnalités renforcées, adaptées aux entreprises et aux organisations. Accessible via Google Workspace ou Google Agentspace, NotebookLM Plus sera inclus dans l’abonnement Google One AI Premium à partir de 2025.

Audio Overviews interactifs : Une nouvelle manière d’explorer l’information

Introduits en septembre, les Audio Overviews ont rapidement séduit les utilisateurs par leur format inspiré des podcasts. Ces résumés audio permettent de digérer des informations complexes grâce à une conversation simulée entre deux hôtes générés par l’IA. Aujourd’hui, cette fonctionnalité franchit une nouvelle étape en permettant aux utilisateurs d’interagir directement avec les hôtes.

Avec cette mise à jour, les utilisateurs peuvent poser des questions en temps réel via leur voix pour orienter la discussion. Il suffit de créer un nouvel Audio Overview, d’activer le mode interactif, et de rejoindre la conversation. Les hôtes IA inviteront alors l’utilisateur à poser des questions. Toutefois, Google précise que cette fonctionnalité est encore en phase expérimentale, et des temps de réponse ou des erreurs occasionnelles pourraient survenir.

Nouvelle interface repensée

Google a également introduit une interface redessinée pour simplifier la navigation et l’interaction avec les données. NotebookLM se divise désormais en trois panneaux principaux :

Panneau Sources : Regroupe tous les documents ou fichiers téléchargés dans NotebookLM.
Panneau Chat : Permet d’accéder à une boîte de dialogue avec Gemini pour poser des questions directement liées aux sources.
Panneau Studio : Outil dédié à la création de guides d’étude, de documents de briefing, et d’Audio Overviews.

Cette refonte vise à unifier les différentes activités dans une interface cohérente, facilitant ainsi la transition entre la consultation de sources, les questions à l’IA, et la création de contenu.

Un intérêt croissant des entreprises

Depuis son lancement, NotebookLM s’est imposé comme un outil polyvalent, même dans le domaine professionnel. Certains utilisateurs l’ont décrit comme un « CRM killer », remplaçant les systèmes traditionnels de gestion de la relation client.

Sur les réseaux sociaux, des témoignages d’entreprises et d’investisseurs mettent en avant des usages variés, notamment pour centraliser les recherches ou documenter des politiques internes. Sam Lessin, ancien vice-président produit chez Meta, a révélé que son entreprise utilisait NotebookLM comme alternative à un CRM classique.

Avec NotebookLM Plus et ses nouvelles fonctionnalités interactives, Google enrichit son offre pour les professionnels, les étudiants, et les entreprises. Ces mises à jour renforcent l’utilité de NotebookLM comme outil de recherche, de collaboration et d’analyse, tout en ouvrant la voie à des usages plus vastes et personnalisés.

Lire plus

Intelligence Artificielle

ChatGPT : Organisez vos conversations avec « Projets » !

par Yohann Poiron le 14 décembre 2024

Dans le cadre de son événement 12 Days of OpenAI, OpenAI a dévoilé une nouvelle fonctionnalité appelée Projets, conçue pour optimiser la gestion des conversations et des fichiers dans ChatGPT. Bien qu’elle ne soit pas aussi festive que l’annonce de la veille avec le mode Père Noël, cette fonctionnalité est un outil puissant pour organiser vos workflows et collaborations.

L’événement promotionnel saisonnier d’OpenAI est maintenant à mi-parcours. À ce jour, l’entreprise a officiellement lancé son moteur de génération vidéo Sora, la version complète de son modèle de raisonnement o1, un niveau d’abonnement Pro à 200 dollars et diverses mises à jour de la fonctionnalité Canvas.

Qu’est-ce que la fonctionnalité « Projets » de ChatGPT ?

Projets est une sorte de « tiroir numérique » qui permet de ranger vos conversations, documents et fichiers en dossiers bien organisés. Avant cette nouveauté, les utilisateurs devaient naviguer dans une barre latérale encombrée de discussions individuelles, ce qui rendait difficile de retrouver des informations importantes. Avec « Projets », OpenAI offre une solution claire et intuitive pour regrouper et classer vos données en fonction de thèmes ou de sujets.

Kevin Weil, Directeur Produit chez OpenAI, a expliqué que Projets transforme l’expérience utilisateur, passant d’un bureau encombré à un espace de travail parfaitement organisé.

Introducing Projects—an easy way to organize chats that share topics or context in 4o.

Now available for ChatGPT Plus, Pro, and Team users globally.

We’ll bring it to Enterprise and Edu users in January, and to Free users soon. pic.twitter.com/Bmv7kB0GKY

— OpenAI (@OpenAI) December 13, 2024

Comment fonctionnent les Projets ?

Créer un Projet est simple : il suffit de lui attribuer un nom et une couleur pour le différencier facilement. Voici les principales fonctionnalités :

Regrouper des conversations : Ajoutez des discussions existantes ou démarrez-en de nouvelles dans un espace dédié.
Téléverser des fichiers : Importez des documents ou données que ChatGPT pourra utiliser dans ses réponses.
Configurer des instructions : Personnalisez le comportement de ChatGPT dans un Projet donné. Par exemple, précisez un style d’écriture ou des détails spécifiques pour qu’ils soient pris en compte tout au long des échanges.

Prenons l’exemple d’un scénario : si vous travaillez sur un scénario de film, vous pouvez créer un Projet avec vos notes sur les personnages, votre plan de l’intrigue et des préférences de formatage. ChatGPT appliquera automatiquement ces informations à toutes les conversations dans ce Projet, éliminant la nécessité de répéter vos consignes.

Cas d’utilisation et applications pratiques

Projets ne sert pas seulement à organiser ; c’est un outil qui améliore la productivité. OpenAI a présenté plusieurs cas d’utilisation durant son live :

Projets créatifs : Idéal pour des travaux collaboratifs comme l’écriture de scénarios ou la conception graphique. Les utilisateurs peuvent importer des brouillons, des images ou des scripts, et ChatGPT peut les affiner ou développer des idées.
Développement de sites web : Importez des fichiers de design ou des idées de contenu, spécifiez des langages de programmation, et laissez ChatGPT générer du code ou améliorer le contenu.
Organisation d’événements : Un exemple concret montré par OpenAI : organiser un échange Secret Santa. Téléversez une feuille de calcul avec les participants et leurs listes de souhaits, et ChatGPT peut gérer les tâches, y compris envoyer des e-mails anonymes avec les assignations de cadeaux.

Une nouveauté familière, mais essentielle

Si la fonctionnalité Projets vous semble familière, c’est parce qu’elle existe déjà dans Claude, un chatbot concurrent développé par Anthropic. Cependant, la version d’OpenAI s’intègre parfaitement à d’autres outils, comme Canvas et ChatGPT Search, renforçant ainsi son utilité.

Projets marque une avancée significative dans la manière dont les utilisateurs interagissent avec l’IA. Jusqu’ici, ChatGPT souffrait de limitations en matière de mémoire et d’organisation, forçant les utilisateurs à gérer manuellement leurs conversations et fichiers. Avec Projets, c’est un peu comme passer de post-it éparpillés à des classeurs bien rangés.

Limites et points à considérer

Malgré sa puissance, Projets a quelques défis :

Importance de la clarté des consignes : Comme l’a montré la démonstration, des instructions vagues peuvent entraîner des résultats inattendus, comme révéler par erreur un Secret Santa.
Vérification des résultats : Les utilisateurs devront toujours relire les réponses de ChatGPT pour s’assurer qu’elles répondent à leurs attentes.

Pour l’instant, Projets est disponible uniquement pour les abonnés ChatGPT Plus, Pro, et Teams, mais une version pour les utilisateurs gratuits est en cours de développement.

Projets s’ajoute à une série de nouvelles fonctionnalités dévoilées par OpenAI lors de son événement de fin d’année, comme le moteur de génération vidéo Sora, le modèle de raisonnement o1, et des améliorations à Canvas. OpenAI continue de montrer son engagement à rendre ChatGPT plus polyvalent et adapté à un large éventail de besoins personnels et professionnels.

Si vous êtes abonné, testez la fonctionnalité Projets pour voir comment elle peut transformer votre productivité. Pour les utilisateurs gratuits, un peu de patience : cette fonctionnalité promet de révolutionner la manière dont vous interagissez avec ChatGPT une fois qu’elle sera accessible à tous.

Lire plus

Intelligence Artificielle

Anthropic lance Claude 3.5 Haiku sur son chatbot !

par Yohann Poiron le 13 décembre 2024

Anthropic a discrètement lancé Claude 3.5 Haiku, sa dernière version du modèle d’IA, sur le chatbot Claude accessible via le web et les applications mobiles iOS et Android. Cette version, auparavant réservée aux développeurs via l’API depuis son lancement en octobre 2024, s’impose comme une alternative rapide et économique aux modèles plus volumineux, comme ceux de ses concurrents ChatGPT d’OpenAI et Gemini de Google.

Anthropic is rolling out Claude 3.5 Haiku on Claude[.]ai https://t.co/LwSPPbjZmW pic.twitter.com/PS8Q2lqimP

— Tibor Blaho (@btibor91) December 12, 2024

Claude 3.5 Haiku: une IA rapide et efficace

Claude 3.5 Haiku est conçu pour les tâches nécessitant rapidité et précision, comme le traitement de grands ensembles de données, l’analyse de documents financiers ou la génération de contenus complexes à partir de longues informations contextuelles. Avec une fenêtre contextuelle de 200 000 tokens, il surpasse les capacités des modèles GPT-4 et GPT-4o, qui plafonnent à 128 000 tokens.

Le modèle intègre également des fonctionnalités d’analyse d’images et de fichiers joints, ce qui le rend particulièrement utile pour les tâches multimédias et les flux de travail impliquant des ensembles de documents volumineux.

Intégration avec les Artifacts pour une expérience enrichie

Claude 3.5 Haiku s’intègre pleinement aux Artifacts, une barre latérale interactive introduite en juin 2024. Cette fonctionnalité permet de manipuler et d’affiner en temps réel les contenus générés par l’IA, notamment via l’exécution d’applications complètes. Lors de tests récents, Haiku a démontré sa puissance en codant une version jouable du jeu Pong en moins d’une minute.

Limites actuelles de Claude 3.5 Haiku

Malgré ses capacités impressionnantes, Haiku présente quelques restrictions. Contrairement à ses concurrents, tels que GPT-4o d’OpenAI, il ne prend pas encore en charge la navigation web ni la génération d’images.

De plus, bien qu’il soit performant sur des tâches complexes, il a échoué à un test courant, comme le « Strawberry Test », qui consiste à identifier les trois R dans le mot strawberry.

Accès et abonnements

Claude 3.5 Haiku est accessible gratuitement via le chatbot Claude, mais les utilisateurs doivent composer avec une limite quotidienne variable de messages, en fonction de la demande sur les serveurs. Sur la version gratuite, cette limite est d’environ 10 échanges (soit 20 messages en tout).

Pour des besoins plus intensifs, Anthropic propose un abonnement Claude Pro à 20 dollars par mois, qui offre jusqu’à 5x plus de capacité d’utilisation, un accès prioritaire en période de forte affluence, et l’accès à des modèles supplémentaires comme Claude 3 Opus.

Coût et performances

Sur l’API, Claude 3.5 Haiku se distingue par son rapport performance-prix attractif. Les coûts commencent à 0,80 dollar par million de tokens en entrée et 4 dollars par million de tokens en sortie, ce qui le rend économique face aux modèles plus volumineux. Des options comme la mise en cache des prompts et l’utilisation de l’API Message Batches permettent de réduire encore davantage les coûts, respectivement jusqu’à 90 % et 50 %.

Lors des tests, Haiku a surpassé de nombreux modèles plus grands, obtenant un score de 40,6 % sur SWE-bench Verified, un benchmark clé en matière de codage, ce qui en fait un excellent choix pour les applications nécessitant rapidité et intelligence.

Points à considérer

Bien que Claude 3.5 Haiku offre des capacités impressionnantes, son absence de fonctionnalités, comme la navigation Web et la génération d’images, pourrait limiter son attrait pour certains utilisateurs. De plus, les limites quotidiennes de messages peuvent frustrer ceux qui ne souhaitent pas s’abonner à la version Pro.

Cependant, pour les tâches nécessitant une précision et une vitesse élevées, ainsi que pour des workflows collaboratifs grâce aux Artifacts, Haiku reste un outil puissant et polyvalent.

Lire plus

Intelligence Artificielle

Le mode vocal avancé de ChatGPT peut désormais voir votre écran et analyser les vidéos

par Yohann Poiron le 13 décembre 2024

Dans le cadre de sa campagne festive « 12 Days of OpenAI », OpenAI a lancé de nouvelles fonctionnalités pour ChatGPT, notamment le Mode Père Noël et des options de partage vidéo et d’écran pour son mode vocal avancé.

Ces mises à jour visent à enrichir l’expérience utilisateur et à offrir des applications pratiques et ludiques pendant la saison des fêtes.

Partage vidéo et écran : Une fonctionnalité très attendue

OpenAI a également introduit une fonctionnalité de partage vidéo et d’écran dans le mode vocal avancé, permettant aux utilisateurs de partager visuellement leur environnement ou leur écran avec ChatGPT pour une assistance en temps réel et contextuelle.

Fonctionnalités principales :

Analyse vidéo : Montrez un flux vidéo à ChatGPT et posez des questions sur ce que vous voyez, pour des retours en temps réel.
Partage d’écran : Que ce soit pour résoudre un problème ou demander des conseils, partagez votre écran avec ChatGPT pour une aide instantanée sans avoir à décrire longuement vos besoins.

Comment accéder à ces fonctionnalités :

Lancez le mode vocal avancé sur l’application mobile.
Touchez l’icône caméra vidéo en bas à gauche pour activer le partage vidéo.
Pour partager l’écran, sélectionnez le menu à trois points, puis choisissez « Partager l’écran ».

Discutez avec le Père Noël grâce au mode saisonnier de ChatGPT

Le tout nouveau Mode Père Noël transforme ChatGPT en une version virtuelle du célèbre personnage, avec une voix profonde et joviale, et une interface à thème festif. Disponible exclusivement pour les abonnés Plus et Pro, cette fonctionnalité sera active jusqu’à début janvier, sur les applications mobiles et desktop.

Pour activer le mode Père Noël :

Connectez-vous à votre compte ChatGPT Plus ou Pro.
Cliquez sur l’icône flocon de neige à côté de la barre de saisie.
Sélectionnez la voix du Père Noël dans le menu déroulant, confirmez votre choix, et commencez à discuter.

Les conversations en Mode Père Noël sont temporaires et non enregistrées dans votre historique de chat. OpenAI garantit également que ces échanges n’affecteront pas la mémoire de ChatGPT, permettant ainsi une interaction amusante et privée.

Disponibilité et déploiement

Ces nouvelles fonctionnalités sont en cours de déploiement pour les abonnés Plus et Pro dans la plupart des pays, ainsi que pour tous les utilisateurs de Teams. Cependant, en raison des régulations sur la confidentialité, les utilisateurs en UE, Suisse, Islande, Norvège et Liechtenstein devront patienter un peu plus longtemps, la disponibilité étant prévue prochainement. Les utilisateurs Enterprise et Edu auront accès à ces fonctionnalités à partir de janvier 2025.

Jour 4 des « 12 Days of OpenAI »

Ces annonces marquent le 4e jour de l’événement en direct d’OpenAI, qui a déjà dévoilé :

Le modèle Sora pour la génération vidéo : Un nouvel outil puissant pour créer des vidéos générées par IA.
Le modèle de raisonnement 01 : Pour des capacités logiques et de résolution de tâches complexes.
Un abonnement Pro à 200 dollars/mois : Offrant des outils avancés et des limites d’utilisation étendues pour les utilisateurs intensifs.
Mises à jour de ChatGPT Canvas : Améliorations pour des fonctionnalités collaboratives et d’édition visuelle.

Que ce soit pour discuter avec le Père Noël ou partager votre écran pour résoudre un problème, les mises à jour d’OpenAI promettent une expérience ChatGPT plus interactive et festive cette saison. 🎄

Lire plus

Intelligence Artificielle

Apple Baltra : la puce IA « Made in Apple » pour rivaliser avec Nvidia et Google ?

par Yohann Poiron le 12 décembre 2024

Apple fait un pas significatif dans le domaine de l’intelligence artificielle en s’associant avec Broadcom pour développer sa première puce serveur dédiée aux tâches d’IA. Selon The Information, cette puce, baptisée « Baltra », devrait entrer en production de masse d’ici 2026.

Ce projet marque une nouvelle étape pour Apple, qui s’oriente vers la création de matériel spécifiquement conçu pour répondre aux exigences croissantes de l’IA.

Pourquoi Apple travaille avec Broadcom ?

Malgré une expertise de plus de 10 ans dans la conception de processeurs, avec les puces de séries A et M, la nouvelle puce Baltra représente un tournant pour Apple. Si les puces de séries M permettent d’alimenter l’infrastructure de calcul en cloud d’Apple, elles ne sont pas optimisées pour les charges de travail complexes liées à l’intelligence artificielle à grande échelle.

Apple a donc choisi de s’associer à Broadcom, un fabricant de semi-conducteurs basé aux États-Unis, réputé pour ses technologies de serveurs. Ce partenariat repose sur une relation déjà solide, incluant un accord pluriannuel de plusieurs milliards de dollars pour la fourniture de composants radio 5G. Broadcom apporte à Apple son expertise en matière de fabrication de puces serveur, offrant ainsi une base technique solide pour la création d’une infrastructure IA performante.

Ce partenariat permet également à Apple de conserver le contrôle de la conception et de l’optimisation de ses puces, tout en s’appuyant sur l’expertise technologique de Broadcom.

L’impact de Baltra sur Apple Intelligence

La puce Baltra pourrait transformer profondément la plateforme Apple Intelligence, dédiée aux processus IA internes de l’entreprise. À l’heure actuelle, des tâches comme le traitement du langage naturel pour Siri sont réalisées à l’aide des puces M, qui ne sont pas spécifiquement conçues pour les charges d’IA. Avec Baltra, Apple pourrait intégrer une architecture spécialisée, capable de gérer des tâches complexes comme :

L’apprentissage automatique à grande échelle,
L’IA conversationnelle,
Le traitement du langage naturel en temps réel.

Ces capacités renforceraient considérablement les performances de Siri, dont une version améliorée est prévue pour 2026, selon Mark Gurman de Bloomberg. Ce Siri nouvelle génération, conçu pour rivaliser avec des outils comme ChatGPT et Claude, pourrait s’appuyer sur Baltra pour offrir des réponses plus rapides, précises et intuitives.

Un mouvement stratégique dans un marché compétitif

Dans un contexte où des entreprises comme Amazon, Google et Microsoft dominent le secteur de l’IA, le développement de Baltra souligne l’ambition d’Apple de s’imposer comme un acteur clé. En concevant un matériel propriétaire, Apple pourra garantir un contrôle accru sur la confidentialité et la sécurité, des valeurs essentielles de son écosystème, et offrir des services plus performants et optimisés pour les utilisateurs finaux.

Le partenariat avec Broadcom renforce non seulement les ambitions d’Apple en matière d’IA, mais indique aussi une évolution majeure de son infrastructure pour répondre aux besoins croissants de l’intelligence artificielle. À terme, Baltra pourrait jouer un rôle central dans la transformation des services Apple, permettant à l’entreprise de se positionner comme un leader technologique dans ce domaine.

Apple, fidèle à son approche écosystémique, semble préparer une offensive stratégique pour intégrer l’IA au cœur de ses produits et services, tout en restant fidèle à ses engagements en matière de protection des données et d’expérience utilisateur.

Lire plus

Intelligence Artificielle

Trillium : la puce IA de Google qui multiplie les performances par 4 !

par Yohann Poiron le 12 décembre 2024

Google vient de dévoiler Trillium, sa sixième génération de puce dédiée à l’intelligence artificielle (IA), annonçant des améliorations qui pourraient transformer radicalement les coûts et les capacités du développement de l’IA.

Cette puce, qui a servi à entraîner le modèle Gemini 2.0 récemment annoncé, promet des performances multipliées par quatre par rapport à la précédente génération tout en réduisant considérablement la consommation d’énergie.

Selon Sundar Pichai, PDG de Google, 100% de l’entraînement et de l’inférence de Gemini 2.0 ont été alimentés par les puces Trillium. Ce lancement s’inscrit dans un projet ambitieux : Google a connecté plus de 100 000 puces Trillium dans un réseau unique, créant ainsi l’un des supercalculateurs d’IA les plus puissants au monde.

Trillium, des performances 4 fois supérieures et une efficacité énergétique accrue

Trillium offre des avancées significatives à plusieurs niveaux :

4,7 fois plus de puissance de calcul par puce.
Mémoire et bande passante doublées, permettant une gestion plus fluide des grands modèles.
67% d’efficacité énergétique en plus, un facteur crucial alors que les centres de données luttent pour gérer les besoins croissants en énergie des entraînements d’IA.

Mark Lohmeyer, vice-président de l’infrastructure de calcul et d’IA chez Google Cloud, a déclaré : « Lors de l’entraînement du modèle Llama-2-70B, Trillium a atteint une efficacité de mise à l’échelle de 99% sur des pods allant de 4 à 36 puces ».

Un changement économique pour les startups IA

En plus de ses performances, Trillium pourrait bouleverser l’économie du développement de l’IA. Google affirme que la puce offre jusqu’à 2,5x plus de performances par dollar investi par rapport à la génération précédente. Cette réduction des coûts pourrait être décisive pour les startups et entreprises développant des modèles linguistiques de grande taille.

AI21 Labs, l’un des premiers clients de Trillium, a déjà constaté des améliorations notables. Barak Lenz, directeur technique de AI21 Labs, a déclaré : « Les progrès en termes d’échelle, de vitesse et de rentabilité sont impressionnants ».

Une infrastructure hyperconnectée avec 100 000 puces

L’architecture d’hypercalcul de Google, intégrant les puces Trillium, utilise un réseau Jupiter capable de gérer 13 pétaoctets par seconde de bande passante. Cette infrastructure permet à un seul travail d’entraînement d’être réparti sur des centaines de milliers d’accélérateurs, atteignant une échelle auparavant inédite.

« L’usage des ressources flash a augmenté de 900%, ce qui est incroyable à observer », a ajouté Logan Kilpatrick, chef de produit chez Google AI Studio.

Concurrence avec Nvidia et les autres acteurs de l’IA

Le lancement de Trillium marque une intensification de la guerre des puces d’IA, un domaine largement dominé par Nvidia avec ses GPU. Alors que les puces Nvidia restent la norme pour de nombreuses applications IA, l’approche sur-mesure de Google pourrait offrir des avantages spécifiques, notamment pour l’entraînement de très grands modèles.

En rendant Trillium accessible à ses clients cloud, Google cherche également à s’imposer face à Microsoft Azure et Amazon Web Services dans le marché très compétitif des services d’IA cloud.

Un avenir prometteur pour le développement de l’IA

Les capacités de Trillium vont au-delà des gains de performances immédiats. La puce est optimisée pour gérer efficacement des charges de travail mixtes, allant de l’entraînement de modèles massifs à l’inférence en production. Cela ouvre la voie à une IA plus accessible et rentable, tant pour les grandes entreprises que pour les développeurs indépendants.

Selon Demis Hassabis, PDG de Google DeepMind : « Nous ne sommes qu’au début de ce qui est possible avec l’IA. Disposer de l’infrastructure adéquate, tant matérielle que logicielle, sera essentiel pour repousser les limites de ce que l’IA peut accomplir ».

Avec Trillium, Google démontre son engagement à rester à l’avant-garde de l’innovation en IA, en investissant dans une infrastructure capable de soutenir la prochaine génération de progrès en intelligence artificielle. Alors que la demande en puissance de calcul explose, cette puce pourrait bien devenir une pièce maîtresse dans l’évolution future de l’IA.

Lire plus

Intelligence Artificielle

Project Mariner : Un navigateur autonome alimenté par Gemini 2.0

par Yohann Poiron le 12 décembre 2024

Avec l’annonce de Gemini 2.0, Google a officiellement présenté Project Mariner, un prototype novateur conçu pour exécuter des tâches directement dans un navigateur Web. Ce projet marque une étape importante dans l’évolution des interactions entre les humains et les agents intelligents.

Project Mariner : Un navigateur autonome

Alimenté par le dernier modèle Gemini 2.0, Project Mariner est une extension de navigateur capable de comprendre et d’interagir avec les éléments visibles sur une page Web. Formulaires, champs de texte, codes, images : rien n’échappe à son analyse.

Fonctionnalités clés :

Interaction active : L’extension peut taper, défiler et cliquer dans l’onglet actif pour accomplir des tâches, comme remplir des formulaires ou naviguer entre les pages.
Confirmation utilisateur : Pour des actions sensibles, comme effectuer un achat, Project Mariner demande une validation finale de l’utilisateur avant d’agir.
Démonstration en direct : Lors d’une démo, Project Mariner a extrait des noms d’entreprises depuis un Google Sheet, recherché leurs sites web et collecté leurs coordonnées.

Performance impressionnante et améliorations à venir

Dans le test WebVoyager, qui évalue la capacité des modèles IA à accomplir des tâches Web complexes, Project Mariner a obtenu un score record de 83,5 %, le plus élevé à ce jour. Cependant, Google reconnaît que le prototype est encore lent et parfois imprécis, mais promet des progrès rapides grâce à des collaborations avec des testeurs de confiance. Aucune date de lancement public n’a encore été confirmée.

Project Astra: Une IA Multimodale Plus Puissante

Parallèlement, Google a dévoilé des améliorations pour Project Astra, initialement présenté lors de Google I/O 2024. Ce projet repose également sur Gemini 2.0 et vise à offrir des expériences d’interaction multimodales enrichies.

Nouvelles capacités de Project Astra :

Compréhension multilingue : Astra peut désormais interpréter et répondre dans plusieurs langues.
Intégration avec d’autres outils : Il utilise Google Search, Maps, et Lens pour fournir des informations et des services en temps réel.
Mémoire améliorée : Avec une mémoire en session de 10 minutes, Astra offre une personnalisation accrue pour des interactions plus fluides.
Latence réduite : Google a significativement optimisé la vitesse de traitement pour des réponses quasi instantanées.

Google prévoit d’intégrer Astra à l’application Gemini et à d’autres dispositifs, comme des lunettes connectées.

Avec Project Mariner et Astra, Google réinvente les interactions IA dans des domaines variés, de la navigation Web au développement logiciel en passant par les jeux vidéo. Ces projets s’inscrivent dans une vision à long terme où les agents intelligents travaillent en tandem avec les utilisateurs, tout en maintenant une supervision humaine pour garantir sécurité et fiabilité.

Bien que des dates de lancement publiques pour Mariner et Astra n’aient pas encore été annoncées, leurs promesses technologiques ouvrent la voie à une nouvelle ère d’intelligence artificielle interactive.

Lire plus

Intelligence Artificielle

Gemini 2.0 Flash : l’IA multimodale qui inaugure l’ère des agents intelligents

par Yohann Poiron le 12 décembre 2024

Google a dévoilé Gemini 2.0 Flash, le dernier modèle d’intelligence artificielle (IA) de l’entreprise, conçu pour générer texte, images et audio tout en intégrant des capacités multimodales avancées. Déjà disponible en aperçu expérimental, ce modèle marque une avancée significative dans l’ambition de Google de généraliser l’usage de l’IA dans ses produits et services.

Selon Demis Hassabis, PDG de Google DeepMind, Gemini 2.0 pose les bases de l’ère des agents intelligents, un tournant attendu pour 2025.

Gemini 2.0 : Vers une IA généralisée et performante

Par rapport à son prédécesseur Gemini 1.5, le modèle Gemini 2.0 Flash offre des améliorations significatives. Il est 2x plus rapide que Gemini 1.5 Pro tout en maintenant des performances supérieures dans des domaines clés comme la génération de texte, le traitement multimodal et l’analyse d’images. Mais surtout, Gemini 2.0 ouvre la voie à de nouvelles capacités, telles que :

Génération audio et visuelle native : le modèle peut créer et modifier des images ou des fichiers audio, en plus de répondre à des questions basées sur des photos, vidéos ou enregistrements audio.
Agents intelligents intégrés : Gemini 2.0 est conçu pour alimenter des agents autonomes capables d’agir de manière proactive au nom des utilisateurs.

Les agents intelligents : l’avenir selon Google

Demis Hassabis considère 2025 comme le début véritable de l’ère des agents intelligents. Google travaille déjà sur plusieurs projets pilotes pour mettre en valeur les capacités de Gemini 2.0 dans ce domaine :

Project Astra: un agent visuel capable d’identifier des objets, aider à naviguer dans le monde réel et même retrouver des objets perdus, comme vos lunettes.

Project Mariner: une extension expérimentale pour Chrome qui peut interagir directement avec votre navigateur pour exécuter des actions en votre nom.

Jules : un agent pour les développeurs, dédié à la détection et à la correction de code défectueux.
Gemini 2.0 for Games : un assistant qui peut analyser votre écran et vous aider à mieux jouer, présenté comme un « Easter egg » selon Hassabis.

Ces initiatives illustrent le potentiel transformateur des agents multimodaux dans des domaines allant de la productivité à l’assistance personnelle.

Une IA omniprésente dans l’écosystème Google

Google a de grandes ambitions pour Gemini 2.0 :

Google Search : Gemini 2.0 alimente désormais les AI Overviews, qui touchent 1 milliard d’utilisateurs. Les résultats de recherche sont plus nuancés et détaillés grâce aux capacités avancées du modèle.
Workspace et autres produits Google : Gemini 2.0 intégrera progressivement les fonctionnalités d’IA dans Gmail, Docs, et bien d’autres outils, renforçant leur efficacité et polyvalence.
Un modèle unifié : Google travaille à centraliser toutes ses fonctionnalités IA dans une architecture de modèle unique, afin de maximiser la performance et l’intégration.

« Nous construisons le modèle le plus général possible, capable de gérer une large variété de tâches », explique Hassabis.

Les défis à venir

Alors que l’IA devient plus sophistiquée, de nouveaux défis de sécurité émergent, en particulier avec l’avènement des agents autonomes. Hassabis souligne la nécessité de tester ces agents dans des environnements contrôlés avant de les déployer largement.« Nous aurons besoin de solutions de sécurité innovantes, comme des environnements de test renforcés pour limiter les risques associés aux agents en action dans le monde réel », précise-t-il.

En parallèle, Google cherche à résoudre des problèmes classiques liés aux modèles d’IA, comme les coûts d’inférence élevés et les optimisations d’efficacité.

Gemini 2.0 Flash : Disponibilité et perspectives

Pour l’instant, Gemini 2.0 Flash est disponible via l’application web Gemini, mais les versions complètes du modèle arriveront début 2025. Les utilisateurs peuvent déjà expérimenter ses capacités multimodales, tandis que les développeurs peuvent tirer parti de l’API Multimodal Live pour créer des applications en temps réel.

Avec Gemini 2.0, Google pose les bases d’une IA omniprésente, performante et agentique, marquant un tournant dans la manière dont l’IA est intégrée dans nos vies quotidiennes et professionnelles. L’avenir de l’IA, selon Google, est multimodal, généralisé, et résolument axé sur l’autonomie des agents.

Lire plus

Intelligence Artificielle

Sora : les 5 choses à savoir pour utiliser l’outil vidéo d’OpenAI

par Yohann Poiron le 10 décembre 2024

Lors de son événement « 12 Days of OpenAI », OpenAI a dévoilé Sora, son très attendu outil de génération vidéo par IA. Après une année de teasing, le lancement marque une avancée majeure pour la création de vidéos animées à partir de simples prompts textuels. Voici les points essentiels sur Sora et ses fonctionnalités.

1. Créer des vidéos avec Sora : flexibilité et simplicité

Sora est désormais accessible via son site officiel pour les abonnés ChatGPT Plus et Pro dans de nombreux pays, à l’exception notable de l’Europe — il sera nécessaire de passer par un VPN pour y accéder. L’outil repose sur le modèle amélioré Sora Turbo, qui offre une qualité vidéo supérieure et des délais de rendu plus rapides par rapport à sa version initiale.

Fonctionnalités principales :

Texte vers vidéo : créez des vidéos à partir d’une description textuelle.
Animation d’images fixes : donnez vie à des photos ou illustrations statiques.
Remix vidéo : modifiez une vidéo existante grâce à une nouvelle invite textuelle.

2. Plans d’abonnement et crédits

Sora fonctionne sur un système de crédits, similaire à ChatGPT et DALL-E :

ChatGPT Plus : 1 000 crédits mensuels (équivalent à 50 vidéos de 5 secondes en 720p avec traitement prioritaire). Les vidéos conservent un filigrane OpenAI.
ChatGPT Pro (200 dollars/mois) : vidéos jusqu’à 20 secondes en 1080p, avec 500 rendus prioritaires par mois. Les vidéos générées en dessous du seuil de priorité sont illimitées et sans filigrane.

Pour accéder au service :

Visitez Sora.com et connectez-vous avec les identifiants de votre compte ChatGPT Plus ou Pro.
Une fois connecté, localisez et cliquez sur le bouton « Create » ou « New Video » pour ouvrir l’interface de génération de vidéo.
Dans la zone de texte, tapez un prompt pour la vidéo que vous souhaitez créer.
Vous pouvez définir un style prédéfini et, en fonction de votre niveau d’abonnement, vous pouvez également définir la résolution et la durée.
Cliquez sur le bouton « Generate » et Sora créera votre vidéo.
Une fois la vidéo prête, vous pouvez la prévisualiser et la refaire ou la remixer avec un nouveau message.

3. Fonctionnalités avancées : Storyboarding et Blending

Storyboarding : créez des séquences narratives. Les utilisateurs peuvent concevoir plusieurs vidéos liées entre elles pour raconter une histoire cohérente. Par exemple, un storyboard pourrait illustrer le cycle de l’eau, de l’évaporation à la pluie, en utilisant une série de prompts textuels

Blending : cette fonctionnalité fusionne deux scènes pour créer une transition fluide et organique. Imaginez passer d’une forêt paisible à une mégalopole futuriste, ou d’un océan à l’espace interstellaire, le tout avec des transitions homogènes qui enrichissent l’impact visuel.

4. Sécurité et concurrence sur le marché de la vidéo IA

Mesures de sécurité intégrées

Les vidéos créées avec Sora incluent un filigrane visible et des métadonnées identifiables pour lutter contre la désinformation et les deepfakes.
Les utilisateurs doivent accepter des règles strictes concernant les contenus interdits (violence, contenu explicite, matériel protégé par des droits d’auteur, etc.). Les violations peuvent entraîner des suspensions ou des bannissements.

5. Disponibilité et limitations régionales

Pour l’instant, Sora n’est pas disponible au Royaume-Uni ni en Europe, probablement en raison de la réglementation stricte en matière d’IA. Ces restrictions rappellent les débuts difficiles de ChatGPT et DALL-E sur ces marchés. OpenAI n’a pas donné de calendrier précis pour un lancement dans ces régions.

Concurrence

Sora rejoint une industrie florissante de la vidéo générée par IA, où des plateformes comme Runway, Stability AI, Pika, et Luma Labs’ Dream Machine rivalisent d’innovations. OpenAI espère que Sora se démarquera grâce à son interface intuitive et ses fonctionnalités avancées.

Avec Sora, OpenAI ouvre la voie à une créativité sans précédent, permettant aux utilisateurs de transformer des idées simples en vidéos sophistiquées. Si le potentiel de cet outil est immense, son succès dépendra de sa capacité à maintenir des normes de qualité et de sécurité tout en élargissant sa disponibilité internationale.

En attendant, Sora offre un aperçu de l’avenir de la production vidéo, où l’IA joue un rôle central pour démocratiser et réinventer la narration visuelle.

Lire plus

Perplexity Comet devient enfin crédible sur iPad avec Split View et le multi-fenêtre

Apple signe un trimestre record, porté par l’iPhone 17 et les Services

Amazon transforme Wondery : le podcast devient une machine à commerce

John Ternus prépare l’ère IA d’Apple : moins de promesses, plus d’expériences utiles

Test de la HUAWEI Watch GT Runner 2 : La montre qui veut détrôner Garmin

Test du DJI ROMO P : DJI réussit-il son premier robot aspirateur haut de gamme ?

Test de NotebookLM : L’application de Google est-elle le copilot IA rêvé ?

Test Huawei MatePad 11.5 : La tablette PaperMatte, l’alliée idéale pour les étudiants et pros ?

Xiaomi 17T Pro : Dimensity 9500, 12 Go de RAM et batterie 7 000 mAh en fuite

Redmi K100 : prix en forte hausse, Snapdragon haut de gamme et lancement attendu

OnePlus Strix G15 : la manette qui transforme le OnePlus Ace 6 Ultra en console portable

Xiaomi 17 Max : le géant à batterie 8 000 mAh se préciserait pour mai

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

OpenAI renforce la sécurité de ChatGPT avec des clés physiques YubiKey

Gemini génère désormais des fichiers Word, Excel et PDF téléchargeables

Android et IA : l’Europe veut forcer Google à ouvrir Gemini à la concurrence

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

Notepad++ arrive sur macOS en version native gratuite, 23 ans après Windows !

Adieu Google Assistant : Gemini débarque dans votre voiture (et change tout)

DJI Osmo Pocket 4P : vidéo verticale, 4K 240 fps et zoom amélioré

Quels langages de programmation apprendre en 2026 ? Guide complet pour débutants

Google AI Studio augmente ses quotas pour les abonnés AI Pro et Ultra

Chronicle : OpenAI transforme Codex en assistant contextuel (et ça change tout)

OpenAI Codex : Pourquoi vous n’allez plus jamais quitter votre IDE ?

Claude Cowork : Le guide complet pour automatiser votre quotidien en 2026

Intel Core Ultra vs Apple Silicon : Quelle philosophie choisir pour votre prochain bureau compact ?

Comment arrêter le suivi des e-mails dans Gmail ?

Claude Code vs ChatGPT Codex : Quel agent choisir pour votre workflow en 2026 ?

Intelligence Artificielle

Malwarebytes arrive dans Claude pour détecter les arnaques sans quitter la conversation

OpenAI renforce la sécurité de ChatGPT avec des clés physiques YubiKey

Gemini génère désormais des fichiers Word, Excel et PDF téléchargeables

Android et IA : l’Europe veut forcer Google à ouvrir Gemini à la concurrence

IA et santé : pourquoi les chatbots restent peu fiables pour les décisions médicales

Gemini évolue : Google transforme son IA en assistant personnel avec mémoire et import de données

Intelligence Artificielle

Élargir l’écosystème Gemini

Coût et accès

Nouvelles fonctionnalités pour les développeurs liées au modèle o1

API Realtime : Une IA vocale et conversationnelle optimisée

Fine-Tuning préférentiel : Plus de personnalisation

Bixby avec IA générative : Un lancement mondial en janvier 2025

Un concurrent sérieux pour Google Assistant ?

Une recherche Web intégrée à ChatGPT pour tous

Fonctionnement et disponibilité

Des résultats confiants… mais parfois erronés

Un ajout à une semaine riche en annonces

Veo 2, une précision sans précédent dans la génération vidéo

Disponibilité de Veo 2

Annonce de Imagen 3 : génération d’images IA encore plus puissante

Présentation de Whisk : un outil expérimental pour fusionner scènes, sujets et styles

Un écosystème d’outils IA en pleine expansion

Petite taille, grandes performances : Un changement de paradigme

Une réduction drastique des coûts pour les entreprises

Des capacités exceptionnelles en mathématiques et au-delà

Engagement en matière de sécurité et déploiement mesuré

Un futur centré sur l’efficacité

NotebookLM Plus : Pensé pour les entreprises et les équipes

Audio Overviews interactifs : Une nouvelle manière d’explorer l’information

Nouvelle interface repensée

Un intérêt croissant des entreprises

Qu’est-ce que la fonctionnalité « Projets » de ChatGPT ?

Comment fonctionnent les Projets ?

Cas d’utilisation et applications pratiques

Une nouveauté familière, mais essentielle

Limites et points à considérer

Claude 3.5 Haiku: une IA rapide et efficace

Intégration avec les Artifacts pour une expérience enrichie

Limites actuelles de Claude 3.5 Haiku

Accès et abonnements

Coût et performances

Points à considérer

Partage vidéo et écran : Une fonctionnalité très attendue

Discutez avec le Père Noël grâce au mode saisonnier de ChatGPT

Disponibilité et déploiement

Jour 4 des « 12 Days of OpenAI »

Pourquoi Apple travaille avec Broadcom ?

L’impact de Baltra sur Apple Intelligence

Un mouvement stratégique dans un marché compétitif

Trillium, des performances 4 fois supérieures et une efficacité énergétique accrue

Un changement économique pour les startups IA

Une infrastructure hyperconnectée avec 100 000 puces

Concurrence avec Nvidia et les autres acteurs de l’IA

Un avenir prometteur pour le développement de l’IA

Project Mariner : Un navigateur autonome

Performance impressionnante et améliorations à venir

Project Astra: Une IA Multimodale Plus Puissante

Gemini 2.0 : Vers une IA généralisée et performante

Les agents intelligents : l’avenir selon Google

Une IA omniprésente dans l’écosystème Google

Les défis à venir

Gemini 2.0 Flash : Disponibilité et perspectives

1. Créer des vidéos avec Sora : flexibilité et simplicité

2. Plans d’abonnement et crédits

3. Fonctionnalités avancées : Storyboarding et Blending

4. Sécurité et concurrence sur le marché de la vidéo IA

5. Disponibilité et limitations régionales

Concurrence

Qu’est-ce que la fonctionnalité « Projets » de ChatGPT ?