fermer

Intelligence Artificielle

L’intelligence artificielle (IA) transforme de nombreux secteurs, de la santé à la finance, en passant par l’éducation et la sécurité. Explorez comment l’IA est utilisée pour automatiser des tâches, augmenter l’efficacité et créer de nouvelles opportunités de marché.

Nos discussions incluent également les défis éthiques et les implications sociétales de l’adoption de l’IA, fournissant une perspective équilibrée sur ce développement technologique clé.

Intelligence Artificielle

OpenAI lève 40 milliards et entre dans l’histoire : La folie IA continue !

OpenAI lève 40 milliards et entre dans l'histoire : La folie IA continue !

L’entreprise emblématique à l’origine de ChatGPT, OpenAI, vient de marquer un tournant historique dans le secteur technologique en bouclant une levée de fonds exceptionnelle de 40 milliards de dollars.

Ce tour de table, mené par le géant japonais SoftBank, porte la valorisation d’OpenAI à 300 milliards de dollars, établissant un nouveau record pour une entreprise technologique privée.

Selon les sources de Reuters et Financial Times, SoftBank injecte à lui seul 30 milliards de dollars, tandis qu’un consortium d’investisseurs comprenant Microsoft, Thrive Capital, Altimeter Capital et Coatue Management complète le reste. L’investissement sera décaissé en deux temps : 10 milliards immédiatement, et 30 milliards supplémentaires d’ici là fin de l’année, sous réserve qu’OpenAI finalise sa transition vers un statut d’entreprise à but lucratif. Sans cette conversion, une partie de l’investissement pourrait être compromise.

OpenAI : Un besoin colossal en capitaux pour concrétiser l’AGI

OpenAI justifie cette levée par ses ambitions d’envergure : construire une intelligence artificielle générale (AGI) bénéfique pour toute l’humanité. Pour cela, l’entreprise dit avoir besoin de capacités de calcul massives, d’infrastructures globales, d’énergie… et, bien sûr, de financements titanesques. Ce nouveau capital doit accélérer le développement de modèles toujours plus puissants, comme le futur GPT-5, et soutenir les services déjà en place, comme ChatGPT, utilisé aujourd’hui par plus de 500 millions de personnes chaque semaine.

Cette levée de fonds fait également écho au projet Stargate, un partenariat entre OpenAI, SoftBank, Oracle et le fonds souverain MGX basé à Abu Dhabi. Ce projet vise à créer des méga-centres de données en Amérique du Nord, pour un coût estimé à 500 milliards de dollars sur quatre ans. Le président Donald Trump s’est personnellement engagé à soutenir cette initiative, en la présentant comme un vecteur de souveraineté technologique et de création de plus de 100 000 emplois.

Une croissance fulgurante… mais encore loin de la rentabilité

Malgré des revenus prévus à 12,7 milliards de dollars cette année (contre 3,7 milliards en 2023), OpenAI n’anticipe pas de rentabilité avant 2029, selon les estimations internes rapportées par Bloomberg. Une perspective qui souligne la nature ultra-capitalistique de l’IA générative, où les coûts d’exploitation restent démesurés.

Avec cette opération, OpenAI renforce sa position de leader dans la guerre mondiale de l’IA, face à des concurrents comme Google DeepMind, Anthropic, xAI (Elon Musk) ou encore Meta. Mais elle illustre aussi les tensions croissantes entre régulation, innovation et souveraineté numérique, dans un contexte où l’IA devient un enjeu géopolitique majeur.

Lire plus
Intelligence Artificielle

ChatGPT GPT-4o : Le style Ghibli fait fondre les serveurs d’OpenAI !

ChatGPT GPT-4o : Le style Ghibli fait fondre les serveurs d'OpenAI !

Depuis quelques jours, Internet est inondé d’illustrations générées dans le style emblématique du studio d’animation japonais Studio Ghibli. Cette tendance virale, propulsée par GPT-4o, le dernier modèle d’OpenAI, a rencontré un tel succès que l’entreprise a été contrainte d’imposer des limitations temporaires à la génération d’images.

C’est Sam Altman, cofondateur et PDG d’OpenAI, qui a annoncé la mesure sur X. Il a expliqué que l’engouement massif pour les images générées dans le style de My Neighbor Totoro ou Le Voyage de Chihiro surchargent les capacités des centres de données de l’entreprise. « Ça pourrait faire fondre les GPU », a-t-il plaisanté, soulignant l’ampleur de la demande. Si la remarque est humoristique, elle illustre bien les pressions techniques réelles rencontrées par les serveurs.

Un succès fulgurant pour ChatGPT, mais à quel prix ?

GPT-4o s’est imposé en un temps record comme un modèle d’exception pour la génération d’images. Grâce à sa capacité à comprendre visuellement une scène et à la retranscrire avec fidélité dans un style artistique spécifique, il est particulièrement apprécié pour recréer des scènes de films cultes, des mèmes ou encore des événements d’actualité dans l’esthétique onirique et détaillée de Ghibli.

Cependant, face à la charge démesurée, OpenAI a annoncé des limites temporaires pour réguler la génération d’images. Cette décision survient également après que les utilisateurs gratuits de ChatGPT ont été privés d’accès à la génération d’images via GPT-4o, un choix critiqué mais justifié par les contraintes techniques.

c1731a94 1abe 4be7 bc89 f3b45c06d5fe

Vers un retour progressif des fonctionnalités

Bonne nouvelle néanmoins pour les utilisateurs non abonnés : OpenAI prévoit de rétablir l’accès à la génération d’images, bien que de manière limitée — trois images par jour seront bientôt autorisées gratuitement. Aucun calendrier précis n’a encore été communiqué.

Sam Altman a ajouté que les équipes travaillent activement à améliorer l’efficacité du système, et que ces restrictions « ne devraient pas durer longtemps ».

Une vague créative… et polémique

Malgré ces limites, la communauté continue de fouler les réseaux sociaux de créations inspirées de Ghibli. De nombreux utilisateurs détournent films, personnages célèbres ou même figures politiques dans ce style enchanteur. Cette vague artistique a également ravivé le débat sur les droits d’auteur, la propriété intellectuelle et les usages « équitables » dans le domaine de l’intelligence artificielle.

Alors que les passionnés rivalisent d’ingéniosité pour donner vie à leurs univers Ghibli, la question demeure : jusqu’où peut-on aller en générant de l’art inspiré d’œuvres existantes ? Un sujet brûlant qui dépasse la simple prouesse technique de GPT-4o.

Lire plus
Intelligence Artificielle

Google Gemini : des podcasts immersifs pour consommer vos documents

Google Gemini : des podcasts immersifs pour consommer vos documents

Dans un monde où les podcasts sont omniprésents, Google franchit une nouvelle étape avec Audio Overviews, une fonctionnalité novatrice de son IA Gemini qui transforme vos documents en véritables émissions audio.

Audio Overviews : deux hôtes IA pour résumer vos documents

Plutôt que de proposer un simple résumé texte, Audio Overviews génère un fichier audio simulant une conversation entre deux hôtes IA discutant du contenu de votre document. Cette fonctionnalité, initialement lancée dans l’application de prise de notes NotebookLM, permet une expérience immersive et naturelle. Les deux hôtes échangent comme s’ils animaient un vrai podcast, posant des questions et développant les points clés du sujet abordé.

Screen 2025 03 31 at 13.49.48

La durée des podcasts varie selon la taille du document, allant de 5 à 15 minutes. Un simple PDF d’un planning de ramassage des déchets peut donner lieu à un épisode de 5 minutes, tandis qu’un manuel technique de 146 pages produira un podcast bien plus long et détaillé.

Quels fichiers peut-on utiliser ?

Gemini prend en charge une large variété de formats, notamment les documents texte (PDF, DOCX, TXT), les présentations (PPTX, Google Slides) ou encore les fichiers de code source. Les utilisateurs abonnés à Gemini Advanced peuvent aussi uploader des fichiers HTML, Google Sheets, et plus encore.

Il est même possible de créer un Audio Overview à partir d’un rapport Deep Research, une autre fonctionnalité de Gemini qui effectue une recherche approfondie sur un sujet donné. Une fois le rapport généré, vous pouvez le transformer en podcast pour le consommer de manière plus agréable et synthétique.

Comment générer un « Audio Overview » ?

Pour créer un « Audio Overview » dans Gemini, suivez ces étapes :

  1. Allez sur gemini.google.com
  2. Importer le document : Cliquez sur l’icône « + » dans l’application Gemini pour télécharger le fichier souhaité. Les formats pris en charge incluent les documents texte, les présentations Google Slides, les fichiers PDF, entre autres.
  3. Générer l’aperçu audio : Une fois le document importé, une suggestion « Generate Audio Overview » apparaîtra au-dessus de la zone de saisie. Cliquez dessus pour lancer la création du podcast. Si cette option n’apparaît pas, vous pouvez simplement demander à Gemini de générer un « Audio Overview » du document.

Screen 2025 03 31 at 13.43.34

Note : Assurez-vous d’avoir réglé le langage de votre compte Google à “Anglais”. 

Des résultats bluffants

Les voix générées sont surprenamment naturelles, imitant même les interruptions ou les échanges spontanés. Les tests montrent une bonne capacité à extraire les points essentiels et à les expliquer de manière accessible. Par exemple, un manuel d’appareil photo Canon EOS a été transformé en discussion passionnée sur l’autofocus par suivi du regard. Même un scénario non publié a été résumé avec humour et clarté — bien qu’un élément clé du récit ait été omis.

Audio Overviews n’est pas juste une démonstration technologique : c’est un outil réellement utile. Pour ceux qui préfèrent écouter plutôt que lire, ou qui veulent optimiser leur temps (en marchant, en conduisant…), ce format offre un nouveau moyen d’accéder à l’information.

Google envisage également d’étendre cette fonctionnalité aux pages web, bien qu’il faille actuellement copier le contenu ou enregistrer la page en PDF pour en générer un podcast.

Google bouscule les codes du résumé traditionnel avec Audio Overviews, transformant vos documents en podcasts accessibles et engageants. Bien que tout ne soit pas parfait, cette approche marque un tournant dans la manière dont nous consommons les contenus textuels.

🔊 Et si le futur du podcast, c’était… vous ?

Lire plus
Intelligence Artificielle

Gemini 2.5 Pro : Une version plus performante, enfin disponible

Gemini 2.5 Pro : Une version plus performante, enfin disponible

Durant le weekend, Google a discrètement annoncé la mise à disposition de Gemini 2.5 Pro, sa toute dernière version de modèle d’IA, accessible dès maintenant sur gemini.google.com. Pour l’instant, ce modèle n’est utilisable que depuis un navigateur Web, mais Google promet une arrivée prochaine sur l’application mobile.

Gemini 2.5 Pro est disponible en version expérimentale, et peut être testé librement par tous les utilisateurs. Toutefois, les utilisateurs gratuits devront composer avec des limites d’utilisation plus strictes : selon la complexité de vos requêtes, vous pourriez rapidement atteindre le quota alloué. Par exemple, une simple comparaison du coût de la vie entre pays de l’UE pourrait consommer une grande partie de votre crédit.

Google recommande donc de souscrire à Gemini Advanced pour bénéficier d’une expérience complète et plus fluide. Un essai gratuit d’un mois est proposé avant l’abonnement mensuel.

Des capacités renforcées en mathématiques, en sciences et en code

Gemini 2.5 Pro représente à ce jour le modèle le plus avancé développé par Google. Il se distingue particulièrement dans les domaines du codage, des mathématiques et des sciences. Comme pour les versions précédentes, le modèle est capable de montrer son raisonnement étape par étape, ce qui renforce la transparence et la pédagogie des réponses fournies.

final 2.5 blog 1.width 1000.form 1

Selon Google, cette version combine un nouveau modèle de base amélioré à un post-entraînement optimisé, permettant de franchir un nouveau cap en matière de performance : « Avec Gemini 2.5, nous avons atteint un nouveau niveau en combinant un modèle de base significativement renforcé avec un post-entraînement de qualité ».

Une IA plus performante que la concurrence

D’après le test Aider Polyglot, Gemini 2.5 Pro surclasse nettement ses concurrents. Il atteint 74 % de réussite, contre 64,9 % pour Claude 3.7 (le deuxième meilleur score). Il surpasse également OpenAI dans la compréhension de contextes longs, ce qui est crucial pour les usages professionnels ou complexes.

Google a annoncé que des tarifs spécifiques pour les usages professionnels (avec des limites plus élevées) seront communiqués dans les prochaines semaines. De quoi renforcer l’attractivité de Gemini 2.5 Pro pour les entreprises, développeurs et équipes techniques à la recherche d’un assistant IA puissant et polyvalent.

Lire plus
Intelligence Artificielle

Google Gemini : L’IA qui génère des vidéos arrive bientôt, le modèle Veo 2 se dévoile

Google Veo 2

Depuis plusieurs mois, Google tease des fonctionnalités de génération de vidéos basées sur l’IA avec Gemini, et il semble que leur lancement soit imminent. Une analyse du code de la version bêta 16.11 de l’application Google, réalisée par Abner Li d’Android Authority, a révélé des indices clairs sur l’arrivée prochaine de Veo 2, le modèle de génération vidéo de Gemini.

Veo 2 : des vidéos de haute qualité en quelques minutes

Parmi les découvertes notables dans cette bêta, une ligne de code indique que les utilisateurs pourront « obtenir des vidéos de haute qualité avec Veo 2, le dernier modèle de génération vidéo de Gemini ».

Concrètement, Veo 2 permettra de générer une vidéo de 8 secondes en environ 2 minutes, simplement à partir d’une description textuelle. Les utilisateurs devront donc rédiger quelques phrases expliquant leur vision, et l’IA se chargera du reste.

Toutefois, Google semble vouloir limiter l’accès à cette fonctionnalité. Une autre ligne de code retrouvée dans l’application indique que les utilisateurs pourraient être restreints à un certain nombre de vidéos générées. Il n’est pas exclu que Google propose un système de crédits payants pour permettre de dépasser ces limites, mais, pour l’instant, cela reste de la spéculation.

Une IA plus avancée que Imagen 3

Actuellement, Gemini utilise Imagen 3 pour générer des images, des vidéos et de l’audio, mais ses performances restent limitées. Veo 2 représente une avancée majeure, notamment dans la gestion de la physique réaliste, des détails visuels améliorés et d’une réduction des artefacts.

Selon Google DeepMind, ce modèle devrait offrir une meilleure précision, un réalisme accru et une plus grande variété de styles visuels. Cela permettrait à Google de rivaliser avec d’autres solutions de génération vidéo IA, comme celles proposées par Runway ou OpenAI.

Un lancement imminent dans Gemini, mais encore incertain

La présence de ces lignes de code dans la version bêta de l’application Google indique clairement que Google prépare activement le lancement de Veo 2. Cependant, rien n’est encore gravé dans le marbre. Google teste ces fonctionnalités dans ses versions bêta pour en évaluer la stabilité et la pertinence, et il est toujours possible que des problèmes techniques retardent la sortie officielle.

Si tout se passe comme prévu, Veo 2 pourrait être intégré à Gemini dans les prochaines semaines, offrant aux utilisateurs Android une nouvelle manière de créer des vidéos de manière intuitive grâce à l’IA.

Restez à l’affût pour plus d’informations sur le déploiement officiel de Veo 2 dans Google Gemini.

Lire plus
Intelligence Artificielle

ChatGPT Mode Vocal Avancé : une mise à jour réduit les interruptions, l’IA devient plus patiente

ChatGPT Mode Vocal Avancé : une mise à jour réduit les interruptions, l'IA devient plus patiente

Si vous trouviez que le Mode Vocal Avancé de ChatGPT avait tendance à vous interrompre trop souvent, bonne nouvelle : une récente mise à jour vient améliorer son comportement.

Manuka Stratta, chercheur en post-formation chez OpenAI, a expliqué dans une vidéo publiée lundi que cette mise à jour ajuste la personnalité de l’IA. Désormais, le mode vocal avancé de ChatGPT interrompt beaucoup moins les utilisateurs, leur laissant ainsi plus de temps pour réfléchir et formuler leurs idées sans pression.

En plus de cette réduction des interruptions, le ton de ChatGPT devient plus engageant et naturel, avec des réponses plus directes et concises.

Un mode vocal de ChatGPT en constante évolution

Le Mode Vocal Avancé a été initialement lancé pour certains abonnés ChatGPT Plus en mai dernier, avant d’être élargi à tous les utilisateurs de cette formule en septembre. Puis, en novembre, OpenAI a étendu l’accès à tous les utilisateurs, qu’ils soient en version gratuite ou payante.

Comment l’activer ? Il suffit d’ouvrir l’application mobile, puis d’appuyer sur l’icône en forme d’onde sonore située à côté du microphone. Une fois le cercle affiché à l’écran, l’IA est à l’écoute et prête à engager une conversation fluide. Attention cependant à ne pas partager d’informations personnelles sensibles pour garantir votre confidentialité.

Différences entre les versions gratuites et payantes :

  • Utilisateurs gratuits : Ils ont accès au Mode Vocal Avancé, mais avec des limites d’utilisation quotidiennes et un modèle d’IA GPT-4o mini, moins performant.
  • Abonnés Plus (20 dollars/mois) : Ils bénéficient de conversations plus longues et d’un modèle GPT-4o plus avancé, offrant une meilleure compréhension et des réponses plus pertinentes.
  • Abonnés Pro (200 dollars/mois) : Ils peuvent utiliser le Mode Vocal sans restriction, avec une expérience optimisée pour une interaction encore plus fluide.

Avec ces améliorations, OpenAI continue de peaufiner son assistant vocal pour offrir une expérience toujours plus naturelle et immersive. Reste à voir comment les utilisateurs accueilleront ces changements et si d’autres ajustements seront apportés dans les mois à venir.

Lire plus
Intelligence Artificielle

Otter Meeting Agent : un assistant IA transforme les réunions, les détails

67e29e9918b96bcf4fc57440 Otter M

Otter, le service de transcription automatique alimenté par l’intelligence artificielle, franchit une nouvelle étape avec le lancement de trois agents IA conçus pour optimiser les réunions et les appels professionnels.

Le plus innovant d’entre eux est Otter Meeting Agent, un assistant vocal intelligent capable d’interagir en temps réel avec les utilisateurs et d’exploiter les données de l’entreprise pour répondre aux questions et accomplir des tâches.

Otter Meeting Agent: Un assistant IA qui transforme les réunions

Otter présente son Meeting Agent comme une évolution majeure de son chatbot IA déjà existant. Jusqu’à présent, l’outil pouvait assister aux réunions en ligne, transcrire les conversations et résumer les échanges. Désormais, il va plus loin : il peut répondre aux questions sur la base des données issues des réunions passées, planifier de nouvelles réunions et même rédiger des emails via une interaction vocale naturelle.

Actuellement, Otter Meeting Agent est compatible avec Zoom et son déploiement progressif est en cours pour tous les utilisateurs d’Otter.ai. Une prise en charge pour Microsoft Teams et Google Meet est prévue dans les prochaines semaines.

Des agents dédiés à la vente et au support client

En plus de son assistant de réunion, Otter dévoile deux autres agents IA spécialisés pour le domaine commercial :

  • Sales Agent : Cet assistant fournit un coaching en temps réel aux commerciaux pendant leurs appels. Il les aide à conclure des ventes, gérer les objections des clients et optimiser leurs performances. Disponible sur toutes les plateformes de visioconférence, il est réservé aux clients professionnels d’Otter.
    Agent SDR (Sales Development Representative Agent) : Plus avancé, cet agent peut présenter un produit et interagir avec des prospects sans intervention humaine. Il est accessible via le site d’Otter, mais les entreprises intéressées doivent contacter la société pour l’adopter.

Vers une expansion de l’IA dans les fonctions clés de l’entreprise

Otter ne compte pas s’arrêter là. L’entreprise prévoit de développer d’autres agents IA, notamment pour le marketing, le recrutement et d’autres services spécialisés. Cette initiative marque une nouvelle étape dans l’intégration de l’IA dans les entreprises, offrant des outils toujours plus performants pour gagner du temps et améliorer l’efficacité des équipes.

L’IA deviendra-t-elle un membre à part entière des équipes de travail ? À suivre dans les prochains mois avec l’évolution des agents Otter.

Lire plus
Intelligence Artificielle

OpenAI Academy : Une plateforme éducative gratuite pour tous, du débutant à l’expert IA

OpenAI Academy : Une plateforme éducative gratuite pour tous, du débutant à l'expert IA

Dans un contexte où l’intelligence artificielle transforme rapidement nos vies professionnelles et personnelles, OpenAI vient d’annoncer le lancement de « OpenAI Academy », une ressource publique gratuite dédiée à la formation en IA, ouverte à tous les niveaux de compétence.

L’initiative vise à rendre l’éducation à l’intelligence artificielle plus accessible, notamment à ceux qui n’ont pas les moyens d’accéder à des formations coûteuses.

Une plateforme éducative gratuite, accessible en ligne

Disponible dès maintenant via academy.openai.com, OpenAI Academy propose une variété de contenus éducatifs en ligne et en présentiel. Il suffit de créer un compte pour y accéder gratuitement. Le programme comprend :

  • Des ateliers pratiques (hands-on workshops),
  • Des discussions entre pairs (peer discussions),
  • Des tutoriels sur des outils IA comme Sora (génération de vidéos), la création de GPTs personnalisés, ou encore l’usage de ChatGPT en mode Deep Research.

Un projet initialement destiné aux développeurs avancés, désormais ouvert à tous

Lancé à l’origine comme un programme en présentiel pour les profils techniques avancés, OpenAI a élargi la portée de Academy pour inclure :

  • Les enseignants,
  • Les étudiants,
  • Les chercheurs d’emploi,
  • Les dirigeants de petites entreprises,
  • Les acteurs du secteur non lucratif.

L’objectif est clair : donner à chacun les clés pour mieux comprendre l’IA, en améliorer l’usage au quotidien, et surtout développer son potentiel économique et personnel grâce à ces nouvelles compétences.

Des partenaires éducatifs et sociaux pour toucher un large public

Pour garantir la qualité et l’accessibilité de ses contenus, OpenAI s’est associé à des acteurs éducatifs et sociaux de premier plan, notamment :

  • Common Sense Media, pour la création de contenus à la demande,
  • Des institutions académiques comme Georgia Tech et Miami Dade College,
  • Des organisations à but non lucratif telles que Goodwill, CareerVillage, Talent Ready Utah, ou encore OATS from AARP.

Exemple concret : un atelier d’IA avec Goodwill Keystone

Un atelier organisé par Goodwill Keystone en Pennsylvanie enseignera aux demandeurs d’emploi comment utiliser ChatGPT pour améliorer leur CV, simuler des entretiens d’embauche, ou encore obtenir des conseils de carrière personnalisés. Une approche concrète et pragmatique pour réduire la fracture numérique et mettre l’IA au service de l’insertion professionnelle.

Un projet à fort impact, gratuit et inclusif

Alors que la majorité des formations IA sont coûteuses et peu accessibles, OpenAI démocratise l’apprentissage de l’IA en supprimant les barrières financières. Avec son statut d’acteur majeur de l’IA, l’entreprise confère à OpenAI Academy une légitimité forte et un attrait certain, notamment auprès des utilisateurs en quête de montée en compétences rapide et efficace.

OpenAI Academy pourrait bien devenir un point de référence mondial pour l’éducation à l’intelligence artificielle. En mêlant accessibilité, contenu de qualité et accompagnement personnalisé, OpenAI entend rendre l’IA compréhensible et utilisable par tous, et contribuer ainsi à un avenir numérique plus équitable et inclusif.

Lire plus
Intelligence Artificielle

ChatGPT suspend la génération d’images après une popularité inattendue de GPT-4o et du style Ghibli

ChatGPT suspend la génération d'images après une popularité inattendue de GPT-4o et du style Ghibli

OpenAI vient de suspendre l’accès à sa nouvelle fonctionnalité de génération d’images via GPT-4o pour les utilisateurs gratuits de ChatGPT, à peine 24 heures après son lancement. Si cette fonctionnalité, propulsée par le modèle de raisonnement GPT-4o, avait pour but d’améliorer le réalisme des images et la qualité du texte généré, elle a rapidement déclenché une tendance virale incontrôlée, poussant OpenAI à revoir sa stratégie de déploiement.

Une fonctionnalité devenue virale en quelques heures

Dès son activation dans la version gratuite de ChatGPT, les utilisateurs se sont rués sur la nouvelle fonctionnalité de génération d’images. Résultat : des milliers de créations dans le style du studio japonais Studio Ghibli ont inondé les réseaux sociaux. On a pu voir :

  • Des photos de famille retravaillées à la sauce Ghibli
  • Des scènes des JO de Paris 2024 ou de films cultes comme Le Parrain ou Star Wars
  • Des mèmes célèbres comme « Distracted Boyfriend » ou « Disaster Girl » reformatés dans ce style enchanteur

Même le CEO d’OpenAI, Sam Altman, a joué le jeu en remplaçant sa photo de profil sur X par une version Ghibli de lui-même, générée avec GPT-4o selon toute vraisemblance. Mais très vite, il a également annoncé sur X que le déploiement de la génération d’images pour la version gratuite de ChatGPT serait reporté, sans fournir de date de retour.

« Images in ChatGPT are wayyyy more popular than we expected », a-t-il reconnu dans son post, en ajoutant que la popularité de la fonctionnalité avait dépassé toutes leurs prévisions.

GPT-4o : génération d’images plus précise et plus réaliste

GPT-4o repose sur une méthode de génération dite « autoregressive », qui crée l’image de gauche à droite et de haut en bas, au lieu de tout générer d’un coup. Cette approche améliore considérablement la cohérence visuelle, en particulier dans le rendu des textes. Contrairement aux anciennes IA connues pour produire des textes flous ou incompréhensibles, GPT-4o est capable de générer du texte net, lisible et contextuellement cohérent.

Selon le Wall Street Journal, OpenAI a soumis GPT-4o à un entraînement post-lancement dirigé par des humains, visant à identifier les erreurs courantes dans les rendus texte/image.

Des questions juridiques et éthiques toujours en suspens

Comme toujours avec l’IA, la popularité d’un outil soulève des interrogations sur les droits d’auteur et la légalité. Selon Evan Brown, avocat spécialisé en propriété intellectuelle chez Neal & McDevitt, les utilisateurs générant des images dans le style Studio Ghibli ne violent techniquement pas la loi, car le style n’est pas protégé par le droit d’auteur. Mais cela reste une zone grise juridique.

Un porte-parole d’OpenAI a également déclaré à TechCrunch que ChatGPT peut imiter le style d’un studio, mais pas celui d’un artiste individuel — une nuance cruciale pour éviter des poursuites juridiques potentielles.

Le succès fulgurant de la génération d’images avec GPT-4o démontre l’immense potentiel créatif et viral de l’IA, mais aussi les défis techniques, juridiques et éthiques qu’il implique. OpenAI semble chercher à reprendre le contrôle de la situation en suspendant temporairement l’accès gratuit, le temps de réévaluer sa capacité technique et de cadrer les usages. En attendant, seuls les abonnés des formules Plus, Pro et Team peuvent toujours profiter de cette fonctionnalité révolutionnaire.

Lire plus
Intelligence Artificielle

Microsoft 365 Copilot : Researcher et Analyst, deux agents IA pour une automatisation avancée

Microsoft 365 Copilot : Researcher et Analyst, deux agents IA pour une automatisation avancée

Alors que Google et OpenAI ont récemment dévoilé leurs avancées en matière d’intelligence artificielle, Microsoft n’est pas en reste et vient d’annoncer plusieurs nouveautés majeures pour Microsoft 365 Copilot. Parmi elles, l’introduction de deux agents d’intelligence artificielle avancés baptisés Researcher et Analyst dans Microsoft 365 Copilot, ainsi que l’amélioration des capacités des agents IA personnalisés.

Pour éviter toute confusion, Microsoft 365 Copilot est essentiellement la version rebaptisée de l’ancienne application Microsoft 365 (Office). Elle est différente de l’application autonome Copilot, qui est plutôt une application de chatbot d’IA à usage général.

Cependant, l’idée générale n’est pas très différente. Vous demandez à l’IA Copilot de fournir des informations approfondies sur un certain sujet ou de créer un plan d’action, et elle s’exécute en produisant un document détaillé qui nécessiterait autrement des heures de recherche et de compilation de la part d’un être humain. Il s’agit d’effectuer des recherches complexes en plusieurs étapes en votre nom en tant qu’agent autonome de l’IA.

Researcher et Analyst : une nouvelle approche du raisonnement en profondeur

Microsoft présente Researcher et Analyst comme les premiers agents IA de raisonnement approfondi conçus pour assister les entreprises dans leurs tâches complexes.

Researcher repose sur un modèle avancé de recherche d’OpenAI, lui permettant d’exécuter des recherches complexes et multi-étapes. Cet agent est capable d’exploiter des données tierces, grâce à des connecteurs intégrés pour des outils comme Salesforce ou ServiceNow. Cette capacité le rend particulièrement utile aux entreprises qui souhaitent extraire des insights à partir de leurs multiples outils et automatiser des tâches de veille stratégique ou d’analyse concurrentielle.

Analyst, quant à lui, est basé sur le modèle de raisonnement o3-mini d’OpenAI et se distingue par sa capacité à traiter et organiser des données complexes. Il peut convertir des données brutes en tableaux détaillés, exécuter du code Python en temps réel avec une visibilité sur son exécution, et fonctionner au niveau d’un véritable data scientist. Grâce à son approche par chaînage de pensées (« chain-of-thought reasoning »), il peut générer des rapports détaillés, automatiser des analyses statistiques et optimiser la gestion des données d’une entreprise.

Disponibilité et intégration dans Microsoft 365 Copilot

Ces nouveaux agents commenceront à être déployés dès avril pour les entreprises disposant d’une licence Microsoft 365 Copilot, via un programme d’accès anticipé. Parallèlement, Microsoft introduit de nouvelles fonctionnalités d’agents autonomes, déjà en cours de déploiement dans Copilot Studio.

Microsoft ambitionne de rendre Microsoft 365 Copilot plus puissant et adaptable en intégrant des flux d’agents intelligents capables d’automatiser des tâches complexes. Grâce à des workflows basés sur des règles et enrichis par l’IA, les entreprises pourront créer des assistants personnalisés adaptés à leurs besoins spécifiques.

Microsoft met en avant des cas d’usage, comme la gestion automatisée des e-mails de feedback, où un agent pourrait classer les demandes et les rediriger vers les équipes appropriées. Cependant, il reste à voir si ces agents surpasseront des méthodes d’automatisation classiques ou s’ils apporteront une réelle valeur ajoutée dans un contexte professionnel.

Une nouvelle étape dans l’évolution des IA d’entreprise

Avec ces annonces, Microsoft renforce sa position sur le marché des intelligences artificielles pour les entreprises, en mettant en avant des outils capables de traiter des tâches avancées, du raisonnement complexe à la gestion automatisée des données. Il faudra attendre les premiers retours d’expérience pour mesurer l’impact réel de ces nouveautés, mais une chose est sûre : l’IA devient un élément incontournable du paysage professionnel moderne.

Lire plus
Intelligence Artificielle

OpenAI GPT-4o : ChatGPT génère images et vidéos avec une qualité inédite

OpenAI GPT-4o : ChatGPT génère images et vidéos avec une qualité inédite

OpenAI franchit une nouvelle étape dans l’évolution de l’intelligence artificielle en intégrant GPT-4o dans ChatGPT, permettant désormais à tous les utilisateurs de générer des images et des vidéos directement au sein du chatbot.

Cette avancée élimine le besoin de passer par un outil externe comme DALL·E, bien que ce dernier reste disponible pour ceux qui souhaitent continuer à l’utiliser via des GPTs personnalisés. Par ailleurs, OpenAI introduit également son générateur de vidéos Sora, renforçant ainsi les capacités multimodales de ChatGPT et ouvrant de nouvelles possibilités créatives.

Avec cette mise à jour, tous les utilisateurs de ChatGPT, y compris ceux de la version gratuite, peuvent désormais profiter de la génération d’images. Cependant, les abonnés des offres Plus, Team et Pro bénéficient d’un accès plus large et de meilleures performances, notamment en matière de rapidité et de quotas. Les utilisateurs issus du milieu professionnel et éducatif devront patienter une semaine supplémentaire avant de voir cette nouveauté déployée sur leurs comptes.

Jusqu’à présent, la génération d’images avec OpenAI était principalement réservée aux utilisateurs payants, qui avaient accès à DALL·E 3, tandis que les utilisateurs gratuits devaient passer par Microsoft Copilot. Désormais, tout se fait directement dans ChatGPT grâce à GPT-4o, rendant l’expérience plus fluide et accessible à tous.

Une amélioration majeure de la qualité des images

Avec GPT-4o, OpenAI franchit un cap en matière de précision et de réalisme dans la génération d’images. Une des avancées les plus notables concerne le rendu du texte dans les images, qui devient enfin lisible, là où DALL·E 3 échouait systématiquement. Le modèle est également beaucoup plus performant pour interpréter et respecter les détails demandés dans un prompt, notamment en ce qui concerne les formes, les couleurs et les objets multiples au sein d’une même image.

hero image 1 whiteboard1

Contrairement aux modèles de diffusion traditionnels, qui appliquent progressivement des détails sur une base aléatoire, GPT-4o utilise un processus autoregressif, générant les images de haut en bas et de gauche à droite. Bien que cette méthode soit légèrement plus lente, elle permet une meilleure précision, notamment lorsqu’il s’agit de respecter des consignes précises. Par exemple, si un utilisateur demande une image contenant un cercle rouge, un triangle bleu, un cœur vert, une étoile rose et un carré violet, GPT-4o ne se trompera pas dans les formes et les couleurs, contrairement à DALL·E 3, qui pouvait mélanger ces éléments.

L’un des autres atouts majeurs de ce nouveau modèle est sa capacité à maintenir la cohérence des personnages et des objets à travers plusieurs générations d’images. Cela signifie qu’un utilisateur peut demander à réutiliser un personnage ou un élément spécifique d’une image précédente, et GPT-4o le reproduira avec une grande fidélité, sans altérer ses couleurs ou ses caractéristiques essentielles.

Une avancée pour le texte intégré aux images

Une des critiques majeures formulées à l’encontre des précédents modèles d’OpenAI portait sur leur incapacité à générer du texte lisible au sein des images. GPT-4o corrige ce défaut en permettant aux utilisateurs de spécifier avec précision le texte qu’ils souhaitent voir apparaître dans leurs créations.

dyda 4a

Si un utilisateur demande une image photoréaliste d’une jeune fille écrivant sur un tableau blanc avec une écriture désordonnée, il peut désormais préciser exactement ce qu’elle doit écrire, et GPT-4o respectera cette consigne. Cette nouveauté représente une avancée significative pour de nombreux secteurs, notamment la restauration, où il devient possible de générer des menus stylisés, ou encore le marketing et la publicité, où la création d’affiches promotionnelles devient plus simple et plus efficace.

Une expérience visuelle plus fluide et professionnelle

L’amélioration de la qualité visuelle des images générées ne se limite pas à la lisibilité du texte. Les images photoréalistes produites par GPT-4o sont plus naturelles et mieux détaillées, offrant un rendu beaucoup plus professionnel. La netteté et la clarté des images numériques ont également été améliorées, mettant fin aux effets flous ou granuleux parfois observés avec DALL·E 3.

minnias cat4

Un autre ajout majeur concerne la possibilité de générer des images avec un fond transparent. Cette fonctionnalité est particulièrement intéressante pour les designers graphiques, qui peuvent désormais créer des logos et des icônes directement via ChatGPT, ainsi que pour les e-commerçants, qui peuvent obtenir des visuels produits prêts à être utilisés sur des plateformes de vente en ligne.

Des défis et limitations encore présents

Bien que GPT-4o constitue une nette amélioration par rapport aux modèles précédents, certaines limites subsistent. OpenAI reconnaît que son IA souffre encore de « hallucinations », ce phénomène où l’IA génère du contenu erroné ou incohérent. La génération d’éléments mathématiques complexes, comme des graphiques ou des tableaux, reste également difficile, tout comme l’intégration fluide de texte multilingue.

En termes de sécurité, OpenAI a mis en place des garde-fous pour éviter les abus et la diffusion d’images trompeuses. Cependant, ces protections peuvent être contournées avec un peu d’effort. Les images générées sont marquées avec des métadonnées C2PA, signalant qu’elles ont été produites par une IA, mais cette indication reste facilement effaçable, rendant la lutte contre la désinformation plus compliquée.

Un flou persistant autour du droit d’auteur

La question de la propriété intellectuelle et du respect du droit d’auteur continue de faire débat. OpenAI affirme que GPT-4o a été entraîné sur des données « publiquement accessibles » et sur des contenus sous licence, notamment via des partenariats avec Shutterstock. Toutefois, l’origine exacte des données utilisées reste floue, et de nombreuses entreprises d’IA ont déjà été critiquées pour leur manque de transparence en matière d’entraînement des modèles.

Comment reconnaître GPT-4o par rapport à DALL·E 3 ?

Le déploiement de GPT-4o étant encore en cours, certains utilisateurs peuvent parfois encore générer des images avec DALL·E 3. Pour distinguer les deux modèles, il suffit d’observer la manière dont l’image se charge. DALL·E 3 génère les images avec une roue de chargement tournante, tandis que GPT-4o affiche une animation fluide, scannant l’image de haut en bas.

Avec l’intégration de GPT-4o, ChatGPT devient un outil encore plus puissant et polyvalent, facilitant la création d’images et de vidéos avec un réalisme et une précision inédits. L’amélioration de la qualité visuelle, la gestion optimisée des objets et des couleurs, ainsi que la possibilité d’insérer du texte lisible font de cette mise à jour une avancée significative pour les créateurs de contenu, les professionnels du marketing et les entreprises en quête d’automatisation visuelle.

Bien que certaines limitations persistent, notamment en matière de hallucinations et de droits d’auteur, GPT-4o représente un véritable bond en avant dans le domaine de l’IA générative. Il ne reste plus qu’à voir comment cette technologie sera adoptée par les utilisateurs et quels nouveaux usages en émergeront.

Lire plus
Intelligence Artificielle

Gemini 2.5 Pro : Google dévoile un modèle IA record, tous les détails sur LMArena et GPQA Diamond

Gemini 2.5 Pro : Google dévoile un modèle IA record, tous les détails sur LMArena et GPQA Diamond

Google a publié un modèle d’IA révolutionnaire appelé Gemini 2.5 Pro qui a obtenu un score de 18,8 % au dernier examen de l’humanité (HLE) sans utiliser de recherche sur le Web ou d’autres outils. Le HLE est un test rigoureux, conçu par des experts en la matière et des universitaires de haut niveau du monde entier pour tester les connaissances approfondies sur divers sujets.

Auparavant, o3-mini-high d’OpenAI avait obtenu 14 % sur le même test sans utiliser d’outils.

Gemini 2.5 Pro est un modèle de réflexion, c’est-à-dire un modèle de raisonnement construit sur un LLM de base plus large, utilisant l’apprentissage par renforcement et l’incitation à la chaîne de pensée. Avant le modèle Gemini 2.5 Pro, Google avait publié le modèle Gemini 2.0 Flash Thinking, plus petit.

Google affirme que le modèle Gemini 2.5 Pro peut « analyser des informations, tirer des conclusions logiques, intégrer le contexte et les nuances, et prendre des décisions éclairées ».

gemini benchmarks cropped light2

Gemini 2.5 Pro était testé sur LMArena sous le nom de code « nebula ». Aujourd’hui, Gemini 2.5 Pro a pris la première place du classement LMArena avec le score le plus élevé de 1 443 points, devançant Grok 3 et GPT-4.5. En ce qui concerne les autres tests, Google indique que Gemini 2.5 Pro obtient des résultats exceptionnels en codage, en mathématiques et en sciences.

Gemini 2.5 Pro : codage et raisonnement avancés

Dans GPQA Diamond, Gemini 2.5 Pro a obtenu un score de 84 % ; dans AIME 2025, le modèle a atteint 86,7 %. Même dans le benchmark vérifié SWE-bench qui teste la capacité à résoudre des problèmes logiciels réels, Gemini 2.5 Pro a obtenu 63,8 %, juste derrière Claude 3.7 Sonnet Extended Thinking, qui a obtenu 70,3 %.

final 2.5 blog 1.width 1000.form

Google affirme que le nouveau modèle Gemini 2.5 Pro est capable de codage et de raisonnement avancés. Il est mis à la disposition des utilisateurs de Gemini Advanced. Ceux qui souhaitent tester gratuitement le modèle Gemini 2.5 Pro peuvent se rendre sur Google AI Studio et sélectionner le modèle « Gemini 2.5 Pro Experimental 03–25 » dans le menu déroulant.

Lire plus
Intelligence Artificielle

Project Astra : testez la nouvelle fonction Gemini, partage d’écran et caméra en direct

Project Astra : testez la nouvelle fonction Gemini, partage d'écran et caméra en direct

Google a tenu sa promesse ! Après avoir présenté Project Astra lors du MWC 2025, l’entreprise commence enfin à déployer cette fonctionnalité d’IA Gemini avancée sur Android. Un utilisateur de Reddit a confirmé que Project Astra est déjà actif sur son smartphone Xiaomi, marquant ainsi l’arrivée tant attendue de cette innovation.

Qu’est-ce que Project Astra ?

Project Astra est une extension de Gemini, l’IA de Google, qui permet aux utilisateurs de partager leur écran ou leur caméra avec Gemini Live pour une interaction en temps réel. Concrètement, cela signifie que l’IA peut voir ce que vous affichez sur votre écran ou à travers votre caméra, et répondre instantanément via un chat vocal ou textuel.

Lors des premières démonstrations, Gemini a été capable d’analyser un écran de téléphone et d’interagir avec l’utilisateur en temps réel. En activant Gemini Live, il est également possible de montrer des objets, des documents ou son environnement pour obtenir des explications instantanées.

Un déploiement progressif et exclusif

Google a confirmé auprès de The Verge que Project Astra est bien en cours de déploiement. Mais attention, cette fonctionnalité n’est pas accessible à tout le monde. Actuellement, Project Astra est uniquement disponible pour les abonnés à Google One AI Premium, une offre facturée 21,99 euros par mois.

Autre limitation : seuls les smartphones Android peuvent, pour l’instant, profiter de cette fonctionnalité. Aucune annonce n’a été faite concernant une éventuelle arrivée sur iOS.

Project Astra face à la concurrence

Google arrive après OpenAI et Microsoft, qui proposent déjà des fonctionnalités analogues :

  • ChatGPT a récemment intégré le partage d’écran et la caméra en direct dans son application, mais facture 20 $ par mois pour y accéder.
  • Microsoft Copilot, en revanche, offre gratuitement une version similaire aux utilisateurs aux États-Unis. Certains utilisateurs Android et iOS ont même signalé avoir reçu un accès à Copilot Vision sans abonnement.

Si Google est en retard sur le marché, la qualité de l’expérience pourrait faire la différence.

Quels usages pour Project Astra ?

L’arrivée de Project Astra pourrait transformer l’usage quotidien des smartphones avec plusieurs applications pratiques :

  • Assistance pour les étudiants : Project Astra peut analyser un texte affiché à l’écran et expliquer des concepts en temps réel.
  • Analyse d’images et de documents : L’IA peut identifier du texte, des objets, des graphiques et fournir des informations pertinentes en direct.
  • Compagnon de voyage : En pointant la caméra vers un monument ou un panneau, Project Astra peut fournir des explications instantanées sur ce que vous voyez.
  • Aide pour le shopping : Vous pouvez scanner un produit et obtenir des détails ou des recommandations.

Google rattrape-t-il son retard en IA ?

Avec Project Astra, Google propose enfin une expérience d’interaction en temps réel via Gemini. Mais le coût élevé de l’abonnement et son exclusivité aux smartphones Android pourraient freiner son adoption.

Alors que Microsoft offre un service similaire gratuitement et que OpenAI séduit déjà avec ChatGPT Plus, Google devra prouver que Project Astra vaut réellement ses 22 euros par mois.

Seul le retour des premiers utilisateurs permettra de juger si cette IA en temps réel est à la hauteur des attentes.

Lire plus
Intelligence Artificielle

Google NotebookLM : Révolutionnez l’analyse de documents avec Mind Map et support multilingue

Screen 2025 03 23 at 11.16.29

Google améliore son outil d’intelligence artificielle NotebookLM avec plusieurs nouvelles fonctionnalités, dont « Mind Map », un outil visuel de synthèse qui promet de transformer la façon dont les utilisateurs interagissent avec leurs documents.

Qu’est-ce que NotebookLM ?

NotebookLM est un assistant IA conçu par Google pour résumer, rechercher et analyser des bibliothèques d’informations. Il permet aux utilisateurs d’importer des documents et d’interagir avec eux via un langage naturel, ce qui est particulièrement utile pour les étudiants et les chercheurs.

Grâce à NotebookLM, il est possible de retrouver rapidement des citations, de garder une trace des informations importantes et de mieux organiser ses idées en analysant un grand volume de texte.

Mind Map: Une vue interactive des informations dans NotebookLM

La principale nouveauté de la mise à jour de NotebookLM est l’ajout de la fonctionnalité Mind Map. Elle permet d’organiser automatiquement les informations contenues dans un carnet en les classant par sujet sous forme de carte interactive.

  • Navigation facilitée : Trouvez rapidement les informations sur un sujet précis.
  • Connexions intelligentes : Identifiez les liens entre différentes sources et thèmes.
  • Analyse comparative : Visualisez les points de convergence et de divergence entre plusieurs sources.
  • Partage et exportation : Téléchargez la carte mentale sous forme d’image et partagez-la facilement.

Cette approche est un atout majeur pour les étudiants et chercheurs qui doivent synthétiser et structurer des informations complexes issues de plusieurs documents.

Une meilleure accessibilité multilingue

Une autre amélioration notable concerne la prise en charge de plusieurs langues. Désormais, NotebookLM permet :

  • D’analyser des documents dans différentes langues et de générer du contenu dans la langue de son choix.
  • D’améliorer l’accessibilité pour les utilisateurs internationaux, en leur offrant plus de flexibilité.

Pour l’instant, cette fonctionnalité est uniquement textuelle, mais Google pourrait bientôt l’étendre à Audio Overviews, son outil de résumé vocal.

Disponibilité et déploiement

Les nouvelles fonctionnalités, y compris Mind Map et le support multilingue, sont déployées. Elles seront accessibles aux utilisateurs gratuits, comme payants.

Avec ces améliorations, NotebookLM se positionne de plus en plus comme un assistant IA incontournable pour l’analyse et la gestion d’informations. Reste à voir quelles seront les prochaines innovations que Google apportera à cet outil prometteur.

Que pensez-vous de ces nouveautés ?

Lire plus
Intelligence Artificielle

Gemini : transformez vos recherches en podcasts audio avec cette nouvelle fonctionnalité IA

Gemini : transformez vos recherches en podcasts audio avec cette nouvelle fonctionnalité IA

Google continue d’améliorer son intelligence artificielle avec une nouvelle fonctionnalité pour son application Gemini. Désormais, vous pouvez transformer des rapports détaillés en podcasts audio interactifs, où deux hôtes IA discutent du sujet de manière fluide et engageante.

Depuis septembre dernier, la fonction « Audio Overviews » permettait déjà aux utilisateurs de l’application NotebookLM de générer des résumés audio pour leurs notes. Aujourd’hui, Google pousse cette innovation plus loin en intégrant cette fonctionnalité directement dans l’application Gemini.

Concrètement, cela signifie que lorsque vous utilisez Deep Research de Gemini, l’outil de Google qui explore un sujet en profondeur en parcourant le Web, vous pouvez désormais écouter un résumé audio de vos recherches.

Une fois que Gemini a généré un rapport détaillé, un nouveau bouton « Generate Audio Overview » vous permet de convertir ce contenu en une discussion entre deux voix IA, donnant l’illusion d’un véritable podcast.

Cette nouvelle fonctionnalité vise à rendre l’apprentissage plus fluide et engageant, en particulier pour ceux qui préfèrent écouter plutôt que lire.

Voici quelques utilisations possibles :

  • Transformer un document de recherche en conversation fluide pour mieux comprendre un sujet.
  • Convertir des diapositives de présentation en résumé audio pour réviser efficacement.
  • Suivre un cours ou un article complexe en format podcast pour l’écouter en déplacement.

L’intérêt est également de pouvoir interagir avec ces résumés audio, en posant des questions ou en demandant des précisions sur certains points abordés par l’IA.

Une fonctionnalité accessible à tous les utilisateurs de Gemini

Google a rendu Audio Overviews disponible aussi bien pour les utilisateurs gratuits que pour les abonnés Gemini Advanced. Cela signifie que tout le monde peut tester cette approche innovante et immersive pour explorer l’information autrement.

Avec cette avancée, Google semble vouloir redéfinir la manière dont nous consommons du contenu informatif, en combinant IA générative et formats interactifs.

Lire plus