ChatGPT : Canvas, l’outil indispensable pour vos projets d’écriture et de codage

par Yohann Poiron le 7 octobre 2024

La semaine dernière, OpenAI a lancé Canvas, une nouvelle interface révolutionnaire pour ChatGPT qui transforme la collaboration avec l’IA. Conçu pour simplifier les tâches d’écriture et de codage, Canvas offre un espace de travail interactif où l’utilisateur peut dialoguer avec l’IA en temps réel, modifier ses projets et explorer de nouvelles idées.

Analogue à la fonctionnalité Artifacts de Claude AI d’Anthropic, Canvas affiche le contenu dans une fenêtre séparée, permettant aux utilisateurs de suivre l’évolution de leurs documents et de leur code en temps réel.

Imaginez travailler avec un collègue expert qui vous fournit instantanément des commentaires et des suggestions pour améliorer votre travail. C’est l’expérience que propose Canvas, en fluidifiant le processus de création et en stimulant la productivité.

Les avantages de la collaboration avec Canvas :

Feedback instantané de l’IA
Ajustements et améliorations en temps réel
Productivité et créativité accrues
Réduction du temps passé sur les révisions

Comment utiliser Canvas ?

Sélectionnez Canvas dans le menu déroulant des modèles d’IA en haut de votre espace de travail ChatGPT.
Canvas s’ouvre automatiquement lorsque ChatGPT détecte un besoin ou lorsque vous utilisez le prompt « utiliser canvas ».
Modifiez directement le texte ou le code dans l’interface Canvas.
Mettez en évidence des sections spécifiques pour obtenir des commentaires précis de ChatGPT.
Utilisez les raccourcis d’écriture et de codage pour des actions rapides.
Contrôlez les versions de votre document grâce à la fonction de contrôle de version.

Canvas pour le codage : un outil puissant pour tous les niveaux

Screenshot 2024 10 03 at 12.27.2 jpg

Canvas simplifie la création et l’amélioration du code, que vous soyez débutant ou expert. Il prend en charge :

La revue et l’optimisation du code
L’identification et la correction des bugs
La traduction du code dans différents langages
L’explication de la syntaxe et des bonnes pratiques

Pour le codage, des raccourcis permettent de réviser le code, d’ajouter des commentaires, de corriger des bugs et de traduire le code dans différents langages de programmation (JavaScript, PHP, TypeScript, Python, C++ et Java). Canvas permet de mettre en évidence des sections spécifiques du texte ou du code pour guider ChatGPT. L’IA peut fournir des commentaires et des suggestions en tenant compte de l’ensemble du projet, à la manière d’un correcteur ou d’un relecteur de code. Un bouton « Retour » permet de restaurer facilement les versions précédentes du document.

Canvas pour l’écriture : un assistant complet

Canvas est également un puissant assistant d’écriture, facilitant la recherche, la rédaction et la citation des sources. Ses fonctionnalités d’édition de texte permettent d’améliorer la clarté, d’ajouter de l’humour et d’intégrer de nouvelles informations.

Une interface intuitive et personnalisable

L’interface de Canvas est conçue pour une interaction intuitive, avec des mises en page personnalisables, des outils de formatage faciles à utiliser et des fonctionnalités de collaboration en temps réel.

Canvas pourrait transformer l’apprentissage du codage et de l’écriture en offrant une assistance en temps réel, des tutoriels interactifs et des exercices adaptatifs. Mais, l’utilisation de Canvas soulève des questions éthiques et pratiques. Il est crucial de vérifier l’exactitude du contenu généré par l’IA, de conserver sa propre voix et son style, et de comprendre les limites de l’assistance de l’IA.

Canvas représente une avancée majeure dans la collaboration homme-machine, offrant un aperçu d’un avenir où l’IA augmentera les capacités humaines dans divers domaines. Le déploiement de Canvas a débuté jeudi dernier pour les abonnés ChatGPT Plus et Teams. Les utilisateurs Enterprise et Education y auront accès cette semaine, et la fonctionnalité sera étendue à tous les utilisateurs gratuits une fois la phase bêta terminée.

Lire plus

Intelligence Artificielle

La date de lancement de Apple Intelligence a fuité, et c’est pour bientôt

par Yohann Poiron le 7 octobre 2024

Lors de son événement « It’s Glowtime », Apple a enfin révélé les fonctionnalités Apple Intelligence qui seront intégrées à la nouvelle série d’iPhone 16. Si les utilisateurs de la version bêta d’iOS 18 ont pu mettre la main sur certaines fonctionnalités de l’Apple Intelligence, il n’est pas encore possible de les essayer si vous ne voulez pas vous mêler des mises à jour bêta. Si vous êtes impatient d’essayer les nouvelles fonctions d’intelligence artificielle d’Apple, voici quand Apple Intelligence sortira.

Apple a lancé la série iPhone 16 le mois dernier, mais les fonctions d’intelligence artificielle Apple Intelligence tant annoncées n’étaient pas disponibles au moment de la sortie. L’entreprise avait déjà révélé que les premières fonctions d’intelligence artificielle seraient lancées le mois prochain, mais n’avait pas donné de date. Aujourd’hui, une source fiable a révélé la date.

Mark Gurman, journaliste à Bloomberg, a révélé dans sa lettre d’information Power On que les fonctionnalités d’Apple Intelligence seront lancées le lundi 28 octobre, en même temps que iOS 18.1.

Les sources de Gurman affirment que Apple prend son temps pour cette version afin d’éliminer les éventuels bugs et de s’assurer que ses serveurs cloud peuvent supporter tout le trafic prévu.

Quelles sont les fonctionnalités Apple Intelligence disponible au lancement ?

Auparavant, Apple avait révélé qu’Apple Intelligence serait disponible sur tous les appareils pris en charge à partir du mois d’octobre en anglais américain. Il convient de noter que maintenant que nous disposons de la rumeur concernant la date de sortie d’Apple Intelligence, les fonctionnalités de l’IA seront toujours disponibles aux États-Unis dans un premier temps.

Si vous ne résidez pas aux États-Unis, Apple Intelligence sera disponible en décembre dans les régions suivantes :

Australie
Australie
Nouvelle-Zélande
Afrique du Sud
Royaume-Uni

Apple Intelligence sera ensuite lancée en chinois, en français, en japonais et en espagnol en 2025.

Apple indique que la version initiale proposera des outils d’écriture (réécriture, relecture, résumé), la recherche en langage naturel pour les photos, l’outil Clean Up pour l’effacement d’objets dans les photos, et la possibilité de créer des vidéos à partir de vos souvenirs à l’aide d’une invite.

D’autres fonctionnalités d’Apple Intelligence à venir

La société a précédemment indiqué dans sa feuille de route que d’autres fonctionnalités d’Apple Intelligence arriveraient plus tard, en 2024 et dans « les mois qui suivent ». Gurman a noté que iOS 18.2 apportera la prise en charge de fonctions d’IA telles que la fonctionnalité Genmoji et l’intégration ChatGPT, tandis que iOS 18.4 sera apparemment lancé en mars avec un Siri mis à jour.

Quoi qu’il en soit, vous devrez attendre un certain temps avant d’obtenir toutes les principales fonctions d’IA d’Apple sur votre iPhone. L’entreprise rattrape également Google et Samsung en 2024, puisque la série Galaxy S24 et la série Google Pixel 9 ont été lancées avec des capacités d’IA dès leur sortie de l’emballage.

Lire plus

Intelligence Artificielle

Gemini Live s’ouvre au grand public : 10 nouvelles voix pour une expérience personnalisée

par Yohann Poiron le 6 octobre 2024

Bonne nouvelle pour les fans d’intelligence artificielle ! Google vient de confirmer que Gemini Live, son outil conversationnel en temps réel, est désormais disponible gratuitement pour tous les utilisateurs Android.

Initialement réservé aux abonnés payants, Gemini Live permet des échanges fluides et naturels avec l’IA, que ce soit pour des séances de brainstorming, des recherches approfondies ou simplement pour discuter de sujets qui vous passionnent.

Le chatbot suralimenté de Google diffère du Gemini standard et de Google Assistant en prenant en charge des modèles de parole plus naturels (y compris les pauses et les mots de remplissage), en mémorisant le contexte et en offrant une voix de sortie moins robotique.

Google a également profité de cette annonce pour dévoiler 10 nouvelles voix pour Gemini Live, toutes disponibles en anglais pour le moment. De Nova, la voix calme et posée, à Capella, l’accent britannique élégant, vous trouverez forcément la voix qui vous correspond.

Si pour l’instant Gemini Live est réservé aux utilisateurs Android, Google a assuré que la fonctionnalité sera bientôt disponible sur iOS, ainsi que dans d’autres langues. Aucune date précise n’a été annoncée, mais on peut espérer un déploiement dans les prochaines semaines.

Live is now available for all Gemini users in English on the Android app. We can’t wait for you to try it. https://t.co/jev4pnuZJ0

— Google Gemini App (@GeminiApp) September 30, 2024

Comment utiliser Gemini Live ?

Pour commencer à utiliser Gemini Live, rien de plus simple : ouvrez l’application Gemini sur votre téléphone ou tablette Android et appuyez sur l’icône « Live » en bas de l’écran. Suivez les instructions à l’écran si c’est votre première utilisation, puis commencez à parler ! Pour désactiver le micro, appuyez sur « Hold », « End » ou dites simplement « Stop ».

Notez que Gemini Live ne propose pas encore d’extensions pour accéder rapidement à des applications populaires comme Gmail ou YouTube Music. Google travaille actuellement sur ces extensions, ainsi que sur la prise en charge d’iOS et de nouvelles langues.

Avec cette mise à jour majeure, Google démocratise l’accès à son IA conversationnelle de pointe. Gemini Live offre une expérience interactive et personnalisée qui promet de révolutionner notre façon d’interagir avec l’intelligence artificielle. Alors, n’hésitez plus et lancez-vous dans la conversation !

Lire plus

Intelligence Artificielle

Google démocratise l’IA : Gemini Nano à la portée de tous les développeurs Android

par Yohann Poiron le 6 octobre 2024

Google ouvre l’accès à son modèle Gemini Nano aux développeurs Android via l’AI Edge SDK et AICore. Cette initiative permettra d’intégrer des fonctionnalités d’IA générative directement dans les applications Android, améliorant ainsi l’expérience utilisateur.

Gemini Nano est le modèle d’IA le plus efficient de Google, conçu pour fonctionner directement sur les appareils Android. Il excelle dans les tâches textuelles telles que la reformulation de texte, la génération de réponses intelligentes dans les conversations, la correction orthographique et grammaticale, et le résumé de documents.

Bien qu’il ne soit pas destiné à remplacer complètement les modèles d’IA basés sur le cloud, plus puissants et capables de gérer des requêtes complexes, Gemini Nano offre une alternative efficace pour des tâches spécifiques.

Une intégration progressive dans les applications Android

L’adoption de Gemini Nano par les développeurs Android devrait être progressive. La technologie étant encore en phase expérimentale, les utilisateurs ne verront probablement pas de changements majeurs dans l’immédiat. De plus, l’utilisation de Gemini Nano est actuellement limitée aux smartphones Pixel 9, bien que Google prévoit d’étendre la compatibilité à d’autres appareils.

Plusieurs applications Google, notamment Pixel Screenshots, Talkback et Recorder, ont déjà intégré Gemini Nano. Talkback l’utilise pour fournir des descriptions d’images plus précises aux utilisateurs malvoyants, tandis que Pixel Recorder l’exploite pour prendre en charge des enregistrements plus longs et générer des résumés de meilleure qualité.

Un potentiel énorme pour les développeurs

L’accès à Gemini Nano via l’AI Edge SDK et AICore offre aux développeurs Android un outil puissant pour créer des applications plus intelligentes et plus performantes. La simplicité d’intégration et le faible coût de Gemini Nano pourraient inciter les développeurs à l’adopter, que ce soit pour remplacer les modèles d’IA existants ou pour développer de nouvelles fonctionnalités.

L’avenir de Gemini Nano s’annonce prometteur, et il sera intéressant de suivre son adoption par les développeurs et son impact sur l’écosystème Android.

Lire plus

Intelligence Artificielle

Meta dévoile Movie Gen : l’IA générative qui révolutionne la création vidéo

par Yohann Poiron le 5 octobre 2024

Meta dévoile Movie Gen, une nouvelle génération de modèles d’IA capables de créer et d’éditer des vidéos et de l’audio à partir de simples instructions textuelles. Ces modèles surpasseraient les technologies existantes et marquent une avancée significative dans la création multimédia assistée par l’IA.

Cette annonce intervient plusieurs mois après que son concurrent OpenAI a dévoilé Sora, son modèle de conversion de texte en vidéo, bien que l’accès public à Movie Gen ne soit pas encore possible.

Movie Gen permet de générer des vidéos allant jusqu’à 16 secondes à partir de descriptions textuelles, de créer des vidéos mettant en scène une personne spécifique à partir de son image et d’un texte, et d’éditer des vidéos existantes en ajoutant, supprimant ou remplaçant des éléments avec précision. L’IA peut même générer des pistes audio synchronisées avec le contenu vidéo, incluant des sons d’ambiance, des effets sonores et de la musique de fond.

Meta Movie Gen is on the scene! Our breakthrough generative AI research for media enables:

-turning text into video
-creation of personalized video
-precision video editing
-audio creation

And while it’s just research today, we can’t wait to see all the ways people enhance… pic.twitter.com/I4Bq9if3eK

— Meta (@Meta) October 4, 2024

La sortie vidéo a une largeur de 768 pixels, ce qui nous ramène à l’époque du 1024 × 768 pixels, mais c’est plus que suffisant pour se combiner avec d’autres formats HD.

Meta affirme que Movie Gen atteint des résultats exceptionnels en matière de qualité vidéo, de personnalisation, de précision d’édition et d’alignement audio-vidéo. Ces performances sont attribuées à des innovations techniques dans l’architecture des modèles, les données d’entraînement et les méthodes d’évaluation.

Movie Gen pas encore lancé

L’entreprise envisage de collaborer avec des cinéastes et des créateurs pour faire de Movie Gen un outil de création puissant et accessible à tous. Les potentielles applications de Movie Gen incluent la création de vidéos animées pour les réseaux sociaux, la génération de messages d’accueil personnalisés et l’édition de vidéos à l’aide de commandes textuelles simples.

Meta n’a pas encore communiqué de date de sortie pour Movie Gen. La génération de vidéos par l’IA est encore en phase de développement, mais Movie Gen pourrait bien accélérer son adoption et démocratiser la création vidéo. Malgré cela, Meta a déclaré qu’elle « partageait cette recherche parce que nous croyons au pouvoir de cette technologie pour aider les gens à s’exprimer d’une nouvelle manière et pour offrir des opportunités à des personnes qui n’en auraient peut-être pas autrement ».

L’entreprise espère qu’un jour les gens pourront « donner vie à leurs visions artistiques » grâce à un accès universel au programme.

Comment Movie Gen de Meta a-t-il été formé ?

Movie Gen et ses quatre « capacités » (génération de vidéos, génération de vidéos personnalisées, montage vidéo précis et génération audio) auraient été entraînés en utilisant « une combinaison d’ensembles de données sous licence et accessibles au public », le contenu vidéo ayant probablement été obtenu à partir des plateformes de Meta telles que Facebook et Instagram.

L’une des pierres d’achoppement des générateurs de vidéos était la possibilité d’éditer. La société de Mark Zuckerberg s’est attaquée à ce problème, dans une certaine mesure. Movie Gen introduit une méthode d’édition basée sur le texte que vous pouvez utiliser pour une édition de base. Il peut s’agir de « changer l’arrière-plan en un ciel nocturne urbain », mais il n’effectuera que le changement spécifié.

Lire plus

Intelligence Artificielle

Apple Intelligence : 6 conditions pour accéder à l’IA d’Apple

par Yohann Poiron le 4 octobre 2024

L’arrivée d’Apple Intelligence, l’IA générative d’Apple, est imminente. Apple Intelligence est promise à tous les utilisateurs d’Apple possédant des appareils éligibles et mis à jour avec la dernière version du système d’exploitation. Cependant, ce n’est pas aussi simple que ce qui se passera bientôt.

Prévue pour octobre, cette technologie promet de révolutionner l’expérience utilisateur sur iPhone, iPad et Mac. Mais attention, l’accès à Apple Intelligence est soumis à certaines conditions.

En effet, les utilisateurs doivent remplir plusieurs conditions avant de pouvoir accéder au modèle fondamental du géant technologique de Cupertino et d’en profiter dès son arrivée en octobre.

Voici les 6 prérequis pour profiter pleinement de l’IA d’Apple :

Disposer d’un appareil compatible : iPhone 15 Pro et Pro Max, iPhone 16, iPad avec puce M, Mac avec puce M.
Mettre à jour votre système d’exploitation : iOS 18.1, iPadOS 18.1 et macOS 15.1 seront requis.
Avoir suffisamment d’espace de stockage : 4 Go d’espace libre minimum seront nécessaires.
Utiliser la langue anglaise : Apple Intelligence sera initialement disponible uniquement en anglais.
S’inscrire sur la liste d’attente : Une inscription unique est nécessaire pour accéder à Apple Intelligence sur tous vos appareils Apple connectés au même compte.
Être situé dans une région éligible : Apple Intelligence ne sera pas disponible en Chine ni dans l’Union européenne, à l’exception des Mac en Europe.

Apple Intelligence : un tournant pour l’écosystème Apple

Apple Intelligence marque l’entrée d’Apple dans l’ère de l’IA générative. Il aura fallu attendre près de 2 ans avant qu’Apple ne présente sa première version de l’IA générative, qui offre des avancées et des capacités comparables à celles de ses rivaux.

Annoncée lors de la WWDC 2024, et désormais mondialement connue, cette technologie intègre des fonctionnalités innovantes, telles que les outils d’écriture, l’IA générative pour iMessage, Notes, Mail et Safari, ainsi qu’une version repensée de Siri avec ChatGPT.

Apple a également développé Private Cloud Compute, une infrastructure cloud privée qui garantit la confidentialité et la sécurité des données des utilisateurs.

Un lancement progressif

Le lancement d’Apple Intelligence en octobre ne comprendra pas toutes les fonctionnalités promises par Apple. Cependant, les utilisateurs pourront dès ce mois-ci découvrir les nouvelles capacités offertes par l’IA d’Apple, à condition de remplir les conditions d’accès.

Lire plus

Intelligence Artificielle

ChatGPT : Canvas, la nouvelle interface collaborative pour booster vos projets

par Yohann Poiron le 4 octobre 2024

Canvas : OpenAI dévoile une interface révolutionnaire pour ChatGPT

La société à l’origine de ChatGPT, OpenAI, vient de dévoiler Canvas, une nouvelle interface collaborative pour son chatbot d’IA. Disponible en version bêta pour les abonnés Plus et Teams, Canvas permet une interaction plus riche et plus intuitive avec ChatGPT pour les projets d’écriture et de codage.

Canvas permet de visualiser, modifier et éditer facilement des portions spécifiques des réponses de ChatGPT dans un panneau latéral.

« Nous révolutionnons la façon dont les humains peuvent collaborer avec ChatGPT », a déclaré Karina Nguyen, responsable de la recherche sur Canvas. Cette nouvelle interface offre un espace de travail dédié, distinct du flux de conversation, pour visualiser et modifier le contenu généré par l’IA en temps réel.

Cette fonctionnalité, basée sur le modèle GPT-4o d’OpenAI, rappelle la fonctionnalité Artifacts du chatbot Claude d’Anthropic, lancée en juin 2024. Tout comme Artifacts, Canvas offre un affichage en panneau latéral pour visualiser et modifier le contenu généré par l’IA.

Une collaboration intuitive et des fonctionnalités avancées pour ChatGPT

Canvas se lance automatiquement lorsque ChatGPT détecte un scénario où il peut être utile. Les utilisateurs peuvent fournir des commentaires précis sur le contenu généré, mettre en évidence des sections spécifiques pour révision, ou modifier directement le texte ou le code. Il est même possible de demander à ChatGPT de rechercher des informations sur Internet et de les intégrer au projet en cours.

Canvas propose également un menu de raccourcis pour accéder à des outils courants, tels que la suggestion de modifications, l’ajustement de la longueur ou du niveau de lecture du texte, le débogage de code, l’ajout d’emojis et la « finition finale » pour vérifier la grammaire, la clarté et la cohérence.

Des interfaces adaptées aux tâches

L’apparence de Canvas varie en fonction de la tâche. Pour l’écriture, Canvas ressemble à un document Word, tandis que pour le codage, il inclut des numéros de ligne pour faciliter l’édition. Les raccourcis pour le codage permettent de réviser le code, de corriger les bugs, d’ajouter des commentaires et de traduire le code dans différents langages de programmation.

Disponibilité et perspectives

Canvas est actuellement en version bêta et réservé aux abonnés ChatGPT Plus et Teams. OpenAI n’a pas encore annoncé de date de disponibilité pour les utilisateurs Enterprise et Free.

Canvas et Artifacts illustrent une tendance émergente : la volonté de rendre les chatbots plus intuitifs et collaboratifs. Des applications comme Hyperwrite, Jasper et JotBot proposent déjà des fonctionnalités d’édition de texte généré par l’IA. À terme, les interfaces collaboratives comme Canvas et Artifacts pourraient devenir la norme, simplifiant l’interaction avec les chatbots et favorisant la collaboration homme-machine.

Avec Canvas, OpenAI enrichit l’expérience ChatGPT et offre aux utilisateurs un outil puissant pour collaborer avec l’IA sur des projets d’écriture et de codage.

Lire plus

Intelligence Artificielle

NVLM 1.0 : Nvidia lance un modèle d’IA open source qui surpasse GPT-4

par Yohann Poiron le 3 octobre 2024

Nvidia, le géant des processeurs graphiques, vient de dévoiler NVLM 1.0, une famille de modèles de langage multimodal open source qui surpasserait GPT-4 d’OpenAI dans certaines tâches. Le modèle phare, NVLM-D-72B, compte 72 milliards de paramètres et excelle dans les tâches combinant vision et langage, tout en maintenant, voire en améliorant, les performances textuelles par rapport aux modèles de langage existants.

« Pour y parvenir, nous avons intégré un ensemble de données textuelles de haute qualité à l’entraînement multimodal, ainsi qu’une quantité importante de données multimodales de mathématiques et de raisonnement, ce qui a permis d’améliorer les capacités en mathématiques et en codage dans toutes les modalités », expliquent les chercheurs de Nvidia.

Selon l’équipe de recherche de Nvidia, NVLM-D-72B surpasse les principaux modèles propriétaires et open source en matière de compréhension d’images et de texte. Contrairement à certains modèles propriétaires dont les performances textuelles diminuent avec le temps, NVLM-D-72B a amélioré sa précision de 4,3 points en moyenne sur des benchmarks textuels clés.

Introducing NVLM 1.0, a family of frontier-class multimodal LLMs that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., InternVL 2).
Remarkably, NVLM 1.0 shows improved text-only… pic.twitter.com/yKGyOqHnsp

— Wei Ping (@_weiping) September 18, 2024

Ce modèle d’IA est capable d’interpréter des graphiques et des tableaux, d’analyser des images, de comprendre des mèmes, de coder des logiciels et de résoudre des problèmes mathématiques. Les poids du modèle sont disponibles publiquement sur Hugging Face, et Nvidia prévoit de publier le code d’entraînement ultérieurement.

Un accueil enthousiaste de la communauté IA

Les chercheurs en IA ont salué cette sortie sur X (anciennement Twitter), qualifiant le modèle de « révolutionnaire » et louant sa capacité à comprendre les données visuelles.

NVLM by NVIDIA is wild. And Open. Check it out.https://t.co/fYpagW4Kog pic.twitter.com/r9V8uamGVf

—Alex Zhavoronkov, PhD (aka Aleksandrs Zavoronkovs) (@biogerontology) October 2, 2024

Wow nvidia just published a 72B model with is ~on par with llama 3.1 405B in math and coding evals and also has vision 🤯 pic.twitter.com/c46DeXql7s

—Phil (@phill__1) October 1, 2024

Wow. New NVIDIA 72B model rivals Llama’s 405B! 😮https://t.co/ACsvUUctml pic.twitter.com/TUZ378S4tz

—Jeremy Howard (@jeremyphoward) October 1, 2024

Nvidia a utilisé des ressources open source pour développer NVLM 1.0, s’inspirant d’autres modèles d’IA et de données d’entraînement variées. Cependant, l’utilisation de NVLM-D-72B est soumise à des restrictions de licence. Il ne peut être utilisé à des fins commerciales ni modifié pour la revente. Nvidia met donc ce modèle à disposition exclusivement pour la recherche et les amateurs souhaitant tester les limites de leurs cartes graphiques haut de gamme.

L’utilisation du terme « open-source » par les chercheurs est donc à nuancer. Bien que les résultats de Nvidia soient précieux, les restrictions d’utilisation commerciale empêchent de considérer NVLM 1.0 comme un véritable modèle open source, qui impliquerait la liberté d’utiliser, de modifier et de distribuer le modèle sans aucune limitation.

En publiant NVLM 1.0 en open source, Nvidia ne cherche pas à concurrencer directement ChatGPT-4o et Gemini 1.5 Pro, mais plutôt à fournir une base solide aux développeurs tiers pour créer leurs propres chatbots et applications d’IA.

Lire plus

Intelligence Artificielle

Chromebooks Plus : Google révolutionne la lecture et l’écriture avec l’IA

par Yohann Poiron le 3 octobre 2024

Google annonce l’arrivée de « Aidez-moi à lire », une nouvelle fonctionnalité de synthèse de texte pour les Chromebooks Plus.

Grâce à cette innovation, les utilisateurs pourront résumer instantanément des textes longs d’un simple clic droit, qu’il s’agisse de fichiers PDF, de documents ou de pages Web.

« Aidez-moi à lire » utilise les modèles Gemini, exécutés localement sur l’appareil, pour analyser et résumer les textes. Cette fonctionnalité diffère du mode Lecteur de Chrome et s’apparente davantage à la barre latérale Copilot de Microsoft Edge, capable d’accéder au contenu de la page ouverte.

En plus de résumer les textes, « Aidez-moi à lire » permet de poser des questions complémentaires pour approfondir sa compréhension du sujet. Google prévoit d’ajouter en 2025 la possibilité de surligner des phrases ou des paragraphes spécifiques pour obtenir des éclaircissements supplémentaires.

Aidez-moi à écrire : l’IA pour la création de contenu

Une autre fonctionnalité d’IA, « Aidez-moi à écrire », sera également disponible sur les Chromebooks Plus. Elle permettra de générer du texte à partir de prompts, d’ajuster le ton de l’écriture et bien plus encore.

« Aidez-moi à écrire » sera accessible via le raccourci clavier « Touche Lanceur + F », qui donne également accès à d’autres fonctionnalités comme les emojis, les GIFs, la liste des sites Web récents, la recherche Google Drive, la conversion d’unités, les calculs, etc.

Des Chromebooks Plus toujours plus intelligents

Les Chromebooks Plus intègrent désormais le chatbot Gemini et d’autres fonctionnalités d’IA, telles que la traduction en direct (« Traduction en direct ») pour générer des sous-titres en temps réel pour tout contenu audio, y compris Google Meet, Zoom, les livestreams YouTube et les vidéos personnelles.

L’application Google Enregistreur, bien connue sur Android, fait également son apparition sur les Chromebooks Plus. Elle permet d’enregistrer des cours, des idées et des notes sur votre ordinateur portable, avec transcription automatique et identification des intervenants.

Ces fonctionnalités d’IA seront déployées via des mises à jour automatiques en octobre, enrichissant l’expérience utilisateur des Chromebooks Plus et renforçant leur positionnement comme des outils de productivité et de créativité puissants.

Lire plus

Intelligence Artificielle

Google prépare une IA « réfléchie » pour rivaliser avec ChatGPT ?

par Yohann Poiron le 3 octobre 2024

Alors que OpenAI a récemment doté ChatGPT de nouveaux modèles o1-preview et o1-mini capables de « prendre plus de temps pour réfléchir avant de répondre », Google semble se préparer à riposter avec sa propre IA dotée de capacités de raisonnement avancées.

Selon Bloomberg, Google développe une intelligence artificielle qui se rapproche davantage des capacités de raisonnement humain, probablement destinée à sa plateforme Gemini. Pour l’instant, Google n’a fait aucun commentaire officiel à ce sujet.

Ces nouveaux modèles, qui prennent plus de temps pour générer une réponse, seraient plus efficaces pour résoudre des problèmes complexes en plusieurs étapes, notamment dans les domaines des mathématiques et du codage. En contrepartie, ils nécessitent davantage de puissance de calcul et d’énergie, comme en témoignent les restrictions imposées par OpenAI sur les modèles o1.

Bloomberg ne précise pas quand Google pourrait lancer son IA « réfléchie », mais des progrès auraient été réalisés « ces derniers mois », apaisant les inquiétudes internes quant à un retard sur OpenAI. Il est donc probable que cette technologie soit dévoilée prochainement.

Le « chain-of-thought prompting » : une approche plus humaine

Techniquement, ces modèles utilisent le « chain-of-thought prompting », une technique qui permet à l’IA de simuler le raisonnement humain en effectuant plusieurs étapes, en envisageant plusieurs réponses et en débattant avec elle-même pour trouver la solution optimale.

ChatGPT et les modèles o1 affichent le message « en train de réfléchir » pendant ce processus. Il est probable que l’IA de Google adopte une approche analogue. Reste à savoir si elle sera accessible uniquement aux abonnés payants de Gemini Advanced, comme c’est le cas pour les modèles o1 d’OpenAI, disponibles uniquement avec un abonnement ChatGPT payant.

Des défis éthiques et concurrentiels

Selon Bloomberg, le développement de l’IA de Google est ralenti par des préoccupations éthiques, une volonté de transparence et des conflits d’intérêts au sein de l’entreprise. Cependant, face aux avancées d’OpenAI, Meta et Microsoft dans le domaine de l’IA, Google est sous pression pour accélérer le développement de ses propres technologies.

Lire plus

Intelligence Artificielle

OpenAI : Valorisation record de 157 milliards de dollars, l’IA a le vent en poupe !

par Yohann Poiron le 3 octobre 2024

OpenAI, la société à l’origine de ChatGPT, vient de lever 6,6 milliards de dollars lors d’un nouveau tour de financement, portant sa valorisation à 157 milliards de dollars.

Cette somme colossale, qui double presque sa valorisation précédente de 86 milliards de dollars, témoigne de l’engouement des investisseurs pour l’intelligence artificielle et du potentiel de croissance d’OpenAI.

Thrive Capital a mené ce tour de table avec un investissement de 1,25 milliard de dollars, et pourrait injecter un milliard supplémentaire l’année prochaine si l’entreprise atteint ses objectifs de revenus.

Microsoft, fidèle soutien d’OpenAI avec 13 milliards de dollars investis au total, a contribué à hauteur d’un milliard de dollars. De nouveaux investisseurs ont également rejoint l’aventure, notamment SoftBank (500 millions de dollars), Nvidia (100 millions de dollars) et MGX, une société basée aux Émirats arabes unis. Apple, initialement pressenti pour participer à ce financement, n’a finalement pas investi. Selon le Wall Street Journal, l’investissement minimum requis pour accéder aux documents financiers d’OpenAI était de 250 millions de dollars.

OpenAI a demandé à ses investisseurs de ne pas soutenir ses concurrents, tels qu’Anthropic et xAI d’Elon Musk. Cette clause de non-concurrence souligne la rivalité intense qui règne dans le secteur de l’IA.

Une transformation en société à but lucratif

Ce tour de financement est assorti d’une condition : les investisseurs peuvent retirer leurs fonds si OpenAI ne finalise pas sa conversion en société à but lucratif. Sarah Friar, première directrice financière d’OpenAI recrutée en juin dernier, a joué un rôle crucial dans l’organisation de cette levée de fonds.

En effet, ce financement massif est conditionné à une restructuration d’OpenAI en société à but lucratif. Actuellement, l’activité commerciale d’OpenAI est supervisée par un organisme de recherche à but non lucratif, et les bénéfices des investisseurs sont plafonnés à 100 fois leur mise initiale. Si OpenAI ne se restructure pas dans les deux ans, les investisseurs pourront demander le remboursement de leurs fonds.

OpenAI a vu sa valorisation atteindre un niveau comparable à celui de sociétés cotées en bourse comme Goldman Sachs, Uber et AT&T. Cette croissance fulgurante s’accompagne d’une concurrence intense, avec des entreprises comme Anthropic, Meta et Google qui développent des modèles d’IA aux capacités similaires.

ChatGPT, le produit phare d’OpenAI, compte environ 250 millions d’utilisateurs actifs hebdomadaires et 11 millions d’abonnés payants, ainsi qu’un million d’entreprises clientes. Cette base d’utilisateurs en forte croissance témoigne du potentiel de l’IA générative.

Des tensions internes liées à la stratégie de l’entreprise

Le passage de OpenAI d’une organisation à but non lucratif à une entreprise axée sur le profit a généré des tensions internes, notamment le licenciement puis la réintégration de son PDG l’année dernière, ainsi que des protestations d’anciens employés préoccupés par l’impact de cette stratégie sur la mission initiale d’OpenAI de développer l’IA pour le bien public.

Malgré ces défis, OpenAI poursuit son ambition de créer une intelligence artificielle générale (AGI) et la conversion en société à but lucratif semble désormais incontournable pour attirer de nouveaux investisseurs et financer ses projets ambitieux.

Ces milliards de dollars serviront à financer l’entraînement de modèles d’IA de pointe, une tâche extrêmement coûteuse. Le développement de modèles d’IA coûtant un milliard de dollars est déjà en cours, et des modèles à 100 milliards de dollars pourraient bientôt voir le jour. Pour OpenAI, qui ambitionne de créer des modèles de “raisonnement” encore plus complexes, ces fonds sont essentiels.

Lire plus

Intelligence Artificielle

OpenAI DevDay 2024 : l’IA se démocratise, les développeurs à l’honneur

par Yohann Poiron le 2 octobre 2024

OpenAI a opté pour une approche plus discrète lors de sa conférence DevDay 2024, privilégiant l’amélioration de ses outils existants plutôt que le lancement de nouveaux produits révolutionnaires. Cette stratégie témoigne d’une volonté de démocratiser l’accès à l’IA en misant sur son écosystème de développeurs.

En effet, contrairement à l’événement organisé l’année dernière dans un seul lieu et qui comprenait un discours liminaire du PDG Sam Altman, DevDay 2024 est plus qu’une simple journée, adoptant une approche mondiale avec des événements supplémentaires prévus à Londres le 30 octobre et à Singapour le 21 novembre.

L’événement de San Francisco, qui s’est tenu sur invitation uniquement et était fermé à la presse, a accueilli des intervenants sur scène qui ont fait des présentations techniques.

Quatre innovations majeures pour stimuler la créativité

OpenAI a dévoilé quatre innovations clés lors de l’événement DevDay 2024 : Prompt Caching, Vision Fine-Tuning, API Realtime et Model Distillation. Ces outils reflètent un changement de cap stratégique, OpenAI se positionnant désormais comme un facilitateur pour les développeurs plutôt qu’un concurrent direct dans le domaine des applications grand public.

Prompt Caching : une économie substantielle pour les développeurs

L’introduction du Prompt Caching est une avancée majeure pour les développeurs. Cette fonctionnalité permet de réduire les coûts et la latence en appliquant une réduction de 50 % sur les jetons d’entrée récemment traités par le modèle. Les applications qui réutilisent fréquemment le contexte pourront ainsi réaliser des économies considérables.

« Il y a deux ans, GPT-3 était à son apogée. Aujourd’hui, nous avons réduit les coûts de près de 1000x. Je ne connais aucune autre technologie ayant réduit ses coûts aussi drastiquement en si peu de temps », a déclaré Olivier Godement, responsable produit de la plateforme chez OpenAI.

Vision Fine-Tuning : l’IA visuelle personnalisée

Le Vision Fine-Tuning pour GPT-4o, le dernier modèle de langage d’OpenAI, permet aux développeurs de personnaliser les capacités de compréhension visuelle du modèle en utilisant des images et du texte. Cette fonctionnalité ouvre de nouvelles perspectives dans des domaines tels que les véhicules autonomes, l’imagerie médicale et la recherche visuelle.

Grab, une entreprise leader de livraison de repas et de VTC en Asie du Sud-Est, utilise déjà cette technologie pour améliorer ses services de cartographie. Avec seulement 100 exemples, Grab a amélioré la précision du comptage des voies de 20 % et la localisation des panneaux de limitation de vitesse de 13 %.

API Realtime : des interactions vocales plus fluides

L’API Realtime, désormais en version bêta publique, permet aux développeurs de créer des expériences multimodales à faible latence, notamment pour les applications de synthèse vocale. Les développeurs peuvent ainsi intégrer les commandes vocales de ChatGPT dans leurs applications.

OpenAI affirme que l’API Realtime simplifie le processus de création d’assistants vocaux. Auparavant, les développeurs devaient utiliser plusieurs modèles pour la reconnaissance vocale, le traitement de texte et la conversion de texte en parole. Désormais, ils peuvent gérer l’ensemble du processus avec un seul appel d’API.

OpenAI a présenté une version mise à jour de Wanderlust, une application de planification de voyages, pour illustrer le potentiel de l’API Realtime. Les utilisateurs peuvent désormais interagir vocalement avec l’application pour planifier leurs voyages, avec la possibilité d’interrompre la conversation en cours, comme dans un dialogue humain.

Model Distillation : l’IA accessible à tous

L’annonce la plus marquante est sans doute l’introduction du Model Distillation. Ce workflow intégré permet aux développeurs d’utiliser les sorties de modèles avancés comme o1-preview et GPT-4o pour améliorer les performances de modèles plus légers tels que GPT-4o mini.

Cette approche permet aux petites entreprises d’exploiter des capacités similaires à celles des modèles avancés sans supporter les mêmes coûts de calcul. Elle comble ainsi le fossé entre les systèmes d’IA de pointe, gourmands en ressources, et leurs homologues plus accessibles, mais moins performants.

OpenAI : vers un écosystème d’IA durable

Le DevDay 2024 d’OpenAI marque un tournant stratégique pour l’entreprise, qui privilégie le développement de son écosystème à des lancements de produits spectaculaires. Contrairement à l’année dernière, la DevDay n’a pas été diffusée en direct, même si OpenAI prévoit de publier du contenu ultérieurement sur sa chaîne YouTube. La programmation de l’événement comprend des sessions en petits groupes, des présentations de la communauté et des démonstrations. Mais le plus grand changement depuis l’année dernière est l’absence de discours d’ouverture du PDG de l’entreprise. Cette année, le discours d’ouverture a été assuré par l’équipe produit d’OpenAI.

Cette approche, moins sensationnelle pour le grand public, témoigne d’une compréhension mature des défis et des opportunités du secteur de l’IA. En améliorant l’efficacité et la rentabilité de ses modèles, OpenAI vise à maintenir son avantage concurrentiel tout en répondant aux préoccupations concernant l’intensité des ressources et l’impact environnemental.

En passant du statut de disrupteur à celui de fournisseur de plateforme, le succès d’OpenAI dépendra en grande partie de sa capacité à favoriser un écosystème de développeurs florissant. En fournissant des outils améliorés, des coûts réduits et un support accru, l’entreprise pose les bases d’une croissance et d’une stabilité à long terme dans le secteur de l’IA.

Bien que l’impact immédiat puisse être moins visible, cette stratégie pourrait à terme conduire à une adoption plus durable et plus répandue de l’IA dans de nombreux secteurs.

Lire plus

Intelligence Artificielle

Copilot Vision : Microsoft Edge voit enfin ce que vous voyez !

par Yohann Poiron le 2 octobre 2024

Microsoft repousse les limites de l’IA avec Copilot Vision, une nouvelle fonctionnalité intégrée à son navigateur Edge qui transforme votre expérience de navigation.

Imaginez un assistant intelligent qui voit ce que vous voyez, entend ce que vous entendez et interagit avec vous en temps réel pour répondre à vos questions, vous proposer des recommandations et résumer du contenu. C’est la promesse de Copilot Vision, dévoilée par Yusuf Mehdi, vice-président exécutif de Microsoft.

Une IA à votre écoute, mais respectueuse de votre vie privée

Si l’idée d’une IA observant toutes vos activités en ligne peut sembler intrusive, Microsoft assure que Copilot Vision est une fonctionnalité optionnelle que vous devez activer manuellement. De plus, un indicateur à l’écran vous signalera que Copilot est actif. Les données de votre session seront supprimées à sa fermeture et ne seront pas utilisées pour l’entraînement de l’IA.

Copilot Vision fonctionne en tandem avec Copilot Voice, la nouvelle fonctionnalité de commande vocale de Copilot, mais peut également être utilisé seul. Il sera initialement compatible avec un nombre limité de sites Web, excluant les contenus payants ou sensibles, et se concentrera sur l’analyse du texte et des images présents sur les pages.

Microsoft a présenté les capacités de Copilot Vision sur Rotten Tomatoes, où l’IA a recommandé une comédie australienne à un utilisateur australien, démontrant ainsi sa capacité à prendre en compte le contexte personnel.

Copilot Voice et Copilot Daily : l’IA au service de l’information

Copilot Voice vous permet désormais de converser avec l’assistant en utilisant uniquement votre voix, sur ordinateur et sur mobile.

Microsoft lance également Copilot Daily, une sorte de journal télévisé personnalisé qui résume les actualités et vous fournit des informations quotidiennes telles que la météo et le trafic. Cette fonctionnalité utilise une voix générée par l’IA et s’adapte à vos centres d’intérêt.

Disponibilité et perspectives

Copilot Voice et Copilot Daily sont déjà disponibles pour les utilisateurs de Windows aux États-Unis et au Royaume-Uni. Copilot Voice est également disponible en Australie, au Canada et en Nouvelle-Zélande, mais uniquement en anglais. Microsoft prévoit d’étendre ces fonctionnalités à d’autres pays et langues prochainement.

Copilot Vision sera bientôt déployé aux États-Unis, mais uniquement pour les abonnés Copilot Pro. Cette fonctionnalité fait partie du nouveau programme Copilot Labs de Microsoft, qui donne aux abonnés Copilot Pro un accès anticipé aux dernières fonctionnalités d’IA de Microsoft encore en phase de test.

Avec ces innovations, Microsoft confirme sa volonté de placer l’IA au cœur de l’expérience utilisateur, en offrant des fonctionnalités toujours plus personnalisées et intuitives. L’avenir de la navigation web s’annonce passionnant !

Lire plus

Intelligence Artificielle

Copilot se réinvente : plus beau, plus intelligent et plus conversationnel

par Yohann Poiron le 2 octobre 2024

Microsoft vient de déployer une mise à jour majeure de son assistant IA Copilot, 6 mois après l’arrivée de Mustafa Suleyman à la tête de sa division IA. Fini l’interface utilisateur classique de Microsoft, place à un design rafraîchissant et résolument moderne.

Le nouveau Copilot arbore une interface utilisateur basée sur des cartes aux coins arrondis et des visuels de haute qualité sur la page d’accueil. Dès les premiers instants, l’expérience se veut plus personnelle, accueillante et conviviale. Cette approche rappelle fortement le design du chatbot Pi d’Inflection AI, la précédente start-up de Suleyman, axée sur l’IA personnelle.

Parmi les nouveautés, Copilot Voice permet désormais d’interagir avec l’assistant par la voix, promettant une conversation naturelle similaire au mode vocal avancé de ChatGPT. Malheureusement, lors de mes tests, le service était victime de son succès et je n’ai pas pu l’essayer pleinement.

Autre nouveauté majeure, Copilot Vision vous permettra de naviguer sur le Web avec l’assistance de l’IA. Capable de voir ce qui se trouve sur votre écran, Copilot Vision peut répondre à vos questions, vous proposer des suggestions et des idées, et bien plus encore.

Cette fonctionnalité expérimentale sera disponible dans Copilot Labs, exclusivement pour les utilisateurs de Copilot Pro, et fonctionnera initialement sur un nombre limité de sites Web. Il s’agira d’une fonctionnalité optionnelle, les utilisateurs pourront donc choisir de partager ou non leur écran avec Copilot Vision. Suite au fiasco de Windows Recall, Microsoft assure que toutes les données seront traitées localement, sur l’appareil.

Copilot Daily: votre dose d’actualités personnalisée

Microsoft a également ajouté « Copilot Daily », un présentateur d’actualités alimenté par l’IA. Vous pouvez désormais écouter les nouvelles du monde entier sur la page d’accueil de Copilot, avec une voix générée par l’IA. Quatre voix sont disponibles : Canyon, Grove, Meadow et Wave.

Bien qu’il soit difficile de dire quel modèle OpenAI alimente le nouveau Microsoft Copilot, nos premiers tests ont été concluants. L’assistant a répondu correctement à toutes nos questions complexes, ce qui est remarquable. Contrairement aux modèles OpenAI o1, il ne prend pas beaucoup de temps pour « réfléchir » et donne la bonne réponse du premier coup. J’ai été très impressionné par le modèle d’IA derrière ce nouveau Copilot.

Microsoft annonce également l’arrivée prochaine de « Think Deeper », une fonctionnalité expérimentale qui permettra à Copilot de prendre plus de temps pour « réfléchir » afin de résoudre des requêtes complexes, à la manière des modèles OpenAI o1. Cette fonctionnalité sera également réservée aux utilisateurs payants de Copilot Pro.

Testez le nouveau Copilot dès maintenant !

Alors, avez-vous déjà essayé le nouveau Copilot ? Rendez-vous sur copilot.microsoft.com ou téléchargez l’application Copilot sur Android ou iOS, et dites-nous ce que vous en pensez !

Lire plus

Intelligence Artificielle

Vos données personnelles : le carburant secret de l’IA, comment se protéger ?

par Yohann Poiron le 1 octobre 2024

L’intelligence artificielle a besoin de quantités massives de données pour se former et évoluer. C’est pourquoi chaque entreprise cherche désormais à enregistrer toutes nos interactions et à analyser nos documents : elles ont besoin de plus de données !

De nombreux services intègrent désormais l’IA en se basant sur les données de leurs utilisateurs. Slack, Grammarly, Stack Overflow et, plus récemment, LinkedIn en sont des exemples frappants. Cette tendance s’étend à de nombreuses applications et sites Web. Il ne faut donc pas s’étonner de voir apparaître des fonctionnalités d’IA dans nos outils préférés, au prix de l’utilisation de nos données personnelles pour nourrir les modèles d’apprentissage.

Heureusement, les entreprises qui souhaitent utiliser nos conversations, documents et autres données doivent obtenir notre consentement pour les utiliser à des fins autres que celles initialement prévues.

Malheureusement, cette exigence légale est souvent ignorée lorsqu’il s’agit de données publiques. Plusieurs entreprises d’IA ont été prises en flagrant délit de collecte de publications sur les réseaux sociaux pour entraîner leurs modèles, sans l’autorisation des auteurs.

D’autres entreprises se conforment aux réglementations sur la confidentialité des données en mettant discrètement à jour leurs conditions d’utilisation et leurs politiques de confidentialité. Mais à moins de les consulter régulièrement et de supprimer votre compte lorsque des clauses relatives à l’entraînement de l’IA sont ajoutées, vous risquez de ne pas savoir que vos données sont désormais utilisées à cette fin.

Slack : l’exemple d’une désactivation compliquée

Slack permet de refuser que vos conversations potentiellement sensibles soient utilisées pour entraîner son IA, mais la procédure est loin d’être simple.

Au lieu d’une simple case à cocher ou d’un bouton pour leur indiquer qu’ils ne peuvent pas utiliser vos données, vous devez demander au propriétaire de votre espace de travail Slack d’envoyer un e-mail à leur équipe d’assistance. Il faut leur envoyer un e-mail à feedback@slack.com avec l’objet « Slack global model opt-out request » pour se désinscrire.

La vigilance : notre meilleure arme

Comme pour la plupart des préoccupations en matière de cybersécurité et de confidentialité, la vigilance est notre meilleure protection. Si un produit que vous utilisez dispose de fonctionnalités d’IA, il y a de fortes chances qu’il utilise vos données pour les alimenter. Parcourez les paramètres de l’application et voyez quelles fonctionnalités intrusives vous pouvez désactiver (ou consultez leur documentation pour voir de quelle manière peu pratique ils ont essayé de vous dissuader de leur refuser vos données).

Au-delà de l’IA, il existe des moyens simples d’améliorer votre cybersécurité si vous souhaitez préserver la confidentialité et la sécurité de vos données.

En fin de compte, il est essentiel de rester informé et de prendre des mesures pour protéger nos données personnelles dans un monde où l’IA est de plus en plus présente.

Lire plus