fermer

Intelligence Artificielle

L’intelligence artificielle (IA) transforme de nombreux secteurs, de la santé à la finance, en passant par l’éducation et la sécurité. Explorez comment l’IA est utilisée pour automatiser des tâches, augmenter l’efficacité et créer de nouvelles opportunités de marché.

Nos discussions incluent également les défis éthiques et les implications sociétales de l’adoption de l’IA, fournissant une perspective équilibrée sur ce développement technologique clé.

Intelligence Artificielle

Apple présente les modèles OpenELM pour booster l’IA sur ses appareils

59025 120458 SiriGPT xl

Apple est restée discrète sur ses projets en matière d’IA générative, mais avec la publication de nouveaux modèles d’IA OpenELM aujourd’hui, il semble que les ambitions immédiates de l’entreprise se situent résolument dans le domaine de l’exécution locale de l’IA sur les appareils Apple.

Apple a récemment fait une incursion remarquée dans le domaine des modèles de langage avec le lancement d’OpenELM, une série de Large Language Model mais efficaces, conçus pour fonctionner entièrement sur des appareils individuels. Cette démarche représente un changement de stratégie pour la firme, traditionnellement réputée pour sa culture du secret et ses systèmes fermés.

OpenELM, qui signifie « Open-source Efficient Language Models », comprend 8 versions de modèles, chacune conçue pour des tâches spécifiques de génération de texte et d’instruction. Il existe quatre tailles : 270 millions de paramètres, 450 millions de paramètres, 1,1 milliard de paramètres et 3 milliards de paramètres.

Les paramètres désignent le nombre de variables qu’un modèle comprend pour prendre des décisions à partir de ses ensembles de données d’apprentissage. Par exemple, le modèle Phi-3 de Microsoft, récemment publié, se limite à 3,8 milliards de paramètres, tandis que Gemma de Google propose une version à 2 milliards de paramètres. Les petits modèles sont moins coûteux et optimisés pour fonctionner sur des appareils tels que les smartphones et les ordinateurs portables.

Quatre tailles d’OpenELM

Screen Shot 2024 04 24 at 11.09 jpg

Les modèles OpenELM ont été pré-entraînés sur des ensembles de données publics comprenant des sources telles que Reddit, Wikipedia et arXiv, atteignant un impressionnant total de 1,8 trillion de tokens. Apple a utilisé une stratégie de mise à l’échelle par couche dans la construction de ces modèles, permettant une utilisation optimisée des ressources de calcul tout en améliorant l’exactitude des résultats.

Les benchmarks publiés montrent que les modèles, en particulier la variante de 450 millions de paramètres, réalisent des performances respectables, mais pas révolutionnaires, sur des benchmarks tels que ARC-C, MMLU et HellaSwag. Cela positionne OpenELM comme une alternative viable pour les applications ne nécessitant pas les capacités extrêmes des modèles plus grands et plus gourmands en ressources.

Screen Shot 2024 04 24 at 10.54 jpg

Applications et implications de OpenELM

L’approche d’Apple, permettant l’exécution de ces modèles sur des dispositifs individuels comme les MacBook et les smartphones, sans nécessiter de connexion à des serveurs cloud, souligne une avancée vers plus d’autonomie dans le traitement des tâches d’IA.

Les poids des modèles OpenELM sont disponibles sous une licence sample code, ce qui encourage leur utilisation et modification dans des projets commerciaux, tout en respectant certaines conditions de redistribution.

Avec OpenELM, Apple ne cherche pas seulement à rattraper ses concurrents comme Google ou Microsoft, qui ont également leurs propres modèles pouvant fonctionner sur des appareils. La firme cherche plutôt à pousser les limites de ce qui est possible avec l’IA en open source, tout en restant fidèle à ses principes de performance et d’efficacité. Les modèles OpenELM représentent donc une étape significative vers des applications d’IA plus accessibles et éthiquement responsables.

Apple mise beaucoup sur l’IA

Tim Cook, le PDG d’Apple, a laissé entendre que des fonctions d’IA générative allaient être intégrées aux appareils de la société, déclarant en février qu’Apple consacrait « énormément de temps et d’efforts » à ce domaine. Cependant, Apple n’a pas encore donné de détails sur ce que pourrait être son utilisation de l’IA.

La société a déjà lancé d’autres modèles d’IA, mais elle n’a pas encore publié de modèle de base d’IA pour une utilisation commerciale, comme l’ont fait ses concurrents.

Lire plus
Intelligence Artificielle

Phi-3 : Le nouveau modèle d’IA abordable et efficace de Microsoft

Phi-3 : Le nouveau modèle d'IA abordable et efficace de Microsoft

Microsoft a lancé son plus petit modèle d’IA, Phi-3, le premier d’un trio de modèles légers. Alors que de plus en plus de modèles d’IA arrivent sur le marché, Microsoft s’oriente vers des modèles formés sur des ensembles de données plus petits qu’à l’accoutumée.

The Verge rapporte que Phi-3 Mini dispose de 3,8 milliards de paramètres (le nombre d’instructions complexes qu’un modèle peut comprendre) et est désormais disponible sur Azure, Hugging Face et Ollama, avec des projets de lancement de deux autres modèles. Phi-3 Small dispose de 7 milliards de paramètres et Phi-3 Medium 14 milliards de paramètres. Pour donner une idée de l’échelle, on pense que GPT-4 a plus de 1 000 milliards de paramètres.

Le Phi-2 de Microsoft a été lancé en décembre 2023, avec 2,7 milliards de paramètres, mais avec la capacité d’atteindre des niveaux de performance analogue à ceux de certains modèles plus grands. L’entreprise affirme aujourd’hui que Phi-3 peut surpasser son prédécesseur, en offrant des réponses proches de celles de 10x sa taille.

Les avantages de Phi-3 Mini ?

Les petits modèles d’IA sont généralement moins coûteux à créer et à exploiter. Leur taille réduite signifie qu’ils fonctionnent bien sur des appareils personnels tels que les smartphones et les ordinateurs portables, ce qui facilite leur adaptation et leur lancement sur le marché de masse.

Microsoft dispose d’une équipe chargée de développer des modèles d’IA plus petits, chacun d’entre eux étant conçu pour cibler des domaines spécifiques. Orca-Math, par exemple, se concentre sur la résolution de problèmes mathématiques, comme son nom l’indique.

phi 3 model benchmark jpg

Ce n’est pas la seule entreprise à cibler ce domaine, avec Gemma 2B et 7B de Google centrés sur le langage et les chatbots, Claude 3 Haiku d’Anthropic conçu pour lire et résumer de longs articles de recherche (similaire à CoPilot de Microsoft), et Llama 3 8B de Meta prêt à aider au codage.

Si les modèles d’IA de petite taille conviennent mieux aux appareils personnels, ils peuvent également être utilisés par les entreprises. Les ensembles de données internes des entreprises étant généralement plus petits, ces modèles d’IA sont bien adaptés à une utilisation interne, car ils sont plus faciles et plus rapides à installer et à utiliser, tout en étant plus abordables.

L’IA responsable au premier plan

Microsoft a développé Phi-3 en tenant compte dès le départ de ses principes d’IA responsable. Les données d’entraînement du modèle ont été examinées pour détecter toute toxicité et tout biais, et des mesures de sécurité supplémentaires ont été mises en place avant la publication. Cela permet aux entreprises, en particulier celles des secteurs réglementés, d’exploiter en toute confiance les capacités de Phi-3.

D’un point de vue technique, Phi-3 fonctionne sur le ONNX Runtime optimisé pour les GPU NVIDIA et peut être déployé de manière distribuée sur plusieurs GPU ou machines afin d’optimiser le débit. L’architecture du modèle utilise des mécanismes d’attention efficaces et une précision numérique optimisée pour atteindre des performances élevées avec un nombre relativement faible de paramètres.

Lire plus
Intelligence Artificielle

Nouvelle ère de créativité : Adobe intègre l’IA Firefly 3 dans Photoshop 2024

Nouvelle ère de créativité : Adobe intègre l'IA Firefly 3 dans Photoshop 2024

La version 2024 de Photoshop CC d’Adobe était une mise à jour importante. Bien qu’Adobe ait déjà commencé à jouer avec les fonctions d’IA, la version de l’année dernière a été la première à être correctement équipée pour l’ère de l’IA générative. La nouvelle fonction de « remplissage génératif » vous permet d’utiliser l’IA pour modifier des parties d’une image, agrandir des images et, de manière générale, modifier des images à votre guise à l’aide de l’IA. Aujourd’hui, une version améliorée de cette fonctionnalité est prévue pour la prochaine version 2025 de Photoshop.

Lors de la MAX London, le grand événement annuel d’Adobe, Adobe a dévoilé une nouvelle version bêta de Photoshop, qui présente des avancées en matière de remplissage génératif et apporte des améliorations globales à Photoshop avec un grand nombre de nouveaux ajouts en matière d’IA.

Toutes ces nouveautés sont alimentées par le nouveau modèle d’IA Firefly 3 d’Adobe, plus performant que ses prédécesseurs, et devraient se traduire non seulement par de nouvelles fonctionnalités d’IA, mais aussi par des améliorations de toutes les fonctionnalités auxquelles vous aviez déjà accès. Les images et les résultats générés par le modèle devraient être plus beaux, plus réalistes, plus détaillés, et le modèle devrait également mieux suivre vos instructions. Ce n’est pas le seul ajout d’IA par Adobe à ses logiciels ces dernières années, mais les fonctions d’IA de Photoshop sont peut-être parmi les plus utilisées.

L'image de référence téléchargée guide les résultats générés par l'IA de Photoshop, évitant ainsi aux utilisateurs d'effectuer des ajustements fréquents aux prompts textuels.
L’image de référence téléchargée guide les résultats générés par l’IA de Photoshop, évitant ainsi aux utilisateurs d’effectuer des ajustements fréquents aux prompts textuels.

Les générations d’IA de Photoshop n’étaient pas mauvaises, loin de là, mais lorsque d’autres modèles de génération d’images comme DALL-E 3 ont commencé à débarquer, les résultats de Photoshop ont commencé à paraître un peu faibles en comparaison, et cette amélioration était donc plus que nécessaire. Elle permet également d’utiliser de nouvelles fonctionnalités telles que Image de référence, Générer une image, Générer similaire, Générer un arrière-plan et Améliorer le degré de détail, offrant ainsi aux utilisateurs des outils leur permettant de donner rapidement vie à leurs visions créatives.

Adobe présente Générer un arrière-plan comme un outil permettant d'ajouter rapidement de la variété aux photographies de produits sans avoir à refaire les prises de vue.
Adobe présente Générer un arrière-plan comme un outil permettant d’ajouter rapidement de la variété aux photographies de produits sans avoir à refaire les prises de vue.

Générer une image permet aux utilisateurs de générer une image entièrement à partir de zéro, comme le fait DALL-E 3, tandis que Image de référence permet de prendre une image existante comme référence pour la génération d’une IA. Par exemple, au lieu de modifier à plusieurs reprises la description d’un prompt comme « un camion vintage bleu avec des autocollants de fleurs », les utilisateurs peuvent fournir une image de référence que Photoshop utilisera comme guide. Les fonctions Générer similaire et Améliorer les détails se décrivent également d’elles-mêmes.

Les outils Firefly produisent trois résultats générés à choisir dans Photoshop - si vous souhaitez voir des versions similaires de l'un d'entre eux, Générer similaire s'en chargera.
Les outils Firefly produisent trois résultats générés à choisir dans Photoshop – si vous souhaitez voir des versions similaires de l’un d’entre eux, Générer similaire s’en chargera.

De la génération d’image assistée par l’IA sur Photoshop

En dehors de l’IA générative, Adobe ajoute également à Photoshop de nouveaux outils standard susceptibles d’accélérer les processus créatifs. Il s’agit notamment d’un pinceau de réglage qui permet aux utilisateurs de Photoshop d’apporter des modifications non destructives, telles que des ajustements de couleur, à des sections spécifiques d’une image. Il existe également un nouveau préréglage d’ajustement qui permet de modifier rapidement une image à l’aide de filtres, ainsi qu’un navigateur de polices amélioré qui permet aux utilisateurs d’accéder en temps réel à plus de 25 000 polices dans le cloud d’Adobe sans quitter l’application Photoshop.

Plutôt que de recourir au masquage ou à d'autres processus laborieux, les utilisateurs peuvent modifier rapidement des éléments tels que la couleur à l'aide du nouveau pinceau de réglage.
Plutôt que de recourir au masquage ou à d’autres processus laborieux, les utilisateurs peuvent modifier rapidement des éléments tels que la couleur à l’aide du nouveau pinceau de réglage.

Ces fonctionnalités sont désormais disponibles dans la version bêta de Photoshop, et si vous souhaitez vous y essayer, vous pouvez le faire sur votre ordinateur dès maintenant. La version « finale » de ces améliorations sera disponible dans le courant de l’année. Si vous ne souhaitez pas jouer avec un logiciel de niveau bêta, il est donc préférable d’attendre.

Lire plus
Intelligence Artificielle

Apple prépare un coup de maître en IA pour iOS 18 avec l’acquisition de Datakalab

Apple prépare un coup de maître en IA pour iOS 18 avec l'acquisition de Datakalab

Apple aurait acquis Datakalab, une startup d’intelligence artificielle basée à Paris, dans le cadre de son projet de fournir des outils d’intelligence artificielle sur les appareils. Cette nouvelle intervient juste après que Mark Gurman a rapporté qu’Apple développait un Large Language Model (LLM) propriétaire afin d’apporter des fonctionnalités d’IA aux iPhone.

Ne nous voilons pas la face, 2024 est l’année de l’IA. Si votre smartphones n’est pas doté de capacités d’IA, vous pourriez tout aussi bien vivre à côté des Pierrafeu. C’est évidemment une exagération, mais vous savez que la WWDC 2024 sera scrutée comme jamais auparavant, car Apple dévoilera la plus grande mise à jour de l’histoire d’iOS.

Selon le magazine économique Challenges, cette acquisition a été finalisée en décembre 2023. Bien que les détails financiers n’aient pas été divulgués, cette décision intervient alors qu’Apple devrait intégrer une série de fonctions d’IA à la prochaine version d’iOS 18 et à la série d’iPhone 16.

En ce qui concerne la startup acquise, Datakalab est réputée pour son expertise en matière de compression d’algorithmes et de développement de systèmes d’IA embarqués. Elle a été fondée en 2016 par Xavier et Lucas Fischer.

Depuis, la société a fait des progrès notables dans la technologie de l’IA en se concentrant sur les algorithmes de faible puissance, efficaces en termes de temps d’exécution et d’apprentissage profond qui fonctionnent sur l’appareil, sans s’appuyer sur des systèmes basés sur le cloud. Un bon exemple d’outil d’IA basé sur le cloud est la fonction de fond d’écran génératrice d’IA sur les smartphones Pixel, Samsung et Nothing.

Cette approche est étroitement liée à l’engagement d’Apple de fournir des performances fiables tout en préservant la confidentialité des utilisateurs et la sécurité des données. Lorsque les données sont traitées, cela garantit des réponses plus rapides et minimise le risque de violation des données. L’intérêt d’Apple est probablement motivé par la compétence de la startup en matière d’optimisation des réseaux neuronaux pour les appareils portables tels que les smartphones et les tablettes.

Une grosse expérience pour Datakalab

Avant d’être supprimé, le site Web de Datakalab indiquait : « Datakalab est une société technologique française qui développe des algorithmes d’analyse d’images informatiques pour mesurer les flux dans l’espace public. Les images sont instantanément transformées en données statistiques anonymes traitées localement en 100 ms. Datakalab ne stocke aucune image ou donnée personnelle et ne conserve que des données statistiques. Les produits Datakalab sont construits selon le principe du “Privacy by Design” ». Avant l’accord avec Apple, l’entreprise comptait entre 10 et 20 employés.

dlab jpg

En mai 2020, Datakalab s’est associée au gouvernement français pour déployer des outils d’IA dans les systèmes de transport parisiens afin de vérifier si les usagers portaient des masques de protection. L’entreprise a également fait ses preuves auprès de Disney et d’autres acteurs.

Datakalab a également développé une technologie capable d’analyser les émotions humaines par le biais de la reconnaissance faciale et des données visuelles. Plus tard, ces technologies ont été utilisées pour surveiller en temps réel les réactions du public lors des projections au cinéma.

Il convient de mentionner que ni Apple ni DatakaLab n’ont encore reconnu l’acquisition. Selon Challenges, l’opération a été signalée ce mois-ci à l’Union européenne. Selon le rapport, les deux fondateurs de Datakalab n’ont pas rejoint Apple, mais plusieurs autres employés ont changé de poste.

Un LLM exécuté en local

Récemment, Mark Gurman a rapporté qu’Apple développait un LLM qui fonctionnera sur l’appareil, contrairement à la plupart des services d’IA existants qui fonctionnent sur le cloud. Étant donné que le LLM sur appareil d’Apple pourrait être moins puissant que ses rivaux directs basés sur le cloud, le géant technologique de Cupertino pourrait “combler les lacunes” en accordant des licences sur la technologie de Google ou d’autres fournisseurs de services d’IA.

Nous saurons tout sur la stratégie d’Apple en matière d’IA lors de la conférence annuelle WWDC (Worldwide Developers Conference), qui se tiendra du 10 au 14 juin 2024.

Lire plus
Intelligence Artificielle

Google pousse Gemini dans l’ère du streaming musical

Google pousse Gemini dans l'ère du streaming musical

Cela fait un moment que Google a lancé Gemini sur les appareils Android. Si son IA générative et son intégration à la suite d’applications de Google sont louables, il lui manquait l’intégration aux applications de streaming musical. La bonne nouvelle, c’est que Gemini permettra bientôt aux utilisateurs de sélectionner une application de streaming musical par défaut.

En effet, Gemini est sur le point de devenir beaucoup plus utile grâce à la prise en charge de services de streaming musicaux tiers comme Spotify et Apple Music.

La source AssembleDebug, via Piunika Web, a repéré la fonction cachée dans les paramètres de Gemini. Cette fonction vous permet de « Choisir votre fournisseur de médias par défaut ». Selon sa description, l’option Musique dans les paramètres de Gemini permet de « sélectionner les services préférés utilisés pour lire de la musique ».

Bien que l’écran « Choisissez votre fournisseur de médias par défaut » semble vide pour l’instant, Google pourrait bientôt y ajouter une liste de populaires applications de streaming musicales. Les utilisateurs pourront ainsi sélectionner une application de streaming comme service par défaut. Cela permettra à Gemini de commencer à accepter des commandes liées au streaming musical, comme « Jouer mes chansons préférées ».

Google Assistant, quant à lui, prend en charge cette fonction depuis des années, et c’est l’une des caractéristiques qui empêchent les utilisateurs de passer à Gemini. Jusqu’à récemment, le chatbot de Google ne pouvait pas exécuter les commandes liées aux Rappels et à Google Maps.

Gemini va bientôt se doter de réponses en temps réel sur mobile

AssembleDebug rapporte également que Google travaille à l’ajout d’un bouton « Réponses en temps réel ». Cela permettrait à Gemini d’envoyer des réponses en temps réel plutôt que de prendre le temps de les traiter et de les envoyer ensuite.

Il semble que la version actuelle de Gemini soit loin de l’idéal souhaité par Google, mais le rythme auquel Google ajoute de nouvelles fonctionnalités, combiné à la fusion de ses équipes d’intelligence artificielle et de matériel, devrait permettre d’accélérer le développement des fonctionnalités et leur diffusion sur les appareils.

Lire plus
Intelligence Artificielle

L’intégration de Llama 3 de Meta sur Snapdragon : Une nouvelle ère pour l’IA mobile

Qualcomm 1320x880 1

Si vous êtes à la recherche de votre prochain produit phare Android — ou si vous envisagez d’abandonner l’iPhone et d’essayer quelque chose de différent — il y a de fortes chances que votre prochain appareil soit équipé d’une puce Snapdragon, un chipset de la société de semi-conducteurs de renommée mondiale Qualcomm.

Dans un avenir pas si lointain, ceux qui choisissent de rejoindre l’équipe Snapdragon pourraient utiliser le dernier modèle d’IA de Meta : Llama 3.

La semaine dernière, Meta a annoncé que le modèle Llama 3 alimentait le nouvel assistant Meta AI que l’on trouve sur WhatsApp, Instagram, Facebook et Messenger dans certains pays du monde. Le modèle Llama 3 est censé posséder des capacités de raisonnement impressionnantes et une meilleure aptitude à suivre les instructions.

Qualcomm et Meta viennent d’annoncer un partenariat visant à optimiser l’exécution du Llama 3 de Meta directement sur les smartphones, les PC, les casques VR/AR, les véhicules, etc. Cette collaboration permet au nouveau modèle d’IA de fonctionner sur les appareils, offrant des avantages tels qu’une meilleure réactivité, une plus grande confidentialité, une plus grande fiabilité et des expériences personnalisées pour les utilisateurs.

Nous célébrons l’approche ouverte de Meta avec Meta Llama 3, et nous partageons son engagement à donner aux développeurs les moyens d’agir et à stimuler l’innovation en matière d’IA. Notre leadership dans le domaine de l’IA sur les appareils, associé à notre vaste portée sur différents appareils en périphérie, nous permet d’étendre les avantages de l’écosystème Llama dans le monde entier et de permettre aux clients, partenaires et développeurs de créer une nouvelle génération d’expériences révolutionnaires en matière d’IA.

Intégration de Llama 3

C’est ce qu’a déclaré Durga Malladi, Vice-président senior et Directeur général de Qualcomm en charge de la technologie, de la planification et des solutions de périphérie.

Cette collaboration vise à démocratiser l’accès aux capacités d’IA générative en permettant aux OEM et aux développeurs d’intégrer Llama 3 dans les appareils équipés des prochaines plateformes phares Snapdragon. Les développeurs auront accès aux ressources et aux outils nécessaires pour optimiser Llama 3 sur les plateformes Snapdragon grâce au Qualcomm AI Hub, qui propose environ 100 modèles d’IA optimisés.

L’iPhone pourrait bénéficier du soutien de Google en matière d’IA

Alors que les modèles phares d’Android vont intégrer le modèle d’IA de Meta grâce aux futures puces Snapdragon, les prochains iPhone pourraient bénéficier d’un coup de pouce en matière d’IA de la part de… Google. Le mois dernier, nous avons entendu des rumeurs sur le fait qu’Apple était en pourparlers pour obtenir une licence de l’IA Gemini de Google afin d’améliorer Siri et d’ajouter de nouvelles fonctionnalités à iOS.

En bref, Apple serait en pourparlers avec Google pour obtenir une licence de son IA Gemini, dans le but d’améliorer Siri et d’introduire de nouvelles fonctionnalités d’IA dans iOS 18.

Les négociations entre Apple et Google ont progressé, mais tout accord impliquant Gemini nécessiterait probablement l’approbation des organismes de réglementation en raison des enquêtes en cours sur le partenariat existant entre Apple et Google, qui fait de Google le moteur de recherche par défaut sur Safari et qui verserait à Apple près de 20 milliards de dollars par an.

Lire plus
Intelligence Artificielle

Qu’est-ce que Google Gemini : la nouvelle génération d’IA ?

Qu'est-ce que Google Gemini : la nouvelle génération d'IA ?

 

Google a rebaptisé Bard en Gemini, un chatbot d’IA capable de créer des graphiques, l’outil ayant beaucoup évolué depuis sa première introduction.

Les premières performances de Bard ont été jugées insuffisantes à de nombreuses reprises. Les utilisateurs ont eu du mal à faire en sorte que le chatbot fournisse des informations correctes ou qu’il suive simplement une discussion sans avoir d’hallucinations, même lors de ses terribles débuts et de son lancement officiel.

Toutefois, depuis lors, Google a considérablement amélioré Bard, le renommant Gemini en l’honneur de Gemini Pro, le Large Language Model (LLM) qui le fait fonctionner. Ce n’est pas le Bard d’il y a un an, mais le Gemini que vous pouvez utiliser aujourd’hui est capable de produire des graphiques, d’avoir des discussions productives au même titre que ChatGPT et de s’intégrer de manière transparente à l’espace de travail de Google.

Après le modèle linguistique PaLM 2, lancé en mai, Google affirme que Gemini est son modèle d’IA le plus grand, le plus puissant et le plus adaptable à ce jour. Selon l’entreprise, Gemini surpasse les meilleurs modèles d’IA dans 30 des 32 benchmarks qui mesurent le langage, les mathématiques, le raisonnement et d’autres paramètres.

Mais qu’est-ce qui différencie exactement Gemini de Google des autres solutions de ChatGPT que vous pouvez utiliser aujourd’hui ? Voici tout ce que vous devez savoir.

Qu’est-ce que l’IA Gemini de Google ?

Google’s Gemini est un chatbot conversationnel d’IA, analogue à ChatGPT et Copilot. Il s’appuie sur une technologie d’IA générative, ce qui signifie qu’il peut créer de nouveaux textes qui n’ont jamais existé auparavant.

Vous pouvez utiliser la capacité de Gemini à traiter et à comprendre une variété de types de données, y compris le texte, les graphiques et l’audio, en fonction de votre projet. Par exemple, Gemini peut être utilisé pour analyser et produire du matériel multimédia dans un programme de production de contenu.

Le dernier rebondissement est qu’en plus de la version de base (gratuite) de Gemini pour les consommateurs, il existe également une offre d’abonnement pour l’IA connue sous le nom de Gemini Advanced. Ce produit payant est basé sur un LLM plus puissant appelé Gemini Ultra, et les personnes inscrites à l’abonnement Google One AI Premium bénéficient d’avantages supplémentaires en utilisant ce modèle.

Pour résumer, toutes les propriétés d’IA de Google sont désormais sous l’égide de Gemini pour simplifier les choses, qu’il s’agisse de l’IA pour les consommateurs ou les entreprises, et qu’il s’agisse d’accéder à Gemini via le Web, ou depuis l’assistant ou l’application de votre smartphone.

Comment utiliser Gemini ?

La façon dont vous utilisez Google Gemini dépend de la version qui vous intéresse et du produit dans lequel elle a été intégrée. Vous pouvez vous rendre sur le site Web Gemini et y utiliser l’IA de la manière habituelle avec un chatbot en ligne (en d’autres termes, tout comme Google Bard).

Vous pouvez également utiliser l’application Gemini sur votre smartphone Android (ou remplacer Google Assistant par Gemini, comme indiqué). Ou sur iOS, vous pouvez accéder à l’application Google pour la fonctionnalité Gemini. Oh, et la rumeur dit que vous pourrez peut-être même bientôt utiliser Gemini sur vos écouteurs (s’ils sont optimisés pour Google Assistant, comme les Google Pixel Buds Pro par exemple).

Gemini Google jpg

Enfin, il existe l’option supplémentaire et distincte de s’abonner à Gemini Advanced, pour bénéficier de l’expérience complète de l’IA, y compris des réponses plus précises, la gestion de tâches complexes et des besoins créatifs exigeants, ainsi que les autres avantages que nous avons décrits ci-dessus.

Gemini vs GPT-4 : quelle est la différence ?

Comment Gemini se compare-t-il à GPT-4 dans la bataille des LLM ? D’une part, lorsque Gemini a été révélé pour la première fois, Google a affirmé qu’il était plus avancé que GPT-4. Google a présenté les résultats de 8 benchmarks basés sur du texte, Gemini ayant remporté 7 de ces tests. Sur 10 benchmarks multimodaux, Gemini est arrivé en tête dans chacun d’entre eux, du moins selon Google.

Cela semblerait impliquer que Gemini est le système ultime, mais ce n’est bien sûr pas aussi simple. GPT-4 est sorti en mars 2023, donc Gemini rattrape essentiellement un outil d’IA rival vieux de près d’un an. Nous ne savons pas quelle sera la capacité de la prochaine version d’OpenAI de GPT, et il y a un monde de nuances dans cette bataille en dehors de l’analyse comparative limitée de Google, il est donc difficile de dire quel est vraiment le meilleur outil pour le moment.

De plus, Google n’a comparé que son modèle plus avancé, Gemini Ultra, à GPT-4, et non à Gemini Pro. Étant donné les marges souvent minces entre GPT-4 et Gemini Ultra, il semble probable que le modèle d’OpenAI devance Gemini Pro.

Les débuts de Gemini

Issu de la division IA de Google, Google Gemini représente le zénith des systèmes d’intelligence artificielle (IA) multimodaux de nouvelle génération.

Conçu comme une merveille d’intégration technologique, ce modèle d’IA avancé est capable de traiter et de générer simultanément un nombre impressionnant de types de données et de s’attaquer à une grande variété de tâches. Qu’il s’agisse d’interpréter des textes écrits, de visualiser des images, de déchiffrer des signaux audio, d’analyser des flux vidéo, de générer des modèles 3D complexes ou de donner un sens à des graphiques complexes, Gemini fait tout, souvent simultanément, ce qui en fait un hub de capacités multitâches.

Un élément fondamental de la création de Google Gemini est la célèbre architecture Google Transformer, un framework éprouvé qui a fait partie intégrante du succès d’autres modèles de langage à grande échelle tels que BERT (Bidirectional Encoder Representations from Transformers) et OpenAI GPT-3 (Generative Pre-trained Transformer 3).

Cependant, ce qui différencie Gemini de ces incarnations antérieures, ce sont ses avancées révolutionnaires et ses nouvelles fonctionnalités. Ces innovations ne se contentent pas de booster ses capacités existantes, elles étendent également sa portée, le rendant plus polyvalent et plus robuste que ses contemporains.

Ce faisant, Gemini vise à redéfinir les limites de ce qui est réalisable dans le domaine de l’intelligence artificielle.

Traitement multimodal des données

La pierre angulaire de l’innovation qui distingue Gemini dans le monde de l’intelligence artificielle est sa capacité à traiter des données multimodales, ce qui représente un bond en avant significatif dans les capacités de l’IA.

Contrairement à la plupart de ses prédécesseurs qui se limitent à des tâches textuelles, Gemini a été conçu pour transcender ces limites. Il est capable de traiter non seulement des informations textuelles, mais aussi un large éventail d’autres types de données telles que des images, des clips audio, des séquences vidéo et même des formats spécialisés tels que des modèles 3D et des graphiques complexes. Cette capacité multimodale dote Gemini d’un ensemble de compétences polyvalentes qui lui permettent d’entreprendre des tâches complexes qui seraient soit très difficiles, soit tout à fait irréalisables pour les modèles d’IA conventionnels.

Pour illustrer ses capacités, prenons l’exemple d’un scénario dans lequel Gemini est chargé de générer une image haute résolution et réaliste d’un chat uniquement à partir d’une description textuelle. Il pourrait prendre des phrases descriptives telles que « un chat siamois aux yeux bleus frappants » et les traduire en un chef-d’œuvre visuel qui capture les nuances des caractéristiques du félin. Imaginons également une vidéoconférence dont le dialogue est en anglais, mais qui doit être compris par un public français.

Gemini peut non seulement transcrire et traduire les mots prononcés, mais aussi générer un son en français qui peut être parfaitement synchronisé avec la vidéo originale, éliminant ainsi les barrières linguistiques. Ces exemples soulignent l’extraordinaire portée et la polyvalence de Gemini, grâce à ses capacités multimodales révolutionnaires.

Apprentissage par renforcement

Une autre caractéristique révolutionnaire qui propulse Gemini au premier rang de l’innovation en matière d’intelligence artificielle est son utilisation adroite des techniques d’apprentissage par renforcement. L’apprentissage par renforcement est un sous-ensemble spécialisé de paradigmes d’apprentissage automatique qui fonctionne selon les principes de l’essai et de l’erreur, ce qui permet au modèle d’IA de s’adapter et d’affiner ses stratégies au fil du temps. Cet apprentissage est particulièrement utile pour les tâches qui exigent des capacités de prise de décision complexes, qu’il s’agisse de s’engager dans des environnements de jeu compétitifs ou d’écrire des lignes de code informatique complexes.

Imaginons que Gemini soit utilisé pour former un système robotique au jeu d’échecs. Au début, Gemini utilise une stratégie aléatoire. Au fur et à mesure que le jeu progresse, Gemini reçoit des récompenses pour les mouvements stratégiques qui le rapprochent de la victoire. Ces récompenses ajustent les algorithmes de prise de décision de Gemini. Au fil du temps, Gemini accumule des connaissances tactiques et améliore ses stratégies d’échecs. Il devient compétent au point de surpasser un joueur humain expérimenté.

Pour concrétiser ce concept, imaginons que Gemini soit utilisé pour former un système robotique au jeu intellectuel des échecs. Au départ, Gemini utiliserait une stratégie de débutant, exécutant des mouvements sur l’échiquier qui pourraient sembler aléatoires ou sans modèle discernable. Au fur et à mesure que le jeu progresse, le modèle reçoit des renforcements positifs, c’est-à-dire des récompenses, pour chaque mouvement qui le rapproche stratégiquement d’un échec et mat ou d’une victoire. Ces récompenses servent d’expériences d’apprentissage précieuses, agissant comme des points de données que Gemini utilise pour ajuster ses algorithmes de prise de décision.

Au fil des parties, le système commence à accumuler une grande quantité de connaissances tactiques. Ce processus d’apprentissage itératif continuera à affiner les stratégies d’échecs de Gemini, faisant passer son jeu d’un niveau novice à un niveau avancé. En fin de compte, il sera suffisamment compétent non seulement pour comprendre les stratégies nuancées des échecs, mais aussi pour surpasser et vaincre un adversaire humain expérimenté.

Cet exemple illustre la remarquable capacité d’adaptation et les prouesses en matière de prise de décision que l’apprentissage par renforcement confère à Gemini, établissant une nouvelle norme pour ce qui est réalisable dans les tâches pilotées par l’IA qui nécessitent une prise de décision nuancée.

hero 1.width 1600.format webp jpg

Applications de Gemini

Voici quelques-unes des applications de Google Gemini :

  • Assistants virtuels : Gemini peut être utilisé pour créer des assistants virtuels plus naturels et plus intuitifs, capables de comprendre et de répondre à un plus grand nombre de commandes. Par exemple, Gemini peut être utilisé pour contrôler des appareils de la maison connectée, prendre des rendez-vous ou faire des réservations
  • Chatbots : Gemini peut être utilisé pour créer des chatbots plus attrayants et plus réalistes, capables de tenir des conversations qui ne se distinguent pas de celles avec un être humain. Gemini peut être utilisé pour fournir un service à la clientèle, répondre à des questions ou même rédiger des contenus créatifs
  • Outils éducatifs : Gemini peut être utilisé pour créer de nouveaux types d’outils éducatifs capables de personnaliser l’apprentissage et de fournir un retour d’information en temps réel. Par exemple, Gemini peut être utilisé pour créer des manuels interactifs, des plans d’apprentissage personnalisés ou même des tuteurs virtuels
  • Recherche médicale : Gemini peut être utilisé pour accélérer la recherche médicale en aidant les scientifiques à analyser de grands ensembles de données médicales. Par exemple, Gemini peut être utilisé pour identifier de nouveaux modèles dans les données médicales ou pour développer de nouveaux traitements pour les maladies
  • Créativité artificielle : Gemini peut être utilisé pour créer de nouvelles formes d’art, de musique et de littérature impossibles à distinguer de celles créées par les humains. Par exemple, Gemini peut être utilisé pour créer des peintures réalistes, composer de la musique ou écrire des romans.

L’avenir de l’IA

Google Gemini n’en est peut-être qu’à ses débuts, mais l’ampleur de son potentiel impact sur notre vie quotidienne et sur le paysage professionnel est presque incalculable. Prêt à redéfinir les repères de ce qui est possible avec l’intelligence artificielle, Gemini se distingue comme l’une des initiatives d’IA les plus électrisantes et les plus conséquentes actuellement en cours de développement.

Il ne s’agit pas simplement d’une avancée technologique progressive, mais plutôt d’un changement transformateur qui pourrait révolutionner divers secteurs. Qu’il s’agisse de faciliter le télétravail grâce à des bureaux virtuels alimentés par l’IA, de permettre des services de télémédecine sophistiqués ou même de transformer la façon dont nous consommons des divertissements et des informations, Gemini promet de toucher toutes les facettes de l’activité humaine. Il ne s’agit pas seulement d’une innovation pour aujourd’hui ; c’est une avant-garde pour l’avenir, qui jette les bases d’applications de l’IA que nous n’avons pas encore conçues.

Même si ce projet révolutionnaire n’en est qu’à ses débuts, les retombées de ses avancées technologiques se font déjà sentir. Au fur et à mesure de son évolution et de sa maturation, Gemini est destiné à devenir un acteur clé de l’avenir de l’intelligence artificielle. Son développement est plus qu’un simple projet ; c’est le signe avant-coureur de changements transformateurs qui pourraient remodeler notre compréhension de ce que l’intelligence artificielle peut accomplir. J’espère que ce guide explique ce qu’est Google Gemini.

Lire plus
Intelligence Artificielle

Google optimise Gemini avec une fonction de réponses en temps réel sur mobile

Google optimise Gemini avec une fonction de réponses en temps réel sur mobile

L’IA est à l’honneur dans le monde entier en ce moment (et le restera probablement dans un avenir proche). Il est donc essentiel que les applications d’IA sur les smartphones soient souvent améliorées.

Google ne cesse de peaufiner Gemini, son assistant intelligent, qui a connu un démarrage quelque peu houleux. D’après un récent rapport, une innovation majeure pourrait rendre l’application Android plus rapide : l’intégration d’une fonction de réponses en temps réel sur Gemini.

Cette fonctionnalité, révélée par PiunikaWeb et l’expert Android AssembleDebug, introduirait une option nommée « Réponses en temps réel » directement accessible dans l’application Gemini. Ils ont même réussi à activer manuellement cette option, comme le montre l’image ci-dessous.

Google Gemini real time response jpg

Cette nouvelle fonction permettrait aux utilisateurs de l’application de lire les réponses au fur et à mesure de leur génération, à l’instar de la version Web de l’assistant. Actuellement, les utilisateurs de l’application doivent attendre que la réponse soit entièrement générée avant de pouvoir la lire. L’amélioration en cours sera très utile.

Cette amélioration serait donc particulièrement utile, économisant quelques précieuses secondes et permettant de commencer à lire dès que possible. Cela s’avérerait particulièrement avantageux si l’utilisateur s’intéresse principalement aux premiers paragraphes ou lignes d’une réponse longue.

Gemini rattrape son retard

En outre, cette mise à jour intervient après un rapport de PiunikaWeb indiquant que Gemini pourrait intégrer le support de Spotify et d’autres services de streaming musical. Ce serait un grand pas en avant, Gemini comblant ainsi certaines lacunes par rapport à son concurrent, Google Assistant.

L’assistant Gemini n’a pas vraiment eu la vie facile dès sa création. Initialement appelé Google Bard, il a été quelque peu négligé par rapport à d’autres concurrents dotés d’une intelligence artificielle. Mais aujourd’hui, Google semble enfin rattraper son retard.

Lire plus
Intelligence Artificielle

Maximiser la productivité avec Google Gemini : Le guide ultime

Google One AI Premium Blog Post

Dans ce guide, on va voir comment vous pouvez utiliser des outils d’IA comme Google Gemini pour stimuler votre productivité. À l’ère du numérique, où le temps est aussi précieux que n’importe quelle monnaie, il est essentiel d’exploiter les bons outils pour rationaliser votre workflow.

C’est là qu’intervient Google Gemini, le dernier-né de la gamme d’outils de productivité de l’espace de travail Google. Conçu pour améliorer l’efficacité de diverses tâches, de la gestion des e-mails à la création de documents et à l’analyse de données, Google Gemini témoigne du potentiel de l’IA à révolutionner notre façon de travailler.

Si vous souhaitez améliorer votre productivité, voici comment Gemini peut vous aider.

Intégration de Gmail et de Google Docs : Un workflow transparent

En commençant par la gestion des e-mails, l’intégration de Gemini dans Gmail change la donne. Imaginez que vous puissiez rechercher, composer et gérer vos e-mails avec une facilité sans précédent. Il suffit d’utiliser le prompt @Gmail pour que Gemini entre en action directement dans votre boîte de réception, ce qui permet une expérience de messagerie plus fluide.

De plus, les utilisateurs de Google Docs trouveront inestimables les capacités de Gemini à rédiger des documents, à résumer des informations et à créer divers formats de texte. Cette intégration garantit que, que vous rédigiez un courriel ou un rapport, votre flux de travail reste ininterrompu et plus efficace que jamais.

Maîtriser l’analyse des données et les prompts pour obtenir des résultats pertinents

L’analyse des données est traditionnellement une tâche qui prend du temps, mais grâce à la capacité de Gemini à extraire des informations à partir d’images, de PDF et même de vidéos YouTube, le processus est considérablement rationalisé. En convertissant les données visuelles en résumés organisés ou en feuilles de calcul, Gemini permet non seulement de gagner du temps, mais aussi d’améliorer la précision de vos informations.

En outre, il est essentiel de comprendre l’art de l’incitation pour libérer tout le potentiel de Gemini. Être spécifique, fournir un contexte et expérimenter les formats de commande sont des stratégies clés pour obtenir les meilleures réponses de Gemini.

Gestion des e-mails : Au-delà de la communication de base

L’époque où il fallait fouiller dans une boîte de réception surchargée est révolue. Les capacités de recherche rapide de Gemini vous permettent de trouver facilement des e-mails liés à des expéditeurs ou à des sujets spécifiques. La rédaction et le résumé des e-mails sont également simplifiés, ce qui permet une communication plus efficace.

Gemini gmail 022024

Par exemple, des commandes telles que « @Gmail aides-moi à rédiger une réponse à cet e-mail » peuvent aider à surmonter l’angoisse de la page blanche, tandis que « @Gmail résume ce fil de discussion » offre une vue d’ensemble rapide des longues conversations.

Création de documents et recherche : La simplicité redéfinie

La création de contenu peut souvent être décourageante, mais Gemini simplifie cette tâche grâce à des fonctionnalités telles que des aperçus sans effort et une aide à la rédaction améliorée. À partir d’une invite telle que « @Docs créez un plan pour un article sur [sujet] », Gemini structure votre contenu, ouvrant la voie à un processus de rédaction fluide. De même, résumer des documents complexes devient un jeu d’enfant, vous permettant de vous concentrer sur l’essence de votre recherche sans vous perdre dans les détails.

Des informations fondées sur des données : Une image qui vaut mille mots

Les prouesses de Gemini s’étendent à l’analyse d’images et de vidéos pour obtenir des informations complètes. Qu’il s’agisse de convertir un tableau en feuille de calcul ou de résumer un PDF, le modèle gère les tâches avec précision. De plus, l’analyse de vidéos YouTube pour en extraire des informations clés ou des informations sur le public s’effectue sans effort, ce qui démontre la polyvalence de Gemini dans le traitement de divers formats de données.

Pour tirer le meilleur parti de Gemini, la précision de vos messages est essentielle. Des instructions claires associées à un contexte adéquat permettent d’obtenir les meilleurs résultats. N’hésitez pas à expérimenter différentes commandes et fonctionnalités, car cette exploration peut révéler de nouvelles façons d’améliorer votre productivité. N’oubliez pas que les résultats initiaux peuvent nécessiter des améliorations. C’est pourquoi vous devez répéter vos invites et fournir des commentaires pour adapter Gemini à vos besoins spécifiques.

Google Gemini représente une avancée majeure dans le domaine des outils de productivité alimentés par l’IA. Grâce à ses fonctionnalités avancées et à son intégration transparente dans les workflows quotidiens, il permet aux utilisateurs de travailler plus intelligemment, et non plus difficilement. En adoptant des assistants d’IA comme Gemini, rester en tête dans un environnement de travail en évolution rapide devient non seulement possible, mais sans effort.

Lire plus
Intelligence Artificielle

Meta AI déploie le chatbot IA Llama 3 dans ses principales applications

Meta AI déploie le chatbot IA Llama 3 dans ses principales applications

Meta prend aujourd’hui plusieurs mesures importantes pour promouvoir ses services d’IA sur l’ensemble de sa plateforme. L’entreprise a mis à jour son chatbot d’IA avec son plus récent Large Language Model, Llama 3, et elle le fait désormais fonctionner dans la barre de recherche de ses quatre principales applications (Facebook, Messenger, Instagram et WhatsApp) dans plusieurs pays.

Parallèlement, l’entreprise a lancé d’autres nouvelles fonctionnalités, comme la génération plus rapide d’images et l’accès aux résultats de recherche sur le Web. En outre, l’entreprise lance également un nouveau site meta.ai pour permettre aux utilisateurs d’accéder au chatbot.

Cette nouvelle souligne les efforts de Meta pour se positionner en tant qu’acteur majeur dans le contexte actuel de l’engouement des consommateurs pour les outils d’IA générative. Poursuivant d’autres services populaires sur le marché, tels que ceux d’OpenAI, Mark Zuckerberg a déclaré aujourd’hui que Meta AI était probablement « l’assistant d’IA le plus intelligent que vous puissiez utiliser librement ».

Meta a d’abord déployé Meta AI aux États-Unis l’année dernière. Elle étend maintenant le chatbot en langue anglaise à plus d’une douzaine de pays, dont l’Afrique du Sud, l’Australie, le Canada, le Ghana, la Jamaïque, le Malawi, la Nouvelle-Zélande, le Nigeria, le Pakistan, Singapour, l’Ouganda, la Zambie et le Zimbabwe. Malheureusement, pas encore la France.

La semaine dernière, l’entreprise a commencé à tester Meta AI dans des pays comme l’Inde et le Nigéria, mais l’Inde n’est pas mentionnée dans l’annonce d’aujourd’hui. Meta a déclaré qu’elle prévoyait de maintenir Meta AI en mode test dans le pays pour le moment. « Nous continuons à apprendre des tests de nos utilisateurs en Inde. Comme nous le faisons avec beaucoup de nos produits et fonctionnalités d’IA, nous les testons publiquement dans des phases variables et dans une capacité limitée », a déclaré un porte-parole de l’entreprise dans un communiqué.

Nouvelles fonctionnalités de Meta AI avec Llama 3

Les utilisateurs pouvaient déjà demander à Meta AI des suggestions d’écriture ou de recettes. Désormais, ils peuvent également demander des résultats liés au Web fournis par Google et Bing.

02 Meta AI in Messaging Apps Car jpg

L’entreprise a déclaré qu’elle rendait également la génération d’images plus rapide. En outre, les utilisateurs peuvent demander à Meta AI d’animer une image ou de la transformer en GIF. Les utilisateurs peuvent voir l’outil d’IA modifier l’image en temps réel pendant qu’ils tapent. L’entreprise a également travaillé à l’amélioration de la qualité des photos générées par l’IA.

Images in a flash Static Lightho jpg

Les outils de génération d’images alimentés par l’IA ne parviennent pas à épeler les mots. Meta affirme que son nouveau modèle a également apporté des améliorations dans ce domaine.

Meta adopte l’approche consistant à rendre Meta AI disponible dans le plus grand nombre d’endroits possible. Le chatbot est disponible dans la barre de recherche, dans les discussions individuelles et de groupe, et même dans le fil d’actualité.

01 IG Group Chat AI

L’entreprise a déclaré que vous pouvez poser des questions liées aux publications dans votre flux Facebook. Par exemple, si vous voyez une photo d’une aurore boréale, vous pouvez demander à Meta AI de vous suggérer la meilleure période pour visiter l’Islande et voir les aurores boréales.

Meta AI feed

Lire plus
Intelligence Artificielle

Llama 3 de Meta : Une nouvelle ère pour les modèles d’IA open source

Llama 3 de Meta : Une nouvelle ère pour les modèles d'IA open source

Après presque 9 mois, Meta a introduit une nouvelle famille de modèles Llama 3. Et ils sont open source, comme auparavant, sous l’accord de licence communautaire de Meta. Actuellement, Meta a annoncé des modèles Llama 3 en deux tailles : Llama 3 avec des paramètres de 8B et Llama 3 avec des paramètres de 70B.

Ces modèles, dotés respectivement de 8 milliards et 70 milliards de paramètres, marquent une avancée significative par rapport aux précédentes versions, Llama 2 8B et Llama 2 70B. Les performances accrues des nouveaux modèles sont attribuées à leur entraînement sur deux clusters GPU personnalisés de 24 000 unités.

Meta est également en train de former son plus grand modèle multimodal avec 400 milliards de paramètres, qui sera disponible dans un proche avenir. Cependant, nous ne savons pas si Meta choisira de mettre en open source son plus grand modèle lorsqu’il le rendra public.

Un déploiement de Meta AI basé sur Llama 3 en cours

Dès à présent, Meta intègre ses modèles Llama 3 dans toutes ses applications de réseaux sociaux, y compris Facebook, Instagram, WhatsApp, Messenger, et sur le Web également. Oui, tout comme ChatGPT, vous pouvez maintenant discuter gratuitement avec des modèles de lama 3 via meta.ai. Et sur les apps, vous pouvez trouver Meta AI à l’œuvre dans votre flux, vos chats et vos recherches.

Vous pouvez utiliser Meta AI pour générer des images et des GIF instantanés, trouver des informations actuelles sur n’importe quel sujet (en utilisant à la fois Google et Bing), poser des questions à partir de votre flux, et bien plus encore.

Meta déploie des expériences d’IA dans ses applications de réseaux sociaux et lance le portail Web en anglais dans plusieurs régions : Afrique du Sud, Australie, Canada, Ghana, Jamaïque, Malawi, Nigéria, Nouvelle-Zélande, Ouganda, Pakistan, Singapour, Zambie et Zimbabwe. L’entreprise précise que d’autres pays seront ajoutés dans les prochains jours.

Meilleur que la concurrence selon Meta

Screenshot 2024 04 18 at 11.49.0 jpg

En ce qui concerne les modèles de Llama 3, Meta affirme que son modèle 8B est meilleur que les modèles Gemma 7B et Mistral 7B de Google. Quant au modèle Llama 3 70B, il dépasse de peu le Gemini 1.5 Pro et obtient également de meilleurs résultats que le Claude 3 Sonnet dans le test de benchmark MMLU.

Screenshot 2024 04 18 at 11.54.4 jpg

Outre les benchmarks, Meta a également développé son propre ensemble de tests pour évaluer les performances des Llama 3 dans des domaines variés allant de la programmation à la rédaction créative. Malgré le développement interne de ces tests, Meta assure avoir maintenu l’objectivité en isolant les équipes de modélisation.

En termes de contenu, les Llama 3 bénéficient d’un ensemble de données nettement plus vaste, 7x plus grand que celui utilisé pour les Llama 2, et intégrant une proportion significative de données non anglophones pour améliorer la performance dans diverses langues. Cependant, ce choix pourrait susciter des controverses, notamment en raison de l’utilisation présumée de données protégées par le droit d’auteur dans des formations précédentes.

Screenshot 2024 04 18 at 11.49.3 jpg

Meta a également pris des mesures pour améliorer la gestion des problèmes de biais et de toxicité souvent associés aux modèles d’IA générative, en développant de nouvelles méthodes de filtrage des données et en mettant à jour ses outils de sécurité IA, tels que Llama Guard et CybersecEval.

Certaines restrictions imposées à Llama 3

Enfin, bien que les modèles Llama 3 soient décrits comme « ouverts », Meta impose certaines restrictions, notamment l’interdiction d’utiliser ces modèles pour entraîner d’autres modèles génératifs et des exigences de licence spéciales pour les développeurs d’applications à grand échelle.

Évidemment, il faudra tester ces modèles de manière approfondie pour évaluer sa position par rapport aux modèles concurrents. Mais pour l’instant, il semble que Meta ait lancé des modèles performants avec la famille Llama 3.

Lire plus
Intelligence Artificielle

Découverte de Grok-1.5V : Un modèle d’IA multimodal révolutionnaire

Découverte de Grok-1.5V : Un modèle d'IA multimodal révolutionnaire

xAI, une entreprise liée au célèbre innovateur Elon Musk, a dévoilé Grok 1.5 Vision, alias Grok-1.5V, un modèle d’IA multimodal innovant qui représente une avancée significative dans le domaine de l’intelligence artificielle.

Cette technologie sophistiquée est conçue pour interpréter et traiter une vaste gamme de données visuelles, ce qui représente une étape importante dans le développement de l’IA.

En explorant les subtilités de Grok-1.5V, il devient évident que ce modèle n’est pas une simple mise à jour incrémentale, mais un bond en avant qui a le potentiel de transformer notre interaction avec la technologie.

Capacités multimodales de Grok-1.5V Preview

Grok-1.5V est compétitif par rapport aux modèles multimodaux avant-gardiste existants dans un certain nombre de domaines, allant du raisonnement multidisciplinaire à la compréhension de documents, de diagrammes scientifiques, de graphiques, de captures d’écran et de photographies.

Nous sommes particulièrement enthousiasmés par les capacités de Grok à comprendre notre monde physique. Grok surpasse ses pairs dans notre nouveau benchmark RealWorldQA qui mesure la compréhension spatiale du monde réel. Pour tous les ensembles de données ci-dessous, nous évaluons Grok dans le cadre d’une prise de vue zéro, sans sollicitation de la chaîne de pensée.

L’une des caractéristiques les plus remarquables de Grok-1.5V est son intégration transparente du traitement des informations textuelles et visuelles. Cette fonctionnalité multimodale permet à l’IA de s’attaquer à des tâches complexes que les systèmes à mode unique ont du mal à réaliser. La capacité d’adaptation de Grok-1.5V est évidente : il navigue sans effort dans les documents, les diagrammes et les images, et promet de transformer la façon dont nous gérons et interprétons les données visuelles.

  • Intégration transparente du traitement des informations textuelles et visuelles
  • Capacité à gérer des tâches complexes dépassant le cadre des systèmes à mode unique
  • Adaptabilité à la navigation dans différents types de données visuelles

Grok-1.5V fait preuve de prouesses exceptionnelles en matière d’analyse spatiale de l’IA. Sa performance sur le benchmark RealWorldQA, développé par xAI et comprenant plus de 700 paires image-question, montre la remarquable capacité du modèle à comprendre et à interpréter les espaces et les objets du monde réel. Cette intelligence spatiale distingue Grok-1.5V de ses concurrents et met en évidence son potentiel pour les applications du monde réel.

Grok-1.5V : Apprentissage à partir de zéro et génération de code

Un autre domaine dans lequel Grok-1.5V excelle est celui de l’évaluation à partir de zéro. Le modèle fait preuve d’une capacité impressionnante à comprendre des tâches sans exemples préalables, démontrant ainsi son adaptabilité et sa flexibilité.

En outre, Grok-1.5V peut générer du code Python à partir de diagrammes, ce qui simplifie le processus de codage et stimule considérablement la productivité. À elle seule, cette fonctionnalité pourrait transformer le développement de logiciels et donner aux développeurs un outil puissant de prototypage et de mise en œuvre rapides. Ces diverses applications démontrent la polyvalence et la practicité de Grok-1.5V, ce qui en fait un outil précieux dans divers secteurs et domaines.

Comparaison avec d’autres modèles

Grok 1.5 Vision Preview benchmar jpg

Lorsqu’on le compare à d’autres modèles d’IA de premier plan, tels que GPT-4 Vision, CLA 3 Opus et Gemini 1.5 Pro, Grok-1.5V fournit systématiquement des résultats compétitifs, voire supérieurs, dans toute une série de benchmarks. Ces performances soulignent l’engagement de xAI à repousser les limites de l’IA multimodale, qui englobe les images, l’audio et la vidéo. La capacité de Grok-1.5V à tenir tête aux modèles établis témoigne de sa robustesse et de son efficacité.

Bien que Grok-1.5V ne soit pas encore disponible, xAI prévoit de le mettre bientôt à la disposition des premiers testeurs et des utilisateurs actuels de Grok, en guise de preview.

Lire plus
Intelligence Artificielle

Qu’est-ce que Claude AI et son utilisation est-elle gratuite ?

Qu'est-ce que Claude AI et son utilisation est-elle gratuite ?

L’apogée du boom des chatbots d’IA est peut-être passé, mais il existe aujourd’hui une variété de chatbots d’IA générative compétitifs, dont Claude AI que nous allons découvrir dans la suite de cet article.

ChatGPT d’OpenAI a été le premier à captiver le monde avec son impressionnant chatbot à l’apparence humaine, capable de raconter des blagues et d’expliquer des recherches scientifiques détaillées et compliquées. Le tout à partir d’un simple texte écrit par un humain. Cette révélation a déclenché une intense course à l’armement en matière d’IA, les plus grandes entreprises du monde cherchant à s’approprier une part du gâteau, tandis que de nouvelles sociétés apparaissaient avec leurs propres produits d’IA.

Google et Microsoft ne sont que deux exemples de grandes entreprises technologiques qui ont fait leur entrée dans le secteur de l’IA au cours des dernières années.

L’un des grands rivaux de ChatGPT dans le secteur des chatbots génératifs est Claude AI, qui a été lancé en 2023.

À qui appartient Claude AI ?

Claude AI appartient à la startup californienne Anthropic, spécialisée dans l’IA, et a été fondée en 2021 par d’anciens membres dirigeants d’OpenAI, Daniella et Dario Amodei. Dario était auparavant vice-président de la recherche d’OpenAI. Ils font partie des nombreux employés d’OpenAI qui ont quitté l’entreprise en 2019 en raison de la direction des affaires, y compris le travail de l’entreprise aux côtés de Microsoft.

En quelques années, l’entreprise a levé 700 millions de dollars de financement et vers la fin de 2023, Amazon a été annoncé comme une partie prenante minoritaire après avoir investi jusqu’à 4 milliards de dollars. Depuis, Google a également investi 400 millions de dollars dans Anthropic.

L’entreprise, qui compte aujourd’hui plus de 150 employés, a créé une famille de Large Language Model (LLM) appelée Claude. Le point fort d’Anthropic est ce qu’elle appelle l’« IA constitutionnelle », une approche développée pour former les LLM à être aussi éthiques que possible. Le chatbot est formé sur la base de principes tirés de la Déclaration universelle des droits de l’homme de 1948, afin qu’il puisse se comporter de manière sûre, précise et sécurisée.

Claude 2 puis Claude 3

Anthropic a lancé la première itération de Claude en mars 2023, puis Claude 2 en juillet 2023. Claude 2 s’est distingué sur le marché par la possibilité de télécharger des PDF et d’autres documents à des fins de synthèse et d’analyse.

En mars 2024, Anthropic a lancé Claude 3, qui, selon l’entreprise, a établi de nouvelles références dans un large éventail de tâches cognitives. Claude 3 est une famille — Haiku, Sonnet et Opus — de modèles qui présentent différents niveaux de capacités, de connaissances et de sophistication.

image 3 jpg

Anthropic est aujourd’hui évaluée à environ 20 milliards de dollars et est une société d’utilité publique, c’est-à-dire une entreprise qui a l’intention de faire des bénéfices, mais d’une manière qui profite au public et à ses utilisateurs.

Qu’est-ce que Claude AI ?

Dans sa forme la plus basique, Claude AI est la version d’Anthropic de ChatGPT. Comme ChatGPT 3.5, son jeu de données a une date limite — 2022 — et il ne peut pas se connecter à Internet, ce qui limite sa précision lorsqu’il répond à des questions liées à des événements qui se sont produits après 2022.

Le chatbot est formé pour avoir des conversations textuelles naturelles, analogues à celles des humains, et il est utilisé de préférence pour les résumés, les questions-réponses, la prise de décision, l’écriture de codes et les résumés.

Claude est également le nom du LLM sous-jacent qui alimente les modèles Claude. Outre Claude, il existe également Claude Instant, qui est une itération plus légère et plus rapide de Claude, et Claude 3, qui est le dernier-né de la famille. Claude se distingue de ses concurrents par plusieurs caractéristiques. Il excelle dans la fluidité de la conversation et peut tenir sa place dans des conversations engageantes, et il est fier de son exactitude factuelle et de sa transparence.

Il est également très rapide. Par exemple, j’ai téléchargé une copie de mon CV et j’ai demandé à Claude de le résumer pour moi. Il lui a fallu moins de quelques secondes pour me renvoyer sept points sur mon CV, y compris une chronologie de ma carrière et un résumé général de mon expertise et de mon expérience.

5d20371eeb8d045465bb22cacfd269b5 jpg

Claude dispose actuellement d’une fenêtre contextuelle de 200 000 mots, ce qui signifie qu’il peut traiter des entrées textuelles d’environ 150 000 mots ou 500 pages de documents écrits. Cela réduit considérablement les risques d’hallucinations pour les utilisateurs — c’est-à-dire lorsqu’un chatbot répond par quelque chose qui n’est pas conforme aux faits — et permet aux entreprises d’utiliser le chatbot pour analyser et résumer des documents volumineux avec rapidité et précision.

Comment utiliser Claude AI : étape par étape

S’inscrire

L’utilisation de Claude AI est simple. Il suffit de se rendre sur claude.ai et de s’inscrire à l’aide d’une adresse électronique. Vous devrez ensuite donner votre nom et accepter la politique d’utilisation acceptable d’Anthropic ainsi que le fait que Claude n’est pas parfait et qu’il peut générer des informations incorrectes ou trompeuses. Les formalités habituelles.

Une fois les formalités accomplies, vous accédez à la page d’accueil de Claude. Le modèle auquel vous avez automatiquement accès est Claude 3 Sonnet, qui est le deuxième modèle Claude le plus intelligent d’Anthropic.

Saisir les prompts

Claude 3 Sonnet peut comprendre et travailler avec des images, ainsi qu’avec du texte et des documents, de sorte que vous pouvez télécharger une image pour que Claude en extraie le texte, convertir le design de l’interface utilisateur en code front, demander à Claude de recommander des améliorations de style pour une photo d’un décor particulier ou de générer une recette à partir d’une photo d’une assiette de nourriture — parfait pour les designers d’intérieur, les codeurs et les chefs en herbe, par exemple.

Pour commencer à utiliser Claude 3 Sonnet, il vous suffit de saisir un message dans la zone de texte ou de télécharger un fichier et de lui donner des instructions sur ce que vous voulez que le modèle en fasse. Claude peut lire des PDF, des documents Word et bien plus encore.

Soyez clair et précis

Pour obtenir les meilleurs résultats lors de l’utilisation de Claude AI, il est conseillé de poser des questions claires et précises. Plus votre demande est détaillée, meilleure sera la réponse. En outre, essayez toujours de fournir un contexte lorsque c’est possible, ce qui permet à Claude de comprendre les détails pertinents.

image 4 jpg

Il est également utile d’effectuer un suivi de vos questions initiales pour obtenir des éclaircissements supplémentaires. Claude s’efforcera toujours d’expliquer les sujets plus en détail si on le lui demande. Vous pouvez également demander à Claude s’il a besoin de plus d’informations ou s’il a des questions à vous poser avant de répondre à votre demande.

Pratique

En outre, cela vaut la peine de tester Claude et de voir quelles sont ses limites et comment il peut être utile pour vos propres besoins. Essayez de télécharger des documents et d’avoir des conversations générales avec lui pour vous faire une idée de ses capacités. Vous saurez ainsi comment utiliser au mieux Claude AI dans vos tâches quotidiennes, que ce soit à des fins professionnelles ou personnelles.

L’utilisation de Claude AI est-elle gratuite ?

Claude AI est gratuit dans certaines limites, qui sont actuellement d’environ 30 messages par jour. Il suffit d’une adresse e-mail pour accéder à la version gratuite.

Pour accéder aux modèles Claude AI plus rapides et plus intelligents d’Anthropic, il faut payer 20 dollars par mois, facturés annuellement. Claude Pro offre beaucoup plus de fonctionnalités, notamment la possibilité de personnaliser entièrement le personnage et d’intégrer Claude dans des applications tierces, telles que Slack, 5 fois plus de messages que la version gratuite et un accès anticipé aux nouvelles fonctionnalités.

Lire plus
Intelligence Artificielle

Google lance MedLM pour la santé : modèles d’IA accessibles aux organisations aux États-Unis

Google lance MedLM pour la santé : modèles d'IA accessibles aux organisations aux États-Unis

Google a indiqué qu’elle mettait MedLM, une famille de modèles de base adaptés au secteur de la santé, à la disposition des organisations basées aux États-Unis par l’intermédiaire de Vertex AI. Ce modèle s’appuie sur le modèle de base Med-PaLM 2 introduit au début de l’année et devrait bientôt être mis à jour à l’aide de Gemini.

L’IA générative, qui peut être utilisée pour créer de nouveaux contenus tels que du texte ou des images, est devenue un sujet de plus en plus populaire dans le secteur de la santé, et des géants de la technologie tels que Microsoft, Oracle et Amazon ont annoncé des produits destinés à ce secteur cette année.

Bien que relativement peu d’organismes de santé aient actuellement adopté des outils d’IA générative, plus de la moitié des dirigeants ont déclaré qu’ils envisageaient d’acheter ou de mettre en œuvre ces produits au cours de l’année prochaine, selon une récente enquête de Klas Research.

La dernière famille de modèles de base s’appuie sur Med-PaLM 2, le Large Language Model de Google formé à partir d’informations médicales. Le LLM a été révélé en mars de cette année, et le géant de la technologie a annoncé cet été qu’il étendrait l’accès à davantage d’organisations de soins de santé après qu’un groupe restreint — dont HCA Healthcare, Mayo Clinic et Meditech — a commencé à tester les outils.

Les deux modèles de soins de santé visent à offrir de la flexibilité aux organismes de soins de santé lorsqu’ils mettent en œuvre l’IA pour différentes tâches, ont écrit Yossi Matias, vice-président de l’ingénierie et de la recherche chez Google, et Aashima Gupta, directeur mondial de la stratégie et des solutions de soins de santé chez Google Cloud, dans l’article de blog.

MedLM : Divers modèles utilisés

L’opérateur d’hôpitaux à but lucratif HCA a utilisé les modèles avec les produits de documentation Augmedix dans les salles d’urgence pour créer des notes médicales rédigées à partir de conversations avec les patients, qui peuvent ensuite être examinées par les médecins avant d’être transférées dans un dossier médical électronique.

Les modèles MedLM ont également été testés par la société de services professionnels Accenture pour automatiser la lecture des documents cliniques, l’inscription et le traitement des demandes de remboursement ; par le cabinet de conseil Deloitte pour aider les bénéficiaires de régimes de santé à trouver les prestataires de services du réseau ; et par la société BenchSci, spécialisée dans la découverte de médicaments par l’IA, pour accélérer la recherche et le développement précliniques.

Le premier des deux modèles MedLM est plus grand et conçu pour les tâches complexes, tandis que le second peut être étendu à d’autres fonctions.

Le géant de la technologie a ajouté que de nombreuses entreprises qui ont testé MedLM sont en train de passer les outils en production ou d’élargir leurs expériences.

Lire plus
Intelligence Artificielle

Claude 3 Haiku : L’IA qui transforme vos paroles en code !

Claude 3 Haiku : L'IA qui transforme vos paroles en code !

Imaginez un monde où il vous suffirait de parler à votre ordinateur pour qu’il écrive du code à votre place. Il ne s’agit pas d’une scène tirée d’un film de science-fiction ; c’est en train de se produire.

L’intelligence artificielle (IA) modifie la façon dont nous créons des logiciels en nous permettant de convertir nos paroles en code informatique. Cette avancée change la donne pour tous les programmeurs, rendant le codage plus accessible et plus efficace.

Au cœur de cette innovation se trouve un moteur sophistiqué de traitement du langage naturel (NLP). Cette technologie écoute votre voix, comprend vos instructions et les transforme en code fonctionnel dans des langages tels que Python, JavaScript, Go et HTML. Le processus commence par la transcription précise de vos paroles par l’IA, qui saisit votre intention avec précision. Elle détermine ensuite le langage de programmation à utiliser et se met au travail pour écrire le code.

L’une des principales caractéristiques de ce système est le modèle Claude 3 Haiku. Ce modèle garantit que le code qu’il écrit est non seulement correct, mais qu’il s’exécute efficacement. Il est suffisamment intelligent pour gérer les dépendances, en ajoutant les bibliothèques ou les frameworks nécessaires pour s’assurer que le code s’exécute sans problème.

Claude 3 Haiku : Utilisation de Speech-to-Code

Les erreurs font partie intégrante du codage, mais ce système d’IA est conçu pour en tirer des leçons. À chaque tentative, il s’améliore pour comprendre vos commandes et produire le code que vous imaginez. Ce qui est vraiment impressionnant dans ce système, c’est sa flexibilité. Il peut être mis à jour pour prendre en charge les nouveaux langages de programmation au fur et à mesure de leur apparition, de sorte qu’il reste utile, quelle que soit l’évolution de la technologie. Vous pouvez même le personnaliser pour qu’il réponde à vos besoins spécifiques.

Le système a déjà montré qu’il était capable de prendre en charge toute une série de tâches. Il peut créer des fichiers, construire des pages Web et gérer des opérations complexes, le tout à l’aide de commandes vocales. Ces prouesses montrent à quel point le système est puissant et adaptable.

Claude 3 Haiku

Claude 3 Haiku est un modèle d’IA révolutionnaire qui établit une nouvelle norme en matière de vitesse, de prix et de polyvalence dans sa catégorie d’intelligence. Avec des capacités de vision de pointe et des performances impressionnantes dans les tests de référence de l’industrie, Haiku est une solution convaincante pour un large éventail d’applications d’entreprise. Son intégration dans l’API Claude et sa disponibilité sur claude.ai pour les abonnés Claude Pro le rendent facilement accessible aux entreprises qui cherchent à tirer parti de ses puissantes capacités.

L’une des caractéristiques les plus remarquables de Claude 3 Haiku est sa vitesse exceptionnelle. En traitant 21 000 tokens (environ 30 pages) par seconde pour des requêtes inférieures à 32 000 tokens, Haiku est trois fois plus rapide que ses homologues pour la majorité des charges de travail. Cette vitesse est cruciale pour les utilisateurs en entreprise qui ont besoin d’analyser de grands ensembles de données et de générer des résultats rapidement pour des tâches telles que l’assistance à la clientèle. De plus, la rapidité de production de Haiku permet des expériences de chat réactives et engageantes, ainsi que la capacité d’exécuter plusieurs petites tâches simultanément.

Un autre avantage clé de Claude 3 Haiku est sa rentabilité. Avec un ratio de 1:5 pour les jetons d’entrée et de sortie, le modèle de tarification de Haiku est adapté aux charges de travail des entreprises qui impliquent souvent des prompts plus longs. Cela permet aux entreprises d’analyser de gros volumes de documents, tels que des déclarations trimestrielles, des contrats ou des affaires juridiques, pour la moitié du coût des autres modèles de son niveau de performance. Par exemple, Claude 3 Haiku peut traiter et analyser un nombre impressionnant de 400 affaires de la Cour suprême ou 2 500 images pour seulement un dollar américain.

Au-delà de sa vitesse et de son prix abordable, Claude 3 Haiku donne la priorité à la sécurité et à la robustesse de niveau entreprise. Des tests rigoureux sont effectués pour minimiser le risque de sorties nuisibles et de jailbreaks, garantissant ainsi que les modèles sont aussi sûrs que possible. Les mesures de sécurité supplémentaires comprennent la surveillance continue des systèmes, le renforcement des points d’extrémité, des pratiques de codage sécurisées, des protocoles de chiffrement des données solides et des contrôles d’accès rigoureux pour protéger les données sensibles. Des audits de sécurité réguliers et la collaboration avec des testeurs de pénétration expérimentés renforcent encore l’identification proactive et l’atténuation des vulnérabilités.

Un changement dans la façon dont nous concevons la programmation

Avec ce lancement, les clients peuvent désormais exploiter les capacités de Claude 3 Haiku via l’API Claude ou avec un abonnement Claude Pro sur claude.ai. Le modèle est également disponible sur Amazon Bedrock et sera bientôt accessible sur Google Cloud Vertex AI, ce qui en fait une solution polyvalente et largement disponible pour les entreprises qui cherchent à exploiter la puissance de l’IA dans leurs opérations.

Cette approche du codage axée sur l’IA est plus qu’un nouvel outil, c’est un changement dans la façon dont nous concevons la programmation. Elle rend le codage plus inclusif, simplifie le processus de développement et favorise le travail d’équipe. Lorsque vous verrez vos idées se transformer en code réel et fonctionnel, vous comprendrez que l’avenir de la programmation ne se résume pas à la saisie, mais bien à la parole.

Lire plus