fermer
Intelligence Artificielle

Gemini 1.5 Pro : Google étend les capacités d’IA à l’audio et à la vidéo

Gemini Pro GfD jpg
Gemini 1.5 Pro : Google étend les capacités d'IA à l'audio et à la vidéo

Lors de l’événement Cloud Next, Google a annoncé une mise à jour significative pour son modèle d’intelligence artificielle, Gemini 1.5 Pro. Annoncé pour la première fois en février, ce modèle est désormais disponible en preview public et se distingue par sa faculté à analyser non seulement le texte et les images, mais aussi l’audio et la vidéo.

Ainsi, cette nouvelle version permet désormais au modèle d’écouter des fichiers audio et d’en extraire des informations, ce qui est particulièrement utile pour analyser des appels de résultats ou des contenus audiovisuels sans nécessiter de transcription écrite.

Gemini 1.5 Pro, décrit comme le modèle intermédiaire de la gamme Gemini, se distingue en surpassant en performances Gemini Ultra, le modèle le plus avancé jusqu’à présent. Cette version améliorée de Gemini élimine le besoin de personnalisation fine des modèles, simplifiant son utilisation.

Ce développement marque une avancée majeure pour l’IA de Google, permettant une analyse intermodale fluide. Les utilisateurs peuvent désormais obtenir des transcriptions de haute qualité et effectuer des recherches dans le contenu audio et vidéo, ce qui est particulièrement utile pour parcourir des appels de résultats ou des réunions d’investisseurs.

maxresdefault jpg

Google affirme que Gemini 1.5 Pro surpasse Gemini 1.0 Pro dans 87 % des benchmarks et rivalise presque avec Gemini 1.0 Ultra. Le modèle est capable de traiter 1 heure de vidéo, 11 heures d’audio, des bases de code de plus de 30 000 lignes, ou plus de 700 000 mots en un seul flux, soulignant ainsi sa puissance et sa polyvalence, ce qui est 4x plus que le modèle phare de Anthropic, Claude 3, et 8x plus que le contexte maximal de GPT-4 Turbo d’OpenAI.

Screenshot 2024 02 21 at 3.55.11 jpg

Cette fenêtre de contexte élargie permet à Gemini 1.5 Pro de mieux suivre le flux narratif des données, de générer des réponses plus riches en contexte et de réduire le besoin de peaufinage et d’ancrage factuel.

Gemini 1.5 Pro exclusif Vertex AI

Cependant, l’accès à Gemini 1.5 Pro est exclusif aux utilisateurs de Vertex AI, la plateforme de développement d’applications IA de Google. La plupart des utilisateurs connaissent les modèles Gemini à travers le chatbot Gemini, avec Gemini Ultra alimentant la version avancée de ce chatbot.

Google a également révélé que Gemini 1.5 Pro commencerait à intégrer d’autres produits de son écosystème d’entreprise, notamment Code Assist, son outil d’assistance à la programmation générative. Les développeurs pourront effectuer des modifications « à grande échelle » dans les bases de code, par exemple en mettant à jour les dépendances entre fichiers et en révisant de grands blocs de code.

D’autres nouveautés annoncées

Outre Gemini, Imagen 2, le modèle de génération d’images de Google, a également été mis à jour pour inclure les fonctionnalités d’inpainting et d’outpainting, permettant aux utilisateurs de modifier les images plus librement. Google a aussi intégré la fonctionnalité de watermarking digital SynthID à toutes les images créées par les modèles Imagen, qui ajoute un filigrane invisible détectable par des outils spécifiques, garantissant l’origine des images.

En parallèle, Google explore une intégration de ses réponses d’IA avec Google Recherche pour fournir des informations actualisées, répondant à un besoin crucial d’informations à jour, notamment écartées délibérément parfois, comme pour les questions relatives aux élections américaines de 2024.

Tags : Cloud Next 2024GeminiGemini 1.5 ProGoogle
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.