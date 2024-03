Une autre semaine, un autre modèle d’IA a dépassé GPT-4, du moins sur les benchmarks. Cette fois-ci, il s’agit d’Anthropic, la société créée par Daniela et Dario Amodei, deux anciens membres d’OpenAI. La société a lancé une famille de modèles Claude 3 comprenant Opus (le plus grand et le plus performant), Sonnet (de taille moyenne) et Haiku (le plus petit).

Anthropic affirme que le modèle Claude 3 Opus bat le GPT-4 et le Gemini 1,0 Ultra sur tous les benchmarks les plus courants. Cette version innovante marque un tournant avec ses capacités multimodales, permettant une compréhension combinée de texte et d’images, contrairement à ses prédécesseurs.

Anthropic a testé les trois modèles sur des benchmarks populaires tels que MMLU, GPQA, GSM8K, MATH, HumanEval, HellaSwag, et bien d’autres. Sur MMLU, Claude 3 Opus a obtenu un score de 86,8 % tandis que GPT-4 a obtenu un score de 86,4 %. Gemini 1.0 Ultra a obtenu 83,7 % avec la même technique d’incitation à 5 coups.

Sur le test HumanEval, qui évalue la capacité de codage, le plus grand modèle Opus a obtenu un score de 84,9 %, bien supérieur aux 67 % de GPT-4 et aux 74,4 % de Gemini 1.0 Ultra. Le modèle Clade 3 Opus a même battu GPT-4 dans le test HellaSwag, mais avec une légère marge. Il a obtenu un score de 95,4 % alors que GPT-4 a obtenu 95,3 % et Gemini 1.0 Ultra 87,8 %.

Capacités de Claude 3

Dans l’ensemble, le plus grand modèle Claude 3 Opus semble très prometteur et on le testera certainement contre GPT-4, Gemini 1,5 Pro et Mistral Large, alors restez à l’écoute. En outre, Anthropic affirme que les trois modèles ont de grandes capacités d’analyse et de prévision, de création de contenu nuancé, de génération de code et de maîtrise des langues internationales telles que l’espagnol, le japonais et le français.

Les modèles Claude 3 ont également une capacité de vision, mais Anthropic ne les commercialise pas en tant que modèles multimodaux. Anthropic affirme que la capacité de vision de Claude 3 peut aider les entreprises à traiter les tableaux, les graphiques et les diagrammes techniques. Sur les benchmarks, il fait mieux que le GPT-4V mais est légèrement à la traîne par rapport au Gemini 1.0 Ultra.

Longueur de contexte de 200K

En ce qui concerne la longueur du contexte, Anthropic indique que les trois modèles offriront initialement une fenêtre de contexte de 200 000 jetons, ce qui est assez important. En outre, la société précise que les modèles de la famille Claude 3 peuvent traiter plus d’un million de jetons, mais que cette capacité ne sera disponible que pour certains clients.

Lors du test Needle In A Haystack (NIAH) avec plus de 200 000 jetons, le modèle Opus a obtenu des résultats exceptionnels avec une précision de plus de 99 %, tout comme Gemini 1.5 Pro. Claude a été l’un des meilleurs modèles d’IA pour la recherche de contexte long, et la performance s’est considérablement améliorée avec Claude 3.

Performances et prix

En ce qui concerne les performances, Anthropic indique que les modèles Claude 3 sont assez rapides et que le plus grand modèle Opus offre les mêmes performances que Claude 2 et 2.1, mais avec une meilleure intelligence. Le modèle Sonnet, de taille moyenne, est presque deux fois plus rapide que Claude 2 et 2.1. De plus, Anthropic mentionne que les modèles Claude 3 sont beaucoup moins susceptibles de refuser de répondre, ce qui était un problème avec les modèles précédents.

Vous pouvez commencer à utiliser le modèle phare Opus en vous abonnant à Claude Pro, qui coûte 23,60 dollars après taxes. Le modèle de taille moyenne Claude 3 Sonnet est déjà déployé sur la version gratuite de claude.ai. Enfin, les développeurs peuvent immédiatement accéder aux API pour les modèles Opus et Sonnet.

En ce qui concerne le prix de l’API, Claude 3 Opus avec une fenêtre contextuelle de 200K coûte 15 dollars par million de tokens (entrée) et 75 dollars par million de tokens (sortie). Par rapport à GPT-4 Turbo (10 dollars en entrée/30 dollars en sortie avec un contexte de 128 Ko), le prix semble assez élevé.

Les modèles Claude 3, entraînés sur des ensembles de données diversifiés et avec le soutien d’infrastructures fournies par AWS et Google Cloud, sont accessibles via la plateforme claude.ai et son API. Cette initiative est soutenue par d’importants investissements d’Amazon et Google, renforçant ainsi la position d’Anthropic dans le secteur de l’IA.