fermer
Intelligence Artificielle

Quelles sont les limites de taux de l’API OpenAI de ChatGPT ?

OpenAI API jpg
Quelles sont les limites de taux de l'API OpenAI de ChatGPT ?

Si vous avez utilisé l’API OpenAI, vous avez peut-être déjà rencontré le terme « limites de taux », mais vous ne savez pas exactement à quoi il fait référence. Ce guide rapide vous permettra de mieux comprendre ce que sont les limites de taux de ChatGPT et pourquoi elles sont importantes.

Les limites de taux peuvent être un peu difficiles à comprendre si vous ne les connaissez pas. Si vous atteignez fréquemment la limite, vous devrez peut-être évaluer votre utilisation et l’ajuster en conséquence.

Vous pouvez même envisager de soumettre une demande d’augmentation de la limite tarifaire.

Que sont les limites de taux de ChatGPT ?

Les limites de taux font référence au nombre maximum de fois qu’un utilisateur ou un client peut accéder au serveur au cours d’une période donnée. Il s’agit essentiellement de restrictions imposées par une API.

Les limites de taux sont une pratique courante dans les API et sont mises en œuvre pour un certain nombre de raisons :

  • Pour se protéger contre les abus ou les mauvaises utilisations : Elles sont utiles pour dissuader un acteur malhonnête de surcharger l’API de demandes, ce qui pourrait perturber le service
  • Assurer un accès équitable : Cela permet de s’assurer qu’aucune personne ou organisation ne peut monopoliser le service en faisant un nombre excessif de demandes, ralentissant ainsi l’API pour tous les autres
  • Gérer la charge sur l’infrastructure : Une API peut être sollicitée si les demandes augmentent considérablement. Cela peut entraîner des problèmes de performance. Ainsi, les limites de taux aident à maintenir une expérience fluide et cohérente pour tous les utilisateurs.

Limites de taux de OpenAI

OpenAI applique des limites de taux au niveau de l’organisation, en fonction du endpoint spécifique utilisé et du type de compte que vous possédez. Vous pouvez voir les limites de taux pour votre organisation sur la page de gestion de compte. Les limites de débit sont mesurées de deux manières : RPM (requêtes par minute) et TPM (jetons par minute). Le tableau ci-dessous présente les limites de débit par défaut :

Utilisateurs de la version d’essai gratuite

  • Texte et intégration : 3 RPM, 150 000 TPM
  • Chat : 3 RPM, 40 000 TPM
  • Édition : 3 RPM, 150 000 TPM
  • Image : 5 images/min
  • Audio : 3 RPM

Utilisateurs payants (premières 48 heures)

  • Texte et intégration : 60 RPM, 250 000 TPM
  • Chat : 60 TPM, 60 000 TPM
  • Édition : 20 RPM, 150 000 tpm
  • Image : 50 images/min
  • Audio : 50 RPM

Utilisateurs payants (après 48 heures)

  • Texte et intégration : 3 500 RPM, 350 000 TPM
  • Chat : 3 500 RPM, 90 000 TPM
  • Édition : 20 RPM, 150 000 TPM
  • Image : 50 images/min
  • Audio : 50 RPM

Les limites de taux peuvent être augmentées en fonction de votre cas d’utilisation après avoir rempli un formulaire de demande d’augmentation des limites de taux.

L’unité TPM (jetons par minute) varie en fonction de la version du modèle :

  • Davinci : 1 jeton par minute
  • Curie : 25 jetons par minute
  • Babbage: 100 jetons par minute
  • Ada : 200 jetons par minute

En termes simples, cela signifie que vous pouvez envoyer environ 200x plus de jetons par minute à un modèle Ada qu’à un modèle Davinci.

Limites du taux GPT-4

Pendant le déploiement limité de la version bêta de GPT-4, le modèle a des limites de taux plus strictes pour répondre à la demande. Pour les utilisateurs qui paient à l’utilisation, les limites de taux par défaut pour gpt-4/gpt-4-0613 sont 40 k TPM et 200 RPM. Pour gpt-4-32k/gpt-4-32k-0613, les limites sont de 150 k TPM et 1 k RPM. OpenAI n’est actuellement pas en mesure de répondre aux demandes d’augmentation de la limite de taux en raison de contraintes de capacité.

curlFINAL

Si votre limite de taux est de 60 requêtes par minute et 150 k tokens davinci par minute, vous serez limité soit par l’atteinte du plafond de requêtes/min, soit par l’épuisement des tokens, selon ce qui se produit en premier.

Si vous parvenez à atteindre votre limite de taux, vous devrez interrompre légèrement votre application pour permettre la requête suivante. Par exemple, si votre nombre maximum de requêtes par minute est de 60, cela équivaut à envoyer une requête par seconde. Si vous envoyez une demande toutes les 800 millisecondes, une fois que vous aurez atteint votre limite de débit, vous ne devrez interrompre votre programme que pendant 200 millisecondes avant de pouvoir envoyer une autre demande.

Toutefois, le fait d’atteindre une limite de débit n’est pas sans conséquences. Vous pouvez rencontrer une erreur qui ressemble à celle-ci :

Limite de taux atteinte pour default-text-davinci-002 dans l’organisation org — {id} sur les demandes par minute. Limite : 20,000 000/min. Courant : 24,000 000/min.

Cela signifie que vous avez effectué trop de demandes sur une courte période et que l’API refuse d’exécuter d’autres demandes jusqu’à ce qu’un délai suffisant se soit écoulé.

Tokens et limites de taux

Chaque modèle proposé comporte un nombre maximal de jetons pouvant être transmis en entrée lors d’une demande. Par exemple, si vous utilisez text-ada-001, le nombre maximum de jetons que vous pouvez envoyer à ce modèle est de 2 048 jetons par demande. Vous ne pouvez pas augmenter le nombre maximum de jetons qu’un modèle reçoit.

Bien que les limites de taux puissent sembler complexes, elles sont essentielles pour assurer le bon fonctionnement des API et garantir un accès équitable à tous. En comprenant et en travaillant dans les limites qui vous sont allouées, vous serez en mesure d’utiliser l’API OpenAI de manière efficace et sans interruption. Et n’oubliez pas que vous n’êtes pas seul dans cette situation — une assistance est toujours disponible si vous rencontrez des difficultés. Pour plus d’informations sur les limites de taux de l’OpenAI, consultez la documentation officielle.

Et si vous voulez récupérer une clé OpenAI, voici comment faire.

Tags : APIChatGPTOpenAI
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.