Si vous avez utilisé l’API OpenAI, vous avez peut-être déjà rencontré le terme « limites de taux », mais vous ne savez pas exactement à quoi il fait référence. Ce guide rapide vous permettra de mieux comprendre ce que sont les limites de taux de ChatGPT et pourquoi elles sont importantes.

Les limites de taux peuvent être un peu difficiles à comprendre si vous ne les connaissez pas. Si vous atteignez fréquemment la limite, vous devrez peut-être évaluer votre utilisation et l’ajuster en conséquence.

Vous pouvez même envisager de soumettre une demande d’augmentation de la limite tarifaire.

Que sont les limites de taux de ChatGPT ?

Les limites de taux font référence au nombre maximum de fois qu’un utilisateur ou un client peut accéder au serveur au cours d’une période donnée. Il s’agit essentiellement de restrictions imposées par une API.

Les limites de taux sont une pratique courante dans les API et sont mises en œuvre pour un certain nombre de raisons :

Pour se protéger contre les abus ou les mauvaises utilisations : Elles sont utiles pour dissuader un acteur malhonnête de surcharger l’API de demandes, ce qui pourrait perturber le service
Assurer un accès équitable : Cela permet de s’assurer qu’aucune personne ou organisation ne peut monopoliser le service en faisant un nombre excessif de demandes, ralentissant ainsi l’API pour tous les autres
Gérer la charge sur l’infrastructure : Une API peut être sollicitée si les demandes augmentent considérablement. Cela peut entraîner des problèmes de performance. Ainsi, les limites de taux aident à maintenir une expérience fluide et cohérente pour tous les utilisateurs.

Limites de taux de OpenAI

OpenAI applique des limites de taux au niveau de l’organisation, en fonction du endpoint spécifique utilisé et du type de compte que vous possédez. Vous pouvez voir les limites de taux pour votre organisation sur la page de gestion de compte. Les limites de débit sont mesurées de deux manières : RPM (requêtes par minute) et TPM (jetons par minute). Le tableau ci-dessous présente les limites de débit par défaut :

Utilisateurs de la version d’essai gratuite

Texte et intégration : 3 RPM, 150 000 TPM
Chat : 3 RPM, 40 000 TPM
Édition : 3 RPM, 150 000 TPM
Image : 5 images/min
Audio : 3 RPM

Utilisateurs payants (premières 48 heures)

Texte et intégration : 60 RPM, 250 000 TPM
Chat : 60 TPM, 60 000 TPM
Édition : 20 RPM, 150 000 tpm
Image : 50 images/min
Audio : 50 RPM

Utilisateurs payants (après 48 heures)

Texte et intégration : 3 500 RPM, 350 000 TPM
Chat : 3 500 RPM, 90 000 TPM
Édition : 20 RPM, 150 000 TPM
Image : 50 images/min
Audio : 50 RPM

Les limites de taux peuvent être augmentées en fonction de votre cas d’utilisation après avoir rempli un formulaire de demande d’augmentation des limites de taux.

L’unité TPM (jetons par minute) varie en fonction de la version du modèle :

Davinci : 1 jeton par minute
Curie : 25 jetons par minute
Babbage: 100 jetons par minute
Ada : 200 jetons par minute

En termes simples, cela signifie que vous pouvez envoyer environ 200x plus de jetons par minute à un modèle Ada qu’à un modèle Davinci.

Limites du taux GPT-4

Pendant le déploiement limité de la version bêta de GPT-4, le modèle a des limites de taux plus strictes pour répondre à la demande. Pour les utilisateurs qui paient à l’utilisation, les limites de taux par défaut pour gpt-4/gpt-4-0613 sont 40 k TPM et 200 RPM. Pour gpt-4-32k/gpt-4-32k-0613, les limites sont de 150 k TPM et 1 k RPM. OpenAI n’est actuellement pas en mesure de répondre aux demandes d’augmentation de la limite de taux en raison de contraintes de capacité.

Si votre limite de taux est de 60 requêtes par minute et 150 k tokens davinci par minute, vous serez limité soit par l’atteinte du plafond de requêtes/min, soit par l’épuisement des tokens, selon ce qui se produit en premier.

Si vous parvenez à atteindre votre limite de taux, vous devrez interrompre légèrement votre application pour permettre la requête suivante. Par exemple, si votre nombre maximum de requêtes par minute est de 60, cela équivaut à envoyer une requête par seconde. Si vous envoyez une demande toutes les 800 millisecondes, une fois que vous aurez atteint votre limite de débit, vous ne devrez interrompre votre programme que pendant 200 millisecondes avant de pouvoir envoyer une autre demande.

Toutefois, le fait d’atteindre une limite de débit n’est pas sans conséquences. Vous pouvez rencontrer une erreur qui ressemble à celle-ci :

Limite de taux atteinte pour default-text-davinci-002 dans l’organisation org — {id} sur les demandes par minute. Limite : 20,000 000/min. Courant : 24,000 000/min.

Cela signifie que vous avez effectué trop de demandes sur une courte période et que l’API refuse d’exécuter d’autres demandes jusqu’à ce qu’un délai suffisant se soit écoulé.

Tokens et limites de taux

Chaque modèle proposé comporte un nombre maximal de jetons pouvant être transmis en entrée lors d’une demande. Par exemple, si vous utilisez text-ada-001, le nombre maximum de jetons que vous pouvez envoyer à ce modèle est de 2 048 jetons par demande. Vous ne pouvez pas augmenter le nombre maximum de jetons qu’un modèle reçoit.

Bien que les limites de taux puissent sembler complexes, elles sont essentielles pour assurer le bon fonctionnement des API et garantir un accès équitable à tous. En comprenant et en travaillant dans les limites qui vous sont allouées, vous serez en mesure d’utiliser l’API OpenAI de manière efficace et sans interruption. Et n’oubliez pas que vous n’êtes pas seul dans cette situation — une assistance est toujours disponible si vous rencontrez des difficultés. Pour plus d’informations sur les limites de taux de l’OpenAI, consultez la documentation officielle.

Et si vous voulez récupérer une clé OpenAI, voici comment faire.

Bientôt une synchronisation complète entre Google Keep et Tasks

Google Meet simplifie le transfert d’appels entre appareils avec Transférer ici

Google et Microsoft collaborent pour améliorer l’expérience Office sur Chromebooks

Threads franchit le seuil des 150 millions d’utilisateurs actifs mensuels

Test des Nothing ear (a) : Performance premium à petit prix

Test de la Garmin Forerunner 165 : La montre de sport abordable pour 2024

Découverte de Google Gemini : l’assistant IA qui comprend vraiment

Test de la Navee S65C : une conduite urbaine et tout-terrain sans compromis

Samsung Galaxy Buds 3 Pro : Les détails de la batterie dévoilés

Android 15 renforce la confidentialité avec de nouvelles fonctions d’enregistrement d’écran

vivo X100s, le nouveau fleuron bientôt dévoilé

Samsung devrait organiser son prochain événement Galaxy Unpacked le 10 juillet

Des doutes sur l’authenticité des performances des puces Snapdragon X Elite et X Plus

Apple et TSMC, ensemble pour une avancée IA : Vers un processeur serveur

Dropbox : Chiffrement de bout en bout et intégrations avec Teams et Copilot

Meta dévoile Llama 3 : Un nouveau standard en IA pour raisonnement et codage

Découvrez GitLab Duo Chat : l’IA au service du développement logiciel

L’IA transforme le développement : 3/4 des développeurs l’utiliseront en 2028

Maximiser le développement avec ChatGPT : Conseils et limites

Google dévoile Gemini Code Assist : Une révolution IA pour les développeurs

Instagram propose un jeu d’emoji caché, voici comment y jouer

Les secrets du sommeil : comment la qualité du repos influence l’espérance de vie

9 outils d’IA pour vous aider à organiser votre vie en 2024

Optimisez votre MacBook : Guide des meilleures astuces de productivité

Quelles sont les limites de taux de l’API OpenAI de ChatGPT ?

Que sont les limites de taux de ChatGPT ?

Limites de taux de OpenAI

Limites du taux GPT-4

Tokens et limites de taux

Voici la charnière du Samsung Galaxy Z Fold 5 dans sa forme réelle

Le succès des ventes du Vision Pro d’Apple est confronté à une menace

The author Yohann Poiron

Quelles sont les limites de taux de l’API OpenAI de ChatGPT ?

Que sont les limites de taux de ChatGPT ?

Limites de taux de OpenAI

Limites du taux GPT-4

Tokens et limites de taux

The author Yohann Poiron

vous pourriez aussi aimer