Après le lancement de son modèle de raisonnement profond Ernie X1.1, Baidu continue d’accélérer dans l’IA avec une nouveauté taillée pour un cas d’usage bien concret : la reconnaissance optique de caractères (OCR).
Son nouveau modèle, PP-OCRv5, est désormais disponible sur Hugging Face et se démarque par un équilibre rare entre précision et légèreté.
Pourquoi PP-OCRv5 de Baidu se distingue ?
Contrairement aux énormes modèles vision-langage (comme GPT-4o ou Gemini 2.5 Pro), PP-OCRv5 n’a pas vocation à tout faire.
Il se concentre sur un problème spécifique : lire du texte dans les images et documents structurés, avec une grande fiabilité et rapidité.
Deux étapes clés :
- Localisation – le modèle détecte où se trouve le texte et trace des boîtes précises autour.
- Lecture – il convertit ensuite ces caractères en texte exploitable.
Résultat : une meilleure extraction de données pour les factures, formulaires ou tout document où la mise en page compte.
Un modèle ultra-léger mais performant
- Taille : seulement 0,07 milliard de paramètres (beaucoup plus compact que ses concurrents).
- Vitesse : jusqu’à 370 caractères/seconde sur un processeur Intel Xeon.
- Compatibilité : fonctionne sur des ordinateurs classiques ou même des appareils en edge computing, pas besoin de fermes de serveurs.
En tests comparatifs, PP-OCRv5 a surpassé GPT-4o, Gemini 2.5 Pro et Qwen2.5-VL dans les tâches OCR, aussi bien sur du texte imprimé que manuscrit.
Un modèle vraiment multilingue
Baidu a conçu son modèle pour un usage global :
- Supporte plus de 40 langues (anglais, chinois simplifié et traditionnel, japonais, pinyin, etc.).
- Gère aussi bien les textes imprimés que manuscrits.
- Prend en compte les problèmes pratiques : rotation, distorsion, orientation du texte.
Disponibilité et cas d’usage
Bonne nouvelle : PP-OCRv5 est accessible gratuitement sur Hugging Face. Cela ouvre la porte à des entreprises voulant automatiser le traitement de documents, des développeurs travaillant sur des applis multilingues, et des solutions edge où l’efficacité prime sur la puissance brute.
Avec PP-OCRv5, Baidu prouve qu’il n’est pas toujours nécessaire de miser sur des modèles massifs pour obtenir de la précision. Compact, rapide et multilingue, il se positionne comme une alternative pratique et accessible pour l’OCR moderne.
Et surtout, son intégration sur Hugging Face en fait un outil immédiatement exploitable par la communauté.


