fermer
Intelligence Artificielle

Baidu lance PP-OCRv5 : un modèle OCR léger, rapide et précis disponible sur Hugging Face

Baidu lance PP-OCRv5 : un modèle OCR léger, rapide et précis disponible sur Hugging Face
Baidu lance PP-OCRv5 : un modèle OCR léger, rapide et précis disponible sur Hugging Face

Après le lancement de son modèle de raisonnement profond Ernie X1.1, Baidu continue d’accélérer dans l’IA avec une nouveauté taillée pour un cas d’usage bien concret : la reconnaissance optique de caractères (OCR).

Son nouveau modèle, PP-OCRv5, est désormais disponible sur Hugging Face et se démarque par un équilibre rare entre précision et légèreté.

Pourquoi PP-OCRv5 de Baidu se distingue ?

Contrairement aux énormes modèles vision-langage (comme GPT-4o ou Gemini 2.5 Pro), PP-OCRv5 n’a pas vocation à tout faire.

Il se concentre sur un problème spécifique : lire du texte dans les images et documents structurés, avec une grande fiabilité et rapidité.

Deux étapes clés :

  1. Localisation – le modèle détecte où se trouve le texte et trace des boîtes précises autour.
  2. Lecture – il convertit ensuite ces caractères en texte exploitable.

Résultat : une meilleure extraction de données pour les factures, formulaires ou tout document où la mise en page compte.

Un modèle ultra-léger mais performant

  • Taille : seulement 0,07 milliard de paramètres (beaucoup plus compact que ses concurrents).
  • Vitesse : jusqu’à 370 caractères/seconde sur un processeur Intel Xeon.
  • Compatibilité : fonctionne sur des ordinateurs classiques ou même des appareils en edge computing, pas besoin de fermes de serveurs.

En tests comparatifs, PP-OCRv5 a surpassé GPT-4o, Gemini 2.5 Pro et Qwen2.5-VL dans les tâches OCR, aussi bien sur du texte imprimé que manuscrit.

Un modèle vraiment multilingue

Baidu a conçu son modèle pour un usage global :

  • Supporte plus de 40 langues (anglais, chinois simplifié et traditionnel, japonais, pinyin, etc.).
  • Gère aussi bien les textes imprimés que manuscrits.
  • Prend en compte les problèmes pratiques : rotation, distorsion, orientation du texte.

Disponibilité et cas d’usage

Bonne nouvelle : PP-OCRv5 est accessible gratuitement sur Hugging Face. Cela ouvre la porte à des entreprises voulant automatiser le traitement de documents, des développeurs travaillant sur des applis multilingues, et des solutions edge où l’efficacité prime sur la puissance brute.

Avec PP-OCRv5, Baidu prouve qu’il n’est pas toujours nécessaire de miser sur des modèles massifs pour obtenir de la précision. Compact, rapide et multilingue, il se positionne comme une alternative pratique et accessible pour l’OCR moderne.

Et surtout, son intégration sur Hugging Face en fait un outil immédiatement exploitable par la communauté.

Tags : BaiduHugging Face
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.