Classement des moteurs
| #↑ | Concurrent↕ | CER exact↕ | CER diplo.↕ | WER↕ | MER↕ | WIL↕ | Ligatures↕ | Diacritiques↕ | Gini↕ | Ancrage↕ | CER médian | CER min | CER max | Sur-norm. | Docs |
|---|
CER < 5 %
5–15 %
15–30 %
> 30 %
Galerie des documents
Sélectionner un document
Image originale
🖼
Sélectionnez un document
Vérité terrain (GT)
✓ Ground Truth
—
Sorties OCR — diff par moteur
Distribution du CER par moteur
Profil des moteurs (radar)
Axe radar : CER, WER, MER, WIL — valeurs inversées (plus c'est haut, meilleur est le moteur).
CER par document (tous moteurs)
Temps d'exécution moyen (secondes/document)
Qualité image ↔ CER (scatter plot)
Chaque point = un document. Axe X = score qualité image [0–1]. Axe Y = CER. Corrélation négative attendue.
Taxonomie des erreurs par moteur
Distribution des classes d'erreurs (classes 1–9 de la taxonomie Picarones).
Courbes de fiabilité
Pour les X% documents les plus faciles (triés par CER croissant), quel est le CER moyen cumulé ?
Une courbe basse = moteur performant même sur les documents faciles.
Intervalles de confiance à 95 % (bootstrap)
IC à 95% sur le CER moyen par moteur (1000 itérations bootstrap).
Erreurs communes / exclusives (Venn)
Intersection des ensembles d'erreurs entre les 2 ou 3 premiers concurrents.
Erreurs communes = segments partagés.
Tests de Wilcoxon — comparaisons par paires
Test signé-rangé de Wilcoxon (non-paramétrique). Seuil α = 0.05.
Clustering des patterns d'erreurs
Gini vs CER moyen — idéal : bas-gauche
Axe X = CER moyen, Axe Y = coefficient de Gini. Un moteur idéal a CER bas ET Gini bas (erreurs rares et uniformes).
Ratio longueur vs ancrage — hallucinations VLM
Axe X = score d'ancrage trigrammes [0–1]. Axe Y = ratio longueur sortie/GT.
Zone ⚠️ : ancrage < 0.5 ou ratio > 1.2 → hallucinations probables.
Matrice de corrélation entre métriques
Coefficient de Pearson entre les métriques CER, WER, qualité image, ligatures, diacritiques.
Vert = corrélation positive, Rouge = corrélation négative.