# Glossaire contextuel — français. # # Chaque entrée est affichée dans un panneau latéral quand l'utilisateur # clique sur le petit "?" à côté d'une en-tête de métrique du rapport. # # Structure par entrée : # title : titre court affiché en haut du panneau # definition : 2-3 phrases de définition formelle # measures : ce que la métrique mesure concrètement # usage : cas d'usage factuels (pas prescriptifs) # limits : limites connues, pièges fréquents # reference : référence bibliographique canonique cer: title: "CER — Character Error Rate" definition: >- Taux d'erreur au niveau caractère, calculé comme le rapport entre la distance de Levenshtein (substitutions + insertions + suppressions) et la longueur de la chaîne de référence. Exprimé en %. measures: >- La fidélité caractère-à-caractère entre la transcription prédite et la vérité terrain, sans normalisation. usage: >- Métrique la plus courante en évaluation OCR/HTR, adoptée par les compétitions ICDAR depuis les années 2000. limits: >- Insensible aux variantes graphiques (ſ vs s, u vs v) qui peuvent être codifiées dans la GT d'un corpus patrimonial — voir CER diplomatique. reference: >- Kay, M. (2007). "Optical Character Recognition". Handbook of Natural Language Processing, 2e éd. cer_nfc: title: "CER NFC" definition: >- CER calculé après normalisation Unicode NFC (Canonical Decomposition, followed by Canonical Composition) sur la référence et l'hypothèse. measures: >- La fidélité texte en ignorant les différences de représentation Unicode équivalentes (ex. é composé vs é décomposé). usage: >- Indispensable quand la GT et la sortie OCR utilisent des formes Unicode différentes mais sémantiquement équivalentes. limits: >- Ne règle pas les variantes graphiques signifiantes (ſ, ligatures non décomposables). reference: >- Unicode Technical Report #15 — Unicode Normalization Forms. cer_caseless: title: "CER insensible à la casse" definition: >- CER calculé après conversion en minuscules (``casefold``) de la référence et de l'hypothèse. measures: >- La fidélité texte en ignorant les différences majuscules/minuscules. usage: >- Utile pour les corpus où la casse n'est pas jugée signifiante (nombreux imprimés anciens, titres en capitales inconsistantes). limits: >- Masque les choix éditoriaux relatifs aux noms propres et aux débuts de phrase. reference: >- Ibid. — CER. cer_diplomatic: title: "CER diplomatique" definition: >- CER calculé après normalisation diplomatique d'un corpus patrimonial : fusion ``ſ=s``, ``u=v``, ``i=j``, développement des abréviations, etc. measures: >- Les erreurs substantielles, en ignorant les variantes graphiques codifiées par des conventions éditoriales (diplomatique vs normalisée). usage: >- Souvent utilisé en évaluation d'OCR/HTR de corpus pré-XIXᵉ où la GT conserve les graphies anciennes non pertinentes pour la recherche. limits: >- Masque les choix éditoriaux pertinents en philologie stricte. Le profil appliqué dépend de conventions (MUFI, Capitains…) qui varient selon les communautés. reference: >- Pierazzo, E. (2015). "Digital Scholarly Editing". Ashgate. wer: title: "WER — Word Error Rate" definition: >- Taux d'erreur au niveau mot, calculé comme la distance de Levenshtein mot-à-mot divisée par le nombre de mots de la référence. measures: >- La fidélité mot-à-mot, sensible à la segmentation (un espace mal placé compte comme deux erreurs). usage: >- Standard historique en reconnaissance de la parole, repris en OCR/HTR pour évaluer l'utilisabilité du texte pour la recherche plein-texte. limits: >- Très sensible à la segmentation. Un CER à 5 % peut correspondre à un WER à 20 % si les erreurs touchent des mots différents à chaque fois. reference: >- Morris, A. C., Maier, V., & Green, P. (2004). "From WER and RIL to MER and WIL". ICSLP. mer: title: "MER — Match Error Rate" definition: >- Variante du WER qui borne l'erreur à 1 en tenant compte des insertions (WER peut dépasser 1, MER non). measures: >- Une version plus stable du WER, bornée en [0, 1]. usage: >- Proposé par Morris et al. (2004) pour corriger l'asymétrie du WER en présence d'insertions excessives. limits: >- Moins répandu que le WER — les tables comparatives historiques utilisent souvent WER et non MER. reference: >- Morris, A. C., Maier, V., & Green, P. (2004). Ibid. wil: title: "WIL — Word Information Lost" definition: >- Mesure la perte d'information mot ; tient compte à la fois de ce qui a été correctement reconnu et du bruit introduit. measures: >- La quantité d'information sémantique perdue au niveau mot. usage: >- Utile en complément du WER pour diagnostiquer des hypothèses bruitées (beaucoup d'insertions sans rapport). limits: >- Interprétation moins intuitive qu'un simple taux d'erreur. reference: >- Morris, A. C., Maier, V., & Green, P. (2004). Ibid. ligature_score: title: "Score de ligatures" definition: >- Taux de ligatures (``fi``, ``fl``, ``œ``, ``æ``, ``ꝑ``, ``ꝓ``…) correctement restituées par le moteur. measures: >- La capacité du moteur à reconnaître les formes soudées caractéristiques des documents imprimés anciens et manuscrits médiévaux. usage: >- Indicateur fort pour l'édition critique et la philologie. limits: >- Dépend de la table de ligatures reconnue par Picarones — certaines ligatures rares peuvent être absentes. reference: >- MUFI — Medieval Unicode Font Initiative, Recommendations v4. diacritic_score: title: "Score de diacritiques" definition: >- Taux de conservation des diacritiques (accents aigus, graves, tildes, cédilles, trémas…) entre la GT et la sortie OCR. measures: >- La fidélité diacritique, mesurée après décomposition NFD. usage: >- Important pour les corpus multilingues et les transcriptions philologiques où les diacritiques sont signifiants. limits: >- Un moteur peut afficher un diacritique sur la mauvaise lettre — cette métrique seule ne le détecte pas. reference: >- Unicode Technical Report #15. taxonomy: title: "Taxonomie des erreurs (9 classes)" definition: >- Classification systématique de chaque erreur en 9 catégories : confusion visuelle, erreur diacritique, erreur de casse, erreur de ligature, abréviation, hapax, segmentation, caractère OOV, lacune. measures: >- Le profil d'erreurs d'un moteur — permet d'identifier ses faiblesses spécifiques. usage: >- Diagnostic fin sur un moteur donné, utile pour décider de changer de modèle ou d'ajuster un prompt de post-correction LLM. limits: >- La classification par ``difflib`` est heuristique ; un caractère peut tomber dans plusieurs classes simultanément. reference: >- Clausner, C., Antonacopoulos, A., Pletschacher, S. (2020). "ICDAR 2019 Competition on Recognition of Historical Arabic Scientific Manuscripts". confusion_matrix: title: "Matrice de confusion Unicode" definition: >- Tableau croisé recensant les substitutions (caractère GT → caractère OCR) et leur fréquence sur l'ensemble du corpus. measures: >- Les patterns de substitution caractère-à-caractère, symétriquement lisibles (quel caractère GT a été confondu avec quoi ?). usage: >- Comparer le "signe génétique" de deux moteurs : s'ils confondent les mêmes caractères, ils ont probablement été entraînés sur des données similaires. limits: >- Ne capture pas les erreurs de segmentation (espaces) ni les insertions sans correspondance GT. reference: >- Pletschacher, S., Clausner, C., Antonacopoulos, A. (2015). "Performance Analysis Framework for Layout Analysis Methods". gini: title: "Coefficient de Gini des erreurs" definition: >- Mesure la concentration des erreurs sur un document (entre 0 = erreurs uniformes sur toutes les lignes et 1 = toutes les erreurs concentrées sur une seule ligne). measures: >- La distribution inégale des erreurs dans un document — un Gini élevé signale qu'une petite fraction des lignes concentre la majorité des erreurs. usage: >- Permet d'identifier les zones difficiles (lignes marginales, notes, passages dégradés) qui tireraient bénéfice d'une correction ciblée. limits: >- Sensible au nombre de lignes — peu informatif sur un document très court. reference: >- Gini, C. (1912). "Variabilità e mutabilità". hallucination_score: title: "Score d'hallucination (LLM/VLM)" definition: >- Indicateur composite combinant ancrage trigrammes (part de trigrammes hypothèse présents dans le GT) et ratio de longueur sortie/GT pour détecter les hallucinations des pipelines LLM et VLM. measures: >- La probabilité que le modèle ait inventé du texte plutôt que l'ait lu sur l'image. usage: >- Essentiel pour les pipelines OCR+LLM et les VLM en zero-shot, où le CER seul est trompeur (un CER faible peut masquer une paraphrase hallucinée). limits: >- Une paraphrase fidèle au sens mais différente en forme peut être faussement flaguée. reference: >- Wiland, A. et al. (2024). "Hallucination Detection for Visual Language Models on Historical Documents". DHd. anchor_score: title: "Score d'ancrage trigrammes" definition: >- Proportion des trigrammes de mots de l'hypothèse OCR qui existent également dans la GT. measures: >- À quel point la sortie est "ancrée" dans le texte source. Un score élevé indique une transcription fidèle ; un score faible signale des hallucinations. usage: >- Complémentaire du CER pour les pipelines LLM/VLM. limits: >- Sur de très courtes sorties, le score peut être bruité (peu de trigrammes disponibles). reference: >- Wiland, A. et al. (2024). Ibid. length_ratio: title: "Ratio de longueur" definition: >- Rapport entre la longueur (caractères) de l'hypothèse et celle de la GT. Un ratio > 1,2 ou < 0,8 est un signal d'alerte. measures: >- L'excès ou le déficit de texte produit par le moteur. usage: >- Utilisé avec l'ancrage pour flaguer les hallucinations (LLM trop verbeux) ou les omissions (LLM qui abandonne les passages difficiles). limits: >- Dépend fortement du style de la GT (abrégé vs développé). reference: >- Wiland, A. et al. (2024). Ibid. bootstrap_ci: title: "Intervalle de confiance bootstrap" definition: >- Intervalle de confiance à 95 % du CER moyen, calculé par rééchantillonnage avec remise sur les documents (1000 itérations par défaut). measures: >- L'incertitude associée à la moyenne de CER — plus l'intervalle est large, moins le classement ordinal est fiable. usage: >- Indispensable pour accompagner tout CER moyen ; particulièrement important sur les petits corpus (< 30 documents). limits: >- Assume que les documents sont indépendants — pas vrai sur des séries (même scribe, même manuscrit). reference: >- Efron, B. (1979). "Bootstrap Methods: Another Look at the Jackknife". Annals of Statistics. wilcoxon: title: "Test de Wilcoxon signé-rangé" definition: >- Test non-paramétrique d'égalité entre deux séries de mesures appariées (mêmes documents, deux moteurs différents). measures: >- La significativité statistique d'un écart observé entre deux moteurs sans supposer la normalité des distributions. usage: >- Comparaison pairwise de deux moteurs sur un corpus. limits: >- Appliqué de façon répétée entre toutes les paires sur k moteurs, le risque d'erreur de type I augmente — préférer Friedman-Nemenyi pour comparer plus de deux moteurs. reference: >- Wilcoxon, F. (1945). "Individual Comparisons by Ranking Methods". Biometrics Bulletin. friedman: title: "Test de Friedman" definition: >- Équivalent non-paramétrique de l'ANOVA à mesures répétées : teste si au moins un moteur parmi k diffère des autres sur n documents. measures: >- Une différence globale entre k moteurs sur n blocs (documents). usage: >- Préambule au post-hoc de Nemenyi. Recommandé dès qu'on compare plus de deux moteurs pour contrôler le risque multi-comparaison. limits: >- Ne dit pas quelles paires diffèrent — le post-hoc est nécessaire. reference: >- Friedman, M. (1937). "The Use of Ranks to Avoid the Assumption of Normality Implicit in the Analysis of Variance". nemenyi: title: "Post-hoc de Nemenyi" definition: >- Test post-hoc appliqué après un test de Friedman pour identifier les paires de moteurs distinguables. Calcule une ``critical distance`` (CD) dépendant du nombre de moteurs et de documents. measures: >- Les paires de moteurs dont les rangs moyens diffèrent significativement. usage: >- Base du Critical Difference Diagram (Demšar 2006). limits: >- Conservateur par construction (corrige pour comparaisons multiples) ; peut manquer des différences réelles mais subtiles. reference: >- Nemenyi, P. (1963). "Distribution-free Multiple Comparisons". cdd: title: "Critical Difference Diagram" definition: >- Rendu graphique des résultats Friedman-Nemenyi : moteurs placés sur un axe horizontal (rang moyen), reliés par une barre s'ils ne sont pas statistiquement distinguables au seuil α. measures: >- L'ordonnancement global des moteurs et les groupes d'indiscernabilité. usage: >- Standard de facto en ML depuis Demšar 2006 pour comparer plusieurs systèmes sur plusieurs datasets. limits: >- Peut être difficile à lire quand plusieurs groupes se chevauchent partiellement. reference: >- Demšar, J. (2006). "Statistical Comparisons of Classifiers over Multiple Data Sets". JMLR 7:1-30. pareto_front: title: "Frontière de Pareto" definition: >- Ensemble des moteurs pour lesquels aucun autre n'offre simultanément une meilleure qualité ET un meilleur coût (ou une autre paire d'objectifs). measures: >- Les compromis "non dominés" — choisir en dehors du front Pareto est toujours sous-optimal, mais choisir sur le front dépend des priorités propres à l'institution. usage: >- Cœur de la vue qualité/coût du rapport. Utilisable aussi pour qualité/vitesse ou qualité/carbone. limits: >- Les coûts utilisés sont indicatifs (voir table ``pricing.yaml``) et vieillissent. Toujours revalider avec les factures réelles avant décision d'achat. reference: >- Pareto, V. (1906). "Manuale di economia politica". difficulty_score: title: "Score de difficulté intrinsèque" definition: >- Score [0, 1] combinant la variance inter-moteurs des CER, la qualité d'image et la densité de caractères spéciaux patrimoniaux. measures: >- À quel point un document est intrinsèquement difficile, indépendamment de l'instrument d'évaluation. usage: >- Permet de stratifier le rapport (documents faciles vs difficiles) et d'interpréter un CER global en tenant compte du corpus. limits: >- Les poids par défaut (0.4, 0.35, 0.25) sont heuristiques et peuvent être ajustés selon le contexte. reference: >- Stutzmann, D. (2017). "Clustering of medieval scripts through computer image analysis". normalization_profile: title: "Profil de normalisation" definition: >- Ensemble de règles de transformation appliquées à la GT et à l'hypothèse avant calcul du CER : fusion ſ=s, u=v, i=j, développement d'abréviations, exclusion de caractères, etc. measures: >- Le choix d'une convention éditoriale pour le calcul de CER — n'affecte pas les données sources. usage: >- Picarones fournit 9 profils préconfigurés (medieval_french, early_modern_english, medieval_latin…). D'autres profils peuvent être chargés via YAML. limits: >- Un profil trop agressif masque les vraies erreurs ; un profil trop strict sur-estime l'erreur. reference: >- Voir ``picarones/core/normalization.py`` pour la liste des profils. structure: title: "Scores structurels" definition: >- Ensemble de mesures au niveau structurel : taux de fusion de lignes, taux de fragmentation, ordre de lecture (LCS), conservation des paragraphes. measures: >- L'intégrité de la mise en page reconstruite, au-delà du texte caractère-à-caractère. usage: >- Crucial pour les documents multi-colonnes (journaux, bibles glosées) où un CER bas peut cacher un ordre de lecture brisé. limits: >- Dépend d'annotations de structure dans la GT — pas toujours disponibles. reference: >- Antonacopoulos, A. et al. (2015). "ICDAR 2015 Competition on Text Line Detection in Historical Documents". image_quality: title: "Qualité d'image" definition: >- Score composite [0, 1] combinant netteté (variance du laplacien), niveau de bruit, contraste, et estimation d'angle de rotation. measures: >- Les caractéristiques physiques de l'image source susceptibles de dégrader la reconnaissance. usage: >- Sert à stratifier les résultats (images "bonnes" vs "mauvaises") et à identifier les documents qui nécessiteraient un rescannage. limits: >- Score purement intrinsèque à l'image ; ne capture pas les difficultés paléographiques (écriture cursive, abréviations denses). reference: >- Antonacopoulos, A., Bridson, D., Papadopoulos, C., Pletschacher, S. (2009). "A Realistic Dataset for Performance Evaluation of Document Layout Analysis".