Spaces:
Sleeping
Sleeping
Claude
Sprint 6 du plan rapport — glossaire contextuel + panneau personnalisation
76e79a0 unverified | # Glossaire contextuel — français. | |
| # | |
| # Chaque entrée est affichée dans un panneau latéral quand l'utilisateur | |
| # clique sur le petit "?" à côté d'une en-tête de métrique du rapport. | |
| # | |
| # Structure par entrée : | |
| # title : titre court affiché en haut du panneau | |
| # definition : 2-3 phrases de définition formelle | |
| # measures : ce que la métrique mesure concrètement | |
| # usage : cas d'usage factuels (pas prescriptifs) | |
| # limits : limites connues, pièges fréquents | |
| # reference : référence bibliographique canonique | |
| cer: | |
| title: "CER — Character Error Rate" | |
| definition: >- | |
| Taux d'erreur au niveau caractère, calculé comme le rapport entre la | |
| distance de Levenshtein (substitutions + insertions + suppressions) et | |
| la longueur de la chaîne de référence. Exprimé en %. | |
| measures: >- | |
| La fidélité caractère-à-caractère entre la transcription prédite et la | |
| vérité terrain, sans normalisation. | |
| usage: >- | |
| Métrique la plus courante en évaluation OCR/HTR, adoptée par les | |
| compétitions ICDAR depuis les années 2000. | |
| limits: >- | |
| Insensible aux variantes graphiques (ſ vs s, u vs v) qui peuvent être | |
| codifiées dans la GT d'un corpus patrimonial — voir CER diplomatique. | |
| reference: >- | |
| Kay, M. (2007). "Optical Character Recognition". Handbook of Natural | |
| Language Processing, 2e éd. | |
| cer_nfc: | |
| title: "CER NFC" | |
| definition: >- | |
| CER calculé après normalisation Unicode NFC (Canonical Decomposition, | |
| followed by Canonical Composition) sur la référence et l'hypothèse. | |
| measures: >- | |
| La fidélité texte en ignorant les différences de représentation Unicode | |
| équivalentes (ex. é composé vs é décomposé). | |
| usage: >- | |
| Indispensable quand la GT et la sortie OCR utilisent des formes Unicode | |
| différentes mais sémantiquement équivalentes. | |
| limits: >- | |
| Ne règle pas les variantes graphiques signifiantes (ſ, ligatures non | |
| décomposables). | |
| reference: >- | |
| Unicode Technical Report #15 — Unicode Normalization Forms. | |
| cer_caseless: | |
| title: "CER insensible à la casse" | |
| definition: >- | |
| CER calculé après conversion en minuscules (``casefold``) de la | |
| référence et de l'hypothèse. | |
| measures: >- | |
| La fidélité texte en ignorant les différences majuscules/minuscules. | |
| usage: >- | |
| Utile pour les corpus où la casse n'est pas jugée signifiante | |
| (nombreux imprimés anciens, titres en capitales inconsistantes). | |
| limits: >- | |
| Masque les choix éditoriaux relatifs aux noms propres et aux débuts de | |
| phrase. | |
| reference: >- | |
| Ibid. — CER. | |
| cer_diplomatic: | |
| title: "CER diplomatique" | |
| definition: >- | |
| CER calculé après normalisation diplomatique d'un corpus patrimonial : | |
| fusion ``ſ=s``, ``u=v``, ``i=j``, développement des abréviations, etc. | |
| measures: >- | |
| Les erreurs substantielles, en ignorant les variantes graphiques | |
| codifiées par des conventions éditoriales (diplomatique vs normalisée). | |
| usage: >- | |
| Souvent utilisé en évaluation d'OCR/HTR de corpus pré-XIXᵉ où la GT | |
| conserve les graphies anciennes non pertinentes pour la recherche. | |
| limits: >- | |
| Masque les choix éditoriaux pertinents en philologie stricte. Le profil | |
| appliqué dépend de conventions (MUFI, Capitains…) qui varient selon les | |
| communautés. | |
| reference: >- | |
| Pierazzo, E. (2015). "Digital Scholarly Editing". Ashgate. | |
| wer: | |
| title: "WER — Word Error Rate" | |
| definition: >- | |
| Taux d'erreur au niveau mot, calculé comme la distance de Levenshtein | |
| mot-à-mot divisée par le nombre de mots de la référence. | |
| measures: >- | |
| La fidélité mot-à-mot, sensible à la segmentation (un espace mal placé | |
| compte comme deux erreurs). | |
| usage: >- | |
| Standard historique en reconnaissance de la parole, repris en OCR/HTR | |
| pour évaluer l'utilisabilité du texte pour la recherche plein-texte. | |
| limits: >- | |
| Très sensible à la segmentation. Un CER à 5 % peut correspondre à un | |
| WER à 20 % si les erreurs touchent des mots différents à chaque fois. | |
| reference: >- | |
| Morris, A. C., Maier, V., & Green, P. (2004). "From WER and RIL to MER | |
| and WIL". ICSLP. | |
| mer: | |
| title: "MER — Match Error Rate" | |
| definition: >- | |
| Variante du WER qui borne l'erreur à 1 en tenant compte des | |
| insertions (WER peut dépasser 1, MER non). | |
| measures: >- | |
| Une version plus stable du WER, bornée en [0, 1]. | |
| usage: >- | |
| Proposé par Morris et al. (2004) pour corriger l'asymétrie du WER en | |
| présence d'insertions excessives. | |
| limits: >- | |
| Moins répandu que le WER — les tables comparatives historiques | |
| utilisent souvent WER et non MER. | |
| reference: >- | |
| Morris, A. C., Maier, V., & Green, P. (2004). Ibid. | |
| wil: | |
| title: "WIL — Word Information Lost" | |
| definition: >- | |
| Mesure la perte d'information mot ; tient compte à la fois de ce qui | |
| a été correctement reconnu et du bruit introduit. | |
| measures: >- | |
| La quantité d'information sémantique perdue au niveau mot. | |
| usage: >- | |
| Utile en complément du WER pour diagnostiquer des hypothèses bruitées | |
| (beaucoup d'insertions sans rapport). | |
| limits: >- | |
| Interprétation moins intuitive qu'un simple taux d'erreur. | |
| reference: >- | |
| Morris, A. C., Maier, V., & Green, P. (2004). Ibid. | |
| ligature_score: | |
| title: "Score de ligatures" | |
| definition: >- | |
| Taux de ligatures (``fi``, ``fl``, ``œ``, ``æ``, ``ꝑ``, ``ꝓ``…) | |
| correctement restituées par le moteur. | |
| measures: >- | |
| La capacité du moteur à reconnaître les formes soudées caractéristiques | |
| des documents imprimés anciens et manuscrits médiévaux. | |
| usage: >- | |
| Indicateur fort pour l'édition critique et la philologie. | |
| limits: >- | |
| Dépend de la table de ligatures reconnue par Picarones — certaines | |
| ligatures rares peuvent être absentes. | |
| reference: >- | |
| MUFI — Medieval Unicode Font Initiative, Recommendations v4. | |
| diacritic_score: | |
| title: "Score de diacritiques" | |
| definition: >- | |
| Taux de conservation des diacritiques (accents aigus, graves, tildes, | |
| cédilles, trémas…) entre la GT et la sortie OCR. | |
| measures: >- | |
| La fidélité diacritique, mesurée après décomposition NFD. | |
| usage: >- | |
| Important pour les corpus multilingues et les transcriptions | |
| philologiques où les diacritiques sont signifiants. | |
| limits: >- | |
| Un moteur peut afficher un diacritique sur la mauvaise lettre — cette | |
| métrique seule ne le détecte pas. | |
| reference: >- | |
| Unicode Technical Report #15. | |
| taxonomy: | |
| title: "Taxonomie des erreurs (9 classes)" | |
| definition: >- | |
| Classification systématique de chaque erreur en 9 catégories : confusion | |
| visuelle, erreur diacritique, erreur de casse, erreur de ligature, | |
| abréviation, hapax, segmentation, caractère OOV, lacune. | |
| measures: >- | |
| Le profil d'erreurs d'un moteur — permet d'identifier ses faiblesses | |
| spécifiques. | |
| usage: >- | |
| Diagnostic fin sur un moteur donné, utile pour décider de changer de | |
| modèle ou d'ajuster un prompt de post-correction LLM. | |
| limits: >- | |
| La classification par ``difflib`` est heuristique ; un caractère peut | |
| tomber dans plusieurs classes simultanément. | |
| reference: >- | |
| Clausner, C., Antonacopoulos, A., Pletschacher, S. (2020). "ICDAR 2019 | |
| Competition on Recognition of Historical Arabic Scientific Manuscripts". | |
| confusion_matrix: | |
| title: "Matrice de confusion Unicode" | |
| definition: >- | |
| Tableau croisé recensant les substitutions (caractère GT → caractère OCR) | |
| et leur fréquence sur l'ensemble du corpus. | |
| measures: >- | |
| Les patterns de substitution caractère-à-caractère, symétriquement | |
| lisibles (quel caractère GT a été confondu avec quoi ?). | |
| usage: >- | |
| Comparer le "signe génétique" de deux moteurs : s'ils confondent les | |
| mêmes caractères, ils ont probablement été entraînés sur des données | |
| similaires. | |
| limits: >- | |
| Ne capture pas les erreurs de segmentation (espaces) ni les insertions | |
| sans correspondance GT. | |
| reference: >- | |
| Pletschacher, S., Clausner, C., Antonacopoulos, A. (2015). "Performance | |
| Analysis Framework for Layout Analysis Methods". | |
| gini: | |
| title: "Coefficient de Gini des erreurs" | |
| definition: >- | |
| Mesure la concentration des erreurs sur un document (entre 0 = erreurs | |
| uniformes sur toutes les lignes et 1 = toutes les erreurs concentrées | |
| sur une seule ligne). | |
| measures: >- | |
| La distribution inégale des erreurs dans un document — un Gini élevé | |
| signale qu'une petite fraction des lignes concentre la majorité des | |
| erreurs. | |
| usage: >- | |
| Permet d'identifier les zones difficiles (lignes marginales, notes, | |
| passages dégradés) qui tireraient bénéfice d'une correction ciblée. | |
| limits: >- | |
| Sensible au nombre de lignes — peu informatif sur un document très | |
| court. | |
| reference: >- | |
| Gini, C. (1912). "Variabilità e mutabilità". | |
| hallucination_score: | |
| title: "Score d'hallucination (LLM/VLM)" | |
| definition: >- | |
| Indicateur composite combinant ancrage trigrammes (part de trigrammes | |
| hypothèse présents dans le GT) et ratio de longueur sortie/GT pour | |
| détecter les hallucinations des pipelines LLM et VLM. | |
| measures: >- | |
| La probabilité que le modèle ait inventé du texte plutôt que l'ait lu | |
| sur l'image. | |
| usage: >- | |
| Essentiel pour les pipelines OCR+LLM et les VLM en zero-shot, où le | |
| CER seul est trompeur (un CER faible peut masquer une paraphrase | |
| hallucinée). | |
| limits: >- | |
| Une paraphrase fidèle au sens mais différente en forme peut être | |
| faussement flaguée. | |
| reference: >- | |
| Wiland, A. et al. (2024). "Hallucination Detection for Visual Language | |
| Models on Historical Documents". DHd. | |
| anchor_score: | |
| title: "Score d'ancrage trigrammes" | |
| definition: >- | |
| Proportion des trigrammes de mots de l'hypothèse OCR qui existent | |
| également dans la GT. | |
| measures: >- | |
| À quel point la sortie est "ancrée" dans le texte source. Un score | |
| élevé indique une transcription fidèle ; un score faible signale des | |
| hallucinations. | |
| usage: >- | |
| Complémentaire du CER pour les pipelines LLM/VLM. | |
| limits: >- | |
| Sur de très courtes sorties, le score peut être bruité (peu de | |
| trigrammes disponibles). | |
| reference: >- | |
| Wiland, A. et al. (2024). Ibid. | |
| length_ratio: | |
| title: "Ratio de longueur" | |
| definition: >- | |
| Rapport entre la longueur (caractères) de l'hypothèse et celle de la GT. | |
| Un ratio > 1,2 ou < 0,8 est un signal d'alerte. | |
| measures: >- | |
| L'excès ou le déficit de texte produit par le moteur. | |
| usage: >- | |
| Utilisé avec l'ancrage pour flaguer les hallucinations (LLM trop verbeux) | |
| ou les omissions (LLM qui abandonne les passages difficiles). | |
| limits: >- | |
| Dépend fortement du style de la GT (abrégé vs développé). | |
| reference: >- | |
| Wiland, A. et al. (2024). Ibid. | |
| bootstrap_ci: | |
| title: "Intervalle de confiance bootstrap" | |
| definition: >- | |
| Intervalle de confiance à 95 % du CER moyen, calculé par | |
| rééchantillonnage avec remise sur les documents (1000 itérations par | |
| défaut). | |
| measures: >- | |
| L'incertitude associée à la moyenne de CER — plus l'intervalle est | |
| large, moins le classement ordinal est fiable. | |
| usage: >- | |
| Indispensable pour accompagner tout CER moyen ; particulièrement | |
| important sur les petits corpus (< 30 documents). | |
| limits: >- | |
| Assume que les documents sont indépendants — pas vrai sur des séries | |
| (même scribe, même manuscrit). | |
| reference: >- | |
| Efron, B. (1979). "Bootstrap Methods: Another Look at the Jackknife". | |
| Annals of Statistics. | |
| wilcoxon: | |
| title: "Test de Wilcoxon signé-rangé" | |
| definition: >- | |
| Test non-paramétrique d'égalité entre deux séries de mesures appariées | |
| (mêmes documents, deux moteurs différents). | |
| measures: >- | |
| La significativité statistique d'un écart observé entre deux moteurs | |
| sans supposer la normalité des distributions. | |
| usage: >- | |
| Comparaison pairwise de deux moteurs sur un corpus. | |
| limits: >- | |
| Appliqué de façon répétée entre toutes les paires sur k moteurs, le | |
| risque d'erreur de type I augmente — préférer Friedman-Nemenyi pour | |
| comparer plus de deux moteurs. | |
| reference: >- | |
| Wilcoxon, F. (1945). "Individual Comparisons by Ranking Methods". | |
| Biometrics Bulletin. | |
| friedman: | |
| title: "Test de Friedman" | |
| definition: >- | |
| Équivalent non-paramétrique de l'ANOVA à mesures répétées : teste si | |
| au moins un moteur parmi k diffère des autres sur n documents. | |
| measures: >- | |
| Une différence globale entre k moteurs sur n blocs (documents). | |
| usage: >- | |
| Préambule au post-hoc de Nemenyi. Recommandé dès qu'on compare plus | |
| de deux moteurs pour contrôler le risque multi-comparaison. | |
| limits: >- | |
| Ne dit pas quelles paires diffèrent — le post-hoc est nécessaire. | |
| reference: >- | |
| Friedman, M. (1937). "The Use of Ranks to Avoid the Assumption of | |
| Normality Implicit in the Analysis of Variance". | |
| nemenyi: | |
| title: "Post-hoc de Nemenyi" | |
| definition: >- | |
| Test post-hoc appliqué après un test de Friedman pour identifier les | |
| paires de moteurs distinguables. Calcule une ``critical distance`` (CD) | |
| dépendant du nombre de moteurs et de documents. | |
| measures: >- | |
| Les paires de moteurs dont les rangs moyens diffèrent significativement. | |
| usage: >- | |
| Base du Critical Difference Diagram (Demšar 2006). | |
| limits: >- | |
| Conservateur par construction (corrige pour comparaisons multiples) ; | |
| peut manquer des différences réelles mais subtiles. | |
| reference: >- | |
| Nemenyi, P. (1963). "Distribution-free Multiple Comparisons". | |
| cdd: | |
| title: "Critical Difference Diagram" | |
| definition: >- | |
| Rendu graphique des résultats Friedman-Nemenyi : moteurs placés sur un | |
| axe horizontal (rang moyen), reliés par une barre s'ils ne sont pas | |
| statistiquement distinguables au seuil α. | |
| measures: >- | |
| L'ordonnancement global des moteurs et les groupes d'indiscernabilité. | |
| usage: >- | |
| Standard de facto en ML depuis Demšar 2006 pour comparer plusieurs | |
| systèmes sur plusieurs datasets. | |
| limits: >- | |
| Peut être difficile à lire quand plusieurs groupes se chevauchent | |
| partiellement. | |
| reference: >- | |
| Demšar, J. (2006). "Statistical Comparisons of Classifiers over | |
| Multiple Data Sets". JMLR 7:1-30. | |
| pareto_front: | |
| title: "Frontière de Pareto" | |
| definition: >- | |
| Ensemble des moteurs pour lesquels aucun autre n'offre simultanément | |
| une meilleure qualité ET un meilleur coût (ou une autre paire | |
| d'objectifs). | |
| measures: >- | |
| Les compromis "non dominés" — choisir en dehors du front Pareto est | |
| toujours sous-optimal, mais choisir sur le front dépend des priorités | |
| propres à l'institution. | |
| usage: >- | |
| Cœur de la vue qualité/coût du rapport. Utilisable aussi pour | |
| qualité/vitesse ou qualité/carbone. | |
| limits: >- | |
| Les coûts utilisés sont indicatifs (voir table ``pricing.yaml``) et | |
| vieillissent. Toujours revalider avec les factures réelles avant | |
| décision d'achat. | |
| reference: >- | |
| Pareto, V. (1906). "Manuale di economia politica". | |
| difficulty_score: | |
| title: "Score de difficulté intrinsèque" | |
| definition: >- | |
| Score [0, 1] combinant la variance inter-moteurs des CER, la qualité | |
| d'image et la densité de caractères spéciaux patrimoniaux. | |
| measures: >- | |
| À quel point un document est intrinsèquement difficile, indépendamment | |
| de l'instrument d'évaluation. | |
| usage: >- | |
| Permet de stratifier le rapport (documents faciles vs difficiles) et | |
| d'interpréter un CER global en tenant compte du corpus. | |
| limits: >- | |
| Les poids par défaut (0.4, 0.35, 0.25) sont heuristiques et peuvent | |
| être ajustés selon le contexte. | |
| reference: >- | |
| Stutzmann, D. (2017). "Clustering of medieval scripts through | |
| computer image analysis". | |
| normalization_profile: | |
| title: "Profil de normalisation" | |
| definition: >- | |
| Ensemble de règles de transformation appliquées à la GT et à | |
| l'hypothèse avant calcul du CER : fusion ſ=s, u=v, i=j, développement | |
| d'abréviations, exclusion de caractères, etc. | |
| measures: >- | |
| Le choix d'une convention éditoriale pour le calcul de CER — n'affecte | |
| pas les données sources. | |
| usage: >- | |
| Picarones fournit 9 profils préconfigurés (medieval_french, | |
| early_modern_english, medieval_latin…). D'autres profils peuvent être | |
| chargés via YAML. | |
| limits: >- | |
| Un profil trop agressif masque les vraies erreurs ; un profil trop | |
| strict sur-estime l'erreur. | |
| reference: >- | |
| Voir ``picarones/core/normalization.py`` pour la liste des profils. | |
| structure: | |
| title: "Scores structurels" | |
| definition: >- | |
| Ensemble de mesures au niveau structurel : taux de fusion de lignes, | |
| taux de fragmentation, ordre de lecture (LCS), conservation des | |
| paragraphes. | |
| measures: >- | |
| L'intégrité de la mise en page reconstruite, au-delà du texte | |
| caractère-à-caractère. | |
| usage: >- | |
| Crucial pour les documents multi-colonnes (journaux, bibles glosées) | |
| où un CER bas peut cacher un ordre de lecture brisé. | |
| limits: >- | |
| Dépend d'annotations de structure dans la GT — pas toujours disponibles. | |
| reference: >- | |
| Antonacopoulos, A. et al. (2015). "ICDAR 2015 Competition on Text | |
| Line Detection in Historical Documents". | |
| image_quality: | |
| title: "Qualité d'image" | |
| definition: >- | |
| Score composite [0, 1] combinant netteté (variance du laplacien), | |
| niveau de bruit, contraste, et estimation d'angle de rotation. | |
| measures: >- | |
| Les caractéristiques physiques de l'image source susceptibles de | |
| dégrader la reconnaissance. | |
| usage: >- | |
| Sert à stratifier les résultats (images "bonnes" vs "mauvaises") et à | |
| identifier les documents qui nécessiteraient un rescannage. | |
| limits: >- | |
| Score purement intrinsèque à l'image ; ne capture pas les difficultés | |
| paléographiques (écriture cursive, abréviations denses). | |
| reference: >- | |
| Antonacopoulos, A., Bridson, D., Papadopoulos, C., Pletschacher, S. | |
| (2009). "A Realistic Dataset for Performance Evaluation of Document | |
| Layout Analysis". | |