# Glossaire contextuel — français.
#
# Chaque entrée est affichée dans un panneau latéral quand l'utilisateur
# clique sur le petit "?" à côté d'une en-tête de métrique du rapport.
#
# Structure par entrée :
#   title        : titre court affiché en haut du panneau
#   definition   : 2-3 phrases de définition formelle
#   measures     : ce que la métrique mesure concrètement
#   usage        : cas d'usage factuels (pas prescriptifs)
#   limits       : limites connues, pièges fréquents
#   reference    : référence bibliographique canonique

cer:
  title: "CER — Character Error Rate"
  definition: >-
    Taux d'erreur au niveau caractère, calculé comme le rapport entre la
    distance de Levenshtein (substitutions + insertions + suppressions) et
    la longueur de la chaîne de référence. Exprimé en %.
  measures: >-
    La fidélité caractère-à-caractère entre la transcription prédite et la
    vérité terrain, sans normalisation.
  usage: >-
    Métrique la plus courante en évaluation OCR/HTR, adoptée par les
    compétitions ICDAR depuis les années 2000.
  limits: >-
    Insensible aux variantes graphiques (ſ vs s, u vs v) qui peuvent être
    codifiées dans la GT d'un corpus patrimonial — voir CER diplomatique.
  reference: >-
    Kay, M. (2007). "Optical Character Recognition". Handbook of Natural
    Language Processing, 2e éd.

cer_nfc:
  title: "CER NFC"
  definition: >-
    CER calculé après normalisation Unicode NFC (Canonical Decomposition,
    followed by Canonical Composition) sur la référence et l'hypothèse.
  measures: >-
    La fidélité texte en ignorant les différences de représentation Unicode
    équivalentes (ex. é composé vs é décomposé).
  usage: >-
    Indispensable quand la GT et la sortie OCR utilisent des formes Unicode
    différentes mais sémantiquement équivalentes.
  limits: >-
    Ne règle pas les variantes graphiques signifiantes (ſ, ligatures non
    décomposables).
  reference: >-
    Unicode Technical Report #15 — Unicode Normalization Forms.

cer_caseless:
  title: "CER insensible à la casse"
  definition: >-
    CER calculé après conversion en minuscules (``casefold``) de la
    référence et de l'hypothèse.
  measures: >-
    La fidélité texte en ignorant les différences majuscules/minuscules.
  usage: >-
    Utile pour les corpus où la casse n'est pas jugée signifiante
    (nombreux imprimés anciens, titres en capitales inconsistantes).
  limits: >-
    Masque les choix éditoriaux relatifs aux noms propres et aux débuts de
    phrase.
  reference: >-
    Ibid. — CER.

cer_diplomatic:
  title: "CER diplomatique"
  definition: >-
    CER calculé après normalisation diplomatique d'un corpus patrimonial :
    fusion ``ſ=s``, ``u=v``, ``i=j``, développement des abréviations, etc.
  measures: >-
    Les erreurs substantielles, en ignorant les variantes graphiques
    codifiées par des conventions éditoriales (diplomatique vs normalisée).
  usage: >-
    Souvent utilisé en évaluation d'OCR/HTR de corpus pré-XIXᵉ où la GT
    conserve les graphies anciennes non pertinentes pour la recherche.
  limits: >-
    Masque les choix éditoriaux pertinents en philologie stricte. Le profil
    appliqué dépend de conventions (MUFI, Capitains…) qui varient selon les
    communautés.
  reference: >-
    Pierazzo, E. (2015). "Digital Scholarly Editing". Ashgate.

wer:
  title: "WER — Word Error Rate"
  definition: >-
    Taux d'erreur au niveau mot, calculé comme la distance de Levenshtein
    mot-à-mot divisée par le nombre de mots de la référence.
  measures: >-
    La fidélité mot-à-mot, sensible à la segmentation (un espace mal placé
    compte comme deux erreurs).
  usage: >-
    Standard historique en reconnaissance de la parole, repris en OCR/HTR
    pour évaluer l'utilisabilité du texte pour la recherche plein-texte.
  limits: >-
    Très sensible à la segmentation. Un CER à 5 % peut correspondre à un
    WER à 20 % si les erreurs touchent des mots différents à chaque fois.
  reference: >-
    Morris, A. C., Maier, V., & Green, P. (2004). "From WER and RIL to MER
    and WIL". ICSLP.

mer:
  title: "MER — Match Error Rate"
  definition: >-
    Variante du WER qui borne l'erreur à 1 en tenant compte des
    insertions (WER peut dépasser 1, MER non).
  measures: >-
    Une version plus stable du WER, bornée en [0, 1].
  usage: >-
    Proposé par Morris et al. (2004) pour corriger l'asymétrie du WER en
    présence d'insertions excessives.
  limits: >-
    Moins répandu que le WER — les tables comparatives historiques
    utilisent souvent WER et non MER.
  reference: >-
    Morris, A. C., Maier, V., & Green, P. (2004). Ibid.

wil:
  title: "WIL — Word Information Lost"
  definition: >-
    Mesure la perte d'information mot ; tient compte à la fois de ce qui
    a été correctement reconnu et du bruit introduit.
  measures: >-
    La quantité d'information sémantique perdue au niveau mot.
  usage: >-
    Utile en complément du WER pour diagnostiquer des hypothèses bruitées
    (beaucoup d'insertions sans rapport).
  limits: >-
    Interprétation moins intuitive qu'un simple taux d'erreur.
  reference: >-
    Morris, A. C., Maier, V., & Green, P. (2004). Ibid.

ligature_score:
  title: "Score de ligatures"
  definition: >-
    Taux de ligatures (``fi``, ``fl``, ``œ``, ``æ``, ``ꝑ``, ``ꝓ``…)
    correctement restituées par le moteur.
  measures: >-
    La capacité du moteur à reconnaître les formes soudées caractéristiques
    des documents imprimés anciens et manuscrits médiévaux.
  usage: >-
    Indicateur fort pour l'édition critique et la philologie.
  limits: >-
    Dépend de la table de ligatures reconnue par Picarones — certaines
    ligatures rares peuvent être absentes.
  reference: >-
    MUFI — Medieval Unicode Font Initiative, Recommendations v4.

diacritic_score:
  title: "Score de diacritiques"
  definition: >-
    Taux de conservation des diacritiques (accents aigus, graves, tildes,
    cédilles, trémas…) entre la GT et la sortie OCR.
  measures: >-
    La fidélité diacritique, mesurée après décomposition NFD.
  usage: >-
    Important pour les corpus multilingues et les transcriptions
    philologiques où les diacritiques sont signifiants.
  limits: >-
    Un moteur peut afficher un diacritique sur la mauvaise lettre — cette
    métrique seule ne le détecte pas.
  reference: >-
    Unicode Technical Report #15.

taxonomy:
  title: "Taxonomie des erreurs (9 classes)"
  definition: >-
    Classification systématique de chaque erreur en 9 catégories : confusion
    visuelle, erreur diacritique, erreur de casse, erreur de ligature,
    abréviation, hapax, segmentation, caractère OOV, lacune.
  measures: >-
    Le profil d'erreurs d'un moteur — permet d'identifier ses faiblesses
    spécifiques.
  usage: >-
    Diagnostic fin sur un moteur donné, utile pour décider de changer de
    modèle ou d'ajuster un prompt de post-correction LLM.
  limits: >-
    La classification par ``difflib`` est heuristique ; un caractère peut
    tomber dans plusieurs classes simultanément.
  reference: >-
    Clausner, C., Antonacopoulos, A., Pletschacher, S. (2020). "ICDAR 2019
    Competition on Recognition of Historical Arabic Scientific Manuscripts".

confusion_matrix:
  title: "Matrice de confusion Unicode"
  definition: >-
    Tableau croisé recensant les substitutions (caractère GT → caractère OCR)
    et leur fréquence sur l'ensemble du corpus.
  measures: >-
    Les patterns de substitution caractère-à-caractère, symétriquement
    lisibles (quel caractère GT a été confondu avec quoi ?).
  usage: >-
    Comparer le "signe génétique" de deux moteurs : s'ils confondent les
    mêmes caractères, ils ont probablement été entraînés sur des données
    similaires.
  limits: >-
    Ne capture pas les erreurs de segmentation (espaces) ni les insertions
    sans correspondance GT.
  reference: >-
    Pletschacher, S., Clausner, C., Antonacopoulos, A. (2015). "Performance
    Analysis Framework for Layout Analysis Methods".

gini:
  title: "Coefficient de Gini des erreurs"
  definition: >-
    Mesure la concentration des erreurs sur un document (entre 0 = erreurs
    uniformes sur toutes les lignes et 1 = toutes les erreurs concentrées
    sur une seule ligne).
  measures: >-
    La distribution inégale des erreurs dans un document — un Gini élevé
    signale qu'une petite fraction des lignes concentre la majorité des
    erreurs.
  usage: >-
    Permet d'identifier les zones difficiles (lignes marginales, notes,
    passages dégradés) qui tireraient bénéfice d'une correction ciblée.
  limits: >-
    Sensible au nombre de lignes — peu informatif sur un document très
    court.
  reference: >-
    Gini, C. (1912). "Variabilità e mutabilità".

hallucination_score:
  title: "Score d'hallucination (LLM/VLM)"
  definition: >-
    Indicateur composite combinant ancrage trigrammes (part de trigrammes
    hypothèse présents dans le GT) et ratio de longueur sortie/GT pour
    détecter les hallucinations des pipelines LLM et VLM.
  measures: >-
    La probabilité que le modèle ait inventé du texte plutôt que l'ait lu
    sur l'image.
  usage: >-
    Essentiel pour les pipelines OCR+LLM et les VLM en zero-shot, où le
    CER seul est trompeur (un CER faible peut masquer une paraphrase
    hallucinée).
  limits: >-
    Une paraphrase fidèle au sens mais différente en forme peut être
    faussement flaguée.
  reference: >-
    Wiland, A. et al. (2024). "Hallucination Detection for Visual Language
    Models on Historical Documents". DHd.

anchor_score:
  title: "Score d'ancrage trigrammes"
  definition: >-
    Proportion des trigrammes de mots de l'hypothèse OCR qui existent
    également dans la GT.
  measures: >-
    À quel point la sortie est "ancrée" dans le texte source. Un score
    élevé indique une transcription fidèle ; un score faible signale des
    hallucinations.
  usage: >-
    Complémentaire du CER pour les pipelines LLM/VLM.
  limits: >-
    Sur de très courtes sorties, le score peut être bruité (peu de
    trigrammes disponibles).
  reference: >-
    Wiland, A. et al. (2024). Ibid.

length_ratio:
  title: "Ratio de longueur"
  definition: >-
    Rapport entre la longueur (caractères) de l'hypothèse et celle de la GT.
    Un ratio > 1,2 ou < 0,8 est un signal d'alerte.
  measures: >-
    L'excès ou le déficit de texte produit par le moteur.
  usage: >-
    Utilisé avec l'ancrage pour flaguer les hallucinations (LLM trop verbeux)
    ou les omissions (LLM qui abandonne les passages difficiles).
  limits: >-
    Dépend fortement du style de la GT (abrégé vs développé).
  reference: >-
    Wiland, A. et al. (2024). Ibid.

bootstrap_ci:
  title: "Intervalle de confiance bootstrap"
  definition: >-
    Intervalle de confiance à 95 % du CER moyen, calculé par
    rééchantillonnage avec remise sur les documents (1000 itérations par
    défaut).
  measures: >-
    L'incertitude associée à la moyenne de CER — plus l'intervalle est
    large, moins le classement ordinal est fiable.
  usage: >-
    Indispensable pour accompagner tout CER moyen ; particulièrement
    important sur les petits corpus (< 30 documents).
  limits: >-
    Assume que les documents sont indépendants — pas vrai sur des séries
    (même scribe, même manuscrit).
  reference: >-
    Efron, B. (1979). "Bootstrap Methods: Another Look at the Jackknife".
    Annals of Statistics.

wilcoxon:
  title: "Test de Wilcoxon signé-rangé"
  definition: >-
    Test non-paramétrique d'égalité entre deux séries de mesures appariées
    (mêmes documents, deux moteurs différents).
  measures: >-
    La significativité statistique d'un écart observé entre deux moteurs
    sans supposer la normalité des distributions.
  usage: >-
    Comparaison pairwise de deux moteurs sur un corpus.
  limits: >-
    Appliqué de façon répétée entre toutes les paires sur k moteurs, le
    risque d'erreur de type I augmente — préférer Friedman-Nemenyi pour
    comparer plus de deux moteurs.
  reference: >-
    Wilcoxon, F. (1945). "Individual Comparisons by Ranking Methods".
    Biometrics Bulletin.

friedman:
  title: "Test de Friedman"
  definition: >-
    Équivalent non-paramétrique de l'ANOVA à mesures répétées : teste si
    au moins un moteur parmi k diffère des autres sur n documents.
  measures: >-
    Une différence globale entre k moteurs sur n blocs (documents).
  usage: >-
    Préambule au post-hoc de Nemenyi. Recommandé dès qu'on compare plus
    de deux moteurs pour contrôler le risque multi-comparaison.
  limits: >-
    Ne dit pas quelles paires diffèrent — le post-hoc est nécessaire.
  reference: >-
    Friedman, M. (1937). "The Use of Ranks to Avoid the Assumption of
    Normality Implicit in the Analysis of Variance".

nemenyi:
  title: "Post-hoc de Nemenyi"
  definition: >-
    Test post-hoc appliqué après un test de Friedman pour identifier les
    paires de moteurs distinguables. Calcule une ``critical distance`` (CD)
    dépendant du nombre de moteurs et de documents.
  measures: >-
    Les paires de moteurs dont les rangs moyens diffèrent significativement.
  usage: >-
    Base du Critical Difference Diagram (Demšar 2006).
  limits: >-
    Conservateur par construction (corrige pour comparaisons multiples) ;
    peut manquer des différences réelles mais subtiles.
  reference: >-
    Nemenyi, P. (1963). "Distribution-free Multiple Comparisons".

cdd:
  title: "Critical Difference Diagram"
  definition: >-
    Rendu graphique des résultats Friedman-Nemenyi : moteurs placés sur un
    axe horizontal (rang moyen), reliés par une barre s'ils ne sont pas
    statistiquement distinguables au seuil α.
  measures: >-
    L'ordonnancement global des moteurs et les groupes d'indiscernabilité.
  usage: >-
    Standard de facto en ML depuis Demšar 2006 pour comparer plusieurs
    systèmes sur plusieurs datasets.
  limits: >-
    Peut être difficile à lire quand plusieurs groupes se chevauchent
    partiellement.
  reference: >-
    Demšar, J. (2006). "Statistical Comparisons of Classifiers over
    Multiple Data Sets". JMLR 7:1-30.

pareto_front:
  title: "Frontière de Pareto"
  definition: >-
    Ensemble des moteurs pour lesquels aucun autre n'offre simultanément
    une meilleure qualité ET un meilleur coût (ou une autre paire
    d'objectifs).
  measures: >-
    Les compromis "non dominés" — choisir en dehors du front Pareto est
    toujours sous-optimal, mais choisir sur le front dépend des priorités
    propres à l'institution.
  usage: >-
    Cœur de la vue qualité/coût du rapport. Utilisable aussi pour
    qualité/vitesse ou qualité/carbone.
  limits: >-
    Les coûts utilisés sont indicatifs (voir table ``pricing.yaml``) et
    vieillissent. Toujours revalider avec les factures réelles avant
    décision d'achat.
  reference: >-
    Pareto, V. (1906). "Manuale di economia politica".

difficulty_score:
  title: "Score de difficulté intrinsèque"
  definition: >-
    Score [0, 1] combinant la variance inter-moteurs des CER, la qualité
    d'image et la densité de caractères spéciaux patrimoniaux.
  measures: >-
    À quel point un document est intrinsèquement difficile, indépendamment
    de l'instrument d'évaluation.
  usage: >-
    Permet de stratifier le rapport (documents faciles vs difficiles) et
    d'interpréter un CER global en tenant compte du corpus.
  limits: >-
    Les poids par défaut (0.4, 0.35, 0.25) sont heuristiques et peuvent
    être ajustés selon le contexte.
  reference: >-
    Stutzmann, D. (2017). "Clustering of medieval scripts through
    computer image analysis".

normalization_profile:
  title: "Profil de normalisation"
  definition: >-
    Ensemble de règles de transformation appliquées à la GT et à
    l'hypothèse avant calcul du CER : fusion ſ=s, u=v, i=j, développement
    d'abréviations, exclusion de caractères, etc.
  measures: >-
    Le choix d'une convention éditoriale pour le calcul de CER — n'affecte
    pas les données sources.
  usage: >-
    Picarones fournit 9 profils préconfigurés (medieval_french,
    early_modern_english, medieval_latin…). D'autres profils peuvent être
    chargés via YAML.
  limits: >-
    Un profil trop agressif masque les vraies erreurs ; un profil trop
    strict sur-estime l'erreur.
  reference: >-
    Voir ``picarones/core/normalization.py`` pour la liste des profils.

structure:
  title: "Scores structurels"
  definition: >-
    Ensemble de mesures au niveau structurel : taux de fusion de lignes,
    taux de fragmentation, ordre de lecture (LCS), conservation des
    paragraphes.
  measures: >-
    L'intégrité de la mise en page reconstruite, au-delà du texte
    caractère-à-caractère.
  usage: >-
    Crucial pour les documents multi-colonnes (journaux, bibles glosées)
    où un CER bas peut cacher un ordre de lecture brisé.
  limits: >-
    Dépend d'annotations de structure dans la GT — pas toujours disponibles.
  reference: >-
    Antonacopoulos, A. et al. (2015). "ICDAR 2015 Competition on Text
    Line Detection in Historical Documents".

image_quality:
  title: "Qualité d'image"
  definition: >-
    Score composite [0, 1] combinant netteté (variance du laplacien),
    niveau de bruit, contraste, et estimation d'angle de rotation.
  measures: >-
    Les caractéristiques physiques de l'image source susceptibles de
    dégrader la reconnaissance.
  usage: >-
    Sert à stratifier les résultats (images "bonnes" vs "mauvaises") et à
    identifier les documents qui nécessiteraient un rescannage.
  limits: >-
    Score purement intrinsèque à l'image ; ne capture pas les difficultés
    paléographiques (écriture cursive, abréviations denses).
  reference: >-
    Antonacopoulos, A., Bridson, D., Papadopoulos, C., Pletschacher, S.
    (2009). "A Realistic Dataset for Performance Evaluation of Document
    Layout Analysis".