Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

Picarones / picarones /report /glossary /fr.yaml

Claude

Sprint 6 du plan rapport — glossaire contextuel + panneau personnalisation

76e79a0 unverified 2 months ago

18.2 kB

	# Glossaire contextuel — français.
	#
	# Chaque entrée est affichée dans un panneau latéral quand l'utilisateur
	# clique sur le petit "?" à côté d'une en-tête de métrique du rapport.
	#
	# Structure par entrée :
	# title : titre court affiché en haut du panneau
	# definition : 2-3 phrases de définition formelle
	# measures : ce que la métrique mesure concrètement
	# usage : cas d'usage factuels (pas prescriptifs)
	# limits : limites connues, pièges fréquents
	# reference : référence bibliographique canonique

	cer:
	title: "CER — Character Error Rate"
	definition: >-
	Taux d'erreur au niveau caractère, calculé comme le rapport entre la
	distance de Levenshtein (substitutions + insertions + suppressions) et
	la longueur de la chaîne de référence. Exprimé en %.
	measures: >-
	La fidélité caractère-à-caractère entre la transcription prédite et la
	vérité terrain, sans normalisation.
	usage: >-
	Métrique la plus courante en évaluation OCR/HTR, adoptée par les
	compétitions ICDAR depuis les années 2000.
	limits: >-
	Insensible aux variantes graphiques (ſ vs s, u vs v) qui peuvent être
	codifiées dans la GT d'un corpus patrimonial — voir CER diplomatique.
	reference: >-
	Kay, M. (2007). "Optical Character Recognition". Handbook of Natural
	Language Processing, 2e éd.

	cer_nfc:
	title: "CER NFC"
	definition: >-
	CER calculé après normalisation Unicode NFC (Canonical Decomposition,
	followed by Canonical Composition) sur la référence et l'hypothèse.
	measures: >-
	La fidélité texte en ignorant les différences de représentation Unicode
	équivalentes (ex. é composé vs é décomposé).
	usage: >-
	Indispensable quand la GT et la sortie OCR utilisent des formes Unicode
	différentes mais sémantiquement équivalentes.
	limits: >-
	Ne règle pas les variantes graphiques signifiantes (ſ, ligatures non
	décomposables).
	reference: >-
	Unicode Technical Report #15 — Unicode Normalization Forms.

	cer_caseless:
	title: "CER insensible à la casse"
	definition: >-
	CER calculé après conversion en minuscules (``casefold``) de la
	référence et de l'hypothèse.
	measures: >-
	La fidélité texte en ignorant les différences majuscules/minuscules.
	usage: >-
	Utile pour les corpus où la casse n'est pas jugée signifiante
	(nombreux imprimés anciens, titres en capitales inconsistantes).
	limits: >-
	Masque les choix éditoriaux relatifs aux noms propres et aux débuts de
	phrase.
	reference: >-
	Ibid. — CER.

	cer_diplomatic:
	title: "CER diplomatique"
	definition: >-
	CER calculé après normalisation diplomatique d'un corpus patrimonial :
	fusion ``ſ=s``, ``u=v``, ``i=j``, développement des abréviations, etc.
	measures: >-
	Les erreurs substantielles, en ignorant les variantes graphiques
	codifiées par des conventions éditoriales (diplomatique vs normalisée).
	usage: >-
	Souvent utilisé en évaluation d'OCR/HTR de corpus pré-XIXᵉ où la GT
	conserve les graphies anciennes non pertinentes pour la recherche.
	limits: >-
	Masque les choix éditoriaux pertinents en philologie stricte. Le profil
	appliqué dépend de conventions (MUFI, Capitains…) qui varient selon les
	communautés.
	reference: >-
	Pierazzo, E. (2015). "Digital Scholarly Editing". Ashgate.

	wer:
	title: "WER — Word Error Rate"
	definition: >-
	Taux d'erreur au niveau mot, calculé comme la distance de Levenshtein
	mot-à-mot divisée par le nombre de mots de la référence.
	measures: >-
	La fidélité mot-à-mot, sensible à la segmentation (un espace mal placé
	compte comme deux erreurs).
	usage: >-
	Standard historique en reconnaissance de la parole, repris en OCR/HTR
	pour évaluer l'utilisabilité du texte pour la recherche plein-texte.
	limits: >-
	Très sensible à la segmentation. Un CER à 5 % peut correspondre à un
	WER à 20 % si les erreurs touchent des mots différents à chaque fois.
	reference: >-
	Morris, A. C., Maier, V., & Green, P. (2004). "From WER and RIL to MER
	and WIL". ICSLP.

	mer:
	title: "MER — Match Error Rate"
	definition: >-
	Variante du WER qui borne l'erreur à 1 en tenant compte des
	insertions (WER peut dépasser 1, MER non).
	measures: >-
	Une version plus stable du WER, bornée en [0, 1].
	usage: >-
	Proposé par Morris et al. (2004) pour corriger l'asymétrie du WER en
	présence d'insertions excessives.
	limits: >-
	Moins répandu que le WER — les tables comparatives historiques
	utilisent souvent WER et non MER.
	reference: >-
	Morris, A. C., Maier, V., & Green, P. (2004). Ibid.

	wil:
	title: "WIL — Word Information Lost"
	definition: >-
	Mesure la perte d'information mot ; tient compte à la fois de ce qui
	a été correctement reconnu et du bruit introduit.
	measures: >-
	La quantité d'information sémantique perdue au niveau mot.
	usage: >-
	Utile en complément du WER pour diagnostiquer des hypothèses bruitées
	(beaucoup d'insertions sans rapport).
	limits: >-
	Interprétation moins intuitive qu'un simple taux d'erreur.
	reference: >-
	Morris, A. C., Maier, V., & Green, P. (2004). Ibid.

	ligature_score:
	title: "Score de ligatures"
	definition: >-
	Taux de ligatures (``fi``, ``fl``, ``œ``, ``æ``, ``ꝑ``, ``ꝓ``…)
	correctement restituées par le moteur.
	measures: >-
	La capacité du moteur à reconnaître les formes soudées caractéristiques
	des documents imprimés anciens et manuscrits médiévaux.
	usage: >-
	Indicateur fort pour l'édition critique et la philologie.
	limits: >-
	Dépend de la table de ligatures reconnue par Picarones — certaines
	ligatures rares peuvent être absentes.
	reference: >-
	MUFI — Medieval Unicode Font Initiative, Recommendations v4.

	diacritic_score:
	title: "Score de diacritiques"
	definition: >-
	Taux de conservation des diacritiques (accents aigus, graves, tildes,
	cédilles, trémas…) entre la GT et la sortie OCR.
	measures: >-
	La fidélité diacritique, mesurée après décomposition NFD.
	usage: >-
	Important pour les corpus multilingues et les transcriptions
	philologiques où les diacritiques sont signifiants.
	limits: >-
	Un moteur peut afficher un diacritique sur la mauvaise lettre — cette
	métrique seule ne le détecte pas.
	reference: >-
	Unicode Technical Report #15.

	taxonomy:
	title: "Taxonomie des erreurs (9 classes)"
	definition: >-
	Classification systématique de chaque erreur en 9 catégories : confusion
	visuelle, erreur diacritique, erreur de casse, erreur de ligature,
	abréviation, hapax, segmentation, caractère OOV, lacune.
	measures: >-
	Le profil d'erreurs d'un moteur — permet d'identifier ses faiblesses
	spécifiques.
	usage: >-
	Diagnostic fin sur un moteur donné, utile pour décider de changer de
	modèle ou d'ajuster un prompt de post-correction LLM.
	limits: >-
	La classification par ``difflib`` est heuristique ; un caractère peut
	tomber dans plusieurs classes simultanément.
	reference: >-
	Clausner, C., Antonacopoulos, A., Pletschacher, S. (2020). "ICDAR 2019
	Competition on Recognition of Historical Arabic Scientific Manuscripts".

	confusion_matrix:
	title: "Matrice de confusion Unicode"
	definition: >-
	Tableau croisé recensant les substitutions (caractère GT → caractère OCR)
	et leur fréquence sur l'ensemble du corpus.
	measures: >-
	Les patterns de substitution caractère-à-caractère, symétriquement
	lisibles (quel caractère GT a été confondu avec quoi ?).
	usage: >-
	Comparer le "signe génétique" de deux moteurs : s'ils confondent les
	mêmes caractères, ils ont probablement été entraînés sur des données
	similaires.
	limits: >-
	Ne capture pas les erreurs de segmentation (espaces) ni les insertions
	sans correspondance GT.
	reference: >-
	Pletschacher, S., Clausner, C., Antonacopoulos, A. (2015). "Performance
	Analysis Framework for Layout Analysis Methods".

	gini:
	title: "Coefficient de Gini des erreurs"
	definition: >-
	Mesure la concentration des erreurs sur un document (entre 0 = erreurs
	uniformes sur toutes les lignes et 1 = toutes les erreurs concentrées
	sur une seule ligne).
	measures: >-
	La distribution inégale des erreurs dans un document — un Gini élevé
	signale qu'une petite fraction des lignes concentre la majorité des
	erreurs.
	usage: >-
	Permet d'identifier les zones difficiles (lignes marginales, notes,
	passages dégradés) qui tireraient bénéfice d'une correction ciblée.
	limits: >-
	Sensible au nombre de lignes — peu informatif sur un document très
	court.
	reference: >-
	Gini, C. (1912). "Variabilità e mutabilità".

	hallucination_score:
	title: "Score d'hallucination (LLM/VLM)"
	definition: >-
	Indicateur composite combinant ancrage trigrammes (part de trigrammes
	hypothèse présents dans le GT) et ratio de longueur sortie/GT pour
	détecter les hallucinations des pipelines LLM et VLM.
	measures: >-
	La probabilité que le modèle ait inventé du texte plutôt que l'ait lu
	sur l'image.
	usage: >-
	Essentiel pour les pipelines OCR+LLM et les VLM en zero-shot, où le
	CER seul est trompeur (un CER faible peut masquer une paraphrase
	hallucinée).
	limits: >-
	Une paraphrase fidèle au sens mais différente en forme peut être
	faussement flaguée.
	reference: >-
	Wiland, A. et al. (2024). "Hallucination Detection for Visual Language
	Models on Historical Documents". DHd.

	anchor_score:
	title: "Score d'ancrage trigrammes"
	definition: >-
	Proportion des trigrammes de mots de l'hypothèse OCR qui existent
	également dans la GT.
	measures: >-
	À quel point la sortie est "ancrée" dans le texte source. Un score
	élevé indique une transcription fidèle ; un score faible signale des
	hallucinations.
	usage: >-
	Complémentaire du CER pour les pipelines LLM/VLM.
	limits: >-
	Sur de très courtes sorties, le score peut être bruité (peu de
	trigrammes disponibles).
	reference: >-
	Wiland, A. et al. (2024). Ibid.

	length_ratio:
	title: "Ratio de longueur"
	definition: >-
	Rapport entre la longueur (caractères) de l'hypothèse et celle de la GT.
	Un ratio > 1,2 ou < 0,8 est un signal d'alerte.
	measures: >-
	L'excès ou le déficit de texte produit par le moteur.
	usage: >-
	Utilisé avec l'ancrage pour flaguer les hallucinations (LLM trop verbeux)
	ou les omissions (LLM qui abandonne les passages difficiles).
	limits: >-
	Dépend fortement du style de la GT (abrégé vs développé).
	reference: >-
	Wiland, A. et al. (2024). Ibid.

	bootstrap_ci:
	title: "Intervalle de confiance bootstrap"
	definition: >-
	Intervalle de confiance à 95 % du CER moyen, calculé par
	rééchantillonnage avec remise sur les documents (1000 itérations par
	défaut).
	measures: >-
	L'incertitude associée à la moyenne de CER — plus l'intervalle est
	large, moins le classement ordinal est fiable.
	usage: >-
	Indispensable pour accompagner tout CER moyen ; particulièrement
	important sur les petits corpus (< 30 documents).
	limits: >-
	Assume que les documents sont indépendants — pas vrai sur des séries
	(même scribe, même manuscrit).
	reference: >-
	Efron, B. (1979). "Bootstrap Methods: Another Look at the Jackknife".
	Annals of Statistics.

	wilcoxon:
	title: "Test de Wilcoxon signé-rangé"
	definition: >-
	Test non-paramétrique d'égalité entre deux séries de mesures appariées
	(mêmes documents, deux moteurs différents).
	measures: >-
	La significativité statistique d'un écart observé entre deux moteurs
	sans supposer la normalité des distributions.
	usage: >-
	Comparaison pairwise de deux moteurs sur un corpus.
	limits: >-
	Appliqué de façon répétée entre toutes les paires sur k moteurs, le
	risque d'erreur de type I augmente — préférer Friedman-Nemenyi pour
	comparer plus de deux moteurs.
	reference: >-
	Wilcoxon, F. (1945). "Individual Comparisons by Ranking Methods".
	Biometrics Bulletin.

	friedman:
	title: "Test de Friedman"
	definition: >-
	Équivalent non-paramétrique de l'ANOVA à mesures répétées : teste si
	au moins un moteur parmi k diffère des autres sur n documents.
	measures: >-
	Une différence globale entre k moteurs sur n blocs (documents).
	usage: >-
	Préambule au post-hoc de Nemenyi. Recommandé dès qu'on compare plus
	de deux moteurs pour contrôler le risque multi-comparaison.
	limits: >-
	Ne dit pas quelles paires diffèrent — le post-hoc est nécessaire.
	reference: >-
	Friedman, M. (1937). "The Use of Ranks to Avoid the Assumption of
	Normality Implicit in the Analysis of Variance".

	nemenyi:
	title: "Post-hoc de Nemenyi"
	definition: >-
	Test post-hoc appliqué après un test de Friedman pour identifier les
	paires de moteurs distinguables. Calcule une ``critical distance`` (CD)
	dépendant du nombre de moteurs et de documents.
	measures: >-
	Les paires de moteurs dont les rangs moyens diffèrent significativement.
	usage: >-
	Base du Critical Difference Diagram (Demšar 2006).
	limits: >-
	Conservateur par construction (corrige pour comparaisons multiples) ;
	peut manquer des différences réelles mais subtiles.
	reference: >-
	Nemenyi, P. (1963). "Distribution-free Multiple Comparisons".

	cdd:
	title: "Critical Difference Diagram"
	definition: >-
	Rendu graphique des résultats Friedman-Nemenyi : moteurs placés sur un
	axe horizontal (rang moyen), reliés par une barre s'ils ne sont pas
	statistiquement distinguables au seuil α.
	measures: >-
	L'ordonnancement global des moteurs et les groupes d'indiscernabilité.
	usage: >-
	Standard de facto en ML depuis Demšar 2006 pour comparer plusieurs
	systèmes sur plusieurs datasets.
	limits: >-
	Peut être difficile à lire quand plusieurs groupes se chevauchent
	partiellement.
	reference: >-
	Demšar, J. (2006). "Statistical Comparisons of Classifiers over
	Multiple Data Sets". JMLR 7:1-30.

	pareto_front:
	title: "Frontière de Pareto"
	definition: >-
	Ensemble des moteurs pour lesquels aucun autre n'offre simultanément
	une meilleure qualité ET un meilleur coût (ou une autre paire
	d'objectifs).
	measures: >-
	Les compromis "non dominés" — choisir en dehors du front Pareto est
	toujours sous-optimal, mais choisir sur le front dépend des priorités
	propres à l'institution.
	usage: >-
	Cœur de la vue qualité/coût du rapport. Utilisable aussi pour
	qualité/vitesse ou qualité/carbone.
	limits: >-
	Les coûts utilisés sont indicatifs (voir table ``pricing.yaml``) et
	vieillissent. Toujours revalider avec les factures réelles avant
	décision d'achat.
	reference: >-
	Pareto, V. (1906). "Manuale di economia politica".

	difficulty_score:
	title: "Score de difficulté intrinsèque"
	definition: >-
	Score [0, 1] combinant la variance inter-moteurs des CER, la qualité
	d'image et la densité de caractères spéciaux patrimoniaux.
	measures: >-
	À quel point un document est intrinsèquement difficile, indépendamment
	de l'instrument d'évaluation.
	usage: >-
	Permet de stratifier le rapport (documents faciles vs difficiles) et
	d'interpréter un CER global en tenant compte du corpus.
	limits: >-
	Les poids par défaut (0.4, 0.35, 0.25) sont heuristiques et peuvent
	être ajustés selon le contexte.
	reference: >-
	Stutzmann, D. (2017). "Clustering of medieval scripts through
	computer image analysis".

	normalization_profile:
	title: "Profil de normalisation"
	definition: >-
	Ensemble de règles de transformation appliquées à la GT et à
	l'hypothèse avant calcul du CER : fusion ſ=s, u=v, i=j, développement
	d'abréviations, exclusion de caractères, etc.
	measures: >-
	Le choix d'une convention éditoriale pour le calcul de CER — n'affecte
	pas les données sources.
	usage: >-
	Picarones fournit 9 profils préconfigurés (medieval_french,
	early_modern_english, medieval_latin…). D'autres profils peuvent être
	chargés via YAML.
	limits: >-
	Un profil trop agressif masque les vraies erreurs ; un profil trop
	strict sur-estime l'erreur.
	reference: >-
	Voir ``picarones/core/normalization.py`` pour la liste des profils.

	structure:
	title: "Scores structurels"
	definition: >-
	Ensemble de mesures au niveau structurel : taux de fusion de lignes,
	taux de fragmentation, ordre de lecture (LCS), conservation des
	paragraphes.
	measures: >-
	L'intégrité de la mise en page reconstruite, au-delà du texte
	caractère-à-caractère.
	usage: >-
	Crucial pour les documents multi-colonnes (journaux, bibles glosées)
	où un CER bas peut cacher un ordre de lecture brisé.
	limits: >-
	Dépend d'annotations de structure dans la GT — pas toujours disponibles.
	reference: >-
	Antonacopoulos, A. et al. (2015). "ICDAR 2015 Competition on Text
	Line Detection in Historical Documents".

	image_quality:
	title: "Qualité d'image"
	definition: >-
	Score composite [0, 1] combinant netteté (variance du laplacien),
	niveau de bruit, contraste, et estimation d'angle de rotation.
	measures: >-
	Les caractéristiques physiques de l'image source susceptibles de
	dégrader la reconnaissance.
	usage: >-
	Sert à stratifier les résultats (images "bonnes" vs "mauvaises") et à
	identifier les documents qui nécessiteraient un rescannage.
	limits: >-
	Score purement intrinsèque à l'image ; ne capture pas les difficultés
	paléographiques (écriture cursive, abréviations denses).
	reference: >-
	Antonacopoulos, A., Bridson, D., Papadopoulos, C., Pletschacher, S.
	(2009). "A Realistic Dataset for Performance Evaluation of Document
	Layout Analysis".