Spaces:
Running
Running
02 — Édition critique d'un manuscrit médiéval unique
🎓 Cas d'école — scénario illustratif. Le corpus, les chiffres et l'institution sont fictifs mais conçus pour être réalistes.
Contexte
| Institution | Laboratoire de philologie médiévale d'une université française |
| Projet | Édition critique numérique d'un manuscrit unique de 180 folios |
| Datation | Première moitié du XIIIᵉ siècle |
| Langue | Latin médiéval, glossé en ancien français en marge |
| Écriture | Textualis bookhand, abréviations denses (Knight 1973 : ~30 % du texte) |
| Disposition | 2 colonnes, notes interlinéaires, manchettes |
| GT disponible | 30 folios annotés ligne par ligne par 2 paléographes |
| Conventions | Édition diplomatique stricte (préservation ſ, abréviations notées ⟨⟩) |
| Public visé | Médiévistes et historiens — recherche par formes diplomatiques exactes |
Question
Quel pipeline pour produire une transcription diplomatique exacte publiable sous forme d'édition critique TEI, où chaque expansion d'abréviation doit être marquée et où l'ordre de lecture des deux colonnes doit être préservé ?
Métriques regardées en priorité
L'équipe a considéré ces métriques dans cet ordre, en utilisant le glossaire embarqué pour valider sa compréhension :
- CER diplomatique (et non CER exact) —
pero_ocrétait le seul moteur HTR à préserver correctement lesſlongs et lesu/v. Le CER diplomatique depero_ocrétait à 5,1 % vs un CER "exact" à 12,3 % — mais c'est le diplomatique qui compte pour l'usage métier. - Score de ligatures — référence MUFI requise.
pero_ocr0,82,kraken0,71,tesseract0,12. - Erreurs d'abréviation (taxonomie classe 5) — critique sur ce
corpus.
pero_ocrfaisait 18 % d'erreurs sur les abréviations médiévales classiques (ꝑ,ꝓ,ꝗ,ꝱ). - Pipeline
pero_ocr → claude-sonnet-4-6en post-correction image+texte — testé spécifiquement parce que le LLM peut silencieusement développer les abréviations. Le détecteur narratifllm_hallucination_flaga d'ailleurs alerté : « Signal d'hallucination sur claude-sonnet-4-6 (sortie anormalement longue, ratio 1.31). » - Score de structure / ordre de lecture — pour vérifier que les deux
colonnes étaient correctement séparées.
pero_ocrLCS = 0,94,tesseract0,52 (mélangeait les colonnes).
Métriques non regardées
- Le coût (le projet est financé sur fonds ANR, non au volume).
- La vitesse (180 folios traités une seule fois sur 6 mois).
- Le carbone (le calcul se fait sur cluster universitaire, déjà comptabilisé en bilan annuel de l'unité).
Verdict
Pipeline retenu : pero_ocr seul, sans LLM en aval.
Arguments :
- CER diplomatique au plafond humain : l'IC 95 % de
pero_ocr(4,8 %–5,4 %) recouvrait l'accord inter-annotateur des deux paléographes (4,7 %). - Score de ligatures et structure préservés.
- Refus du LLM parce que la moindre expansion silencieuse d'abréviation
obligerait à re-vérifier chaque ligne. Le détecteur d'hallucination du
rapport a confirmé que
claude-sonnet-4-6produisait du texte plus long que la GT (ratio 1,31), incompatible avec l'édition diplomatique. - Les erreurs résiduelles de
pero_ocr(à 5,1 % CER diplomatique) sont corrigées manuellement par les paléographes lors de la validation TEI.
Limites
- 30 folios annotés sur 180 = 17 % du corpus. La validation finale se fait à la main, donc la généralisation des chiffres est secondaire.
- L'absence de stratification par main de scribe : tout le manuscrit est d'une seule main. Les résultats peuvent ne pas se transposer à d'autres manuscrits.
- Pas de mesure structurelle au-delà du LCS — pas de F1 SegmOnto faute d'annotation région-par-région. Sera ajouté en Phase 2 (plan rapport).
Reproductibilité
# picarones-config.yml
corpus: ./benchmarks/manuscrit-XIII-30folios/
engines:
- pero_ocr: { model: medieval-latin-2024 }
- kraken: { model: textualis-medieval-2023 }
- tesseract: { lang: lat, psm: 6 }
- pipeline:
ocr: pero_ocr
llm: claude-sonnet-4-6
mode: post_correction_image_texte
prompt: correction_image_medieval_french.txt
normalization: medieval_latin
report:
lang: fr
output: rapport-mss-XIII.html