Spaces:
Sleeping
Sleeping
File size: 4,470 Bytes
1766da1 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 | # 02 — Édition critique d'un manuscrit médiéval unique
> 🎓 **Cas d'école** — scénario illustratif. Le corpus, les chiffres et
> l'institution sont fictifs mais conçus pour être réalistes.
## Contexte
| | |
|---|---|
| Institution | Laboratoire de philologie médiévale d'une université française |
| Projet | Édition critique numérique d'un manuscrit unique de 180 folios |
| Datation | Première moitié du XIIIᵉ siècle |
| Langue | Latin médiéval, glossé en ancien français en marge |
| Écriture | Textualis bookhand, abréviations denses (Knight 1973 : ~30 % du texte) |
| Disposition | 2 colonnes, notes interlinéaires, manchettes |
| GT disponible | 30 folios annotés ligne par ligne par 2 paléographes |
| Conventions | Édition diplomatique stricte (préservation `ſ`, abréviations notées `⟨⟩`) |
| Public visé | Médiévistes et historiens — recherche par formes diplomatiques exactes |
## Question
> Quel pipeline pour produire une transcription **diplomatique exacte**
> publiable sous forme d'édition critique TEI, où chaque expansion
> d'abréviation doit être marquée et où l'ordre de lecture des deux
> colonnes doit être préservé ?
## Métriques regardées en priorité
L'équipe a considéré ces métriques dans cet ordre, en utilisant le
glossaire embarqué pour valider sa compréhension :
1. **CER diplomatique** (et non CER exact) — `pero_ocr` était le seul
moteur HTR à préserver correctement les `ſ` longs et les `u`/`v`. Le
CER diplomatique de `pero_ocr` était à 5,1 % vs un CER "exact" à
12,3 % — mais c'est le diplomatique qui compte pour l'usage métier.
2. **Score de ligatures** — référence MUFI requise. `pero_ocr` 0,82,
`kraken` 0,71, `tesseract` 0,12.
3. **Erreurs d'abréviation (taxonomie classe 5)** — critique sur ce
corpus. `pero_ocr` faisait 18 % d'erreurs sur les abréviations
médiévales classiques (`ꝑ`, `ꝓ`, `ꝗ`, `ꝱ`).
4. **Pipeline `pero_ocr → claude-sonnet-4-6`** en post-correction image+texte
— testé spécifiquement parce que le LLM peut **silencieusement développer
les abréviations**. Le détecteur narratif `llm_hallucination_flag` a
d'ailleurs alerté : « Signal d'hallucination sur claude-sonnet-4-6
(sortie anormalement longue, ratio 1.31). »
5. **Score de structure / ordre de lecture** — pour vérifier que les deux
colonnes étaient correctement séparées. `pero_ocr` LCS = 0,94,
`tesseract` 0,52 (mélangeait les colonnes).
## Métriques **non** regardées
- Le coût (le projet est financé sur fonds ANR, non au volume).
- La vitesse (180 folios traités une seule fois sur 6 mois).
- Le carbone (le calcul se fait sur cluster universitaire, déjà comptabilisé
en bilan annuel de l'unité).
## Verdict
**Pipeline retenu** : `pero_ocr` seul, **sans LLM en aval**.
**Arguments** :
- CER diplomatique au plafond humain : l'IC 95 % de `pero_ocr` (4,8 %–5,4 %)
recouvrait l'accord inter-annotateur des deux paléographes (4,7 %).
- Score de ligatures et structure préservés.
- **Refus du LLM** parce que la moindre expansion silencieuse d'abréviation
obligerait à re-vérifier chaque ligne. Le détecteur d'hallucination du
rapport a confirmé que `claude-sonnet-4-6` produisait du texte plus long
que la GT (ratio 1,31), incompatible avec l'édition diplomatique.
- Les erreurs résiduelles de `pero_ocr` (à 5,1 % CER diplomatique) sont
corrigées manuellement par les paléographes lors de la validation TEI.
## Limites
- 30 folios annotés sur 180 = 17 % du corpus. La validation finale se
fait à la main, donc la généralisation des chiffres est secondaire.
- L'absence de stratification par main de scribe : tout le manuscrit est
d'une seule main. Les résultats peuvent ne pas se transposer à d'autres
manuscrits.
- Pas de mesure structurelle au-delà du LCS — pas de F1 SegmOnto faute
d'annotation région-par-région. Sera ajouté en Phase 2 (plan rapport).
## Reproductibilité
```yaml
# picarones-config.yml
corpus: ./benchmarks/manuscrit-XIII-30folios/
engines:
- pero_ocr: { model: medieval-latin-2024 }
- kraken: { model: textualis-medieval-2023 }
- tesseract: { lang: lat, psm: 6 }
- pipeline:
ocr: pero_ocr
llm: claude-sonnet-4-6
mode: post_correction_image_texte
prompt: correction_image_medieval_french.txt
normalization: medieval_latin
report:
lang: fr
output: rapport-mss-XIII.html
```
|