Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

App Files Files Community

Picarones / docs /case-studies /02-edition-critique.md

Claude

Sprint 7 du plan rapport — études de cas, documentation, clôture phase 0

1766da1 unverified 2 months ago

preview code

Raw

History Blame

4.47 kB

	# 02 — Édition critique d'un manuscrit médiéval unique

	> 🎓 Cas d'école — scénario illustratif. Le corpus, les chiffres et
	> l'institution sont fictifs mais conçus pour être réalistes.

	## Contexte

	\| \| \|
	\|---\|---\|
	\| Institution \| Laboratoire de philologie médiévale d'une université française \|
	\| Projet \| Édition critique numérique d'un manuscrit unique de 180 folios \|
	\| Datation \| Première moitié du XIIIᵉ siècle \|
	\| Langue \| Latin médiéval, glossé en ancien français en marge \|
	\| Écriture \| Textualis bookhand, abréviations denses (Knight 1973 : ~30 % du texte) \|
	\| Disposition \| 2 colonnes, notes interlinéaires, manchettes \|
	\| GT disponible \| 30 folios annotés ligne par ligne par 2 paléographes \|
	\| Conventions \| Édition diplomatique stricte (préservation `ſ`, abréviations notées `⟨⟩`) \|
	\| Public visé \| Médiévistes et historiens — recherche par formes diplomatiques exactes \|

	## Question

	> Quel pipeline pour produire une transcription diplomatique exacte
	> publiable sous forme d'édition critique TEI, où chaque expansion
	> d'abréviation doit être marquée et où l'ordre de lecture des deux
	> colonnes doit être préservé ?

	## Métriques regardées en priorité

	L'équipe a considéré ces métriques dans cet ordre, en utilisant le
	glossaire embarqué pour valider sa compréhension :

	1. CER diplomatique (et non CER exact) — `pero_ocr` était le seul
	moteur HTR à préserver correctement les `ſ` longs et les `u`/`v`. Le
	CER diplomatique de `pero_ocr` était à 5,1 % vs un CER "exact" à
	12,3 % — mais c'est le diplomatique qui compte pour l'usage métier.
	2. Score de ligatures — référence MUFI requise. `pero_ocr` 0,82,
	`kraken` 0,71, `tesseract` 0,12.
	3. Erreurs d'abréviation (taxonomie classe 5) — critique sur ce
	corpus. `pero_ocr` faisait 18 % d'erreurs sur les abréviations
	médiévales classiques (`ꝑ`, `ꝓ`, `ꝗ`, `ꝱ`).
	4. Pipeline `pero_ocr → claude-sonnet-4-6` en post-correction image+texte
	— testé spécifiquement parce que le LLM peut **silencieusement développer
	les abréviations**. Le détecteur narratif `llm_hallucination_flag` a
	d'ailleurs alerté : « Signal d'hallucination sur claude-sonnet-4-6
	(sortie anormalement longue, ratio 1.31). »
	5. Score de structure / ordre de lecture — pour vérifier que les deux
	colonnes étaient correctement séparées. `pero_ocr` LCS = 0,94,
	`tesseract` 0,52 (mélangeait les colonnes).

	## Métriques non regardées

	- Le coût (le projet est financé sur fonds ANR, non au volume).
	- La vitesse (180 folios traités une seule fois sur 6 mois).
	- Le carbone (le calcul se fait sur cluster universitaire, déjà comptabilisé
	en bilan annuel de l'unité).

	## Verdict

	Pipeline retenu : `pero_ocr` seul, sans LLM en aval.

	Arguments :
	- CER diplomatique au plafond humain : l'IC 95 % de `pero_ocr` (4,8 %–5,4 %)
	recouvrait l'accord inter-annotateur des deux paléographes (4,7 %).
	- Score de ligatures et structure préservés.
	- Refus du LLM parce que la moindre expansion silencieuse d'abréviation
	obligerait à re-vérifier chaque ligne. Le détecteur d'hallucination du
	rapport a confirmé que `claude-sonnet-4-6` produisait du texte plus long
	que la GT (ratio 1,31), incompatible avec l'édition diplomatique.
	- Les erreurs résiduelles de `pero_ocr` (à 5,1 % CER diplomatique) sont
	corrigées manuellement par les paléographes lors de la validation TEI.

	## Limites

	- 30 folios annotés sur 180 = 17 % du corpus. La validation finale se
	fait à la main, donc la généralisation des chiffres est secondaire.
	- L'absence de stratification par main de scribe : tout le manuscrit est
	d'une seule main. Les résultats peuvent ne pas se transposer à d'autres
	manuscrits.
	- Pas de mesure structurelle au-delà du LCS — pas de F1 SegmOnto faute
	d'annotation région-par-région. Sera ajouté en Phase 2 (plan rapport).

	## Reproductibilité

	```yaml
	# picarones-config.yml
	corpus: ./benchmarks/manuscrit-XIII-30folios/
	engines:
	- pero_ocr: { model: medieval-latin-2024 }
	- kraken: { model: textualis-medieval-2023 }
	- tesseract: { lang: lat, psm: 6 }
	- pipeline:
	ocr: pero_ocr
	llm: claude-sonnet-4-6
	mode: post_correction_image_texte
	prompt: correction_image_medieval_french.txt
	normalization: medieval_latin
	report:
	lang: fr
	output: rapport-mss-XIII.html
	```