Spaces:
Sleeping
Sleeping
01 — Registres paroissiaux XVIIᵉ-XVIIIᵉ siècle
🎓 Cas d'école — scénario illustratif. Le corpus, les chiffres et l'institution sont fictifs mais conçus pour être réalistes (calibrés sur des projets décrits dans la littérature DH).
Contexte
| Institution | Service d'archives départementales d'une métropole française |
| Projet | Numérisation et indexation plein-texte de 80 000 pages de registres |
| de baptêmes-mariages-sépultures (BMS) du XVIIᵉ au XVIIIᵉ siècle | |
| Corpus de benchmark | 200 pages échantillonnées sur 12 paroisses |
| Langue | Français pré-classique, formules latines récurrentes |
| Écriture | Mains de scribes paroissiaux, qualité variable, cursive courante |
| GT disponible | 200 pages transcrites par 3 archivistes vacataires |
| Conventions | Diplomatique strict (préservation ſ, u/v, abréviations) |
| Budget annuel | 15 000 € pour les coûts d'inférence sur 4 ans |
Question
Quel moteur (ou pipeline) retenir pour traiter les 80 000 pages dans le budget alloué, en privilégiant le rappel des noms propres (objectif métier : indexer les actes pour la recherche généalogique) ?
Métriques regardées en priorité
L'équipe a ouvert le rapport Picarones et consulté dans cet ordre :
- Synthèse factuelle en tête — pour identifier les moteurs candidats
dans le groupe de tête statistique. Le CDD (Friedman-Nemenyi) montrait
que
pero_ocr,tesseract → claude-haiku-4-5ettesseractétaient indiscernables au seuil α = 0,05. - Vue Pareto coût/qualité (axe coût €) — pour exclure les options
trop chères pour le budget.
gpt-4oen zero-shot, malgré un CER compétitif, était à ×8 le coût declaude-haiku-4-5. - Score de difficulté stratifié par paroisse — pour vérifier qu'aucun
moteur ne s'effondrait sur les paroisses aux mains les plus cursives.
pero_ocry excellait,tesseractseul s'effondrait. - Taxonomie des erreurs (vue Caractères) — l'équipe a regardé
spécifiquement la classe
abbreviation_errorpuisque les actes BMS utilisent des abréviations latines fréquentes (obijt,bapt.).tesseract → claude-haiku-4-5produisait 2× moins d'erreurs d'abréviation quetesseractseul (le LLM les développait correctement).
Métriques non regardées
- Le CER global comme critère unique. L'équipe savait par expérience que les actes BMS sont des textes courts et formulaires : un CER de 8 % peut être acceptable si les noms propres et les dates sont préservés.
- Le WER : trop sensible à la segmentation, sans valeur ajoutée par rapport au CER pour leur usage.
Verdict
Pipeline retenu : tesseract → claude-haiku-4-5 en mode
post_correction_texte.
Arguments :
- Coût estimé : 80 000 × 0,80 €/1000 = 64 € (budget largement
respecté). À comparer aux 12 000 € de
gpt-4oen zero-shot. - CER médian : 4,2 % [3,8–4,7] (IC 95 % bootstrap), dans le groupe de tête statistique du CDD.
- Profil d'erreurs favorable aux noms propres.
- Robuste sur la stratification par paroisse (pas d'effondrement sur les paroisses aux mains difficiles).
Limites
- L'évaluation a porté sur 200 pages, soit 0,25 % du corpus cible. Une validation sur 1 000 pages additionnelles est prévue après mise en production.
- L'IC bootstrap suppose l'indépendance entre documents — peut-être optimiste car les pages d'une même paroisse partagent le même scribe.
- Le coût de
claude-haiku-4-5peut évoluer pendant les 4 ans du projet. L'équipe a prévu un avenant tarifaire dans la convention. - L'empreinte carbone n'a pas été incluse comme critère décisif (mode expérimental dans Picarones), mais l'équipe a noté qu'un OCR cloud émet ~×30 plus de CO₂ qu'un OCR local côté France.
Reproductibilité
# picarones-config.yml
corpus: ./benchmarks/bms-200pages/
engines:
- tesseract: { lang: fra+lat, psm: 6 }
- pero_ocr: { model: medieval-french-2024 }
- pipeline:
ocr: tesseract
llm: claude-haiku-4-5
mode: post_correction_texte
prompt: correction_early_modern_french.txt
- pipeline:
ocr: null
llm: gpt-4o
mode: zero_shot
prompt: zero_shot_imprime_ancien.txt
normalization: early_modern_french
report:
lang: fr
output: rapport-bms.html
Reprise possible via picarones run --partial-dir /tmp/picarones-bms/.