Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

App Files Files Community

Picarones / docs /case-studies /01-registres-paroissiaux.md

Claude

Sprint 7 du plan rapport — études de cas, documentation, clôture phase 0

1766da1 unverified 2 months ago

preview code

Raw

History Blame

4.52 kB

01 — Registres paroissiaux XVIIᵉ-XVIIIᵉ siècle

🎓 Cas d'école — scénario illustratif. Le corpus, les chiffres et l'institution sont fictifs mais conçus pour être réalistes (calibrés sur des projets décrits dans la littérature DH).

Contexte


Institution	Service d'archives départementales d'une métropole française
Projet	Numérisation et indexation plein-texte de 80 000 pages de registres
	de baptêmes-mariages-sépultures (BMS) du XVIIᵉ au XVIIIᵉ siècle
Corpus de benchmark	200 pages échantillonnées sur 12 paroisses
Langue	Français pré-classique, formules latines récurrentes
Écriture	Mains de scribes paroissiaux, qualité variable, cursive courante
GT disponible	200 pages transcrites par 3 archivistes vacataires
Conventions	Diplomatique strict (préservation `ſ`, `u`/`v`, abréviations)
Budget annuel	15 000 € pour les coûts d'inférence sur 4 ans

Question

Quel moteur (ou pipeline) retenir pour traiter les 80 000 pages dans le budget alloué, en privilégiant le rappel des noms propres (objectif métier : indexer les actes pour la recherche généalogique) ?

Métriques regardées en priorité

L'équipe a ouvert le rapport Picarones et consulté dans cet ordre :

Synthèse factuelle en tête — pour identifier les moteurs candidats dans le groupe de tête statistique. Le CDD (Friedman-Nemenyi) montrait que pero_ocr, tesseract → claude-haiku-4-5 et tesseract étaient indiscernables au seuil α = 0,05.
Vue Pareto coût/qualité (axe coût €) — pour exclure les options trop chères pour le budget. gpt-4o en zero-shot, malgré un CER compétitif, était à ×8 le coût de claude-haiku-4-5.
Score de difficulté stratifié par paroisse — pour vérifier qu'aucun moteur ne s'effondrait sur les paroisses aux mains les plus cursives. pero_ocr y excellait, tesseract seul s'effondrait.
Taxonomie des erreurs (vue Caractères) — l'équipe a regardé spécifiquement la classe abbreviation_error puisque les actes BMS utilisent des abréviations latines fréquentes (obijt, bapt.). tesseract → claude-haiku-4-5 produisait 2× moins d'erreurs d'abréviation que tesseract seul (le LLM les développait correctement).

Métriques non regardées

Le CER global comme critère unique. L'équipe savait par expérience que les actes BMS sont des textes courts et formulaires : un CER de 8 % peut être acceptable si les noms propres et les dates sont préservés.
Le WER : trop sensible à la segmentation, sans valeur ajoutée par rapport au CER pour leur usage.

Verdict

Pipeline retenu : tesseract → claude-haiku-4-5 en mode post_correction_texte.

Arguments :

Coût estimé : 80 000 × 0,80 €/1000 = 64 € (budget largement respecté). À comparer aux 12 000 € de gpt-4o en zero-shot.
CER médian : 4,2 % [3,8–4,7] (IC 95 % bootstrap), dans le groupe de tête statistique du CDD.
Profil d'erreurs favorable aux noms propres.
Robuste sur la stratification par paroisse (pas d'effondrement sur les paroisses aux mains difficiles).

Limites

L'évaluation a porté sur 200 pages, soit 0,25 % du corpus cible. Une validation sur 1 000 pages additionnelles est prévue après mise en production.
L'IC bootstrap suppose l'indépendance entre documents — peut-être optimiste car les pages d'une même paroisse partagent le même scribe.
Le coût de claude-haiku-4-5 peut évoluer pendant les 4 ans du projet. L'équipe a prévu un avenant tarifaire dans la convention.
L'empreinte carbone n'a pas été incluse comme critère décisif (mode expérimental dans Picarones), mais l'équipe a noté qu'un OCR cloud émet ~×30 plus de CO₂ qu'un OCR local côté France.

Reproductibilité

# picarones-config.yml
corpus: ./benchmarks/bms-200pages/
engines:
  - tesseract: { lang: fra+lat, psm: 6 }
  - pero_ocr: { model: medieval-french-2024 }
  - pipeline:
      ocr: tesseract
      llm: claude-haiku-4-5
      mode: post_correction_texte
      prompt: correction_early_modern_french.txt
  - pipeline:
      ocr: null
      llm: gpt-4o
      mode: zero_shot
      prompt: zero_shot_imprime_ancien.txt
normalization: early_modern_french
report:
  lang: fr
  output: rapport-bms.html

Reprise possible via picarones run --partial-dir /tmp/picarones-bms/.