Spaces:
Sleeping
Sleeping
File size: 1,246 Bytes
ceb4ba7 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 | # Pipeline de référence — chantier 1 post-Sprint 97.
#
# Démontre une chaîne OCR → reconstruction ALTO avec évaluation
# automatique aux deux jonctions :
# - après l'OCR : CER/WER (TEXT vs GT TEXT)
# - après le reconstructeur : alto_text_cer (ALTO vs GT ALTO)
#
# Pré-requis :
# - tesseract installé (sinon remplacer par un autre moteur)
# - corpus avec au moins .gt.txt par document ; .gt.alto.xml
# optionnel mais nécessaire pour voir la jonction (ALTO, ALTO).
#
# Lancement :
# picarones pipeline run examples/pipelines/ocr_to_alto.yaml \
# --corpus ./mon_corpus \
# --output-html rapport.html
name: ocr_to_alto_baseline
steps:
- name: ocr
module: picarones.engines.tesseract.TesseractEngine
args:
lang: fra
psm: 6
expose_confidences: true
- name: alto
module: picarones.modules.alto_text_to_mono_region.TextToAltoMonoRegion
args:
name: alto_baseline
# IMAGE est consommé en plus du TEXT : le reconstructeur
# baseline lit les dimensions de l'image source pour produire
# un ALTO 4.2 spatialement cohérent. IMAGE est conservé
# automatiquement dans le bag par le pipeline_runner (entrée
# initiale jamais écrasée, cf. Sprint 66).
|