Spaces:
Sleeping
Sleeping
Claude
chantier1: reconstructeur ALTO de référence + refonte BaseOCREngine via hooks
ceb4ba7 unverified | # Pipeline de référence — chantier 1 post-Sprint 97. | |
| # | |
| # Démontre une chaîne OCR → reconstruction ALTO avec évaluation | |
| # automatique aux deux jonctions : | |
| # - après l'OCR : CER/WER (TEXT vs GT TEXT) | |
| # - après le reconstructeur : alto_text_cer (ALTO vs GT ALTO) | |
| # | |
| # Pré-requis : | |
| # - tesseract installé (sinon remplacer par un autre moteur) | |
| # - corpus avec au moins .gt.txt par document ; .gt.alto.xml | |
| # optionnel mais nécessaire pour voir la jonction (ALTO, ALTO). | |
| # | |
| # Lancement : | |
| # picarones pipeline run examples/pipelines/ocr_to_alto.yaml \ | |
| # --corpus ./mon_corpus \ | |
| # --output-html rapport.html | |
| name: ocr_to_alto_baseline | |
| steps: | |
| - name: ocr | |
| module: picarones.engines.tesseract.TesseractEngine | |
| args: | |
| lang: fra | |
| psm: 6 | |
| expose_confidences: true | |
| - name: alto | |
| module: picarones.modules.alto_text_to_mono_region.TextToAltoMonoRegion | |
| args: | |
| name: alto_baseline | |
| # IMAGE est consommé en plus du TEXT : le reconstructeur | |
| # baseline lit les dimensions de l'image source pour produire | |
| # un ALTO 4.2 spatialement cohérent. IMAGE est conservé | |
| # automatiquement dans le bag par le pipeline_runner (entrée | |
| # initiale jamais écrasée, cf. Sprint 66). | |