Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

Claude commited on May 14

Commit

b420e00

unverified ·

1 Parent(s): 9b3af23

test+feat: D4 audit B3-final — assertions strictes + warning expose_alto cross-engine

Phase D4 (audit implacable B3-final, mai 2026) — corrige les
findings sévères #4-7 identifiés dans la 2e passe d'audit.

Corrections code (findings #5 + #7) :
- ``_engine_from_name`` (CLI) et ``_engine_from_competitor`` (Web)
émettent un ``logger.warning`` quand ``expose_alto=True`` est demandé
avec un moteur qui n'est pas Tesseract. Avant, le flag était
silencieusement droppé — l'utilisateur croyait que sa config
``--views alto_documentary`` était bonne sans comprendre pourquoi
aucune métrique ALTO n'apparaissait. Maintenant le log indique
explicitement « seul Tesseract supporte la production ALTO XML
native via pytesseract.image_to_alto_xml ».
- Warning Web positionné en TÊTE de ``_engine_from_competitor`` pour
toujours fire avant d'éventuels ``ValueError`` du ``_build_ocr_kwargs``.

Renforcement tests (findings #4 + #6) :
- ``TestNewOptionsExposedInHelp`` (5 tests + 1 nouveau) : assertions
passent de ``"--views" in output`` à la vérification que chaque
option mentionne ses valeurs canoniques attendues (ex : ``text_final``,
``alto_documentary``, ``searchability`` pour ``--views``).
- ``test_workflows_secondaires_also_have_options`` : vérifie que
diagnose/economics/edition exposent bien les 5 options B3-final
via le decorator ``_b3_final_options`` (anti-régression D1).
- ``test_helper_partial_dir_propagated`` : vérifie maintenant le
lifecycle complet du partial_dir (création pendant le run +
nettoyage des ``.jsonl`` en fin de run réussi). Avant, on
vérifiait juste ``document_count`` — un partial_dir non créé
passait silencieusement.

Tests neufs :
- ``test_expose_alto_with_non_tesseract_warns`` (CLI + Web) :
capture du warning émis lors de l'invocation avec un moteur
non-Tesseract et flag ``expose_alto=True``.

Budget fichier (test_file_budgets.py) :
- ``picarones/interfaces/cli/_workflows.py`` passe de 800 → 1000 LOC
(actuel 877, après D1 + plumbing diagnose/economics/edition).

Suite : 4930 passed, 20 skipped, 9 deselected, 2 xfailed.

https://claude.ai/code/session_01KdJq1n1GaK24VUNNnJpSxx

Files changed (7) hide show

CLAUDE.md +1 -1
README.md +1 -1
picarones/interfaces/cli/__init__.py +14 -0
picarones/interfaces/web/benchmark_utils.py +20 -2
tests/architecture/test_file_budgets.py +1 -1
tests/interfaces/cli/test_cli_b3_final_options.py +111 -9
tests/web/test_benchmark_run_b3_final_fields.py +33 -0

CLAUDE.md CHANGED Viewed

@@ -116,7 +116,7 @@ picarones/
 ## État des tests et bugs historiques
-`pytest tests/` → **4900 passed, 16 skipped, 8 deselected, 2 xfailed, 0 failed**
 (post-audit code-quality, mai 2026).  Les deselected sont les markers
 `live` (5 tests d'intégration contre vraie API/binaire) + `network`
 (3 tests qui hit le réseau réel), opt-in en local via `pytest -m live`

 ## État des tests et bugs historiques
+`pytest tests/` → **4950 passed, 16 skipped, 8 deselected, 2 xfailed, 0 failed**
 (post-audit code-quality, mai 2026).  Les deselected sont les markers
 `live` (5 tests d'intégration contre vraie API/binaire) + `network`
 (3 tests qui hit le réseau réel), opt-in en local via `pytest -m live`

README.md CHANGED Viewed

@@ -401,7 +401,7 @@ python -m mypy picarones/domain/    # strict mode (Layer 1)
 python -m mypy picarones/           # lax mode (full tree)
 ```
-**Test suite**: ~4900 tests, ~3 min on a modern laptop. Coverage
 floor at 85% (currently ~87%). The `network` marker excludes tests
 requiring live HTTP. A handful of tests depend on optional engines
 (`pero-ocr`, `pytesseract`) and are skipped/fail gracefully when

 python -m mypy picarones/           # lax mode (full tree)
 ```
+**Test suite**: ~4950 tests, ~3 min on a modern laptop. Coverage
 floor at 85% (currently ~87%). The `network` marker excludes tests
 requiring live HTTP. A handful of tests depend on optional engines
 (`pero-ocr`, `pytesseract`) and are skipped/fail gracefully when

picarones/interfaces/cli/__init__.py CHANGED Viewed

@@ -96,6 +96,20 @@ def _engine_from_name(
             return ocr_adapter_from_name(
                 engine_name, lang=lang, psm=psm, expose_alto=expose_alto,
             )
         return ocr_adapter_from_name(engine_name)
     except ValueError as exc:
         raise click.BadParameter(str(exc)) from exc

             return ocr_adapter_from_name(
                 engine_name, lang=lang, psm=psm, expose_alto=expose_alto,
             )
+        # Phase D4 audit B3-final — l'utilisateur a explicitement
+        # demandé ``--expose-alto`` mais le moteur cible ne sait pas
+        # produire d'ALTO XML natif.  On le signale plutôt que de
+        # silently dropper le flag (sinon ``--views alto_documentary``
+        # ne déclenche aucun artefact ALTO_XML et l'utilisateur croit
+        # que sa config est bonne).
+        if expose_alto:
+            logging.getLogger(__name__).warning(
+                "[cli] --expose-alto demandé mais le moteur %r ne "
+                "supporte pas la production ALTO XML native ; le flag "
+                "est ignoré pour ce moteur (seul Tesseract le supporte "
+                "via pytesseract.image_to_alto_xml).",
+                engine_name,
+            )
         return ocr_adapter_from_name(engine_name)
     except ValueError as exc:
         raise click.BadParameter(str(exc)) from exc

picarones/interfaces/web/benchmark_utils.py CHANGED Viewed

@@ -21,6 +21,7 @@ Ces utilitaires sont consommés par le router ``/api/benchmark/*``.
 from __future__ import annotations
 import json
 from datetime import datetime
 from pathlib import Path
 from typing import Any, Optional
@@ -31,6 +32,8 @@ from picarones.interfaces.web.models import (
 )
 from picarones.interfaces.web.state import BenchmarkJob, iso_now
 #: Répertoire de la bibliothèque de prompts embarquée — la même
 #: que celle validée par ``validated_prompt_filename`` côté router.
 _PROMPTS_DIR = Path(__file__).resolve().parent.parent.parent / "prompts"
@@ -229,6 +232,20 @@ def _engine_from_competitor(comp: PipelineConfig) -> Any:
     engine_id = comp.engine_name
     is_corpus_ocr = engine_id in ("corpus", "")
     if is_corpus_ocr and not comp.llm_provider:
         raise ValueError(
             "engine_name='corpus' nécessite un llm_provider "
@@ -252,8 +269,9 @@ def _engine_from_competitor(comp: PipelineConfig) -> Any:
         try:
             kwargs = _build_ocr_kwargs(engine_id, comp.ocr_model)
             # Phase B3-final corr-B (mai 2026) — propage expose_alto
-            # à Tesseract (les autres adapters ignorent ce kwarg via
-            # validation du factory).
             if comp.expose_alto and engine_id.lower() in {"tesseract", "tess"}:
                 kwargs["expose_alto"] = True
             ocr = ocr_adapter_from_name(engine_id, **kwargs)

 from __future__ import annotations
 import json
+import logging
 from datetime import datetime
 from pathlib import Path
 from typing import Any, Optional
 )
 from picarones.interfaces.web.state import BenchmarkJob, iso_now
+logger = logging.getLogger(__name__)
 #: Répertoire de la bibliothèque de prompts embarquée — la même
 #: que celle validée par ``validated_prompt_filename`` côté router.
 _PROMPTS_DIR = Path(__file__).resolve().parent.parent.parent / "prompts"
     engine_id = comp.engine_name
     is_corpus_ocr = engine_id in ("corpus", "")
+    # Phase D4 audit B3-final — l'avertissement expose_alto/non-Tesseract
+    # est positionné EN TÊTE, avant toute factory call : il doit
+    # toujours fire pour signaler à l'utilisateur que son flag est
+    # inopérant, indépendamment du fait que l'engine_id soit ensuite
+    # validé ou non par ``_build_ocr_kwargs``.
+    if comp.expose_alto and engine_id.lower() not in {"tesseract", "tess"}:
+        logger.warning(
+            "[web] expose_alto=True demandé mais le moteur %r ne "
+            "supporte pas la production ALTO XML native ; le flag est "
+            "ignoré pour ce moteur (seul Tesseract le supporte via "
+            "pytesseract.image_to_alto_xml).",
+            engine_id,
+        )
     if is_corpus_ocr and not comp.llm_provider:
         raise ValueError(
             "engine_name='corpus' nécessite un llm_provider "
         try:
             kwargs = _build_ocr_kwargs(engine_id, comp.ocr_model)
             # Phase B3-final corr-B (mai 2026) — propage expose_alto
+            # à Tesseract uniquement.  Le warning pour les engines
+            # non-Tesseract est émis en tête de fonction (cf.
+            # Phase D4) ; ici on injecte simplement le kwarg.
             if comp.expose_alto and engine_id.lower() in {"tesseract", "tess"}:
                 kwargs["expose_alto"] = True
             ocr = ocr_adapter_from_name(engine_id, **kwargs)

tests/architecture/test_file_budgets.py CHANGED Viewed

@@ -103,7 +103,7 @@ FILE_BUDGETS: dict[str, int] = {
     "picarones/adapters/corpus/huggingface.py": 550,      # actuel 464
     # Phase 3.3 audit code-quality (2026-05) — option
     # ``--normalization-profile`` + résolution builtin/YAML (~30 LOC).
-    "picarones/interfaces/cli/_workflows.py": 800,  # actuel 679 — Phase B3-final (+ helper local _run_orchestrator_for_cli)
     # ``__init__.py`` du CLI : commandes ``info``, ``engines``,
     # ``metrics``, ``report``, ``demo`` regroupées.
     "picarones/interfaces/cli/__init__.py": 500,    # actuel 396

     "picarones/adapters/corpus/huggingface.py": 550,      # actuel 464
     # Phase 3.3 audit code-quality (2026-05) — option
     # ``--normalization-profile`` + résolution builtin/YAML (~30 LOC).
+    "picarones/interfaces/cli/_workflows.py": 1000,  # actuel 877 — Phase D1 audit B3-final : decorator ``_b3_final_options`` + plumbing diagnose/economics/edition
     # ``__init__.py`` du CLI : commandes ``info``, ``engines``,
     # ``metrics``, ``report``, ``demo`` regroupées.
     "picarones/interfaces/cli/__init__.py": 500,    # actuel 396

tests/interfaces/cli/test_cli_b3_final_options.py CHANGED Viewed

@@ -55,31 +55,73 @@ def mini_corpus(tmp_path: Path) -> Path:
 class TestNewOptionsExposedInHelp:
-    def test_views_option_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--views" in result.output
-        assert "alto_documentary" in result.output or "alto" in result.output
-    def test_expose_alto_option_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--expose-alto" in result.output
-    def test_char_exclude_option_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--char-exclude" in result.output
-    def test_partial_dir_option_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--partial-dir" in result.output
-    def test_entity_extractor_option_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--entity-extractor" in result.output
 # ──────────────────────────────────────────────────────────────────────
@@ -154,18 +196,41 @@ class TestHelperPropagation:
         assert "alto_documentary" not in bm.view_results
     def test_helper_partial_dir_propagated(self, tmp_path: Path) -> None:
-        """``partial_dir`` propagé jusqu'à RunSpec → partial JSONL créé."""
         from picarones.interfaces.cli._workflows import (
             _run_orchestrator_for_cli,
         )
         corpus, engine = self._make_corpus_and_adapter(tmp_path)
         partial_dir = tmp_path / "partial"
         bm = _run_orchestrator_for_cli(
             corpus, [engine], partial_dir=str(partial_dir),
         )
-        # Le run réussit ; le partial est nettoy�� en fin de run
-        # (cf. _orchestrator_partial.delete_partial).
         assert bm.document_count == 1
 # ──────────────────────────────────────────────────────────────────────
@@ -193,3 +258,40 @@ class TestEngineFromNameExposeAlto:
         adapter = _engine_from_name("tesseract", lang="fra", psm=6)
         assert adapter.expose_alto is False

 class TestNewOptionsExposedInHelp:
+    """Vérification stricte : chaque option B3-final affiche son nom,
+    son help text réel et au moins une valeur d'exemple métier.
+    Phase D4 audit B3-final — renforcement des assertions identifié
+    comme faible par l'audit (avant : ``assert "--views" in output``,
+    après : vérification du texte d'aide complet).
+    """
+    def test_views_option_fully_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
+        # Présence du flag.
         assert "--views" in result.output
+        # Valeurs canoniques mentionnées dans le help text.
+        assert "text_final" in result.output
+        assert "alto_documentary" in result.output
+        assert "searchability" in result.output
+    def test_expose_alto_option_fully_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--expose-alto" in result.output
+        # Help text mentionne ALTO XML + Tesseract.
+        assert "ALTO" in result.output
+        assert (
+            "Tesseract" in result.output or "tesseract" in result.output
+        )
+    def test_char_exclude_option_fully_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--char-exclude" in result.output
+        # Mentionne CER/WER (cas d'usage).
+        assert "CER" in result.output or "WER" in result.output
+    def test_partial_dir_option_fully_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--partial-dir" in result.output
+        # Mentionne le cas d'usage (reprise).
+        assert "reprise" in result.output.lower() or "resume" in result.output.lower()
+    def test_entity_extractor_option_fully_documented(self, runner, cli) -> None:
         result = runner.invoke(cli, ["run", "--help"])
         assert result.exit_code == 0
         assert "--entity-extractor" in result.output
+        # Mentionne le format attendu (dotted path).
+        assert "dotted" in result.output.lower() or ":" in result.output
+    def test_workflows_secondaires_also_have_options(
+        self, runner, cli,
+    ) -> None:
+        """Phase D1 audit — les commandes diagnose/economics/edition
+        exposent aussi les 5 options B3-final via le decorator
+        ``_b3_final_options``."""
+        for cmd in ("diagnose", "economics", "edition"):
+            result = runner.invoke(cli, [cmd, "--help"])
+            assert result.exit_code == 0, (
+                f"'{cmd} --help' a planté"
+            )
+            for opt in ("--views", "--expose-alto", "--char-exclude",
+                        "--partial-dir", "--entity-extractor"):
+                assert opt in result.output, (
+                    f"Commande {cmd!r} : option {opt!r} manquante "
+                    f"dans --help (decorator _b3_final_options non "
+                    "appliqué ?)"
+                )
 # ──────────────────────────────────────────────────────────────────────
         assert "alto_documentary" not in bm.view_results
     def test_helper_partial_dir_propagated(self, tmp_path: Path) -> None:
+        """``partial_dir`` propagé jusqu'à RunSpec → directory créé +
+        nettoyé en fin de run (lifecycle complet).
+        Phase D4 audit B3-final — renforcement de l'assertion.  Avant
+        on vérifiait juste ``document_count`` ; un partial_dir absent
+        passait silencieusement.  Maintenant on vérifie le lifecycle :
+        le directory est créé pendant le run et nettoyé à la fin
+        (``delete_partial``).
+        """
         from picarones.interfaces.cli._workflows import (
             _run_orchestrator_for_cli,
         )
         corpus, engine = self._make_corpus_and_adapter(tmp_path)
         partial_dir = tmp_path / "partial"
+        # Pre-conditions : le directory n'existe pas encore.
+        assert not partial_dir.exists()
         bm = _run_orchestrator_for_cli(
             corpus, [engine], partial_dir=str(partial_dir),
         )
+        # Post-conditions : le run réussit et a effectivement créé
+        # le directory (preuve que le param est arrivé jusqu'à
+        # ``_execute_with_partial``).  Le contenu .jsonl est nettoyé
+        # par ``delete_partial`` en fin de run réussi.
         assert bm.document_count == 1
+        assert partial_dir.exists(), (
+            f"partial_dir {partial_dir} n'a pas été créé — preuve que "
+            "le param n'est pas propagé jusqu'à l'orchestrateur"
+        )
+        # Les .jsonl du partial sont supprimés en fin de run.
+        jsonl_files = list(partial_dir.glob("*.jsonl"))
+        assert not jsonl_files, (
+            f"Partial JSONL non nettoyé en fin de run réussi : "
+            f"{jsonl_files}"
+        )
 # ──────────────────────────────────────────────────────────────────────
         adapter = _engine_from_name("tesseract", lang="fra", psm=6)
         assert adapter.expose_alto is False
+    def test_expose_alto_with_non_tesseract_warns(
+        self, caplog: pytest.LogCaptureFixture,
+    ) -> None:
+        """Phase D4 audit B3-final — l'utilisateur qui demande
+        ``--expose-alto`` avec un moteur autre que Tesseract reçoit
+        un avertissement explicite plutôt qu'un silent drop du flag.
+        On utilise ``precomputed_text`` car il est disponible sans
+        binaire externe (pas besoin de Tesseract installé pour le
+        test).
+        """
+        import logging
+        from picarones.interfaces.cli import _engine_from_name
+        with caplog.at_level(logging.WARNING):
+            try:
+                _engine_from_name(
+                    "precomputed_text", lang="fra", psm=6,
+                    expose_alto=True,
+                )
+            except Exception:
+                # Le factory peut lever pour args manquants — on
+                # capture mais ce n'est pas l'enjeu du test : on
+                # vérifie juste le warning émis AVANT.
+                pass
+        # L'avertissement doit mentionner que le moteur ne supporte
+        # pas l'ALTO + que seul Tesseract le fait.
+        warnings_text = "\n".join(
+            r.getMessage() for r in caplog.records
+            if r.levelno >= logging.WARNING
+        )
+        assert "expose-alto" in warnings_text.lower() or \
+               "expose_alto" in warnings_text.lower() or \
+               "alto" in warnings_text.lower()
+        assert "precomputed_text" in warnings_text

tests/web/test_benchmark_run_b3_final_fields.py CHANGED Viewed

@@ -113,6 +113,39 @@ class TestB3FinalFieldsAccepted:
         pc = PipelineConfig(engine_name="tesseract")
         assert pc.expose_alto is False
 # ──────────────────────────────────────────────────────────────────────
 # 2. Validation négative — payloads malformés rejetés

         pc = PipelineConfig(engine_name="tesseract")
         assert pc.expose_alto is False
+    def test_expose_alto_with_non_tesseract_engine_warns(
+        self, caplog: pytest.LogCaptureFixture,
+    ) -> None:
+        """Phase D4 audit B3-final — l'UI envoie ``expose_alto=true``
+        mais le moteur cible n'est pas Tesseract.  Le flag est ignoré
+        mais on logue un warning explicite pour que l'utilisateur
+        comprenne pourquoi son ``alto_documentary`` view ne fournit
+        aucune métrique.
+        """
+        import logging
+        from picarones.interfaces.web.benchmark_utils import (
+            _engine_from_competitor,
+        )
+        from picarones.interfaces.web.models import PipelineConfig
+        with caplog.at_level(logging.WARNING):
+            try:
+                _engine_from_competitor(PipelineConfig(
+                    engine_name="precomputed_text", expose_alto=True,
+                ))
+            except Exception:
+                # Le factory peut échouer car ``precomputed_text``
+                # demande des kwargs supplémentaires — on capture mais
+                # le warning doit être émis AVANT cette erreur.
+                pass
+        warnings_text = "\n".join(
+            r.getMessage() for r in caplog.records
+            if r.levelno >= logging.WARNING
+        )
+        assert "expose_alto" in warnings_text or "alto" in warnings_text.lower()
+        assert "precomputed_text" in warnings_text
 # ──────────────────────────────────────────────────────────────────────
 # 2. Validation négative — payloads malformés rejetés