Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

Claude commited on May 13

Commit

e12723a

unverified ·

1 Parent(s): a2f768d

test(legacy): tests indépendants pour _legacy_request_to_run_request

Avant : ``_legacy_request_to_run_request`` (introduit Phase 4.2
chantier post-rewrite, qui convertit ``BenchmarkRequest`` legacy
→ ``BenchmarkRunRequest`` pour unifier ``/api/benchmark/start`` vers
le worker v2) était testé indirectement via l'intégration full-stack
sprint6. Une régression sur un cas limite (zero engine, alias ``tess``,
``lang`` non Tesseract) pouvait passer inaperçue jusqu'à un test
end-to-end.

``TestLegacyRequestConversion`` (6 tests) couvre désormais le helper
indépendamment :
- Tesseract simple : ``lang`` véhiculé via ``ocr_model``.
- Engines multiples : seul Tesseract reçoit ``lang``, les autres
laissent ``ocr_model=""``.
- ``normalization_profile`` + ``char_exclude`` + ``output_dir``
préservés.
- ``report_lang`` (fr/en) préservé.
- Alias ``tess`` traité comme Tesseract (cohérent avec la factory).
- Requête minimale (juste ``corpus_path``) → defaults Pydantic
propagés sans exception.

Garantit qu'un patch sécurité/méthodologique appliqué au chemin
canonique (v2) est répercuté correctement sur le chemin legacy
``/start`` avant son éviction définitive.

https://claude.ai/code/session_01ArfZ8kcgv7Cyda7VbJVmpn

Files changed (1) hide show

tests/security/test_phase1_post_rewrite_wiring.py +128 -0

tests/security/test_phase1_post_rewrite_wiring.py CHANGED Viewed

@@ -1279,3 +1279,131 @@ class TestSynthesisPreviewUIBinding:
         )
         # i18n key déclarée FR + EN.
         assert "bench_synthesis_title:" in src

         )
         # i18n key déclarée FR + EN.
         assert "bench_synthesis_title:" in src
+# ──────────────────────────────────────────────────────────────────────
+# 13. Phase 6 — _legacy_request_to_run_request conversion test
+# ──────────────────────────────────────────────────────────────────────
+class TestLegacyRequestConversion:
+    """Phase 4.2 du chantier post-rewrite avait unifié
+    ``/api/benchmark/start`` via ``_legacy_request_to_run_request``
+    qui convertit ``BenchmarkRequest`` (legacy) → ``BenchmarkRunRequest``.
+    Phase 6 ajoute des tests dédiés indépendants — auparavant le
+    helper était testé indirectement via l'intégration full-stack,
+    ce qui masquait les régressions sur des cas limites (zero engine,
+    lang non-Tesseract, etc.)."""
+    def test_simple_tesseract_request_converted(self) -> None:
+        from picarones.interfaces.web.benchmark_utils import (
+            _legacy_request_to_run_request,
+        )
+        from picarones.interfaces.web.models import BenchmarkRequest
+        req = BenchmarkRequest(
+            corpus_path="/tmp/c",
+            engines=["tesseract"],
+            normalization_profile="nfc",
+            char_exclude="",
+            output_dir="/tmp/out",
+            report_name="r",
+            lang="fra",
+            report_lang="fr",
+        )
+        run = _legacy_request_to_run_request(req)
+        assert run.corpus_path == "/tmp/c"
+        assert len(run.competitors) == 1
+        comp = run.competitors[0]
+        assert comp.engine_name == "tesseract"
+        # Le ``lang`` Tesseract est véhiculé via ``ocr_model``.
+        assert comp.ocr_model == "fra"
+        # OCR seul → pas de LLM ni de pipeline mode.
+        assert comp.llm_provider == ""
+        assert comp.pipeline_mode == ""
+    def test_multiple_engines_each_becomes_pipeline_config(self) -> None:
+        from picarones.interfaces.web.benchmark_utils import (
+            _legacy_request_to_run_request,
+        )
+        from picarones.interfaces.web.models import BenchmarkRequest
+        req = BenchmarkRequest(
+            corpus_path="/tmp/c",
+            engines=["tesseract", "pero_ocr", "kraken"],
+            normalization_profile="nfc",
+            output_dir="/tmp/out",
+            lang="lat",
+        )
+        run = _legacy_request_to_run_request(req)
+        names = [c.engine_name for c in run.competitors]
+        assert names == ["tesseract", "pero_ocr", "kraken"]
+        # Le ``lang`` legacy ne s'applique qu'à Tesseract — les autres
+        # engines reçoivent ``ocr_model=""`` et utilisent leur propre
+        # défaut côté adapter.
+        models = [c.ocr_model for c in run.competitors]
+        assert models == ["lat", "", ""]
+    def test_normalization_and_char_exclude_preserved(self) -> None:
+        from picarones.interfaces.web.benchmark_utils import (
+            _legacy_request_to_run_request,
+        )
+        from picarones.interfaces.web.models import BenchmarkRequest
+        req = BenchmarkRequest(
+            corpus_path="/tmp/c",
+            engines=["tesseract"],
+            normalization_profile="medieval_french",
+            char_exclude="',-",
+            output_dir="/tmp/out",
+            lang="fra",
+        )
+        run = _legacy_request_to_run_request(req)
+        assert run.normalization_profile == "medieval_french"
+        assert run.char_exclude == "',-"
+        assert run.output_dir == "/tmp/out"
+    def test_report_lang_preserved(self) -> None:
+        from picarones.interfaces.web.benchmark_utils import (
+            _legacy_request_to_run_request,
+        )
+        from picarones.interfaces.web.models import BenchmarkRequest
+        req_en = BenchmarkRequest(
+            corpus_path="/tmp/c", engines=["tesseract"],
+            output_dir="/tmp/out", lang="eng", report_lang="en",
+        )
+        run = _legacy_request_to_run_request(req_en)
+        assert run.report_lang == "en"
+    def test_tess_alias_treated_as_tesseract(self) -> None:
+        """L'alias ``tess`` accepté côté factory doit aussi recevoir
+        le ``lang`` en ``ocr_model``."""
+        from picarones.interfaces.web.benchmark_utils import (
+            _legacy_request_to_run_request,
+        )
+        from picarones.interfaces.web.models import BenchmarkRequest
+        req = BenchmarkRequest(
+            corpus_path="/tmp/c", engines=["tess"],
+            output_dir="/tmp/out", lang="fra",
+        )
+        run = _legacy_request_to_run_request(req)
+        assert run.competitors[0].engine_name == "tess"
+        assert run.competitors[0].ocr_model == "fra"
+    def test_minimal_request_default_values_propagated(self) -> None:
+        """Une requête legacy minimale (juste corpus_path) génère un
+        BenchmarkRunRequest avec defaults Pydantic — pas d'exception."""
+        from picarones.interfaces.web.benchmark_utils import (
+            _legacy_request_to_run_request,
+        )
+        from picarones.interfaces.web.models import BenchmarkRequest
+        req = BenchmarkRequest(corpus_path="/tmp/c")
+        run = _legacy_request_to_run_request(req)
+        assert run.corpus_path == "/tmp/c"
+        # Défaut : engines=["tesseract"] → 1 compétiteur tesseract+fra.
+        assert len(run.competitors) == 1
+        assert run.competitors[0].engine_name == "tesseract"
+        assert run.competitors[0].ocr_model == "fra"