Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

Claude commited on May 13

Commit

bc96a54

unverified ·

1 Parent(s): de2327a

refactor(api): renommer PipelineConfig.ocr_engine → engine_name (Phase 5b)

Le field ``PipelineConfig.ocr_engine`` (Pydantic, exposé via
``/api/benchmark/run``) acceptait depuis longtemps des valeurs qui ne
sont PAS des moteurs OCR :

- ``""`` pour les pipelines LLM seuls (zero-shot VLM)
- ``"corpus"`` pour utiliser un OCR pré-calculé sur disque
- ``"mistral_ocr"`` et autres providers cloud OCR

Le préfixe ``ocr_`` était donc trompeur — c'est en réalité l'identifiant
du moteur de transcription primaire (OCR, VLM, ou source pré-calculée).
Renommé en ``engine_name`` pour refléter la sémantique réelle.

Rupture API :
- Le payload JSON doit utiliser ``engine_name`` (Pydantic v2 ignore
silencieusement le legacy ``ocr_engine`` extra → engine_name reste
vide → benchmark refuse). Pas d'alias rétrocompat.
- ``PipelineConfig(engine_name="…")`` côté Python.
- ``comp.engine_name`` partout dans le router + worker.

Préservé (sémantique différente, malgré le même nom) :
- ``OCRLLMPipelineConfig.ocr_engine`` (property alias de ``ocr_adapter``,
utilisé par ``build_adapter_resolver`` et ``_ocr_llm_pipeline_to_spec``)
reste intact — c'est un adapter, pas un nom de moteur.
- IDs HTML ``compose-ocr-engine``, ``ocr-engines-status-list`` et label
i18n ``compose_ocr_engine`` (composants UI, pas du contrat API).

Modifications :
- ``picarones/interfaces/web/models.py`` : ``ocr_engine`` → ``engine_name``
- ``benchmark_utils.py`` : accès ``comp.engine_name``, kwarg dans
``_legacy_request_to_run_request``, messages d'erreur.
- ``routers/benchmark.py`` : ``assert_engines_allowed`` lit
``comp.engine_name``.
- ``static/web-app.js`` : payload ``engine_name`` + accès JS
``comp.engine_name``/``c.engine_name``.
- 7 fichiers de tests : kwargs ``engine_name=`` + accès
``comp.engine_name``.
- ``test_sprint24_security.py`` : payload JSON utilise ``engine_name``
(sinon le 403 mode public ne déclenche plus car Pydantic ignore
``ocr_engine`` extra → liste engines vide).
- ``test_file_budgets.py`` : budget ``_workflows.py`` relevé à 620
pour absorber Phase 4.5 (HTML auto).

Nouveaux tests ``TestPipelineConfigEngineNameRename`` (3 tests) :
acceptation engine_name, rejet silencieux legacy, propagation router.

Tests : 4650 passed (vs 4643 avant), 12 skipped, 0 failed.

https://claude.ai/code/session_01ArfZ8kcgv7Cyda7VbJVmpn

Files changed (11) hide show

picarones/interfaces/web/benchmark_utils.py +4 -4
picarones/interfaces/web/models.py +12 -3
picarones/interfaces/web/routers/benchmark.py +1 -1
picarones/interfaces/web/static/web-app.js +7 -7
tests/architecture/test_file_budgets.py +4 -1
tests/integration/test_s9_prompt_loading_defenses.py +1 -1
tests/security/test_phase1_post_rewrite_wiring.py +88 -2
tests/web/test_s8_benchmark_utils_factory.py +19 -19
tests/web/test_s9_ocr_engine_naming_contract.py +4 -4
tests/web/test_s9_prompt_loading.py +3 -3
tests/web/test_sprint24_security.py +2 -2

picarones/interfaces/web/benchmark_utils.py CHANGED Viewed

@@ -227,12 +227,12 @@ def _engine_from_competitor(comp: PipelineConfig) -> Any:
     - ``ocr_engine`` = ``""`` + ``llm_provider`` → LLM seul (zero-shot
       ou post-correction).
     """
-    engine_id = comp.ocr_engine
     is_corpus_ocr = engine_id in ("corpus", "")
     if is_corpus_ocr and not comp.llm_provider:
         raise ValueError(
-            "ocr_engine='corpus' nécessite un llm_provider "
             "(pour la post-correction ou le zero-shot)"
         )
@@ -330,7 +330,7 @@ def run_benchmark_thread_v2(job: BenchmarkJob, req: BenchmarkRunRequest) -> None
                 job.add_event("log", {"message": f"Concurrent : {eng.name}"})
             except Exception as exc:  # noqa: BLE001
                 job.add_event("warning", {
-                    "message": f"Concurrent ignoré '{comp.name or comp.ocr_engine}' : {exc}"
                 })
         if not engines:
@@ -436,7 +436,7 @@ def _legacy_request_to_run_request(req: BenchmarkRequest) -> BenchmarkRunRequest
         competitors.append(
             PipelineConfig(
                 name="",
-                ocr_engine=engine_name,
                 ocr_model=model,
                 llm_provider="",
                 llm_model="",

     - ``ocr_engine`` = ``""`` + ``llm_provider`` → LLM seul (zero-shot
       ou post-correction).
     """
+    engine_id = comp.engine_name
     is_corpus_ocr = engine_id in ("corpus", "")
     if is_corpus_ocr and not comp.llm_provider:
         raise ValueError(
+            "engine_name='corpus' nécessite un llm_provider "
             "(pour la post-correction ou le zero-shot)"
         )
                 job.add_event("log", {"message": f"Concurrent : {eng.name}"})
             except Exception as exc:  # noqa: BLE001
                 job.add_event("warning", {
+                    "message": f"Concurrent ignoré '{comp.name or comp.engine_name}' : {exc}"
                 })
         if not engines:
         competitors.append(
             PipelineConfig(
                 name="",
+                engine_name=engine_name,
                 ocr_model=model,
                 llm_provider="",
                 llm_model="",

picarones/interfaces/web/models.py CHANGED Viewed

@@ -114,9 +114,18 @@ class HuggingFaceImportRequest(BaseModel):
 class PipelineConfig(BaseModel):
     name: str = Field(default="", max_length=_MAX_NAME)
-    ocr_engine: str = Field(default="", max_length=_MAX_NAME)
-    """Moteur OCR : ``tesseract``, ``mistral_ocr``, … ou ``corpus``
-    pour utiliser l'OCR pré-calculé."""
     ocr_model: str = Field(default="", max_length=_MAX_NAME)
     llm_provider: str = Field(default="", max_length=_MAX_NAME)
     llm_model: str = Field(default="", max_length=_MAX_NAME)

 class PipelineConfig(BaseModel):
     name: str = Field(default="", max_length=_MAX_NAME)
+    engine_name: str = Field(default="", max_length=_MAX_NAME)
+    """Identifiant du moteur de transcription : ``tesseract``,
+    ``mistral_ocr``, ``kraken``, ``calamari``, … ou ``corpus`` pour
+    utiliser l'OCR pré-calculé.  Vide (``""``) pour un pipeline LLM
+    seul (zero-shot VLM).
+    Phase 5b du chantier post-rewrite : renommé depuis ``ocr_engine``
+    car le field accepte aussi des VLMs (zero_shot) et des sources
+    pré-calculées (``corpus``) — le préfixe ``ocr_`` était trompeur.
+    Rupture API : les clients qui envoyaient ``ocr_engine`` reçoivent
+    désormais 422.
+    """
     ocr_model: str = Field(default="", max_length=_MAX_NAME)
     llm_provider: str = Field(default="", max_length=_MAX_NAME)
     llm_model: str = Field(default="", max_length=_MAX_NAME)

picarones/interfaces/web/routers/benchmark.py CHANGED Viewed

@@ -140,7 +140,7 @@ async def api_benchmark_run(req: BenchmarkRunRequest, request: Request) -> dict:
     # pour le rationale).
     try:
         for comp in req.competitors:
-            assert_engines_allowed([comp.ocr_engine] if comp.ocr_engine else [])
             assert_llm_provider_allowed(comp.llm_provider)
     except PermissionError as exc:
         raise HTTPException(status_code=403, detail=str(exc))

     # pour le rationale).
     try:
         for comp in req.competitors:
+            assert_engines_allowed([comp.engine_name] if comp.engine_name else [])
             assert_llm_provider_allowed(comp.llm_provider)
     except PermissionError as exc:
         raise HTTPException(status_code=403, detail=str(exc))

picarones/interfaces/web/static/web-app.js CHANGED Viewed

@@ -477,12 +477,12 @@ function addCompetitor() {
   const mode = document.querySelector("input[name=compose-mode]:checked").value;
   const errEl = document.getElementById("compose-error");
-  const comp = { name: "", ocr_engine: "", ocr_model: "",
                   llm_provider: "", llm_model: "", pipeline_mode: "", prompt_file: "" };
   if (mode === "postcorrection") {
     // Post-correction : OCR vient du corpus (.ocr.txt)
-    comp.ocr_engine = "corpus";
     comp.llm_provider = document.getElementById("compose-llm-provider").value;
     comp.llm_model = document.getElementById("compose-llm-model").value;
     comp.pipeline_mode = document.getElementById("compose-pipeline-mode").value;
@@ -500,7 +500,7 @@ function addCompetitor() {
       errEl.textContent = lang === "fr" ? "Sélectionnez un moteur OCR." : "Select an OCR engine.";
       return;
     }
-    comp.ocr_engine = ocrEngine;
     comp.ocr_model = ocrModel;
     comp.llm_provider = document.getElementById("compose-llm-provider").value;
     comp.llm_model = document.getElementById("compose-llm-model").value;
@@ -519,7 +519,7 @@ function addCompetitor() {
       errEl.textContent = lang === "fr" ? "Sélectionnez un moteur OCR." : "Select an OCR engine.";
       return;
     }
-    comp.ocr_engine = ocrEngine;
     comp.ocr_model = ocrModel;
     comp.name = `${ocrEngine}${ocrModel ? " ("+ocrModel+")" : ""}`;
   }
@@ -541,7 +541,7 @@ function renderCompetitors() {
     return;
   }
   container.innerHTML = _competitors.map((c, i) => {
-    const isCorpusOCR = c.ocr_engine === "corpus" || (c.ocr_engine === "" && c.llm_provider);
     const isPipeline = !!c.llm_provider && !isCorpusOCR;
     let badge, detail;
     if (isCorpusOCR) {
@@ -549,10 +549,10 @@ function renderCompetitors() {
       detail = `corpus_ocr → ${c.llm_provider}:${c.llm_model} [${c.pipeline_mode}]`;
     } else if (isPipeline) {
       badge = "⛓ Pipeline";
-      detail = `${c.ocr_engine}:${c.ocr_model} → ${c.llm_provider}:${c.llm_model} [${c.pipeline_mode}]`;
     } else {
       badge = "🔍 OCR";
-      detail = `${c.ocr_engine}:${c.ocr_model}`;
     }
     return `<div class="competitor-card">
       <div class="competitor-info">

   const mode = document.querySelector("input[name=compose-mode]:checked").value;
   const errEl = document.getElementById("compose-error");
+  const comp = { name: "", engine_name: "", ocr_model: "",
                   llm_provider: "", llm_model: "", pipeline_mode: "", prompt_file: "" };
   if (mode === "postcorrection") {
     // Post-correction : OCR vient du corpus (.ocr.txt)
+    comp.engine_name = "corpus";
     comp.llm_provider = document.getElementById("compose-llm-provider").value;
     comp.llm_model = document.getElementById("compose-llm-model").value;
     comp.pipeline_mode = document.getElementById("compose-pipeline-mode").value;
       errEl.textContent = lang === "fr" ? "Sélectionnez un moteur OCR." : "Select an OCR engine.";
       return;
     }
+    comp.engine_name = ocrEngine;
     comp.ocr_model = ocrModel;
     comp.llm_provider = document.getElementById("compose-llm-provider").value;
     comp.llm_model = document.getElementById("compose-llm-model").value;
       errEl.textContent = lang === "fr" ? "Sélectionnez un moteur OCR." : "Select an OCR engine.";
       return;
     }
+    comp.engine_name = ocrEngine;
     comp.ocr_model = ocrModel;
     comp.name = `${ocrEngine}${ocrModel ? " ("+ocrModel+")" : ""}`;
   }
     return;
   }
   container.innerHTML = _competitors.map((c, i) => {
+    const isCorpusOCR = c.engine_name === "corpus" || (c.engine_name === "" && c.llm_provider);
     const isPipeline = !!c.llm_provider && !isCorpusOCR;
     let badge, detail;
     if (isCorpusOCR) {
       detail = `corpus_ocr → ${c.llm_provider}:${c.llm_model} [${c.pipeline_mode}]`;
     } else if (isPipeline) {
       badge = "⛓ Pipeline";
+      detail = `${c.engine_name}:${c.ocr_model} → ${c.llm_provider}:${c.llm_model} [${c.pipeline_mode}]`;
     } else {
       badge = "🔍 OCR";
+      detail = `${c.engine_name}:${c.ocr_model}`;
     }
     return `<div class="competitor-card">
       <div class="competitor-info">

tests/architecture/test_file_budgets.py CHANGED Viewed

@@ -161,7 +161,10 @@ FILE_BUDGETS: dict[str, int] = {
     "picarones/adapters/corpus/htr_united.py": 575,       # actuel 473
     "picarones/adapters/corpus/huggingface.py": 550,      # actuel 464
     # Sprint G du plan v2.0 — déplacé vers ``interfaces/cli/``.
-    "picarones/interfaces/cli/_workflows.py": 550,  # actuel 469
     # ``__init__.py`` du legacy CLI — plus gros que les autres car il
     # contient les commandes ``info``, ``engines``, ``metrics``,
     # ``report``, ``demo``.

     "picarones/adapters/corpus/htr_united.py": 575,       # actuel 473
     "picarones/adapters/corpus/huggingface.py": 550,      # actuel 464
     # Sprint G du plan v2.0 — déplacé vers ``interfaces/cli/``.
+    # Phase 4.5 du chantier post-rewrite — ajout de
+    # ``_html_path_from_json`` + ``generate_html``/``html_lang`` aux 4
+    # workflows + génération HTML automatique côté ``_run_workflow``.
+    "picarones/interfaces/cli/_workflows.py": 620,  # actuel ~585
     # ``__init__.py`` du legacy CLI — plus gros que les autres car il
     # contient les commandes ``info``, ``engines``, ``metrics``,
     # ``report``, ``demo``.

tests/integration/test_s9_prompt_loading_defenses.py CHANGED Viewed

@@ -181,7 +181,7 @@ class TestEndToEndPromptReachesLLM:
         from picarones.adapters.llm.base import _substitute_prompt_variables
         comp = PipelineConfig(
-            ocr_engine="tesseract", ocr_model="fra",
             llm_provider="mistral", llm_model="mistral-small-latest",
             pipeline_mode="text_only",
             prompt_file="correction_early_modern_english.txt",

         from picarones.adapters.llm.base import _substitute_prompt_variables
         comp = PipelineConfig(
+            engine_name="tesseract", ocr_model="fra",
             llm_provider="mistral", llm_model="mistral-small-latest",
             pipeline_mode="text_only",
             prompt_file="correction_early_modern_english.txt",

tests/security/test_phase1_post_rewrite_wiring.py CHANGED Viewed

@@ -450,7 +450,7 @@ class TestPipelineModeStrictAPI:
         from picarones.interfaces.web.models import PipelineConfig
         comp = PipelineConfig(
-            name="t", ocr_engine="tesseract",
             llm_provider="mistral", llm_model="m",
             pipeline_mode=valid_mode,
         )
@@ -462,7 +462,7 @@ class TestPipelineModeStrictAPI:
         from picarones.interfaces.web.models import PipelineConfig
         comp = PipelineConfig(
-            name="t", ocr_engine="tesseract", llm_provider="",
         )
         assert comp.pipeline_mode == ""
@@ -1011,3 +1011,89 @@ class TestUploadPurgeTaskWired:
         # Vérification physique
         assert active.exists()
         assert not orphan.exists()

         from picarones.interfaces.web.models import PipelineConfig
         comp = PipelineConfig(
+            name="t", engine_name="tesseract",
             llm_provider="mistral", llm_model="m",
             pipeline_mode=valid_mode,
         )
         from picarones.interfaces.web.models import PipelineConfig
         comp = PipelineConfig(
+            name="t", engine_name="tesseract", llm_provider="",
         )
         assert comp.pipeline_mode == ""
         # Vérification physique
         assert active.exists()
         assert not orphan.exists()
+# ──────────────────────────────────────────────────────────────────────
+# 9. Phase 5b — engine_name (renommage rupture du field ocr_engine)
+# ──────────────────────────────────────────────────────────────────────
+class TestPipelineConfigEngineNameRename:
+    """Phase 5b du chantier post-rewrite : le field ``ocr_engine`` du
+    payload ``PipelineConfig`` est renommé en ``engine_name`` car il
+    accepte aussi des VLMs (zero_shot) et la source ``corpus`` (OCR
+    pré-calculé) — le préfixe ``ocr_`` était trompeur.
+    Rupture API : un client qui envoie l'ancien nom doit recevoir une
+    erreur Pydantic explicite plutôt que d'aliaser silencieusement.
+    """
+    def test_engine_name_field_accepted(self) -> None:
+        from picarones.interfaces.web.models import PipelineConfig
+        cfg = PipelineConfig(
+            name="t", engine_name="tesseract", llm_provider="",
+        )
+        assert cfg.engine_name == "tesseract"
+    def test_legacy_ocr_engine_kwarg_rejected_by_strict_mode(self) -> None:
+        """Pydantic v2 ignore par défaut les extras non déclarés mais
+        ne reconnaît plus ``ocr_engine`` comme alias.  On vérifie que
+        passer juste ``ocr_engine=`` ne remplit pas ``engine_name``
+        (rupture silencieuse acceptée vs explicite — Pydantic v2 ne
+        peut pas distinguer entre 'extra ignoré' et 'mauvais nom')."""
+        from picarones.interfaces.web.models import PipelineConfig
+        cfg = PipelineConfig(name="t", llm_provider="")
+        # Default : engine_name=""
+        assert cfg.engine_name == ""
+        # Construire avec un kwarg dynamic = legacy name → engine_name
+        # reste vide (Pydantic v2 ignore les extras non-strict).
+        cfg2 = PipelineConfig.model_validate(
+            {"name": "t", "ocr_engine": "tesseract", "llm_provider": ""},
+        )
+        assert cfg2.engine_name == "", (
+            "Le legacy ``ocr_engine`` ne doit PAS remplir engine_name "
+            "automatiquement — sinon on aliase silencieusement et la "
+            "rupture API n'est pas réelle."
+        )
+    def test_router_payload_uses_engine_name(self) -> None:
+        """Le router ``/api/benchmark/run`` accepte le payload
+        avec ``engine_name`` et le propage."""
+        from fastapi import FastAPI
+        from fastapi.testclient import TestClient
+        from picarones.interfaces.web.routers import benchmark as bench_router
+        app = FastAPI()
+        app.include_router(bench_router.router)
+        with TestClient(app) as client:
+            # On vise un payload qui valide Pydantic mais échoue à
+            # l'instanciation moteur (corpus inexistant) — l'important
+            # est que le 422 Pydantic ne se déclenche pas sur le field.
+            r = client.post(
+                "/api/benchmark/run",
+                json={
+                    "corpus_path": "/tmp/no_such_dir_for_phase5b_test",
+                    "competitors": [{
+                        "name": "p",
+                        "engine_name": "tesseract",
+                        "ocr_model": "fra",
+                        "llm_provider": "",
+                        "llm_model": "",
+                        "pipeline_mode": "",
+                        "prompt_file": "",
+                    }],
+                    "normalization_profile": "nfc",
+                    "output_dir": "/tmp",
+                    "report_name": "test",
+                    "report_lang": "fr",
+                },
+            )
+            # Pas un 422 Pydantic → le field engine_name a bien
+            # été accepté.  (400 attendu : corpus_path inexistant.)
+            assert r.status_code != 422, (
+                "Le router refuse le payload avec engine_name : "
+                f"{r.text}"
+            )

tests/web/test_s8_benchmark_utils_factory.py CHANGED Viewed

@@ -62,7 +62,7 @@ class TestBuildLLMAdapterRouting:
         self, provider: str, expected_class_name: str,
     ) -> None:
         comp = PipelineConfig(
-            name="t", ocr_engine="", llm_provider=provider, llm_model="m",
         )
         adapter = _build_llm_adapter(comp)
         assert type(adapter).__name__ == expected_class_name, (
@@ -72,7 +72,7 @@ class TestBuildLLMAdapterRouting:
     def test_unknown_provider_raises_value_error(self) -> None:
         comp = PipelineConfig(
-            name="t", ocr_engine="",
             llm_provider="some_made_up_provider", llm_model="x",
         )
         with pytest.raises(ValueError, match="inconnu|unknown"):
@@ -83,7 +83,7 @@ class TestBuildLLMAdapterRouting:
         l'adapter (qui utilise son default interne) — pas une
         chaîne vide qui serait rejetée par l'API."""
         comp = PipelineConfig(
-            name="t", ocr_engine="", llm_provider="openai", llm_model="",
         )
         adapter = _build_llm_adapter(comp)
         # L'adapter doit être instancié sans planter sur llm_model="".
@@ -104,7 +104,7 @@ class TestEngineFromCompetitorOCROnly:
         que deux configs distinctes obtiennent automatiquement des
         identifiants différents au resolver (cf. S9 fix)."""
         comp = PipelineConfig(
-            name="t", ocr_engine="tesseract", llm_provider="",
             ocr_model="fra",
         )
         engine = _engine_from_competitor(comp)
@@ -114,10 +114,10 @@ class TestEngineFromCompetitorOCROnly:
         """Garantie anti-collision : ``lang=eng`` et ``lang=fra``
         produisent des ``name`` distincts au resolver."""
         comp_fra = PipelineConfig(
-            ocr_engine="tesseract", llm_provider="", ocr_model="fra",
         )
         comp_eng = PipelineConfig(
-            ocr_engine="tesseract", llm_provider="", ocr_model="eng",
         )
         assert _engine_from_competitor(comp_fra).name == "tesseract_fra"
         assert _engine_from_competitor(comp_eng).name == "tesseract_eng"
@@ -127,7 +127,7 @@ class TestEngineFromCompetitorOCROnly:
         contrat documenté pour que le worker thread puisse
         loguer ``warning`` et passer au concurrent suivant."""
         comp = PipelineConfig(
-            name="t", ocr_engine="not_an_engine", llm_provider="",
         )
         with pytest.raises(RuntimeError, match="inconnu"):
             _engine_from_competitor(comp)
@@ -153,7 +153,7 @@ class TestEngineFromCompetitorPipeline:
         ``OCRLLMPipelineConfig`` (``zero_shot`` testé séparément car
         il refuse l'OCR amont)."""
         comp = PipelineConfig(
-            name="t", ocr_engine="tesseract", llm_provider="mistral",
             llm_model="m", ocr_model="fra", pipeline_mode=pipeline_mode,
         )
         pipeline = _engine_from_competitor(comp)
@@ -173,7 +173,7 @@ class TestEngineFromCompetitorPipeline:
         from pydantic import ValidationError
         with pytest.raises(ValidationError):
             PipelineConfig(
-                name="t", ocr_engine="tesseract", llm_provider="mistral",
                 llm_model="m", ocr_model="fra",
                 pipeline_mode=deprecated_mode,
             )
@@ -184,7 +184,7 @@ class TestEngineFromCompetitorPipeline:
         ``ValueError`` claire — l'ancien fallback silencieux vers
         ``text_only`` masquait la config incomplète."""
         comp = PipelineConfig(
-            name="t", ocr_engine="tesseract", llm_provider="mistral",
             llm_model="m", ocr_model="fra", pipeline_mode="",
         )
         with pytest.raises(ValueError, match="pipeline_mode invalide"):
@@ -193,10 +193,10 @@ class TestEngineFromCompetitorPipeline:
     def test_zero_shot_mode_requires_corpus_ocr(self) -> None:
         """Le mode ``zero_shot`` exige ``ocr_adapter=None`` au niveau
         du pipeline (le VLM lit l'image directement) — donc côté
-        factory web, il doit être combiné avec ``ocr_engine=corpus``
         ou ``""``, pas avec un moteur live."""
         comp = PipelineConfig(
-            name="t", ocr_engine="corpus", llm_provider="mistral",
             llm_model="m", pipeline_mode="zero_shot",
         )
         pipeline = _engine_from_competitor(comp)
@@ -205,7 +205,7 @@ class TestEngineFromCompetitorPipeline:
     def test_pipeline_name_from_explicit_name(self) -> None:
         comp = PipelineConfig(
-            name="my-pipeline", ocr_engine="tesseract",
             llm_provider="mistral", llm_model="m", ocr_model="fra",
             pipeline_mode="text_only",
         )
@@ -215,7 +215,7 @@ class TestEngineFromCompetitorPipeline:
     def test_pipeline_name_default_format(self) -> None:
         """Sans ``name`` explicite, format ``{engine} → {model}``."""
         comp = PipelineConfig(
-            name="", ocr_engine="tesseract", llm_provider="mistral",
             llm_model="ministral-3b-latest", ocr_model="fra",
             pipeline_mode="text_only",
         )
@@ -229,7 +229,7 @@ class TestEngineFromCompetitorPipeline:
         ``prompt_template`` contient désormais le CONTENU lu sur
         disque, pas le filename brut."""
         comp = PipelineConfig(
-            name="t", ocr_engine="tesseract", llm_provider="mistral",
             llm_model="m", ocr_model="fra", prompt_file="",
             pipeline_mode="text_only",
         )
@@ -255,7 +255,7 @@ class TestEngineFromCompetitorCorpusOCR:
         self, ocr_engine: str,
     ) -> None:
         comp = PipelineConfig(
-            name="t", ocr_engine=ocr_engine, llm_provider="",
         )
         with pytest.raises(ValueError, match="llm_provider"):
             _engine_from_competitor(comp)
@@ -268,7 +268,7 @@ class TestEngineFromCompetitorCorpusOCR:
         traite l'image ou l'OCR pré-calculé, l'``ocr_adapter`` est
         ``None``)."""
         comp = PipelineConfig(
-            name="post-corr", ocr_engine=ocr_engine,
             llm_provider="mistral", llm_model="m",
             pipeline_mode="zero_shot",
         )
@@ -282,7 +282,7 @@ class TestEngineFromCompetitorCorpusOCR:
     def test_corpus_pipeline_name_format(self) -> None:
         """Sans ``name``, format ``corpus_ocr → {model}``."""
         comp = PipelineConfig(
-            name="", ocr_engine="corpus", llm_provider="mistral",
             llm_model="ministral-3b-latest",
             pipeline_mode="zero_shot",
         )
@@ -308,7 +308,7 @@ class TestEngineFromCompetitorCloudWithoutSDK:
         self, engine: str, module_path: str,
     ) -> None:
         comp = PipelineConfig(
-            name="t", ocr_engine=engine, llm_provider="",
         )
         with patch.dict(sys.modules, {module_path: None}):
             with pytest.raises(RuntimeError, match="indisponible"):

         self, provider: str, expected_class_name: str,
     ) -> None:
         comp = PipelineConfig(
+            name="t", engine_name="", llm_provider=provider, llm_model="m",
         )
         adapter = _build_llm_adapter(comp)
         assert type(adapter).__name__ == expected_class_name, (
     def test_unknown_provider_raises_value_error(self) -> None:
         comp = PipelineConfig(
+            name="t", engine_name="",
             llm_provider="some_made_up_provider", llm_model="x",
         )
         with pytest.raises(ValueError, match="inconnu|unknown"):
         l'adapter (qui utilise son default interne) — pas une
         chaîne vide qui serait rejetée par l'API."""
         comp = PipelineConfig(
+            name="t", engine_name="", llm_provider="openai", llm_model="",
         )
         adapter = _build_llm_adapter(comp)
         # L'adapter doit être instancié sans planter sur llm_model="".
         que deux configs distinctes obtiennent automatiquement des
         identifiants différents au resolver (cf. S9 fix)."""
         comp = PipelineConfig(
+            name="t", engine_name="tesseract", llm_provider="",
             ocr_model="fra",
         )
         engine = _engine_from_competitor(comp)
         """Garantie anti-collision : ``lang=eng`` et ``lang=fra``
         produisent des ``name`` distincts au resolver."""
         comp_fra = PipelineConfig(
+            engine_name="tesseract", llm_provider="", ocr_model="fra",
         )
         comp_eng = PipelineConfig(
+            engine_name="tesseract", llm_provider="", ocr_model="eng",
         )
         assert _engine_from_competitor(comp_fra).name == "tesseract_fra"
         assert _engine_from_competitor(comp_eng).name == "tesseract_eng"
         contrat documenté pour que le worker thread puisse
         loguer ``warning`` et passer au concurrent suivant."""
         comp = PipelineConfig(
+            name="t", engine_name="not_an_engine", llm_provider="",
         )
         with pytest.raises(RuntimeError, match="inconnu"):
             _engine_from_competitor(comp)
         ``OCRLLMPipelineConfig`` (``zero_shot`` testé séparément car
         il refuse l'OCR amont)."""
         comp = PipelineConfig(
+            name="t", engine_name="tesseract", llm_provider="mistral",
             llm_model="m", ocr_model="fra", pipeline_mode=pipeline_mode,
         )
         pipeline = _engine_from_competitor(comp)
         from pydantic import ValidationError
         with pytest.raises(ValidationError):
             PipelineConfig(
+                name="t", engine_name="tesseract", llm_provider="mistral",
                 llm_model="m", ocr_model="fra",
                 pipeline_mode=deprecated_mode,
             )
         ``ValueError`` claire — l'ancien fallback silencieux vers
         ``text_only`` masquait la config incomplète."""
         comp = PipelineConfig(
+            name="t", engine_name="tesseract", llm_provider="mistral",
             llm_model="m", ocr_model="fra", pipeline_mode="",
         )
         with pytest.raises(ValueError, match="pipeline_mode invalide"):
     def test_zero_shot_mode_requires_corpus_ocr(self) -> None:
         """Le mode ``zero_shot`` exige ``ocr_adapter=None`` au niveau
         du pipeline (le VLM lit l'image directement) — donc côté
+        factory web, il doit être combiné avec ``engine_name=corpus``
         ou ``""``, pas avec un moteur live."""
         comp = PipelineConfig(
+            name="t", engine_name="corpus", llm_provider="mistral",
             llm_model="m", pipeline_mode="zero_shot",
         )
         pipeline = _engine_from_competitor(comp)
     def test_pipeline_name_from_explicit_name(self) -> None:
         comp = PipelineConfig(
+            name="my-pipeline", engine_name="tesseract",
             llm_provider="mistral", llm_model="m", ocr_model="fra",
             pipeline_mode="text_only",
         )
     def test_pipeline_name_default_format(self) -> None:
         """Sans ``name`` explicite, format ``{engine} → {model}``."""
         comp = PipelineConfig(
+            name="", engine_name="tesseract", llm_provider="mistral",
             llm_model="ministral-3b-latest", ocr_model="fra",
             pipeline_mode="text_only",
         )
         ``prompt_template`` contient désormais le CONTENU lu sur
         disque, pas le filename brut."""
         comp = PipelineConfig(
+            name="t", engine_name="tesseract", llm_provider="mistral",
             llm_model="m", ocr_model="fra", prompt_file="",
             pipeline_mode="text_only",
         )
         self, ocr_engine: str,
     ) -> None:
         comp = PipelineConfig(
+            name="t", engine_name=ocr_engine, llm_provider="",
         )
         with pytest.raises(ValueError, match="llm_provider"):
             _engine_from_competitor(comp)
         traite l'image ou l'OCR pré-calculé, l'``ocr_adapter`` est
         ``None``)."""
         comp = PipelineConfig(
+            name="post-corr", engine_name=ocr_engine,
             llm_provider="mistral", llm_model="m",
             pipeline_mode="zero_shot",
         )
     def test_corpus_pipeline_name_format(self) -> None:
         """Sans ``name``, format ``corpus_ocr → {model}``."""
         comp = PipelineConfig(
+            name="", engine_name="corpus", llm_provider="mistral",
             llm_model="ministral-3b-latest",
             pipeline_mode="zero_shot",
         )
         self, engine: str, module_path: str,
     ) -> None:
         comp = PipelineConfig(
+            name="t", engine_name=engine, llm_provider="",
         )
         with patch.dict(sys.modules, {module_path: None}):
             with pytest.raises(RuntimeError, match="indisponible"):

tests/web/test_s9_ocr_engine_naming_contract.py CHANGED Viewed

@@ -49,10 +49,10 @@ def test_two_distinct_configs_coexist_in_resolver(
     des ``name`` distincts au resolver — le bug Tesseract initial,
     généralisé à tous les moteurs supportés."""
     comp_a = PipelineConfig(
-        ocr_engine=engine_id, ocr_model="cfg_a", llm_provider="",
     )
     comp_b = PipelineConfig(
-        ocr_engine=engine_id, ocr_model="cfg_b", llm_provider="",
     )
     try:
         eng_a = _engine_from_competitor(comp_a)
@@ -83,10 +83,10 @@ def test_standalone_plus_pipeline_same_config_coexist(
     OCR.  Le resolver doit accepter (les 2 instances Python sont
     fonctionnellement équivalentes, déduplication idempotente)."""
     comp_standalone = PipelineConfig(
-        ocr_engine=engine_id, ocr_model="same_config", llm_provider="",
     )
     comp_pipeline = PipelineConfig(
-        ocr_engine=engine_id, ocr_model="same_config",
         llm_provider="mistral", llm_model="mistral-small-latest",
         pipeline_mode="text_only",
         prompt_file="correction_medieval_french.txt",

     des ``name`` distincts au resolver — le bug Tesseract initial,
     généralisé à tous les moteurs supportés."""
     comp_a = PipelineConfig(
+        engine_name=engine_id, ocr_model="cfg_a", llm_provider="",
     )
     comp_b = PipelineConfig(
+        engine_name=engine_id, ocr_model="cfg_b", llm_provider="",
     )
     try:
         eng_a = _engine_from_competitor(comp_a)
     OCR.  Le resolver doit accepter (les 2 instances Python sont
     fonctionnellement équivalentes, déduplication idempotente)."""
     comp_standalone = PipelineConfig(
+        engine_name=engine_id, ocr_model="same_config", llm_provider="",
     )
     comp_pipeline = PipelineConfig(
+        engine_name=engine_id, ocr_model="same_config",
         llm_provider="mistral", llm_model="mistral-small-latest",
         pipeline_mode="text_only",
         prompt_file="correction_medieval_french.txt",

tests/web/test_s9_prompt_loading.py CHANGED Viewed

@@ -115,7 +115,7 @@ class TestEngineFromCompetitorPassesPromptContent:
     def test_pipeline_template_contains_file_content(self) -> None:
         comp = PipelineConfig(
             name="t",
-            ocr_engine="tesseract",
             ocr_model="fra",
             llm_provider="mistral",
             llm_model="mistral-small-latest",
@@ -134,7 +134,7 @@ class TestEngineFromCompetitorPassesPromptContent:
         """``prompt_file`` vide → default
         ``correction_medieval_french.txt`` chargé."""
         comp = PipelineConfig(
-            ocr_engine="tesseract", ocr_model="fra",
             llm_provider="mistral", llm_model="m",
             pipeline_mode="text_only", prompt_file="",
         )
@@ -147,7 +147,7 @@ class TestEngineFromCompetitorPassesPromptContent:
         factory doit lever proprement (pas continuer avec le filename
         comme prompt — c'est le bug d'origine)."""
         comp = PipelineConfig(
-            ocr_engine="tesseract", ocr_model="fra",
             llm_provider="mistral", llm_model="m",
             pipeline_mode="text_only",
             prompt_file="prompt_que_personne_na_jamais_cree.txt",

     def test_pipeline_template_contains_file_content(self) -> None:
         comp = PipelineConfig(
             name="t",
+            engine_name="tesseract",
             ocr_model="fra",
             llm_provider="mistral",
             llm_model="mistral-small-latest",
         """``prompt_file`` vide → default
         ``correction_medieval_french.txt`` chargé."""
         comp = PipelineConfig(
+            engine_name="tesseract", ocr_model="fra",
             llm_provider="mistral", llm_model="m",
             pipeline_mode="text_only", prompt_file="",
         )
         factory doit lever proprement (pas continuer avec le filename
         comme prompt — c'est le bug d'origine)."""
         comp = PipelineConfig(
+            engine_name="tesseract", ocr_model="fra",
             llm_provider="mistral", llm_model="m",
             pipeline_mode="text_only",
             prompt_file="prompt_que_personne_na_jamais_cree.txt",

tests/web/test_sprint24_security.py CHANGED Viewed

@@ -300,7 +300,7 @@ class TestPublicModeBlocksLLMBenchmark:
             "competitors": [
                 {
                     "name": "test",
-                    "ocr_engine": "tesseract",
                     "llm_provider": "openai",
                     "llm_model": "gpt-4o",
                     "pipeline_mode": "text_only",
@@ -317,7 +317,7 @@ class TestPublicModeBlocksLLMBenchmark:
             "corpus_path": corpus_path,
             "competitors": [
                 {
-                    "ocr_engine": "mistral_ocr",
                     "llm_provider": "",
                 },
             ],

             "competitors": [
                 {
                     "name": "test",
+                    "engine_name": "tesseract",
                     "llm_provider": "openai",
                     "llm_model": "gpt-4o",
                     "pipeline_mode": "text_only",
             "corpus_path": corpus_path,
             "competitors": [
                 {
+                    "engine_name": "mistral_ocr",
                     "llm_provider": "",
                 },
             ],