Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Running

Claude commited on May 6

Commit

d4d4112

unverified ·

1 Parent(s): c21d686

feat: audit S59 institutionnel — 2 BLOCKER + 4 HIGH + 3 MEDIUM corrigés

Audit institutionnel post-S58 (cible : release BnF/LoC/BL). L'agent a
relevé 11 findings : 2 BLOCKER, 4 HIGH, 3 MEDIUM actionnables, 2 MEDIUM
documentés non-bloquants. Tous traités sauf M1/M5 (acceptables) et M4
(refactor majeur, doc + reverse proxy recommandés).

BLOCKER
=======

B1 — RunManifest reproductibilité illusoire
Le manifest documentait la promesse "à code_version + corpus +
specs + dependencies_lock identiques, ré-exécuter doit donner les
mêmes résultats" mais NE LA TENAIT PAS :
- dependencies_lock jamais peuplé (RunOrchestrator ne le passait pas).
- pipeline_names: tuple[str, ...] portait juste les noms ; les
PipelineSpec complets (steps, params, inputs_from) absents du
manifest. Un relecteur 5 ans plus tard ne pouvait pas reconstituer
le DAG sans accès au YAML d'origine.
Fix :
- Nouveau picarones/app/services/dependencies.py avec
capture_dependencies_lock() via importlib.metadata. Capturé
systématiquement par RunOrchestrator.
- RunManifest.pipeline_specs: tuple[PipelineSpec, ...] remplace
pipeline_names (qui devient @computed_field dérivé pour les
lecteurs JSON).
- RunManifest.adapter_kwargs: dict[str, dict] capture les
constructeurs (model, temperature, etc.).
- model_validator(mode='before') accepte pipeline_names comme
alias déprécié au constructeur (rétrocompat tests + round-trip
JSON sans incohérence avec computed_field).
- tests/architecture/test_manifest_reproducibility.py : 4 tests
verrouillent le contrat (lock non vide trié, déterminisme,
extras forbid).

B2 — Suppression de symboles publics sans deprecation period
S57 avait supprimé picarones.pipeline.spec, BaseLLMAdapter.
DEFAULT_CORRECTION_PROMPT, BaseVLMAdapter.DEFAULT_TRANSCRIPTION_PROMPT
'parce qu'aucun caller interne ne les lisait'. Mais les callers
EXTERNES (espaces HF, scripts BnF, notebooks d'articles) n'ont pas
été consultés. Pour SemVer institutionnel, suppression d'un
symbole exporté = release MAJEURE + deprecation period documentée.
Fix :
- picarones/pipeline/spec.py restauré comme shim avec
DeprecationWarning à l'import.
- Nouveau descripteur _DeprecatedAttribute dans llm/base.py.
DEFAULT_CORRECTION_PROMPT/DEFAULT_TRANSCRIPTION_PROMPT restaurés
en attribut de classe descripteur qui émet DeprecationWarning
à l'accès, retournent la valeur FR (comportement S45).
- tests/api_stability/test_deprecated_aliases.py : 4 tests vérifient
le warning ET la cohérence valeur retournée.
Suppression effective prévue 2.0.

HIGH
====

H1 — PipelineExecutor ne filtrait pas outputs sur step.output_types
Doc Tesseract.output_types affirmait 'l'executor filtre' mais le
code ne faisait que valider la PRÉSENCE des types déclarés. Si
Tesseract émettait CONFIDENCES non déclarés au YAML, ils
propageaient en aval — bug subtil de DAG branchant.
Fix : executor.py:425 filtre outputs sur set(step.output_types)
avant persistance + retour.

H2 — Aucun test sur le parsing XFF (fix sécuritaire S58 #4)
Le commit S58 corrigeait l'IP-spoofing mais aucun test ne couvrait
_extract_ip avec les divers cas de chaîne XFF.
Fix : tests/interfaces/web/test_rate_limit_xff.py — 7 tests
(trust_proxy_count=0/1/2, chaîne plus courte, IP spoof ignorée,
whitespace, no client).

H3 — CHANGELOG ne documentait pas S58
S58 a introduit un breaking change (trust_x_forwarded_for →
trust_proxy_count) et plusieurs ajouts (ArtifactStoreError,
_MIGRATIONS, ReportRenderer alias) non listés.
Fix : section dédiée "audit institutionnel S58-S59" en tête
de CHANGELOG.md avec table des breaking changes et migrations.

H4 — Aucun retry/backoff sur les 4 OCR cloud
BaseLLMAdapter avait une logique privée de retry exponentiel.
Mistral/Google/Azure/Pero adapters n'avaient rien. Pour un bench
BnF de 5000 documents face à un service cloud, un 503 transitoire
fait planter l'OCR sur ce doc → résultat partiel non reproductible.
Fix :
- Nouveau picarones/adapters/_retry.py partagé avec
is_retryable() + call_with_retry() (3 retries, backoff 2/4/8s,
sur 429+5xx+TimeoutError+ConnectionError+URLError).
- BaseLLMAdapter délègue désormais au helper unifié.
- MistralOCRAdapter (native + chat), GoogleVisionAdapter,
AzureDocIntelAdapter wrappent leurs appels via call_with_retry.

MEDIUM
======

M2 — Audit trail manquant sur les mutations de jobs
POST/DELETE /api/jobs sans logger.info structuré pour la
traçabilité institutionnelle (création de job consomme du quota
cloud, annulation détruit des résultats partiels — actions
sensibles RGPD).
Fix : log INFO [audit] avec job_id + IP source via
request.client.host pour les deux endpoints.

M3 — DocumentRef.id autorisait les segments '..'
Le pattern _DOC_ID_RE = r'^[A-Za-z0-9_.\-/]+$' acceptait '..'.
Un caller qui construit DocumentRef(id='../../etc/passwd')
programmatiquement contournait la sandbox de resolve_output_path.
Fix : validateur Pydantic rejette tout segment '..' avec
CorpusSpecError explicite.

M6 — Lang fallback FR silencieux pour code langue inconnu
config['lang']='de' faisait fallback FR sans log. Un scientifique
BnF travaillant sur un corpus allemand ne le voyait pas.
Fix : logger.warning avec liste des langues supportées et
suggestion de fournir custom_prompt explicite. Appliqué à
BaseLLMAdapter et BaseVLMAdapter.

NON traités
===========
- M1 : tests JobStore migrations utilisent state mutation in-test.
Acceptable tant que SCHEMA_VERSION=1 ; à reprendre lors de la
première vraie migration.
- M4 : BodySizeLimitMiddleware vulnérable au Transfer-Encoding chunked
bypass. Refactor majeur (pure ASGI middleware). Nginx
client_max_body_size recommandé en amont (manuel d'opération).
- M5 : test_output_paths_uniformity utilise regex syntaxique (AST plus
robuste). Le risque de contournement est faible et ciblé.

Tests : 5010 passed (+14 nouveaux), 11 skipped, 0 failed.
Lint : ruff check picarones/ tests/ clean.

Files changed (23) hide show

CHANGELOG.md +102 -0
README.md +1 -1
picarones/adapters/_retry.py +143 -0
picarones/adapters/llm/base.py +57 -23
picarones/adapters/ocr/azure_doc_intel.py +6 -2
picarones/adapters/ocr/google_vision.py +6 -2
picarones/adapters/ocr/mistral_ocr.py +12 -4
picarones/adapters/vlm/base.py +20 -1
picarones/app/services/benchmark_service.py +4 -2
picarones/app/services/dependencies.py +49 -0
picarones/app/services/run_orchestrator.py +21 -4
picarones/domain/documents.py +12 -0
picarones/domain/run_manifest.py +94 -11
picarones/interfaces/web/routers/jobs.py +19 -0
picarones/pipeline/executor.py +13 -4
picarones/pipeline/spec.py +38 -0
tests/api_stability/__init__.py +0 -0
tests/api_stability/test_deprecated_aliases.py +96 -0
tests/app/services/test_sprint_a14_s53_inputs_from_propagation.py +2 -2
tests/architecture/test_file_budgets.py +3 -1
tests/architecture/test_manifest_reproducibility.py +123 -0
tests/domain/test_sprint_a14_s40_pipeline_spec_in_domain.py +15 -12
tests/interfaces/web/test_rate_limit_xff.py +114 -0

CHANGELOG.md CHANGED Viewed

@@ -7,6 +7,108 @@ La numérotation de version suit [Semantic Versioning](https://semver.org/lang/f
 ---
 ## [Unreleased] — rewrite A14 (S27-S46) + audit remediation (S47-S57) — 2026-05
 > Cette section couvre la phase **rewrite ciblé** (S27-S46) puis les

 ---
+## [Unreleased] — audit institutionnel S58-S59 (post-S57) — 2026-05
+### ⚠️ BREAKING CHANGES (déprécations en cours, suppression en 2.0)
+Trois symboles supprimés au S57 sont **restaurés en S59** comme alias
+dépréciés avec `DeprecationWarning` à l'accès.  Ils seront supprimés
+en version 2.0.  Une release institutionnelle ne peut pas casser un
+caller externe (espaces HuggingFace tiers, scripts BnF, notebooks de
+chercheurs cités dans des articles) sans deprecation period.
+| Symbole | Statut | Cible canonique |
+|---------|--------|-----------------|
+| `picarones.pipeline.spec` (module) | déprécié | `picarones.domain.pipeline_spec` |
+| `BaseLLMAdapter.DEFAULT_CORRECTION_PROMPT` (singulier) | déprécié | `DEFAULT_CORRECTION_PROMPTS[lang]` |
+| `BaseVLMAdapter.DEFAULT_TRANSCRIPTION_PROMPT` (singulier) | déprécié | `DEFAULT_TRANSCRIPTION_PROMPTS[lang]` |
+L'argument `RateLimitMiddleware.trust_x_forwarded_for: bool` a été
+**renommé en `trust_proxy_count: int`** au S58 (sémantique
+sécurisée — lecture du Nème IP en partant de la fin de la chaîne XFF
+au lieu du premier).  Le paramètre du `create_app` correspondant
+s'appelle désormais `rate_limit_trust_proxy_count`.  Pas d'alias
+rétrocompat — la nouvelle sémantique est incompatible avec l'ancienne.
+### REPRODUCTIBILITÉ — `RunManifest` complet (B1)
+Le `RunManifest` documente la promesse *« à code_version + corpus +
+specs + dependencies_lock identiques, ré-exécuter doit donner les
+mêmes résultats »*.  Avant S59, deux gaps majeurs :
+1. `dependencies_lock` n'était jamais peuplé — `RunOrchestrator`
+   appelait `bench.run(...)` sans le passer.
+2. `pipeline_names: tuple[str, ...]` ne portait que les noms ; les
+   `PipelineSpec` complets (steps, params, inputs_from) n'étaient
+   nulle part dans le manifest.  Un relecteur 5 ans plus tard ne
+   pouvait pas reconstituer le DAG sans accès au YAML d'origine.
+S59 :
+- Nouveau module `picarones.app.services.dependencies` —
+  `capture_dependencies_lock()` via `importlib.metadata`.
+  `RunOrchestrator` capture systématiquement.
+- `RunManifest.pipeline_specs: tuple[PipelineSpec, ...]` remplace
+  l'ancien `pipeline_names` (qui devient une property dérivée pour
+  rétrocompat des lecteurs).
+- `RunManifest.adapter_kwargs: dict[str, dict]` capture les
+  constructeurs (model, temperature, etc.) — permet de reconstituer
+  `OpenAIAdapter(model="gpt-4o-2024-08-06", temperature=0.0)`.
+- Test architectural `test_manifest_reproducibility.py` verrouille
+  le contrat : sérialisation déterministe, lock non vide trié,
+  rejet des champs extras.
+### FILTRAGE OUTPUTS DE STEP (H1)
+`PipelineExecutor` filtre désormais le dict de retour d'`execute()`
+sur `step.output_types`.  Sans ça, un adapter qui produit des types
+non déclarés au YAML (ex. Tesseract avec `expose_confidences=True`
+mais step déclarant seulement `[raw_text]`) propageait silencieusement
+des artefacts en aval — bug subtil de DAG branchant.
+### RETRY EXPONENTIEL UNIFIÉ (H4)
+Nouveau module partagé `picarones.adapters._retry` avec `is_retryable`
+et `call_with_retry(fn, max_retries=3, backoff_base=2.0)`.  Adopté par :
+- `BaseLLMAdapter.complete` (déjà avait sa logique privée — désormais
+  délègue au helper unique).
+- `MistralOCRAdapter._call_native_ocr_api` + `_call_chat_vision_api`
+- `GoogleVisionAdapter._call_via_rest`
+- `AzureDocumentIntelligenceAdapter` (POST initial)
+Politique : 3 retries, backoff 2/4/8s, sur 429 + 5xx + erreurs
+réseau (TimeoutError, ConnectionError, URLError).
+### SÉCURITÉ ET TRAÇABILITÉ
+- **Path traversal (M3)** : `DocumentRef._validate_doc_id` rejette
+  désormais tout segment `..` dans l'`id`.  Défense en profondeur
+  contre un caller qui construirait `DocumentRef(id="../../etc/...")`
+  programmatiquement.
+- **Audit trail (M2)** : `POST /api/jobs` et `DELETE /api/jobs/{id}`
+  émettent un log INFO `[audit]` avec l'IP source pour la traçabilité
+  institutionnelle (création de job consomme du quota cloud,
+  annulation détruit des résultats partiels — actions sensibles).
+- **Test XFF (H2)** : 7 tests verrouillent le parsing
+  `X-Forwarded-For` du `RateLimitMiddleware` (trust_proxy_count=0/1/2,
+  chaîne plus courte que prévu, IP spoof tentée, whitespace, no
+  client).
+- **Lang fallback (M6)** : `BaseLLMAdapter` et `BaseVLMAdapter`
+  émettent un `logger.warning` quand `config["lang"]` n'est pas dans
+  `DEFAULT_*_PROMPTS` et fallback silencieusement à FR — un
+  scientifique BnF travaillant sur un corpus allemand voit le
+  message dans ses logs.
+### Infrastructure de test
+- `tests/api_stability/test_deprecated_aliases.py` : 4 tests sur les
+  alias dépréciés.
+- `tests/architecture/test_manifest_reproducibility.py` : 4 tests.
+- `tests/interfaces/web/test_rate_limit_xff.py` : 7 tests.
+---
 ## [Unreleased] — rewrite A14 (S27-S46) + audit remediation (S47-S57) — 2026-05
 > Cette section couvre la phase **rewrite ciblé** (S27-S46) puis les

README.md CHANGED Viewed

@@ -396,7 +396,7 @@ ruff check picarones/ tests/
 python -m mypy picarones/core/
 ```
-**Test suite**: ~5020 tests, ~3 min on a modern laptop. Coverage
 floor at 85% (currently ~87%). The `network` marker excludes tests
 requiring live HTTP. A handful of tests depend on optional engines
 (`pero-ocr`, `pytesseract`) and are skipped/fail gracefully when

 python -m mypy picarones/core/
 ```
+**Test suite**: ~5030 tests, ~3 min on a modern laptop. Coverage
 floor at 85% (currently ~87%). The `network` marker excludes tests
 requiring live HTTP. A handful of tests depend on optional engines
 (`pero-ocr`, `pytesseract`) and are skipped/fail gracefully when

picarones/adapters/_retry.py ADDED Viewed

	@@ -0,0 +1,143 @@

+"""Retry exponentiel partagé par les adapters cloud (OCR + LLM).
+Pour une release institutionnelle (BnF, LoC, BL), un benchmark de
+N milliers de documents face à un service cloud (Google Vision,
+Azure Document Intelligence, Mistral OCR, Anthropic, OpenAI) doit
+absorber les erreurs transitoires (429, 5xx, timeout réseau) sans
+faire échouer le doc — sinon les résultats partiels ne sont pas
+reproductibles d'un run à l'autre.
+Ce module fournit la politique commune.  Il vit au top du package
+``adapters/`` (et non sous ``llm/`` ou ``ocr/``) parce qu'il est
+consommé par les deux familles indistinctement.
+API
+---
+- ``is_retryable(exc)`` : True si l'exception est typique d'un
+  problème transitoire.
+- ``call_with_retry(callable, max_retries, backoff_base, label)`` :
+  exécute le callable, retry exponentiel jusqu'à ``max_retries``
+  tentatives.  Lève la dernière exception si épuisé.
+Politique
+---------
+- ``max_retries=3`` (4 tentatives au total : 0 + 1 + 2 + 3 retries).
+- ``backoff_base=2.0`` → 2s, 4s, 8s entre les retries (16s cumul max).
+- Logs WARNING à chaque retry avec contexte.
+Anti-sur-ingénierie
+-------------------
+- Pas de jitter randomisé : pas indispensable à ce volume ; ajouter
+  si un caller en a concrètement besoin.
+- Pas de circuit breaker : un caller qui voit 100 % d'échec sur 5000
+  documents arrête le run lui-même.
+"""
+from __future__ import annotations
+import logging
+import time
+from typing import Callable, TypeVar
+logger = logging.getLogger(__name__)
+DEFAULT_MAX_RETRIES = 3
+DEFAULT_BACKOFF_BASE = 2.0  # secondes : 2, 4, 8
+T = TypeVar("T")
+def is_retryable(exc: Exception) -> bool:
+    """``True`` si l'exception est typique d'un problème transitoire.
+    Détection sur trois axes :
+    1. Code HTTP exposé par les SDK cloud (``status_code`` ou
+       ``http_status``) : 429 (rate limit) et tout 5xx.
+    2. Type d'exception réseau : ``TimeoutError``, ``ConnectionError``,
+       ``URLError`` (urllib).
+    3. Heuristique sur le message (fallback pour les SDK qui ne
+       structurent pas) : présence des codes 429/502/503 ou des
+       motifs ``rate limit``, ``timeout``, ``connection``.
+    """
+    status = (
+        getattr(exc, "status_code", None)
+        or getattr(exc, "http_status", None)
+    )
+    if status is not None:
+        return status == 429 or status >= 500
+    exc_name = type(exc).__name__
+    if exc_name in ("TimeoutError", "ConnectionError", "URLError"):
+        return True
+    msg = str(exc).lower()
+    if "rate" in msg and "limit" in msg:
+        return True
+    if "timeout" in msg or "connection" in msg:
+        return True
+    if "429" in msg or "503" in msg or "502" in msg:
+        return True
+    return False
+def call_with_retry(
+    fn: Callable[[], T],
+    *,
+    max_retries: int = DEFAULT_MAX_RETRIES,
+    backoff_base: float = DEFAULT_BACKOFF_BASE,
+    label: str = "adapter",
+) -> T:
+    """Exécute ``fn`` avec retry exponentiel sur erreurs retryables.
+    Parameters
+    ----------
+    fn:
+        Callable sans argument qui retourne le résultat ou lève.
+    max_retries:
+        Nombre de retries après la première tentative.  ``0`` =
+        une seule tentative (pas de retry).
+    backoff_base:
+        Base de l'attente exponentielle.  Tentative ``i`` → attente
+        ``backoff_base ** (i + 1)`` secondes avant retry.
+    label:
+        Étiquette du caller pour le logging (typiquement
+        ``self.name`` de l'adapter).
+    Returns
+    -------
+    Résultat de ``fn``.
+    Raises
+    ------
+    Exception
+        La dernière exception levée si tous les retries sont
+        épuisés ou si l'erreur n'est pas retryable.
+    """
+    last_exc: Exception | None = None
+    for attempt in range(max_retries + 1):
+        try:
+            return fn()
+        except Exception as exc:  # noqa: BLE001
+            last_exc = exc
+            if attempt < max_retries and is_retryable(exc):
+                wait = backoff_base ** (attempt + 1)
+                logger.warning(
+                    "[%s] erreur retryable (tentative %d/%d, "
+                    "attente %.1fs) : %s",
+                    label, attempt + 1, max_retries + 1, wait, exc,
+                )
+                time.sleep(wait)
+            else:
+                break
+    assert last_exc is not None
+    raise last_exc
+__all__ = [
+    "DEFAULT_BACKOFF_BASE",
+    "DEFAULT_MAX_RETRIES",
+    "call_with_retry",
+    "is_retryable",
+]

picarones/adapters/llm/base.py CHANGED Viewed

@@ -4,39 +4,50 @@ from __future__ import annotations
 import logging
 import time
 from abc import ABC, abstractmethod
 from dataclasses import dataclass
-from typing import Any, Optional
 logger = logging.getLogger(__name__)
-# Paramètres de retry par défaut
-_DEFAULT_MAX_RETRIES = 3
-_DEFAULT_BACKOFF_BASE = 2.0  # secondes : 2, 4, 8
-def _is_retryable(exc: Exception) -> bool:
-    """Détermine si une exception est retryable (429, 5xx, timeout réseau)."""
-    # HTTP status codes retryables
-    status = getattr(exc, "status_code", None) or getattr(exc, "http_status", None)
-    if status is not None:
-        return status == 429 or status >= 500
-    # Erreurs réseau / timeout
-    exc_name = type(exc).__name__
-    if exc_name in ("TimeoutError", "ConnectionError", "URLError"):
-        return True
-    # Messages d'erreur courants
-    msg = str(exc).lower()
-    if "rate" in msg and "limit" in msg:
-        return True
-    if "timeout" in msg or "connection" in msg:
-        return True
-    if "429" in msg or "503" in msg or "502" in msg:
-        return True
-    return False
 def normalize_llm_content(raw: Any) -> str:
@@ -245,6 +256,10 @@ class BaseLLMAdapter(ABC):
     #: Prompts de post-correction par défaut, indexés par code langue
     #: ISO-639-1 (``fr``, ``en``, ``la``).  Sélection via
     #: ``config["lang"]`` ; fallback FR si la langue est absente.
     DEFAULT_CORRECTION_PROMPTS: dict[str, str] = {
         "fr": (
             "Corrige les erreurs OCR dans le texte suivant en "
@@ -266,6 +281,16 @@ class BaseLLMAdapter(ABC):
         ),
     }
     def __init__(
         self,
         model: Optional[str] = None,
@@ -409,6 +434,15 @@ class BaseLLMAdapter(ABC):
             prompt_template = custom_prompt
         else:
             lang = (self.config.get("lang") or "fr").lower()
             prompt_template = self.DEFAULT_CORRECTION_PROMPTS.get(
                 lang, self.DEFAULT_CORRECTION_PROMPTS["fr"],
             )

 import logging
 import time
+import warnings
 from abc import ABC, abstractmethod
 from dataclasses import dataclass
+from typing import Any, Generic, Optional, TypeVar
 logger = logging.getLogger(__name__)
+T = TypeVar("T")
+class _DeprecatedAttribute(Generic[T]):
+    """Descripteur class-level qui émet ``DeprecationWarning`` à l'accès.
+    Permet de retirer en deux temps une constante de classe sans
+    casser les callers externes : phase 1, le descripteur retourne
+    l'ancienne valeur avec un warning ; phase 2 (version majeure
+    suivante), le descripteur est supprimé.
+    """
+    def __init__(
+        self,
+        value: T,
+        message: str,
+    ) -> None:
+        self._value = value
+        self._message = message
+    def __set_name__(self, owner: type, name: str) -> None:
+        self._name = name
+    def __get__(self, instance: Any, owner: type | None = None) -> T:
+        warnings.warn(self._message, DeprecationWarning, stacklevel=2)
+        return self._value
+from picarones.adapters._retry import (
+    DEFAULT_BACKOFF_BASE as _DEFAULT_BACKOFF_BASE,
+)
+from picarones.adapters._retry import (
+    DEFAULT_MAX_RETRIES as _DEFAULT_MAX_RETRIES,
+)
+from picarones.adapters._retry import (
+    is_retryable as _is_retryable,
+)
 def normalize_llm_content(raw: Any) -> str:
     #: Prompts de post-correction par défaut, indexés par code langue
     #: ISO-639-1 (``fr``, ``en``, ``la``).  Sélection via
     #: ``config["lang"]`` ; fallback FR si la langue est absente.
+    #:
+    #: ``DEFAULT_CORRECTION_PROMPT`` (singulier, FR) reste exposé en
+    #: ``_DeprecatedAttribute`` pour les sous-classes externes qui
+    #: lisaient l'ancienne API ; suppression prévue en 2.0.
     DEFAULT_CORRECTION_PROMPTS: dict[str, str] = {
         "fr": (
             "Corrige les erreurs OCR dans le texte suivant en "
         ),
     }
+    #: Alias rétrocompat (FR uniquement) pour les sous-classes
+    #: externes qui lisaient l'ancienne API singulière.  L'accès
+    #: déclenche un ``DeprecationWarning``.  Sera supprimé en 2.0.
+    DEFAULT_CORRECTION_PROMPT = _DeprecatedAttribute(
+        DEFAULT_CORRECTION_PROMPTS["fr"],
+        "BaseLLMAdapter.DEFAULT_CORRECTION_PROMPT is deprecated and "
+        "will be removed in 2.0.  Use "
+        "DEFAULT_CORRECTION_PROMPTS[lang] (lang ∈ {fr, en, la}).",
+    )
     def __init__(
         self,
         model: Optional[str] = None,
             prompt_template = custom_prompt
         else:
             lang = (self.config.get("lang") or "fr").lower()
+            if lang not in self.DEFAULT_CORRECTION_PROMPTS:
+                logger.warning(
+                    "[%s] lang=%r non supportée par "
+                    "DEFAULT_CORRECTION_PROMPTS (%s) — fallback FR. "
+                    "Pour un corpus dans cette langue, fournir "
+                    "config['correction_prompt'] explicite.",
+                    self.name, lang,
+                    sorted(self.DEFAULT_CORRECTION_PROMPTS.keys()),
+                )
             prompt_template = self.DEFAULT_CORRECTION_PROMPTS.get(
                 lang, self.DEFAULT_CORRECTION_PROMPTS["fr"],
             )

picarones/adapters/ocr/azure_doc_intel.py CHANGED Viewed

@@ -67,6 +67,7 @@ import urllib.request
 from pathlib import Path
 from typing import Any
 from picarones.adapters.ocr.base import BaseOCRAdapter, OCRAdapterError
 from picarones.adapters.output_paths import resolve_output_path
 from picarones.domain.artifacts import Artifact, ArtifactType
@@ -296,9 +297,12 @@ class AzureDocIntelAdapter(BaseOCRAdapter):
                 "Content-Type": "application/octet-stream",
             },
         )
-        try:
             with urllib.request.urlopen(req, timeout=self._timeout) as resp:
-                operation_url = resp.headers.get("Operation-Location", "")
         except urllib.error.HTTPError as exc:
             body = ""
             try:

 from pathlib import Path
 from typing import Any
+from picarones.adapters._retry import call_with_retry
 from picarones.adapters.ocr.base import BaseOCRAdapter, OCRAdapterError
 from picarones.adapters.output_paths import resolve_output_path
 from picarones.domain.artifacts import Artifact, ArtifactType
                 "Content-Type": "application/octet-stream",
             },
         )
+        def _do_post() -> str:
             with urllib.request.urlopen(req, timeout=self._timeout) as resp:
+                return resp.headers.get("Operation-Location", "")
+        try:
+            operation_url = call_with_retry(_do_post, label=self.name)
         except urllib.error.HTTPError as exc:
             body = ""
             try:

picarones/adapters/ocr/google_vision.py CHANGED Viewed

@@ -51,6 +51,7 @@ import urllib.request
 from pathlib import Path
 from typing import Any
 from picarones.adapters.ocr.base import BaseOCRAdapter, OCRAdapterError
 from picarones.adapters.output_paths import resolve_output_path
 from picarones.domain.artifacts import Artifact, ArtifactType
@@ -264,9 +265,12 @@ class GoogleVisionAdapter(BaseOCRAdapter):
                 "X-Goog-Api-Key": api_key,
             },
         )
-        try:
             with urllib.request.urlopen(req, timeout=self._timeout) as resp:
-                result = json.loads(resp.read().decode("utf-8"))
         except urllib.error.HTTPError as exc:
             body = ""
             try:

 from pathlib import Path
 from typing import Any
+from picarones.adapters._retry import call_with_retry
 from picarones.adapters.ocr.base import BaseOCRAdapter, OCRAdapterError
 from picarones.adapters.output_paths import resolve_output_path
 from picarones.domain.artifacts import Artifact, ArtifactType
                 "X-Goog-Api-Key": api_key,
             },
         )
+        def _do_call() -> dict:
             with urllib.request.urlopen(req, timeout=self._timeout) as resp:
+                return json.loads(resp.read().decode("utf-8"))
+        try:
+            result = call_with_retry(_do_call, label=self.name)
         except urllib.error.HTTPError as exc:
             body = ""
             try:

picarones/adapters/ocr/mistral_ocr.py CHANGED Viewed

@@ -63,6 +63,7 @@ import urllib.request
 from pathlib import Path
 from typing import Any
 from picarones.adapters.ocr.base import BaseOCRAdapter, OCRAdapterError
 from picarones.adapters.output_paths import resolve_output_path
 from picarones.domain.artifacts import Artifact, ArtifactType
@@ -264,9 +265,12 @@ class MistralOCRAdapter(BaseOCRAdapter):
             },
             method="POST",
         )
-        try:
             with urllib.request.urlopen(req, timeout=self._timeout) as resp:
-                data = json.loads(resp.read().decode())
         except Exception as exc:
             raise OCRAdapterError(
                 f"{self.name} : erreur API Mistral /v1/ocr : "
@@ -290,8 +294,9 @@ class MistralOCRAdapter(BaseOCRAdapter):
             ) from exc
         client = Mistral(api_key=api_key)
-        try:
-            response = client.chat.complete(
                 model=self._model,
                 messages=[
                     {
@@ -304,6 +309,9 @@ class MistralOCRAdapter(BaseOCRAdapter):
                 ],
                 max_tokens=self._max_tokens,
             )
         except Exception as exc:
             raise OCRAdapterError(
                 f"{self.name} : erreur API Mistral chat : "

 from pathlib import Path
 from typing import Any
+from picarones.adapters._retry import call_with_retry
 from picarones.adapters.ocr.base import BaseOCRAdapter, OCRAdapterError
 from picarones.adapters.output_paths import resolve_output_path
 from picarones.domain.artifacts import Artifact, ArtifactType
             },
             method="POST",
         )
+        def _do_call() -> dict:
             with urllib.request.urlopen(req, timeout=self._timeout) as resp:
+                return json.loads(resp.read().decode())
+        try:
+            data = call_with_retry(_do_call, label=self.name)
         except Exception as exc:
             raise OCRAdapterError(
                 f"{self.name} : erreur API Mistral /v1/ocr : "
             ) from exc
         client = Mistral(api_key=api_key)
+        def _do_chat() -> Any:
+            return client.chat.complete(
                 model=self._model,
                 messages=[
                     {
                 ],
                 max_tokens=self._max_tokens,
             )
+        try:
+            response = call_with_retry(_do_chat, label=self.name)
         except Exception as exc:
             raise OCRAdapterError(
                 f"{self.name} : erreur API Mistral chat : "

picarones/adapters/vlm/base.py CHANGED Viewed

@@ -32,7 +32,7 @@ import logging
 from pathlib import Path
 from typing import Any
-from picarones.adapters.llm.base import BaseLLMAdapter
 from picarones.domain.artifacts import Artifact, ArtifactType
 from picarones.domain.errors import AdapterStepError
@@ -149,6 +149,16 @@ class BaseVLMAdapter(BaseLLMAdapter):
         ),
     }
     def execute(
         self,
         inputs: dict,
@@ -188,6 +198,15 @@ class BaseVLMAdapter(BaseLLMAdapter):
             prompt = custom
         else:
             lang = (self.config.get("lang") or "fr").lower()
             prompt = self.DEFAULT_TRANSCRIPTION_PROMPTS.get(
                 lang, self.DEFAULT_TRANSCRIPTION_PROMPTS["fr"],
             )

 from pathlib import Path
 from typing import Any
+from picarones.adapters.llm.base import BaseLLMAdapter, _DeprecatedAttribute
 from picarones.domain.artifacts import Artifact, ArtifactType
 from picarones.domain.errors import AdapterStepError
         ),
     }
+    #: Alias rétrocompat (FR uniquement) pour les sous-classes
+    #: externes qui lisaient l'ancienne API singulière.  L'accès
+    #: déclenche un ``DeprecationWarning``.  Sera supprimé en 2.0.
+    DEFAULT_TRANSCRIPTION_PROMPT = _DeprecatedAttribute(
+        DEFAULT_TRANSCRIPTION_PROMPTS["fr"],
+        "BaseVLMAdapter.DEFAULT_TRANSCRIPTION_PROMPT is deprecated "
+        "and will be removed in 2.0.  Use "
+        "DEFAULT_TRANSCRIPTION_PROMPTS[lang] (lang ∈ {fr, en, la}).",
+    )
     def execute(
         self,
         inputs: dict,
             prompt = custom
         else:
             lang = (self.config.get("lang") or "fr").lower()
+            if lang not in self.DEFAULT_TRANSCRIPTION_PROMPTS:
+                logger.warning(
+                    "[%s] lang=%r non supportée par "
+                    "DEFAULT_TRANSCRIPTION_PROMPTS (%s) — fallback FR. "
+                    "Pour un corpus dans cette langue, fournir "
+                    "config['transcription_prompt'] explicite.",
+                    self.name, lang,
+                    sorted(self.DEFAULT_TRANSCRIPTION_PROMPTS.keys()),
+                )
             prompt = self.DEFAULT_TRANSCRIPTION_PROMPTS.get(
                 lang, self.DEFAULT_TRANSCRIPTION_PROMPTS["fr"],
             )

picarones/app/services/benchmark_service.py CHANGED Viewed

@@ -42,7 +42,7 @@ from __future__ import annotations
 import json
 import logging
 from pathlib import Path
-from typing import Callable, Iterable
 from picarones.domain.artifacts import Artifact, ArtifactType
 from picarones.domain.corpus import CorpusSpec
@@ -121,6 +121,7 @@ class BenchmarkService:
         context_factory: ContextFactory,
         run_id: str | None = None,
         dependencies_lock: dict[str, str] | None = None,
         metadata: dict[str, str] | None = None,
     ) -> RunResult:
         """Exécute un benchmark complet et retourne le ``RunResult``.
@@ -189,7 +190,8 @@ class BenchmarkService:
             run_id=run_id or _default_run_id(corpus.name, started_at),
             corpus_name=corpus.name,
             n_documents=len(documents),
-            pipeline_names=tuple(spec.name for spec in pipelines_list),
             view_specs=tuple(views_list),
             code_version=self._code_version,
             started_at=started_at,

 import json
 import logging
 from pathlib import Path
+from typing import Any, Callable, Iterable
 from picarones.domain.artifacts import Artifact, ArtifactType
 from picarones.domain.corpus import CorpusSpec
         context_factory: ContextFactory,
         run_id: str | None = None,
         dependencies_lock: dict[str, str] | None = None,
+        adapter_kwargs: dict[str, dict[str, Any]] | None = None,
         metadata: dict[str, str] | None = None,
     ) -> RunResult:
         """Exécute un benchmark complet et retourne le ``RunResult``.
             run_id=run_id or _default_run_id(corpus.name, started_at),
             corpus_name=corpus.name,
             n_documents=len(documents),
+            pipeline_specs=tuple(pipelines_list),
+            adapter_kwargs=dict(adapter_kwargs or {}),
             view_specs=tuple(views_list),
             code_version=self._code_version,
             started_at=started_at,

picarones/app/services/dependencies.py ADDED Viewed

	@@ -0,0 +1,49 @@

+"""Capture du verrou des dépendances au moment d'un run.
+Le ``RunManifest`` documente la promesse *« à code_version + corpus +
+specs + dependencies_lock identiques, ré-exécuter doit donner les
+mêmes résultats »*.  Ce module fournit la capture canonique du
+``dependencies_lock``.
+Approche
+--------
+``importlib.metadata.distributions()`` retourne tous les paquets
+installés dans l'environnement Python courant — c'est l'API standard
+Python (PEP 566) plutôt que d'invoquer ``pip freeze`` en sous-process.
+Chaque ``Distribution`` fournit ``name`` + ``version`` ; on en fait
+un dict ordonné par ``name`` minuscule pour le déterminisme du
+manifest.
+Anti-sur-ingénierie
+-------------------
+- Pas de capture des hashes de wheel : si la BnF veut une preuve
+  d'intégrité supply-chain, elle utilise un lockfile Poetry/uv en
+  amont — on ne refait pas le travail.
+- Pas de capture des binaires système (Tesseract version, libcuda,
+  fonts) : reporté à un sprint dédié si une ré-exécution échoue
+  pour cette raison.  Le hash du wheel ``pytesseract`` capture déjà
+  la couche Python.
+"""
+from __future__ import annotations
+from importlib.metadata import distributions
+def capture_dependencies_lock() -> dict[str, str]:
+    """Retourne un dict ``{nom_package: version}`` trié par nom.
+    Tri lexicographique sur ``name.lower()`` pour produire des
+    manifests bit-for-bit identiques à environnement constant
+    (l'ordre d'itération de ``distributions()`` n'est pas spécifié).
+    """
+    lock: dict[str, str] = {}
+    for dist in distributions():
+        name = dist.metadata["Name"]
+        version = dist.version
+        if name and version:
+            lock[name] = version
+    return dict(sorted(lock.items(), key=lambda kv: kv[0].lower()))
+__all__ = ["capture_dependencies_lock"]

picarones/app/services/run_orchestrator.py CHANGED Viewed

@@ -45,6 +45,7 @@ from typing import Any, Callable
 from picarones.app.results import ReportRenderer, RunResult
 from picarones.app.schemas import RunSpec, resolve_adapter_class
 from picarones.app.services.benchmark_service import BenchmarkService
 from picarones.app.services.corpus_service import (
     CorpusImportError,
     CorpusService,
@@ -167,8 +168,10 @@ class RunOrchestrator:
         # 2. Registres.
         registries = RegistryService.bootstrap_defaults()
-        # 3. Pipelines + resolver d'adapters.
-        pipeline_specs, adapter_resolver = self._build_pipelines(spec)
         # 4. Vues canoniques.
         views = self._build_views(spec.views)
@@ -180,6 +183,9 @@ class RunOrchestrator:
             code_version=spec.code_version,
         )
         result = bench.run(
             corpus=corpus_spec,
             pipelines=pipeline_specs,
@@ -187,6 +193,8 @@ class RunOrchestrator:
             ground_truth_factory=_default_gt_factory,
             pipeline_inputs_factory=_default_inputs_factory,
             context_factory=_make_context_factory(spec.code_version),
             metadata={"orchestrator": "picarones.app.services.run_orchestrator"},
         )
@@ -257,7 +265,11 @@ class RunOrchestrator:
     @staticmethod
     def _build_pipelines(
         spec: RunSpec,
-    ) -> tuple[list[PipelineSpec], Callable[[str], Any]]:
         """Construit les ``PipelineSpec`` + un resolver d'adapters.
         Disambiguation des steps :
@@ -316,7 +328,12 @@ class RunOrchestrator:
                 instance_cache[name] = cls(**kwargs)
             return instance_cache[name]
-        return pipeline_specs, resolver
     @staticmethod
     def _build_views(view_names: tuple[str, ...]) -> list[Any]:

 from picarones.app.results import ReportRenderer, RunResult
 from picarones.app.schemas import RunSpec, resolve_adapter_class
 from picarones.app.services.benchmark_service import BenchmarkService
+from picarones.app.services.dependencies import capture_dependencies_lock
 from picarones.app.services.corpus_service import (
     CorpusImportError,
     CorpusService,
         # 2. Registres.
         registries = RegistryService.bootstrap_defaults()
+        # 3. Pipelines + resolver d'adapters + dump des kwargs pour le manifest.
+        pipeline_specs, adapter_resolver, adapter_kwargs = (
+            self._build_pipelines(spec)
+        )
         # 4. Vues canoniques.
         views = self._build_views(spec.views)
             code_version=spec.code_version,
         )
+        # 6. Capture du verrou de dépendances pour la reproductibilité.
+        deps_lock = capture_dependencies_lock()
         result = bench.run(
             corpus=corpus_spec,
             pipelines=pipeline_specs,
             ground_truth_factory=_default_gt_factory,
             pipeline_inputs_factory=_default_inputs_factory,
             context_factory=_make_context_factory(spec.code_version),
+            adapter_kwargs=adapter_kwargs,
+            dependencies_lock=deps_lock,
             metadata={"orchestrator": "picarones.app.services.run_orchestrator"},
         )
     @staticmethod
     def _build_pipelines(
         spec: RunSpec,
+    ) -> tuple[
+        list[PipelineSpec],
+        Callable[[str], Any],
+        dict[str, dict[str, Any]],
+    ]:
         """Construit les ``PipelineSpec`` + un resolver d'adapters.
         Disambiguation des steps :
                 instance_cache[name] = cls(**kwargs)
             return instance_cache[name]
+        # Copie défensive — le manifest doit recevoir un snapshot
+        # immuable, pas la map vivante du resolver.
+        adapter_kwargs_dump = {
+            name: dict(kwargs) for name, kwargs in name_to_kwargs.items()
+        }
+        return pipeline_specs, resolver, adapter_kwargs_dump
     @staticmethod
     def _build_views(view_names: tuple[str, ...]) -> list[Any]:

picarones/domain/documents.py CHANGED Viewed

@@ -90,6 +90,18 @@ class DocumentRef(BaseModel):
                 f"document id invalide : {v!r}.  "
                 f"Doit matcher {_DOC_ID_RE.pattern!r}."
             )
         return v
     @field_validator("ground_truths")

                 f"document id invalide : {v!r}.  "
                 f"Doit matcher {_DOC_ID_RE.pattern!r}."
             )
+        # Défense en profondeur path-traversal : ``..`` comme segment
+        # de chemin permet d'écrire hors workspace via
+        # ``resolve_output_path``.  Le seul rempart au niveau supérieur
+        # est l'extraction ZIP (zip-slip protection) — un caller qui
+        # construit ``DocumentRef(id="../../etc/passwd")``
+        # programmatiquement contournait tout.
+        if ".." in v.split("/"):
+            from picarones.domain.errors import CorpusSpecError
+            raise CorpusSpecError(
+                f"document id contient un segment '..' : {v!r}. "
+                "Path traversal rejeté."
+            )
         return v
     @field_validator("ground_truths")

picarones/domain/run_manifest.py CHANGED Viewed

@@ -40,11 +40,14 @@ Anti-sur-ingénierie
 from __future__ import annotations
 from datetime import datetime, timezone
-from pydantic import BaseModel, ConfigDict, Field
 from picarones.domain.evaluation_spec import EvaluationView
 class RunManifest(BaseModel):
@@ -66,11 +69,18 @@ class RunManifest(BaseModel):
         Nom du corpus traité (cf. ``CorpusSpec.name``).
     n_documents:
         Nombre de documents du corpus.
-    pipeline_names:
-        Noms des pipelines exécutées (un par pipeline).  Ne porte
-        PAS la spec complète pour rester compact dans le manifest
-        — la spec YAML est citée par référence
-        (``pipeline_specs_uri``).
     view_specs:
         Vues d'évaluation appliquées.  Portées intégralement
         (frozen pydantic) parce qu'elles sont déclaratives et
@@ -81,10 +91,13 @@ class RunManifest(BaseModel):
     started_at, completed_at:
         Wall-clock UTC de début et fin du run.
     dependencies_lock:
-        Snapshot des dépendances installées au moment du run
-        (typiquement ``pip freeze`` ou ``poetry lock`` digéré).
-        Format libre — un dict ``{package: version}`` est
-        idiomatique mais pas imposé.
     metadata:
         Dict libre pour notes utilisateur, etc.  Ne doit pas
         contenir d'info qui devrait être dans un autre champ.
@@ -95,7 +108,8 @@ class RunManifest(BaseModel):
     run_id: str = Field(min_length=1, max_length=256)
     corpus_name: str = Field(min_length=1, max_length=128)
     n_documents: int = Field(ge=0)
-    pipeline_names: tuple[str, ...] = Field(default_factory=tuple)
     view_specs: tuple[EvaluationView, ...] = Field(default_factory=tuple)
     code_version: str = Field(min_length=1, max_length=128)
     started_at: datetime
@@ -103,6 +117,75 @@ class RunManifest(BaseModel):
     dependencies_lock: dict[str, str] = Field(default_factory=dict)
     metadata: dict[str, str] = Field(default_factory=dict)
     @property
     def duration_seconds(self) -> float:
         """Durée wall-clock du run en secondes."""

 from __future__ import annotations
+import warnings
 from datetime import datetime, timezone
+from typing import Any
+from pydantic import BaseModel, ConfigDict, Field, computed_field, model_validator
 from picarones.domain.evaluation_spec import EvaluationView
+from picarones.domain.pipeline_spec import PipelineSpec
 class RunManifest(BaseModel):
         Nom du corpus traité (cf. ``CorpusSpec.name``).
     n_documents:
         Nombre de documents du corpus.
+    pipeline_specs:
+        Spécifications **complètes** des pipelines exécutées (steps,
+        adapter_name par step, params, inputs_from, output_types).
+        Inclus intégralement dans le manifest pour reproductibilité —
+        un relecteur peut reconstituer le DAG sans accès au YAML
+        d'origine.
+    adapter_kwargs:
+        Map ``{adapter_name: kwargs}`` capturée pour chaque adapter
+        instancié.  Permet de reconstituer ``OpenAIAdapter(model=
+        "gpt-4o-2024-08-06", temperature=0.0)`` à l'identique.
+        Les valeurs sensibles (``api_key``) ne doivent pas y figurer
+        — elles viennent toujours de variables d'environnement.
     view_specs:
         Vues d'évaluation appliquées.  Portées intégralement
         (frozen pydantic) parce qu'elles sont déclaratives et
     started_at, completed_at:
         Wall-clock UTC de début et fin du run.
     dependencies_lock:
+        Snapshot ``{package: version}`` de l'environnement Python
+        au moment du run.  Capturé via
+        ``picarones.app.services.dependencies.capture_dependencies_lock``.
+        Indispensable pour la promesse de reproductibilité — sans
+        lui, un changement de version d'un parser XML ou d'une
+        lib statistique fait diverger les résultats sans qu'on
+        puisse l'attribuer.
     metadata:
         Dict libre pour notes utilisateur, etc.  Ne doit pas
         contenir d'info qui devrait être dans un autre champ.
     run_id: str = Field(min_length=1, max_length=256)
     corpus_name: str = Field(min_length=1, max_length=128)
     n_documents: int = Field(ge=0)
+    pipeline_specs: tuple[PipelineSpec, ...] = Field(default_factory=tuple)
+    adapter_kwargs: dict[str, dict[str, Any]] = Field(default_factory=dict)
     view_specs: tuple[EvaluationView, ...] = Field(default_factory=tuple)
     code_version: str = Field(min_length=1, max_length=128)
     started_at: datetime
     dependencies_lock: dict[str, str] = Field(default_factory=dict)
     metadata: dict[str, str] = Field(default_factory=dict)
+    @computed_field  # type: ignore[prop-decorator]
+    @property
+    def pipeline_names(self) -> tuple[str, ...]:
+        """Liste compacte des noms de pipelines (sérialisée dans le
+        JSON pour les lecteurs qui ne traitent pas le DAG complet).
+        Dérivée de ``pipeline_specs`` ; la liste authoritative pour
+        la reproductibilité est ``pipeline_specs`` qui porte les DAG
+        complets avec params et inputs_from.
+        """
+        return tuple(spec.name for spec in self.pipeline_specs)
+    @model_validator(mode="before")
+    @classmethod
+    def _accept_legacy_pipeline_names(
+        cls,
+        data: Any,
+    ) -> Any:
+        """Accepte ``pipeline_names`` au constructeur comme alias
+        déprécié de ``pipeline_specs``.
+        Trois cas :
+        1. ``pipeline_names`` seul → convertit chaque nom en
+           ``PipelineSpec(name=n, steps=())`` + ``DeprecationWarning``.
+        2. ``pipeline_specs`` + ``pipeline_names`` cohérents → cas du
+           round-trip JSON (``pipeline_names`` est un computed_field
+           sérialisé) : on ignore silencieusement le doublon.
+        3. ``pipeline_specs`` + ``pipeline_names`` incohérents →
+           ``ValueError`` (incohérence sémantique).
+        """
+        if not isinstance(data, dict):
+            return data
+        if "pipeline_names" not in data:
+            return data
+        names = data["pipeline_names"]
+        if "pipeline_specs" in data:
+            specs = data["pipeline_specs"]
+            spec_names = tuple(
+                s.name if hasattr(s, "name") else s.get("name")
+                for s in specs
+            )
+            if tuple(names) != spec_names:
+                raise ValueError(
+                    "RunManifest : ``pipeline_names`` et "
+                    "``pipeline_specs`` désignent des pipelines "
+                    f"distinctes (names={tuple(names)!r}, "
+                    f"specs={spec_names!r}).",
+                )
+            # Round-trip JSON : computed_field re-sérialisé puis
+            # re-parsé.  On ignore le doublon, ``pipeline_specs``
+            # est authoritative.
+            data = dict(data)
+            data.pop("pipeline_names")
+            return data
+        warnings.warn(
+            "RunManifest(pipeline_names=...) is deprecated and will "
+            "be removed in 2.0.  Use pipeline_specs=tuple(PipelineSpec"
+            "(name=n, steps=()) for n in names) instead.",
+            DeprecationWarning,
+            stacklevel=2,
+        )
+        data = dict(data)
+        data.pop("pipeline_names")
+        data["pipeline_specs"] = tuple(
+            PipelineSpec(name=n, steps=()) for n in names
+        )
+        return data
     @property
     def duration_seconds(self) -> float:
         """Durée wall-clock du run en secondes."""

picarones/interfaces/web/routers/jobs.py CHANGED Viewed

@@ -239,6 +239,17 @@ async def submit_job(
             detail=f"Échec de soumission du job : {type(exc).__name__}",
         ) from exc
     return JobSubmitResponse(job_id=job_id, status="pending")
@@ -287,6 +298,14 @@ async def cancel_job(request: Request, job_id: str) -> JobCancelResponse:
     store.mark_cancelled(job_id)
     updated = store.get(job_id)
     return JobCancelResponse(
         job_id=updated.job_id, status=updated.status,
     )

             detail=f"Échec de soumission du job : {type(exc).__name__}",
         ) from exc
+    # Audit trail — création de job est une action sensible (peut
+    # consommer du quota cloud, démarrer un long calcul).  Log INFO
+    # avec l'IP source pour la traçabilité institutionnelle.
+    client = request.client
+    client_host = client.host if client is not None else "unknown"
+    logger.info(
+        "[audit] job_submitted job_id=%s corpus=%s from=%s",
+        job_id,
+        run_spec.corpus_name or "",
+        client_host,
+    )
     return JobSubmitResponse(job_id=job_id, status="pending")
     store.mark_cancelled(job_id)
     updated = store.get(job_id)
+    # Audit trail — annulation peut détruire des résultats partiels
+    # et libérer du quota cloud non remboursable.
+    client = request.client
+    client_host = client.host if client is not None else "unknown"
+    logger.info(
+        "[audit] job_cancelled job_id=%s from=%s",
+        job_id, client_host,
+    )
     return JobCancelResponse(
         job_id=updated.job_id, status=updated.status,
     )

picarones/pipeline/executor.py CHANGED Viewed

@@ -421,10 +421,19 @@ class PipelineExecutor:
                 outputs,
             )
-        # 5. Succès.
-        # S47 — persiste les outputs dans le store si fourni.  La
-        # méthode interne sait gérer le cas content_hash manquant
-        # (skip silencieux) — on lui passe la responsabilité.
         if self._artifact_store is not None:
             self._persist_to_cache(
                 step=step, inputs=inputs, context=context, outputs=outputs,

                 outputs,
             )
+        # 5. Filtrage sur ``step.output_types``.
+        # Un adapter peut produire plus de types que le YAML n'en
+        # déclare (ex: Tesseract avec ``expose_confidences=True``
+        # mais le step ne déclare que ``[raw_text]``).  Le contrat
+        # est que seuls les outputs déclarés en sortie de step
+        # passent en aval — sinon un DAG branchant pourrait recevoir
+        # des artefacts qui ne devaient pas exister à cette jonction.
+        declared = set(step.output_types)
+        outputs = {t: a for t, a in outputs.items() if t in declared}
+        # 6. Succès — persiste dans le store si fourni.  La méthode
+        # interne sait gérer le cas content_hash manquant (skip
+        # silencieux) — on lui passe la responsabilité.
         if self._artifact_store is not None:
             self._persist_to_cache(
                 step=step, inputs=inputs, context=context, outputs=outputs,

picarones/pipeline/spec.py ADDED Viewed

	@@ -0,0 +1,38 @@

+"""``picarones.pipeline.spec`` — shim de compatibilité descendante (déprécié).
+Le module canonique est ``picarones.domain.pipeline_spec`` depuis le
+sprint S40.  Ce module a été supprimé temporairement au S57 puis
+restauré au S59 avec ``DeprecationWarning`` pour respecter une
+deprecation period propre vis-à-vis des callers externes (espaces
+HuggingFace tiers, scripts archivistiques, notebooks de chercheurs).
+Suppression effective prévue en version majeure suivante (1.x → 2.0).
+::
+    # Migration : remplacer
+    from picarones.pipeline.spec import PipelineSpec
+    # par
+    from picarones.domain import PipelineSpec
+"""
+from __future__ import annotations
+import warnings
+from picarones.domain.pipeline_spec import (
+    INITIAL_STEP_ID,
+    PipelineSpec,
+    PipelineStep,
+)
+warnings.warn(
+    "picarones.pipeline.spec is deprecated and will be removed in 2.0. "
+    "Import from picarones.domain instead "
+    "(`from picarones.domain import PipelineSpec, PipelineStep, "
+    "INITIAL_STEP_ID`).",
+    DeprecationWarning,
+    stacklevel=2,
+)
+__all__ = ["INITIAL_STEP_ID", "PipelineSpec", "PipelineStep"]

tests/api_stability/__init__.py ADDED Viewed

File without changes

tests/api_stability/test_deprecated_aliases.py ADDED Viewed

	@@ -0,0 +1,96 @@

+"""Garde-fou de stabilité d'API : les symboles dépréciés au S57
+restent accessibles avec ``DeprecationWarning`` jusqu'à la 2.0.
+Pour une release institutionnelle, supprimer un symbole exporté du
+package public exige une deprecation period publique — un caller
+externe (espace HuggingFace tiers, script BnF, notebook de chercheur)
+doit pouvoir mettre à jour son code AVANT la cassure dure.
+Trois alias couverts :
+1. ``picarones.pipeline.spec`` (module entier).
+2. ``BaseLLMAdapter.DEFAULT_CORRECTION_PROMPT`` (singulier).
+3. ``BaseVLMAdapter.DEFAULT_TRANSCRIPTION_PROMPT`` (singulier).
+"""
+from __future__ import annotations
+import importlib
+import sys
+import warnings
+def test_pipeline_spec_module_emits_deprecation_warning() -> None:
+    """``from picarones.pipeline.spec import …`` fonctionne avec un
+    ``DeprecationWarning`` qui pointe vers le chemin canonique.
+    """
+    sys.modules.pop("picarones.pipeline.spec", None)
+    with warnings.catch_warnings(record=True) as captured:
+        warnings.simplefilter("always")
+        importlib.import_module("picarones.pipeline.spec")
+    deprecations = [
+        w for w in captured if issubclass(w.category, DeprecationWarning)
+    ]
+    assert deprecations, "DeprecationWarning attendu sur l'import legacy."
+    assert "picarones.domain" in str(deprecations[0].message), (
+        "Le message du warning doit pointer vers la cible canonique."
+    )
+def test_pipeline_spec_module_still_resolves_classes() -> None:
+    """L'alias résout vers les MÊMES objets que ``picarones.domain``."""
+    sys.modules.pop("picarones.pipeline.spec", None)
+    with warnings.catch_warnings():
+        warnings.simplefilter("ignore", DeprecationWarning)
+        from picarones.pipeline.spec import (
+            INITIAL_STEP_ID as LegacyInit,
+        )
+        from picarones.pipeline.spec import (
+            PipelineSpec as LegacySpec,
+        )
+        from picarones.pipeline.spec import (
+            PipelineStep as LegacyStep,
+        )
+    from picarones.domain.pipeline_spec import (
+        INITIAL_STEP_ID,
+        PipelineSpec,
+        PipelineStep,
+    )
+    assert LegacySpec is PipelineSpec
+    assert LegacyStep is PipelineStep
+    assert LegacyInit == INITIAL_STEP_ID
+def test_default_correction_prompt_singular_emits_warning() -> None:
+    """``BaseLLMAdapter.DEFAULT_CORRECTION_PROMPT`` (singulier) reste
+    lisible mais émet ``DeprecationWarning``.
+    """
+    from picarones.adapters.llm.base import BaseLLMAdapter
+    with warnings.catch_warnings(record=True) as captured:
+        warnings.simplefilter("always")
+        value = BaseLLMAdapter.DEFAULT_CORRECTION_PROMPT
+    deprecations = [
+        w for w in captured if issubclass(w.category, DeprecationWarning)
+    ]
+    assert deprecations
+    assert "DEFAULT_CORRECTION_PROMPTS" in str(deprecations[0].message)
+    # La valeur retournée est cohérente : prompt FR.
+    assert "Corrige" in value
+def test_default_transcription_prompt_singular_emits_warning() -> None:
+    """``BaseVLMAdapter.DEFAULT_TRANSCRIPTION_PROMPT`` (singulier)
+    reste lisible mais émet ``DeprecationWarning``.
+    """
+    from picarones.adapters.vlm.base import BaseVLMAdapter
+    with warnings.catch_warnings(record=True) as captured:
+        warnings.simplefilter("always")
+        value = BaseVLMAdapter.DEFAULT_TRANSCRIPTION_PROMPT
+    deprecations = [
+        w for w in captured if issubclass(w.category, DeprecationWarning)
+    ]
+    assert deprecations
+    assert "DEFAULT_TRANSCRIPTION_PROMPTS" in str(deprecations[0].message)
+    assert "Transcris" in value

tests/app/services/test_sprint_a14_s53_inputs_from_propagation.py CHANGED Viewed

@@ -62,7 +62,7 @@ def test_orchestrator_propagates_inputs_from_to_pipeline_step(
         "picarones.app.services.run_orchestrator.resolve_adapter_class",
         return_value=MagicMock,
     ):
-        pipeline_specs, _resolver = orch._build_pipelines(spec)
     assert len(pipeline_specs) == 1
     ps = pipeline_specs[0]
@@ -98,5 +98,5 @@ def test_step_without_inputs_from_yields_empty_dict(tmp_path) -> None:
         "picarones.app.services.run_orchestrator.resolve_adapter_class",
         return_value=MagicMock,
     ):
-        pipeline_specs, _ = orch._build_pipelines(spec)
     assert pipeline_specs[0].steps[0].inputs_from == {}

         "picarones.app.services.run_orchestrator.resolve_adapter_class",
         return_value=MagicMock,
     ):
+        pipeline_specs, _resolver, _kwargs = orch._build_pipelines(spec)
     assert len(pipeline_specs) == 1
     ps = pipeline_specs[0]
         "picarones.app.services.run_orchestrator.resolve_adapter_class",
         return_value=MagicMock,
     ):
+        pipeline_specs, _, _ = orch._build_pipelines(spec)
     assert pipeline_specs[0].steps[0].inputs_from == {}

tests/architecture/test_file_budgets.py CHANGED Viewed

@@ -98,7 +98,9 @@ FILE_BUDGETS: dict[str, int] = {
     "picarones/app/services/benchmark_service.py": 470,   # actuel 400
     # Sprint A14-S44 — BaseLLMAdapter implémente le contrat StepExecutor
     # (input_types, output_types, execute) en plus de complete().
-    "picarones/adapters/llm/base.py": 475,                # actuel 410
     "picarones/core/corpus.py": 600,                      # actuel 511
     "picarones/fixtures.py": 600,                         # actuel 510
     "picarones/measurements/inter_engine.py": 575,        # actuel 484

     "picarones/app/services/benchmark_service.py": 470,   # actuel 400
     # Sprint A14-S44 — BaseLLMAdapter implémente le contrat StepExecutor
     # (input_types, output_types, execute) en plus de complete().
+    # S59 ajout du descripteur ``_DeprecatedAttribute`` + alias rétrocompat
+    # ``DEFAULT_CORRECTION_PROMPT`` + warning lang fallback (M6).
+    "picarones/adapters/llm/base.py": 560,                # actuel 486
     "picarones/core/corpus.py": 600,                      # actuel 511
     "picarones/fixtures.py": 600,                         # actuel 510
     "picarones/measurements/inter_engine.py": 575,        # actuel 484

tests/architecture/test_manifest_reproducibility.py ADDED Viewed

	@@ -0,0 +1,123 @@

+"""Garde-fou de reproductibilité du ``RunManifest``.
+L'audit S58 a relevé que ``RunManifest.dependencies_lock`` n'était
+jamais peuplé et que ``pipeline_specs`` ne contenait que les noms,
+rompant la promesse documentée *« à code_version + corpus + specs +
+dependencies_lock identiques, ré-exécuter doit donner les mêmes
+résultats »*.
+Ces tests verrouillent le contrat :
+1. ``capture_dependencies_lock()`` retourne un dict non vide trié.
+2. ``RunManifest`` accepte des ``pipeline_specs`` complètes (steps,
+   adapter_name, params, inputs_from), pas seulement des noms.
+3. ``adapter_kwargs`` permet de reconstituer les constructeurs
+   d'adapters (model, temperature, etc.).
+4. La sérialisation est déterministe : deux manifests à entrée
+   identique produisent les mêmes octets JSON.
+"""
+from __future__ import annotations
+from datetime import datetime, timezone
+from picarones.app.services.dependencies import capture_dependencies_lock
+from picarones.domain.artifacts import ArtifactType
+from picarones.domain.pipeline_spec import PipelineSpec, PipelineStep
+from picarones.domain.run_manifest import RunManifest
+def test_capture_dependencies_lock_non_empty_and_sorted() -> None:
+    """``capture_dependencies_lock()`` retourne ≥ 1 paquet (pydantic
+    au minimum) et trié alphabétiquement (case-insensitive).
+    """
+    lock = capture_dependencies_lock()
+    assert len(lock) > 0, "lock vide — picarones lui-même doit être listé."
+    keys = list(lock.keys())
+    assert keys == sorted(keys, key=str.lower), (
+        "lock non trié — le manifest ne sera pas bit-for-bit "
+        "reproductible cross-environnement."
+    )
+    # pydantic est une dépendance ferme du projet — sa présence prouve
+    # que la capture marche sur l'env réel.
+    assert any(k.lower() == "pydantic" for k in lock)
+def test_run_manifest_carries_full_pipeline_specs() -> None:
+    """Le manifest doit porter les ``PipelineSpec`` complètes, pas
+    seulement les noms.  Sans ça, un relecteur 5 ans plus tard ne peut
+    pas reconstituer le DAG sans accès au YAML d'origine.
+    """
+    step = PipelineStep(
+        id="ocr",
+        kind="ocr",
+        adapter_name="tesseract",
+        input_types=(ArtifactType.IMAGE,),
+        output_types=(ArtifactType.RAW_TEXT,),
+        params={"lang": "fra"},
+    )
+    spec = PipelineSpec(name="tess_only", steps=(step,))
+    manifest = RunManifest(
+        run_id="r1",
+        corpus_name="c1",
+        n_documents=1,
+        pipeline_specs=(spec,),
+        adapter_kwargs={"tesseract": {"lang": "fra", "psm": 6}},
+        view_specs=(),
+        code_version="1.0.0-test",
+        started_at=datetime.now(tz=timezone.utc),
+        completed_at=datetime.now(tz=timezone.utc),
+        dependencies_lock={"pydantic": "2.5.0"},
+    )
+    assert manifest.pipeline_specs == (spec,)
+    # Vue rétrocompat dérivée des specs.
+    assert manifest.pipeline_names == ("tess_only",)
+    # Les kwargs d'instanciation sont tracés.
+    assert manifest.adapter_kwargs["tesseract"]["psm"] == 6
+    # Le step complet est reconstituable.
+    assert manifest.pipeline_specs[0].steps[0].params == {"lang": "fra"}
+def test_run_manifest_serialization_is_deterministic() -> None:
+    """Deux manifests à entrée identique produisent les mêmes
+    octets JSON — pré-requis pour le hash d'intégrité que la BnF
+    peut citer dans une publication.
+    """
+    common = dict(
+        run_id="r1",
+        corpus_name="c1",
+        n_documents=42,
+        pipeline_specs=(),
+        adapter_kwargs={"a": {"k": 1}, "b": {"k": 2}},
+        view_specs=(),
+        code_version="1.0.0",
+        started_at=datetime(2026, 5, 6, tzinfo=timezone.utc),
+        completed_at=datetime(2026, 5, 6, tzinfo=timezone.utc),
+        dependencies_lock={"pkg-a": "1.0", "pkg-b": "2.0"},
+        metadata={"note": "test"},
+    )
+    m1 = RunManifest(**common)
+    m2 = RunManifest(**common)
+    assert m1.model_dump_json() == m2.model_dump_json()
+def test_run_manifest_rejects_extra_fields() -> None:
+    """``extra="forbid"`` — le contrat du manifest n'évolue pas
+    silencieusement.  Tout nouveau champ exige un ajout explicite
+    au modèle (et donc une revue).
+    """
+    import pytest
+    from pydantic import ValidationError
+    with pytest.raises(ValidationError):
+        RunManifest(
+            run_id="r1",
+            corpus_name="c1",
+            n_documents=1,
+            code_version="1.0",
+            started_at=datetime.now(tz=timezone.utc),
+            completed_at=datetime.now(tz=timezone.utc),
+            unknown_field="nope",  # type: ignore[call-arg]
+        )

tests/domain/test_sprint_a14_s40_pipeline_spec_in_domain.py CHANGED Viewed

@@ -73,18 +73,21 @@ def test_all_paths_resolve_to_same_classes() -> None:
     assert DomainInitial == CanonInitial == PkgInitial
-def test_legacy_spec_module_removed() -> None:
-    """``picarones.pipeline.spec`` n'existe plus — chemin canonique
-    unique via ``picarones.domain.pipeline_spec``.
     """
     import importlib
-    try:
-        importlib.import_module("picarones.pipeline.spec")
-    except ModuleNotFoundError:
-        pass
-    else:
-        raise AssertionError(
-            "picarones.pipeline.spec ne devrait plus exister — "
-            "importer depuis picarones.domain.",
-        )

     assert DomainInitial == CanonInitial == PkgInitial
+def test_legacy_spec_module_is_deprecated_shim() -> None:
+    """``picarones.pipeline.spec`` reste exposé avec
+    ``DeprecationWarning`` jusqu'à la 2.0 (cf. shim S59).
+    La couverture détaillée du contrat (warning émis, classes
+    identiques) vit dans ``tests/api_stability/test_deprecated_aliases``.
     """
     import importlib
+    import sys
+    import warnings
+    sys.modules.pop("picarones.pipeline.spec", None)
+    with warnings.catch_warnings():
+        warnings.simplefilter("ignore", DeprecationWarning)
+        mod = importlib.import_module("picarones.pipeline.spec")
+    assert hasattr(mod, "PipelineSpec")
+    assert hasattr(mod, "PipelineStep")
+    assert hasattr(mod, "INITIAL_STEP_ID")

tests/interfaces/web/test_rate_limit_xff.py ADDED Viewed

	@@ -0,0 +1,114 @@

+"""Garde-fous sur le parsing X-Forwarded-For du ``RateLimitMiddleware``.
+L'audit S58 a corrigé une faille IP-spoofing (lecture du PREMIER XFF
+au lieu de la N-ième en partant de la fin).  Le commit S58 #4 introduit
+``trust_proxy_count: int`` qui remplace ``trust_x_forwarded_for: bool``,
+mais aucun test ne vérifiait la nouvelle logique.
+Ces tests verrouillent le contrat sécuritaire :
+1. ``trust_proxy_count=0`` : XFF totalement ignoré (mode safe par défaut).
+2. ``trust_proxy_count=1`` : un proxy en amont, on lit la dernière IP
+   de la chaîne (le proxy direct est trustworthy).
+3. ``trust_proxy_count=N`` mais chaîne plus courte → fallback gracieux.
+4. Spoof attempt avec une IP injectée en tête → ignorée si la chaîne
+   est plus courte qu'attendu.
+"""
+from __future__ import annotations
+from unittest.mock import MagicMock
+from starlette.requests import Request
+from picarones.interfaces.web.security import RateLimitMiddleware
+def _request(xff: str | None, client_host: str = "10.0.0.1") -> Request:
+    """Construit une ``Request`` minimale pour ``_extract_ip``."""
+    headers: list[tuple[bytes, bytes]] = []
+    if xff is not None:
+        headers.append((b"x-forwarded-for", xff.encode("ascii")))
+    scope = {
+        "type": "http",
+        "headers": headers,
+        "client": (client_host, 0),
+    }
+    return Request(scope)  # type: ignore[arg-type]
+def _middleware(trust_proxy_count: int = 0) -> RateLimitMiddleware:
+    """Instance prête à appeler ``_extract_ip`` (l'app sous-jacent
+    n'est pas exercé, on teste uniquement le helper de parsing)."""
+    return RateLimitMiddleware(
+        app=MagicMock(),
+        trust_proxy_count=trust_proxy_count,
+    )
+def test_xff_ignored_when_trust_count_zero() -> None:
+    """Mode par défaut : XFF est ignoré, l'IP du socket prime.
+    Évite tout spoofing si le serveur est exposé directement.
+    """
+    mw = _middleware(trust_proxy_count=0)
+    req = _request(xff="evil.ip.example, real, proxy", client_host="1.2.3.4")
+    assert mw._extract_ip(req) == "1.2.3.4"
+def test_xff_one_proxy_reads_last_ip() -> None:
+    """Avec ``trust_proxy_count=1`` (nginx local par ex.), on lit la
+    dernière IP de la chaîne — c'est l'IP que nginx a vue arriver,
+    pas celle que le client a forgée.
+    """
+    mw = _middleware(trust_proxy_count=1)
+    req = _request(xff="evil.ip.example, real-client", client_host="10.0.0.1")
+    assert mw._extract_ip(req) == "real-client"
+def test_xff_two_proxies_reads_n_minus_2() -> None:
+    """Avec ``trust_proxy_count=2`` (load balancer + nginx), on lit
+    l'avant-avant-dernière IP.
+    """
+    mw = _middleware(trust_proxy_count=2)
+    req = _request(
+        xff="client, attacker-spoof, real-client, edge-proxy",
+        client_host="10.0.0.1",
+    )
+    # parts = [client, attacker-spoof, real-client, edge-proxy]
+    # idx = max(0, 4 - 2) = 2 → "real-client"
+    assert mw._extract_ip(req) == "real-client"
+def test_xff_chain_shorter_than_expected_falls_back_gracefully() -> None:
+    """Si la chaîne XFF est plus courte que ``trust_proxy_count``
+    (mauvaise config ou client tronquant), on ne crash pas — on lit
+    l'IP la plus à gauche disponible.
+    """
+    mw = _middleware(trust_proxy_count=5)
+    req = _request(xff="single-ip", client_host="10.0.0.1")
+    # parts = [single-ip], idx = max(0, 1 - 5) = 0 → "single-ip"
+    assert mw._extract_ip(req) == "single-ip"
+def test_xff_empty_value_ignored() -> None:
+    """Une chaîne XFF vide retombe sur ``request.client.host``."""
+    mw = _middleware(trust_proxy_count=1)
+    req = _request(xff="", client_host="10.0.0.1")
+    assert mw._extract_ip(req) == "10.0.0.1"
+def test_xff_with_whitespace_normalized() -> None:
+    """Les espaces autour des virgules sont strippés."""
+    mw = _middleware(trust_proxy_count=1)
+    req = _request(xff="  client  ,  real-client  ", client_host="10.0.0.1")
+    assert mw._extract_ip(req) == "real-client"
+def test_no_client_returns_unknown() -> None:
+    """Si ``request.client`` est ``None`` (cas exotique ASGI sans
+    socket), l'extraction retourne ``"unknown"`` plutôt que crash.
+    """
+    mw = _middleware(trust_proxy_count=0)
+    scope = {"type": "http", "headers": [], "client": None}
+    req = Request(scope)  # type: ignore[arg-type]
+    assert mw._extract_ip(req) == "unknown"