Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

File size: 36,390 Bytes

"""Modèle de données des résultats et export JSON (Cercle 2).

Hiérarchie
----------
BenchmarkResult
  └── EngineReport          (un par moteur)
        └── DocumentResult  (un par document)
"""

from __future__ import annotations

import json
from dataclasses import dataclass, field
from datetime import datetime, timezone
from pathlib import Path
from typing import Optional

from picarones.evaluation.metric_result import MetricsResult, aggregate_metrics


def _resolve_picarones_version() -> str:
    """Récupère la version courante de Picarones sans dépendance vers
    le package racine.

    Raison : la couche ``evaluation`` ne peut pas importer
    ``picarones`` (le package racine, qui importe ``measurements``
    et déclencherait un cycle).  On lit la version via
    ``importlib.metadata`` (chemin de production : wheel installé)
    avec un fallback ``"1.0.0"`` cohérent avec
    ``picarones/__init__.py``.
    """
    try:
        from importlib.metadata import version as _get_version
        return _get_version("picarones")
    except Exception:  # noqa: BLE001
        return "1.0.0"


__version__ = _resolve_picarones_version()


@dataclass
class DocumentResult:
    """Résultat d'un moteur sur un seul document."""

    doc_id: str
    image_path: str
    ground_truth: str
    hypothesis: str
    metrics: MetricsResult
    duration_seconds: float
    engine_error: Optional[str] = None
    # Champs spécifiques aux pipelines OCR+LLM
    ocr_intermediate: Optional[str] = None
    """Sortie OCR brute avant correction LLM (None pour les moteurs OCR seuls)."""
    pipeline_metadata: dict = field(default_factory=dict)
    """Métadonnées du pipeline : mode, prompt, over-normalization…"""
    # Champs Sprint 5 — métriques avancées patrimoniales
    confusion_matrix: Optional[dict] = None
    """Matrice de confusion unicode sérialisée."""
    char_scores: Optional[dict] = None
    """Scores ligatures et diacritiques."""
    taxonomy: Optional[dict] = None
    """Classification taxonomique des erreurs (classes 1-9)."""
    structure: Optional[dict] = None
    """Analyse structurelle (segmentation lignes, ordre lecture)."""
    image_quality: Optional[dict] = None
    """Métriques de qualité image."""
    # Champs Sprint 10 — distribution des erreurs + hallucinations VLM
    line_metrics: Optional[dict] = None
    """Distribution CER par ligne (percentiles, Gini, heatmap de position)."""
    hallucination_metrics: Optional[dict] = None
    """Métriques de détection des hallucinations VLM (ancrage, ratio longueur, blocs)."""
    # Champ Sprint 40 — métriques NER calculées si la GT a un EntitiesGT
    # ET qu'un EntityExtractor a été passé au runner.  ``None`` sinon.
    ner_metrics: Optional[dict] = None
    """Précision/rappel/F1 sur entités nommées (Sprint 38-40).

    Format : retour de ``compute_ner_metrics`` (global, per_category,
    hallucinated_entities, missed_entities, etc.).  Présent uniquement si
    le document a un niveau de GT ``ENTITIES`` ET que le runner a reçu
    un ``EntityExtractor``.
    """
    # Sprint 42 — calibration des confidences moteur (ECE, MCE, bins)
    calibration_metrics: Optional[dict] = None
    """Métriques de calibration (Sprint 39+42).

    Format : retour de ``compute_calibration_metrics`` (ece, mce,
    n_bins, n_predictions, overall_accuracy, overall_confidence, bins).
    Présent uniquement si le moteur a fourni des ``token_confidences``
    sur l'``EngineResult``.
    """
    # Sprint 61 — métriques philologiques (Sprints 55-60) calculées
    # automatiquement.  Présent uniquement si au moins un module a
    # détecté du signal dans la GT.
    philological_metrics: Optional[dict] = None
    """Métriques philologiques (Sprints 55-60).

    Dict avec une clé par module en présence de signal :

    - ``unicode_blocks``    : Sprint 55, retour de ``compute_unicode_block_accuracy``
    - ``abbreviations``     : Sprint 56, retour de ``compute_abbreviation_metrics``
    - ``mufi``              : Sprint 57, retour de ``compute_mufi_coverage``
    - ``early_modern``      : Sprint 58, retour de ``compute_early_modern_metrics``
    - ``modern_archives``   : Sprint 59, retour de ``compute_modern_archives_metrics``
    - ``roman_numerals``    : Sprint 60, retour de ``compute_roman_numeral_metrics``

    Un module n'est inclus que si la GT contient du signal exploitable
    (n_markers_reference > 0, n_mufi_chars_reference > 0, etc.).
    Cette logique adaptative permet de garder les rapports lisibles
    sur les corpus sans marqueurs philologiques.
    """
    # Sprint 86 — recherchabilité fuzzy (Sprint 84) calculée
    # automatiquement avec adaptive masking.
    searchability_metrics: Optional[dict] = None
    """Recherchabilité fuzzy (Sprint 84+86).

    Format : retour de ``compute_searchability`` ({n_gt_tokens,
    n_searchable, recall, missed_tokens, max_distance}). Présent
    uniquement si la GT contient au moins un token.
    """
    # Sprint 86 — précision sur séquences numériques (Sprint 85)
    # calculée automatiquement avec adaptive masking.
    numerical_sequence_metrics: Optional[dict] = None
    # Sprint 87 — delta Flesch (Sprint 52) calculé automatiquement
    # avec adaptive masking (≥ 5 mots dans la GT).
    readability_metrics: Optional[dict] = None
    """Métriques de lisibilité (Sprint 52+87).

    Format ``{lang, flesch_reference, flesch_hypothesis,
    flesch_delta, n_words_reference}``.  Présent uniquement si
    la GT contient au moins 5 mots."""
    """Précision sur séquences numériques (Sprint 85+86).

    Format : retour de ``compute_numerical_sequence_metrics``
    (global_strict_score, global_value_score, n_total,
    per_category). Présent uniquement si la GT contient au
    moins une séquence détectée.
    """

    def as_dict(self) -> dict:
        d = {
            "doc_id": self.doc_id,
            "image_path": self.image_path,
            "ground_truth": self.ground_truth,
            "hypothesis": self.hypothesis,
            "metrics": self.metrics.as_dict(),
            "duration_seconds": self.duration_seconds,
            "engine_error": self.engine_error,
        }
        if self.ocr_intermediate is not None:
            d["ocr_intermediate"] = self.ocr_intermediate
        if self.pipeline_metadata:
            d["pipeline_metadata"] = self.pipeline_metadata
        if self.confusion_matrix is not None:
            d["confusion_matrix"] = self.confusion_matrix
        if self.char_scores is not None:
            d["char_scores"] = self.char_scores
        if self.taxonomy is not None:
            d["taxonomy"] = self.taxonomy
        if self.structure is not None:
            d["structure"] = self.structure
        if self.image_quality is not None:
            d["image_quality"] = self.image_quality
        if self.line_metrics is not None:
            d["line_metrics"] = self.line_metrics
        if self.hallucination_metrics is not None:
            d["hallucination_metrics"] = self.hallucination_metrics
        if self.ner_metrics is not None:
            d["ner_metrics"] = self.ner_metrics
        if self.calibration_metrics is not None:
            d["calibration_metrics"] = self.calibration_metrics
        if self.philological_metrics is not None:
            d["philological_metrics"] = self.philological_metrics
        if self.searchability_metrics is not None:
            d["searchability_metrics"] = self.searchability_metrics
        if self.numerical_sequence_metrics is not None:
            d["numerical_sequence_metrics"] = self.numerical_sequence_metrics
        if self.readability_metrics is not None:
            d["readability_metrics"] = self.readability_metrics
        return d

    @classmethod
    def from_dict(cls, data: dict) -> "DocumentResult":
        """Reconstruit un :class:`DocumentResult` depuis ``as_dict()``.

        Phase 2.2 du chantier post-rewrite : restauration fidèle de
        tous les champs avancés (confusion_matrix, taxonomy, structure,
        hallucination_metrics, ner_metrics, calibration_metrics,
        philological_metrics, searchability_metrics,
        numerical_sequence_metrics, readability_metrics,
        pipeline_metadata, ocr_intermediate).

        Avant ce durcissement, ``ReportGenerator.from_json`` faisait sa
        propre reconstruction qui ne couvrait que CER/WER/MER/WIL +
        doc_id/image_path/ground_truth/hypothesis — toutes les
        analyses détaillées étaient perdues, donc le rapport régénéré
        depuis JSON n'avait plus accès aux vues taxonomy, NER,
        calibration, etc.  La reproductibilité scientifique était
        cassée.
        """
        return cls(
            doc_id=data["doc_id"],
            image_path=data["image_path"],
            ground_truth=data["ground_truth"],
            hypothesis=data["hypothesis"],
            metrics=MetricsResult.from_dict(data["metrics"]),
            duration_seconds=data.get("duration_seconds", 0.0),
            engine_error=data.get("engine_error"),
            ocr_intermediate=data.get("ocr_intermediate"),
            pipeline_metadata=data.get("pipeline_metadata", {}) or {},
            confusion_matrix=data.get("confusion_matrix"),
            char_scores=data.get("char_scores"),
            taxonomy=data.get("taxonomy"),
            structure=data.get("structure"),
            image_quality=data.get("image_quality"),
            line_metrics=data.get("line_metrics"),
            hallucination_metrics=data.get("hallucination_metrics"),
            ner_metrics=data.get("ner_metrics"),
            calibration_metrics=data.get("calibration_metrics"),
            philological_metrics=data.get("philological_metrics"),
            searchability_metrics=data.get("searchability_metrics"),
            numerical_sequence_metrics=data.get("numerical_sequence_metrics"),
            readability_metrics=data.get("readability_metrics"),
        )

    def compact(
        self,
        text_limit: Optional[int] = None,
        drop_analyses: bool = False,
    ) -> None:
        """Libère les champs lourds pour réduire l'empreinte mémoire.

        Sprint A14-S1 — A.I.0 P0 : compaction désormais opt-in.
        Auparavant, le runner appelait ``compact()`` sans paramètres
        avant de sérialiser le JSON, ce qui amputait silencieusement
        toutes les analyses per-document (confusion, taxonomy,
        philological, searchability, etc.) et tronquait
        ``ground_truth``/``hypothesis``/``ocr_intermediate`` à 200
        caractères.  Le rapport HTML — qui consomme ce JSON — recevait
        des données déjà mutilées, contredisant directement la
        promesse "self-contained HTML report" du README.

        Désormais, l'appel par défaut ``compact()`` est un **no-op**.
        Le caller doit explicitement demander la troncature et/ou la
        suppression des analyses :

        - ``compact(text_limit=200)`` : tronque les textes à 200 chars.
        - ``compact(drop_analyses=True)`` : supprime les dicts d'analyse.
        - ``compact(text_limit=200, drop_analyses=True)`` : ancien
          comportement, à utiliser en pipeline web pour un rendu
          interactif léger uniquement.

        Le runner (``runner/orchestration.py``) ne compacte plus par
        défaut ; le JSON exporté contient désormais toutes les
        analyses détaillées.

        Parameters
        ----------
        text_limit:
            Si fourni (int > 0), tronque ``ground_truth``,
            ``hypothesis`` et ``ocr_intermediate`` à cette longueur en
            ajoutant "…".  ``None`` (défaut) = pas de troncature.
        drop_analyses:
            Si ``True``, met à ``None`` toutes les analyses
            per-document (confusion, taxonomy, philological…).  Défaut :
            ``False`` = on conserve toutes les analyses.
        """
        if text_limit is not None and text_limit > 0:
            if len(self.ground_truth) > text_limit:
                self.ground_truth = self.ground_truth[:text_limit] + "…"
            if len(self.hypothesis) > text_limit:
                self.hypothesis = self.hypothesis[:text_limit] + "…"
            if self.ocr_intermediate and len(self.ocr_intermediate) > text_limit:
                self.ocr_intermediate = self.ocr_intermediate[:text_limit] + "…"

        if drop_analyses:
            self.confusion_matrix = None
            self.char_scores = None
            self.taxonomy = None
            self.structure = None
            self.image_quality = None
            self.line_metrics = None
            self.hallucination_metrics = None
            self.ner_metrics = None
            self.calibration_metrics = None
            self.philological_metrics = None
            self.searchability_metrics = None
            self.numerical_sequence_metrics = None
            self.readability_metrics = None


@dataclass
class EngineReport:
    """Rapport complet d'un moteur (ou pipeline) sur l'ensemble du corpus."""

    engine_name: str
    engine_version: str
    engine_config: dict
    document_results: list[DocumentResult]
    aggregated_metrics: dict = field(default_factory=dict)
    pipeline_info: dict = field(default_factory=dict)
    """Métadonnées du pipeline OCR+LLM (vide pour les moteurs OCR seuls).
    Clés typiques : mode, prompt_file, llm_model, llm_provider, pipeline_steps,
    over_normalization (score agrégé, classe 10 de la taxonomie).
    """
    # Métriques agrégées Sprint 5
    aggregated_confusion: Optional[dict] = None
    """Matrice de confusion unicode agrégée sur le corpus."""
    aggregated_char_scores: Optional[dict] = None
    """Scores ligatures/diacritiques agrégés."""
    aggregated_taxonomy: Optional[dict] = None
    """Distribution taxonomique des erreurs agrégée."""
    aggregated_structure: Optional[dict] = None
    """Métriques structurelles agrégées."""
    aggregated_image_quality: Optional[dict] = None
    """Métriques de qualité image agrégées."""
    # Sprint 10
    aggregated_line_metrics: Optional[dict] = None
    """Distribution CER par ligne agrégée (Gini moyen, percentiles, heatmap, taux catastrophiques)."""
    aggregated_hallucination: Optional[dict] = None
    """Métriques d'hallucination VLM agrégées (ancrage moyen, taux de docs hallucinés…)."""
    # Sprint 40
    aggregated_ner: Optional[dict] = None
    """Métriques NER agrégées sur le corpus : F1 micro/macro globaux et
    par catégorie, total hallucinations/missed.  ``None`` si aucun
    document n'a porté de calcul NER."""
    # Sprint 42
    aggregated_calibration: Optional[dict] = None
    """Calibration agrégée sur le corpus : ECE, MCE, reliability diagram
    micro recalculé à partir des sommes par bin.  ``None`` si aucun
    document n'avait de ``calibration_metrics`` (cas par défaut tant que
    les engines n'exposent pas ``token_confidences``)."""
    # Sprint 61
    aggregated_philological: Optional[dict] = None
    """Métriques philologiques agrégées sur le corpus (Sprints 55-60).

    Dict avec une clé par module ayant du signal sur au moins un
    document.  Pour chaque module, l'agrégation somme les compteurs
    bruts (n_total, n_preserved, etc.) et recalcule les scores
    globaux ; les structures per_category/per_block/per_status sont
    également agrégées.  ``None`` si aucun document n'a porté de
    ``philological_metrics``."""
    # Sprint 86
    aggregated_searchability: Optional[dict] = None
    """Recherchabilité fuzzy agrégée corpus-wide (Sprint 84+86).

    Format ``{n_docs, n_gt_tokens, n_searchable, recall,
    missed_tokens_sample, max_distance}``. ``None`` si aucun
    document n'a porté de ``searchability_metrics``."""
    aggregated_numerical_sequences: Optional[dict] = None
    """Précision sur séquences numériques agrégée (Sprint 85+86).

    Format identique à ``compute_numerical_sequence_metrics`` :
    global_strict_score, global_value_score, n_total,
    per_category{n_total, strict, value, strict_score,
    value_score, lost_items}. ``None`` si aucun document n'avait
    de séquence numérique exploitable."""
    # Sprint 87 — A.II.2 (delta Flesch agrégé)
    aggregated_readability: Optional[dict] = None
    """Delta Flesch agrégé corpus-wide (Sprint 52+87).

    Format ``{lang, n_docs, n_docs_with_delta, delta_mean,
    delta_median, delta_min, delta_max, n_over_normalized,
    n_under_normalized, over_normalized_rate}``.  ``None`` si
    aucun document n'avait de ``readability_metrics``."""

    def __post_init__(self) -> None:
        if not self.aggregated_metrics and self.document_results:
            self.aggregated_metrics = aggregate_metrics(
                [dr.metrics for dr in self.document_results]
            )

    @property
    def mean_cer(self) -> Optional[float]:
        cer_stats = self.aggregated_metrics.get("cer", {})
        return cer_stats.get("mean")

    @property
    def median_cer(self) -> Optional[float]:
        """CER médian sur le corpus.

        Sprint 44 — devient le critère de tri par défaut du ``ranking()``
        car la moyenne est facilement tirée par quelques documents
        catastrophiques sur une distribution asymétrique (typique des
        corpus patrimoniaux).
        """
        cer_stats = self.aggregated_metrics.get("cer", {})
        return cer_stats.get("median")

    @property
    def mean_wer(self) -> Optional[float]:
        wer_stats = self.aggregated_metrics.get("wer", {})
        return wer_stats.get("mean")

    @property
    def ligature_score(self) -> Optional[float]:
        """Score de ligatures agrégé (None si non calculé)."""
        if self.aggregated_char_scores:
            return self.aggregated_char_scores.get("ligature", {}).get("score")
        return None

    @property
    def diacritic_score(self) -> Optional[float]:
        """Score diacritique agrégé (None si non calculé)."""
        if self.aggregated_char_scores:
            return self.aggregated_char_scores.get("diacritic", {}).get("score")
        return None

    @property
    def is_pipeline(self) -> bool:
        """Vrai si ce rapport correspond à un pipeline OCR+LLM."""
        return bool(self.pipeline_info)

    def as_dict(self) -> dict:
        d = {
            "engine_name": self.engine_name,
            "engine_version": self.engine_version,
            "engine_config": self.engine_config,
            "aggregated_metrics": self.aggregated_metrics,
            "document_results": [dr.as_dict() for dr in self.document_results],
        }
        if self.pipeline_info:
            d["pipeline_info"] = self.pipeline_info
        if self.aggregated_confusion is not None:
            d["aggregated_confusion"] = self.aggregated_confusion
        if self.aggregated_char_scores is not None:
            d["aggregated_char_scores"] = self.aggregated_char_scores
        if self.aggregated_taxonomy is not None:
            d["aggregated_taxonomy"] = self.aggregated_taxonomy
        if self.aggregated_structure is not None:
            d["aggregated_structure"] = self.aggregated_structure
        if self.aggregated_image_quality is not None:
            d["aggregated_image_quality"] = self.aggregated_image_quality
        if self.aggregated_line_metrics is not None:
            d["aggregated_line_metrics"] = self.aggregated_line_metrics
        if self.aggregated_hallucination is not None:
            d["aggregated_hallucination"] = self.aggregated_hallucination
        if self.aggregated_ner is not None:
            d["aggregated_ner"] = self.aggregated_ner
        if self.aggregated_calibration is not None:
            d["aggregated_calibration"] = self.aggregated_calibration
        if self.aggregated_philological is not None:
            d["aggregated_philological"] = self.aggregated_philological
        if self.aggregated_searchability is not None:
            d["aggregated_searchability"] = self.aggregated_searchability
        if self.aggregated_numerical_sequences is not None:
            d["aggregated_numerical_sequences"] = (
                self.aggregated_numerical_sequences
            )
        if self.aggregated_readability is not None:
            d["aggregated_readability"] = self.aggregated_readability
        return d

    @classmethod
    def from_dict(cls, data: dict) -> "EngineReport":
        """Reconstruit un :class:`EngineReport` depuis ``as_dict()``.

        Phase 2.2 du chantier post-rewrite : restauration fidèle des
        ``aggregated_*`` (confusion, char_scores, taxonomy, structure,
        image_quality, line_metrics, hallucination, ner, calibration,
        philological, searchability, numerical_sequences, readability)
        et de ``pipeline_info``.
        """
        return cls(
            engine_name=data["engine_name"],
            engine_version=data.get("engine_version", "unknown"),
            engine_config=data.get("engine_config", {}),
            document_results=[
                DocumentResult.from_dict(dr)
                for dr in data.get("document_results", [])
            ],
            aggregated_metrics=data.get("aggregated_metrics", {}) or {},
            pipeline_info=data.get("pipeline_info", {}) or {},
            aggregated_confusion=data.get("aggregated_confusion"),
            aggregated_char_scores=data.get("aggregated_char_scores"),
            aggregated_taxonomy=data.get("aggregated_taxonomy"),
            aggregated_structure=data.get("aggregated_structure"),
            aggregated_image_quality=data.get("aggregated_image_quality"),
            aggregated_line_metrics=data.get("aggregated_line_metrics"),
            aggregated_hallucination=data.get("aggregated_hallucination"),
            aggregated_ner=data.get("aggregated_ner"),
            aggregated_calibration=data.get("aggregated_calibration"),
            aggregated_philological=data.get("aggregated_philological"),
            aggregated_searchability=data.get("aggregated_searchability"),
            aggregated_numerical_sequences=data.get(
                "aggregated_numerical_sequences",
            ),
            aggregated_readability=data.get("aggregated_readability"),
        )


@dataclass
class BenchmarkResult:
    """Résultat complet d'un benchmark multi-moteurs sur un corpus."""

    corpus_name: str
    corpus_source: Optional[str]
    document_count: int
    engine_reports: list[EngineReport]
    run_date: str = field(default_factory=lambda: datetime.now(tz=timezone.utc).isoformat())
    picarones_version: str = __version__
    metadata: dict = field(default_factory=dict)
    # Sprint 36 — analyse inter-moteurs (divergence taxonomique +
    # complémentarité / oracle).  Calculée par le runner avant compact()
    # afin d'avoir accès aux hypothèses brutes.  ``None`` si moins de
    # 2 moteurs ou si le calcul a été désactivé.
    inter_engine_analysis: Optional[dict] = None
    # Sprint 45 — A.III stratification : map ``{doc_id: script_type}``
    # capturée avant ``compact()`` (qui efface ``image_quality``).
    # ``None`` si aucun document n'expose de ``script_type`` dans son
    # ``image_quality.script_type`` ou ``metadata.script_type``.
    doc_strata: Optional[dict[str, str]] = None

    def ranking(self) -> list[dict]:
        """Retourne le classement des moteurs trié par **médiane CER** croissante.

        Sprint 44 — A.I.2 du plan d'évolution : le tri par défaut bascule
        de la moyenne vers la médiane.  Sur des distributions
        asymétriques (typique des corpus patrimoniaux : 80 % des docs
        à 3 % de CER, 20 % à 40 %), la moyenne est tirée par quelques
        documents catastrophiques et masque les performances réelles.
        La médiane est plus représentative ; cohérente aussi avec le
        test de Friedman qui travaille déjà sur les rangs (Sprint 18).

        Le champ ``mean_cer`` est conservé dans chaque entrée pour
        rétrocompatibilité — les consommateurs (CLI, détecteurs
        narratifs, vue HTML) continuent à pouvoir l'afficher en colonne
        secondaire.  Le tri prend ``median_cer`` quand disponible et
        retombe sur ``mean_cer`` sinon.
        """
        ranked = []
        for report in self.engine_reports:
            ranked.append(
                {
                    "engine": report.engine_name,
                    "mean_cer": report.mean_cer,
                    "median_cer": report.median_cer,
                    "mean_wer": report.mean_wer,
                    "documents": len(report.document_results),
                    "failed": report.aggregated_metrics.get("failed_count", 0),
                }
            )

        def _sort_key(entry: dict) -> tuple:
            # Priorité : médiane si disponible, sinon moyenne, sinon +∞
            primary = entry.get("median_cer")
            if primary is None:
                primary = entry.get("mean_cer")
            return (primary is None, primary if primary is not None else float("inf"))

        return sorted(ranked, key=_sort_key)

    # ──────────────────────────────────────────────────────────────────
    # Sprint 45 — A.III stratification par script_type
    # ──────────────────────────────────────────────────────────────────

    def available_strata(self) -> list[str]:
        """Liste triée des strates ``script_type`` distinctes du corpus.

        Vide si ``doc_strata`` est ``None`` ou si aucun document n'a de
        valeur non vide.  Garantit un ordre stable (tri lexical).
        """
        if not self.doc_strata:
            return []
        return sorted({s for s in self.doc_strata.values() if s})

    def _doc_ids_in_stratum(self, stratum: str) -> set[str]:
        """Ensemble des ``doc_id`` dont la strate est ``stratum``."""
        if not self.doc_strata:
            return set()
        return {
            doc_id for doc_id, st in self.doc_strata.items()
            if st == stratum
        }

    def stratified_ranking(self) -> dict[str, list[dict]]:
        """Retourne un classement séparé par strate ``script_type``.

        Pour chaque strate, recalcule mean/median CER **uniquement sur
        les documents de la strate** et trie par médiane (cohérent avec
        ``ranking()`` Sprint 44).

        Returns
        -------
        dict[str, list[dict]]
            ``{stratum_name: [ranking_entry, ...]}``.  Vide si pas de
            stratification disponible (``doc_strata`` non renseigné).
            Chaque ``ranking_entry`` a la même structure que
            ``ranking()`` : ``engine``, ``mean_cer``, ``median_cer``,
            ``mean_wer``, ``documents``, ``failed``.
        """
        strata = self.available_strata()
        if not strata:
            return {}

        import statistics as _stats

        result: dict[str, list[dict]] = {}
        for stratum in strata:
            doc_ids = self._doc_ids_in_stratum(stratum)
            if not doc_ids:
                continue

            entries: list[dict] = []
            for report in self.engine_reports:
                # ``Sprint A14-S1`` : ``MetricsResult.cer`` / ``.wer`` sont
                # ``Optional[float]`` ; le double filtre ``error is None``
                # garantit ``cer/wer is not None`` par convention, mais on
                # le filtre explicitement aussi pour que mypy le voie.
                cers: list[float] = [
                    dr.metrics.cer
                    for dr in report.document_results
                    if dr.doc_id in doc_ids
                    and dr.metrics is not None
                    and dr.metrics.error is None
                    and dr.metrics.cer is not None
                ]
                wers: list[float] = [
                    dr.metrics.wer
                    for dr in report.document_results
                    if dr.doc_id in doc_ids
                    and dr.metrics is not None
                    and dr.metrics.error is None
                    and dr.metrics.wer is not None
                ]
                failed = sum(
                    1 for dr in report.document_results
                    if dr.doc_id in doc_ids
                    and dr.metrics is not None
                    and dr.metrics.error is not None
                )
                if not cers:
                    entries.append({
                        "engine": report.engine_name,
                        "mean_cer": None,
                        "median_cer": None,
                        "mean_wer": None,
                        "documents": 0,
                        "failed": failed,
                    })
                    continue
                entries.append({
                    "engine": report.engine_name,
                    "mean_cer": _stats.mean(cers),
                    "median_cer": _stats.median(cers),
                    "mean_wer": _stats.mean(wers) if wers else None,
                    "documents": len(cers),
                    "failed": failed,
                })

            def _sort_key(entry: dict) -> tuple:
                primary = entry.get("median_cer")
                if primary is None:
                    primary = entry.get("mean_cer")
                return (primary is None, primary if primary is not None else float("inf"))

            result[stratum] = sorted(entries, key=_sort_key)
        return result

    def corpus_homogeneity(self) -> Optional[dict]:
        """Mesure d'hétérogénéité du corpus du point de vue NER/OCR.

        Pour chaque moteur, calcule la variance des CER médians par
        strate.  Une variance élevée signale que le moteur se comporte
        très différemment selon le type de document — la moyenne globale
        est alors trompeuse et l'utilisateur doit consulter la vue
        stratifiée (cf. plan d'évolution A.III).

        Returns
        -------
        dict | None
            ``{
                "n_strata": int,
                "max_inter_strata_gap": float,        # plus grand écart sur le top moteur
                "leader": str,                         # moteur top global
                "leader_per_stratum_median": {strate: median_cer},
                "leader_max_gap_strata": [str, str],   # paire de strates qui maximise l'écart
            }``
            ``None`` si moins de 2 strates ou pas de leader.
        """
        strata_rankings = self.stratified_ranking()
        if len(strata_rankings) < 2:
            return None

        global_ranking = self.ranking()
        valid = [
            r for r in global_ranking
            if r.get("median_cer") is not None
        ]
        if not valid:
            return None
        leader = valid[0]["engine"]

        # CER médian du leader sur chaque strate (où il a au moins 1 doc)
        per_stratum: dict[str, float] = {}
        for stratum, entries in strata_rankings.items():
            for entry in entries:
                if entry["engine"] != leader:
                    continue
                med = entry.get("median_cer")
                if med is None:
                    continue
                per_stratum[stratum] = float(med)
                break

        if len(per_stratum) < 2:
            return None

        items = sorted(per_stratum.items(), key=lambda kv: kv[1])
        min_strata, min_med = items[0]
        max_strata, max_med = items[-1]
        max_gap = max_med - min_med

        return {
            "n_strata": len(strata_rankings),
            "max_inter_strata_gap": max_gap,
            "leader": leader,
            "leader_per_stratum_median": per_stratum,
            "leader_max_gap_strata": [min_strata, max_strata],
        }

    def as_dict(self) -> dict:
        d = {
            "picarones_version": self.picarones_version,
            "run_date": self.run_date,
            "corpus": {
                "name": self.corpus_name,
                "source": self.corpus_source,
                "document_count": self.document_count,
            },
            "ranking": self.ranking(),
            "engine_reports": [r.as_dict() for r in self.engine_reports],
            "metadata": self.metadata,
        }
        if self.inter_engine_analysis is not None:
            d["inter_engine_analysis"] = self.inter_engine_analysis
        if self.doc_strata:
            d["doc_strata"] = self.doc_strata
            d["available_strata"] = self.available_strata()
            stratified = self.stratified_ranking()
            if stratified:
                d["stratified_ranking"] = stratified
            homogeneity = self.corpus_homogeneity()
            if homogeneity:
                d["corpus_homogeneity"] = homogeneity
        return d

    def to_json(self, path: str | Path, indent: int = 2) -> Path:
        """Sérialise le benchmark en JSON et l'écrit sur disque.

        Parameters
        ----------
        path:
            Chemin du fichier JSON de sortie.
        indent:
            Indentation JSON (défaut : 2 espaces).

        Returns
        -------
        Path
            Chemin absolu du fichier écrit.
        """
        output_path = Path(path)
        output_path.parent.mkdir(parents=True, exist_ok=True)
        with output_path.open("w", encoding="utf-8") as fh:
            json.dump(self.as_dict(), fh, ensure_ascii=False, indent=indent)
        return output_path.resolve()

    @classmethod
    def from_dict(cls, data: dict) -> "BenchmarkResult":
        """Reconstruit un :class:`BenchmarkResult` complet depuis
        ``as_dict()``.

        Phase 2.2 du chantier post-rewrite : fidélité du round-trip
        ``to_json → from_dict``.  Auparavant, ``from_json`` retournait
        le dict brut et l'appelant devait reconstruire à la main —
        d'où la dérive entre ``ReportGenerator.__init__`` (objets) et
        ``ReportGenerator.from_json`` (dicts appauvris).  Désormais, un
        seul chemin canonique : ``BenchmarkResult.from_dict(dict)`` →
        objet complet, indistinguable d'un benchmark fraîchement
        exécuté.
        """
        corpus_info = data.get("corpus", {}) or {}
        return cls(
            corpus_name=corpus_info.get("name", "Corpus"),
            corpus_source=corpus_info.get("source"),
            document_count=corpus_info.get("document_count", 0),
            engine_reports=[
                EngineReport.from_dict(er)
                for er in data.get("engine_reports", [])
            ],
            run_date=data.get("run_date", ""),
            picarones_version=data.get("picarones_version", ""),
            metadata=data.get("metadata", {}) or {},
        )

    @classmethod
    def from_json(cls, path: str | Path) -> dict:
        """Charge le JSON brut (dict Python) — rétrocompatibilité.

        Pour reconstruire un :class:`BenchmarkResult` complet (objets),
        utiliser :meth:`from_dict` après :meth:`from_json`, ou
        directement :meth:`from_json_object` ci-dessous.

        Cette méthode est conservée parce que de nombreux consommateurs
        (tests, ``ReportGenerator.from_json`` legacy, scripts CLI ad
        hoc) attendent encore un dict.  Le rewrite v2.0 préfère les
        objets reconstruits ; les nouveaux callers doivent utiliser
        :meth:`from_json_object`.
        """
        with Path(path).open(encoding="utf-8") as fh:
            return json.load(fh)

    @classmethod
    def from_json_object(cls, path: str | Path) -> "BenchmarkResult":
        """Charge un JSON et reconstruit un :class:`BenchmarkResult`
        complet (objets), avec toutes les analyses avancées préservées.

        Round-trip garanti : ``BenchmarkResult.from_json_object(
        bm.to_json(p)) == bm`` au sens structurel (les champs
        ``aggregated_metrics`` peuvent être recalculés par
        ``__post_init__`` si absents, sinon préservés).
        """
        with Path(path).open(encoding="utf-8") as fh:
            return cls.from_dict(json.load(fh))