Spaces:
Sleeping
Sleeping
File size: 7,717 Bytes
4eb91d0 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 | """Reading order F1 (ICDAR 2015, Antonacopoulos) — Sprint 53.
Sprint 53 — A.II.2.1 du plan d'évolution 2026.
Pourquoi ce module
------------------
Sur un manuscrit glosé, un journal multi-colonnes ou un registre
paroissial complexe, le **classement des moteurs en CER** peut être
trompeur : un moteur peut avoir un excellent CER caractère et un
**ordre de lecture catastrophique**. Le résultat est inutilisable
pour la recherche plein texte (Elastic, Solr) ou pour reconstituer
une narration linéaire.
La métrique standard est définie par Antonacopoulos et al. dans
ICDAR 2015 — F1 sur les **paires d'ordre relatif** entre régions
ALTO/PAGE. Pour chaque paire ``(a, b)`` telle que ``a`` précède
``b`` dans la GT :
- **TP** si ``a`` précède aussi ``b`` dans l'hypothèse,
- **FN** si la paire est manquante (régions absentes ou ordre
inversé) côté hypothèse,
- **FP** si une paire ``(a, b)`` apparaît dans l'hypothèse alors que
la GT n'a pas cet ordre (régions hallucinées ou inversion).
Le F1 est la moyenne harmonique des deux.
Stratégie de découpage
----------------------
Cohérent avec NER (Sprint 38), calibration (Sprint 39), Flesch
(Sprint 52) : couche de calcul pure d'abord. L'utilisateur fournit
deux listes ordonnées d'IDs de régions (typiquement extraites de
ALTO/PAGE par un parser amont). Le câblage runner et la vue HTML
suivent dans des sprints dédiés.
Compatible directement avec ``ReadingOrderGT`` du Sprint 32 :
``ReadingOrderGT.region_order`` est exactement le format attendu.
Convention sur les régions
--------------------------
- Les IDs sont des chaînes (``"r_1"``, ``"region_main"``, etc.).
- Les **doublons** sont ignorés au calcul des paires ordonnées
(chaque ID compte une fois par séquence).
- Une région présente dans la GT mais absente de l'hypothèse
contribue aux paires FN.
- Une région présente dans l'hypothèse mais absente de la GT
contribue aux paires FP.
- Si une séquence a < 2 régions distinctes, aucune paire n'est
émise — le F1 retourne ``0.0`` ou ``1.0`` selon que les deux
séquences soient identiques.
"""
from __future__ import annotations
import logging
from itertools import combinations
from typing import Iterable
from picarones.evaluation.metric_registry import register_metric
from picarones.domain.artifacts import ArtifactType
logger = logging.getLogger(__name__)
# ──────────────────────────────────────────────────────────────────────────
# Helpers
# ──────────────────────────────────────────────────────────────────────────
def _ordered_pairs(sequence: list[str]) -> set[tuple[str, str]]:
"""Retourne l'ensemble des paires ``(a, b)`` telles que ``a``
précède strictement ``b`` dans ``sequence``.
Doublons : chaque ID est traité une seule fois (première occurrence
dans la séquence). Cohérent avec ICDAR 2015 où les régions ont
des IDs uniques.
"""
seen: list[str] = []
seen_set: set[str] = set()
for r in sequence:
if r not in seen_set:
seen.append(r)
seen_set.add(r)
return set(combinations(seen, 2))
def _normalize_input(value: Iterable[str] | None) -> list[str]:
"""Coerce une entrée en list[str], en filtrant les valeurs vides."""
if value is None:
return []
return [str(v) for v in value if v is not None and str(v).strip()]
# ──────────────────────────────────────────────────────────────────────────
# Métrique principale
# ──────────────────────────────────────────────────────────────────────────
def compute_reading_order_metrics(
reference_order: Iterable[str] | None,
hypothesis_order: Iterable[str] | None,
) -> dict:
"""Calcule precision / recall / F1 sur l'ordre relatif des régions.
Parameters
----------
reference_order:
Séquence ordonnée d'IDs de régions issue de la GT (typiquement
``ReadingOrderGT.region_order`` du Sprint 32).
hypothesis_order:
Séquence ordonnée d'IDs de régions produite par un moteur
OCR/HTR ou un reconstructeur ALTO.
Returns
-------
dict
``{"precision", "recall", "f1", "true_positives",
"false_positives", "false_negatives", "n_ref_pairs",
"n_hyp_pairs", "common_regions", "ref_only_regions",
"hyp_only_regions"}``.
Comportements aux bornes
------------------------
- Deux séquences identiques (mêmes régions, même ordre) → F1 = 1.0.
- Ordre strictement inversé → F1 = 0.0 (toutes les paires
relatives sont fausses).
- Une séquence vide vs une séquence non vide → F1 = 0.0.
- Deux séquences vides → F1 = 0.0 et tous les compteurs à 0
(convention : on ne récompense pas l'absence).
"""
ref = _normalize_input(reference_order)
hyp = _normalize_input(hypothesis_order)
ref_pairs = _ordered_pairs(ref)
hyp_pairs = _ordered_pairs(hyp)
tp = len(ref_pairs & hyp_pairs)
fn = len(ref_pairs - hyp_pairs)
fp = len(hyp_pairs - ref_pairs)
precision = tp / (tp + fp) if (tp + fp) > 0 else 0.0
recall = tp / (tp + fn) if (tp + fn) > 0 else 0.0
f1 = (
2 * precision * recall / (precision + recall)
if (precision + recall) > 0
else 0.0
)
ref_set = set(ref)
hyp_set = set(hyp)
return {
"precision": precision,
"recall": recall,
"f1": f1,
"true_positives": tp,
"false_positives": fp,
"false_negatives": fn,
"n_ref_pairs": len(ref_pairs),
"n_hyp_pairs": len(hyp_pairs),
"common_regions": sorted(ref_set & hyp_set),
"ref_only_regions": sorted(ref_set - hyp_set),
"hyp_only_regions": sorted(hyp_set - ref_set),
}
# ──────────────────────────────────────────────────────────────────────────
# Enregistrement dans le registre typé (Sprint 34)
# ──────────────────────────────────────────────────────────────────────────
@register_metric(
name="reading_order_f1",
input_types=(ArtifactType.READING_ORDER, ArtifactType.READING_ORDER),
description=(
"F1 sur l'ordre relatif des régions ALTO/PAGE (ICDAR 2015, "
"Antonacopoulos). Pour chaque paire (a,b) où a précède b dans "
"la GT, vérifie que a précède aussi b dans l'hypothèse."
),
higher_is_better=True,
tags={"structure", "icdar", "alto", "page"},
)
def reading_order_f1(
reference: Iterable[str] | None,
hypothesis: Iterable[str] | None,
) -> float:
"""Raccourci : retourne uniquement le F1 global.
Pour les détails par paire (TP/FP/FN, régions communes, etc.),
appeler ``compute_reading_order_metrics`` directement.
"""
return compute_reading_order_metrics(reference, hypothesis)["f1"]
__all__ = [
"compute_reading_order_metrics",
"reading_order_f1",
]
|