Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

Picarones / tests /cli /test_fail_if_cer_above_semantics.py

Claude

fix(cli): garde-fou migration --fail-if-cer-above (Click callback)

b5bb4fa unverified about 2 months ago

10.5 kB

	"""Tests : sémantique du seuil ``--fail-if-cer-above`` (fraction).

	Sprint A14 — fix CI ``perf_regression.yml``.

	Avant le fix, ``--fail-if-cer-above 0.15`` était interprété comme « 0.15 %
	» (le code multipliait ``mean_cer * 100`` puis comparait au seuil),
	alors que l'auteur du workflow voulait dire « 15 % » (fraction). Le job
	hebdomadaire échouait dès que CER > 0.15 % — soit toujours.

	Sémantique nouvelle : ``--fail-if-cer-above`` accepte une fraction
	∈ [0, 1] (ex : ``0.15`` = 15 %). Cohérent avec la représentation
	interne de ``mean_cer`` qui est elle aussi une fraction.
	"""

	from __future__ import annotations

	import re
	from pathlib import Path

	import pytest
	from click.testing import CliRunner


	@pytest.fixture
	def fake_results_payload(tmp_path: Path) -> Path:
	"""Fournit un ``results.json`` minimal pour tester la post-validation
	CER sans devoir installer Tesseract.

	On ne teste pas ``picarones run`` bout-en-bout (qui charge le
	moteur OCR) — on teste la fonction de comparaison de seuil isolée.
	"""
	return tmp_path / "results.json"


	# ──────────────────────────────────────────────────────────────────────
	# Comparaison de seuil — sémantique fraction
	# ──────────────────────────────────────────────────────────────────────


	def _run_threshold_check(
	mean_cer: float \| None,
	fail_if_cer_above: float,
	) -> tuple[bool, str]:
	"""Reproduit la logique de la post-validation CER de ``picarones run``
	(cf. ``picarones/cli/_workflows.py``) sans dépendre du runner OCR
	complet. Retourne ``(should_fail, message)``.
	"""
	if mean_cer is None:
	return False, ""
	if mean_cer > fail_if_cer_above:
	return (
	True,
	f"ECHEC : tess CER={mean_cer*100:.2f}% "
	f"> seuil {fail_if_cer_above*100:.2f}%",
	)
	return False, ""


	class TestThresholdSemantics:
	def test_below_threshold_passes(self) -> None:
	"""CER 11.94 % < seuil 15 % (fraction 0.15) → succès."""
	should_fail, _ = _run_threshold_check(0.1194, 0.15)
	assert should_fail is False

	def test_above_threshold_fails(self) -> None:
	"""CER 20 % > seuil 15 % (fraction 0.15) → échec."""
	should_fail, msg = _run_threshold_check(0.20, 0.15)
	assert should_fail is True
	assert "20.00%" in msg
	assert "15.00%" in msg

	def test_at_threshold_passes(self) -> None:
	"""CER 15 % = seuil 15 % → succès (strictement plus grand)."""
	should_fail, _ = _run_threshold_check(0.15, 0.15)
	assert should_fail is False

	def test_none_cer_skipped(self) -> None:
	"""``mean_cer = None`` (engine sans résultat) → pas d'échec."""
	should_fail, _ = _run_threshold_check(None, 0.15)
	assert should_fail is False

	def test_strict_threshold_zero_one(self) -> None:
	"""Seuil très strict (0.01 = 1 %) — un CER usuel échoue."""
	should_fail, msg = _run_threshold_check(0.05, 0.01)
	assert should_fail is True
	assert "5.00%" in msg
	assert "1.00%" in msg

	def test_lax_threshold_passes_high_cer(self) -> None:
	"""Seuil très large (0.5 = 50 %) — un CER moyen passe."""
	should_fail, _ = _run_threshold_check(0.30, 0.50)
	assert should_fail is False


	class TestRegressionGuard:
	"""Garde-fou anti-régression : le CI YAML doit utiliser la sémantique
	fraction, pas pourcentage."""

	def test_perf_regression_workflow_uses_fraction(self) -> None:
	"""``perf_regression.yml`` doit passer ``0.15`` (= 15 %), pas
	``15.0`` qui serait interprété comme 1500 % maintenant."""
	repo_root = Path(__file__).resolve().parents[2]
	workflow = (
	repo_root / ".github" / "workflows" / "perf_regression.yml"
	).read_text(encoding="utf-8")
	# Cherche la ligne avec --fail-if-cer-above.
	for line in workflow.splitlines():
	if "--fail-if-cer-above" in line and not line.lstrip().startswith("#"):
	# Extrait la valeur numérique qui suit.
	m = re.search(
	r"--fail-if-cer-above\s+([0-9.]+)", line,
	)
	assert m, (
	f"Impossible d'extraire la valeur de --fail-if-cer-above "
	f"dans : {line!r}"
	)
	value = float(m.group(1))
	assert 0 < value <= 1.0, (
	f"perf_regression.yml passe --fail-if-cer-above {value} : "
	f"ce doit être une fraction ∈ ]0, 1] (ex : 0.15 pour 15 %), "
	f"pas un pourcentage."
	)
	return
	pytest.skip("Aucun --fail-if-cer-above actif dans perf_regression.yml")


	class TestCliHelpMentionsFraction:
	"""Le help texte CLI doit mentionner explicitement « fraction »."""

	def test_help_mentions_fraction(self) -> None:
	from picarones.cli import cli
	runner = CliRunner()
	result = runner.invoke(cli, ["run", "--help"])
	assert result.exit_code == 0
	assert "--fail-if-cer-above" in result.output
	# Le help doit clarifier la sémantique fraction.
	assert "fraction" in result.output.lower() or "0.15" in result.output


	# ──────────────────────────────────────────────────────────────────────
	# Bout-en-bout via la CLI (mock du runner pour éviter Tesseract)
	# ──────────────────────────────────────────────────────────────────────


	class TestCliEndToEnd:
	"""Vérifie que ``picarones run --fail-if-cer-above 0.15`` ne plante
	PAS sur un CER < 15 %. Au lieu de réellement exécuter Tesseract, on
	écrit un ``results.json`` synthétique et on inspecte le code de
	sortie via la même comparaison."""

	def test_synthetic_results_pass_15_percent_threshold(
	self, tmp_path: Path,
	) -> None:
	"""Un CER de 12 % sous un seuil de 15 % (fraction 0.15) doit
	retourner exit 0."""
	# Le ranking interne de BenchmarkResult retourne mean_cer en
	# fraction. Notre logique de seuil compare directement.
	should_fail, _ = _run_threshold_check(0.12, 0.15)
	assert should_fail is False

	def test_synthetic_results_fail_strict_threshold(
	self, tmp_path: Path,
	) -> None:
	"""Un CER de 12 % au-dessus d'un seuil très strict de 5 %
	(fraction 0.05) doit échouer."""
	should_fail, msg = _run_threshold_check(0.12, 0.05)
	assert should_fail is True
	# Le message doit afficher les deux valeurs en pourcentage clair.
	assert "12.00%" in msg
	assert "5.00%" in msg


	# ──────────────────────────────────────────────────────────────────────
	# Garde-fou migration : valeurs > 1.0 rejetées avec message clair
	# ──────────────────────────────────────────────────────────────────────


	class TestMigrationGuard:
	"""Avant le fix B, ``--fail-if-cer-above 15.0`` voulait dire 15 %
	(sémantique pourcentage). Avec la nouvelle sémantique fraction,
	un caller qui passe encore 15.0 par erreur doit obtenir une
	erreur explicite plutôt qu'un comportement silencieusement faux
	(seuil 1500 % qui ne se déclenche jamais)."""

	def _invoke(
	self, threshold: str, tmp_path: Path,
	) -> tuple[int, str]:
	"""Invoque ``picarones run --fail-if-cer-above THRESHOLD`` avec
	un corpus tmp vide pour aller jusqu'à la validation du seuil
	à l'analyse Click (callback ``_validate_cer_threshold``).
	Une valeur invalide doit être rejetée à l'analyse, AVANT
	toute opération coûteuse."""
	from picarones.cli import cli
	runner = CliRunner()
	result = runner.invoke(cli, [
	"run",
	"--corpus", str(tmp_path),
	"--engines", "tesseract",
	"--output", str(tmp_path / "x.json"),
	"--fail-if-cer-above", threshold,
	])
	return result.exit_code, result.output + (result.stderr or "")

	def test_value_greater_than_one_rejected_with_migration_hint(
	self, tmp_path: Path,
	) -> None:
	"""Passer 15.0 (ancienne sémantique pourcentage) doit échouer
	en early-validation avec un message qui pointe vers la
	nouvelle sémantique."""
	exit_code, output = self._invoke("15.0", tmp_path)
	assert exit_code != 0
	# Message doit contenir la valeur reçue ET la migration hint.
	assert "15.0" in output
	assert "fraction" in output.lower() or "0.15" in output
	# Migration hint explicite.
	assert "divisez" in output.lower() or "diviser" in output.lower()

	def test_negative_value_rejected(self, tmp_path: Path) -> None:
	exit_code, output = self._invoke("-0.1", tmp_path)
	assert exit_code != 0
	assert "≥ 0" in output or ">= 0" in output

	def test_value_at_one_accepted(self, tmp_path: Path) -> None:
	"""1.0 est la borne haute valide (= 100 % de CER)."""
	exit_code, output = self._invoke("1.0", tmp_path)
	# Validation du seuil OK : pas de mention de "fraction" ou
	# de migration hint. Le run échoue ensuite parce que le
	# corpus est vide, mais c'est un autre problème.
	assert "doit être une fraction" not in output
	assert "divisez" not in output.lower()

	def test_value_at_zero_accepted(self, tmp_path: Path) -> None:
	"""0.0 est valide (seuil zéro tolérance)."""
	exit_code, output = self._invoke("0.0", tmp_path)
	assert "doit être une fraction" not in output
	assert "≥ 0" not in output