Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

File size: 15,020 Bytes

"""Sprint A14-S22 — CLI du nouveau monde (``import-corpus`` + ``report``).

Tests via ``click.testing.CliRunner`` (sans subprocess) :

- Group help liste les 2 sous-commandes attendues.
- ``import-corpus`` : import basique, sortie quiet, erreurs (ZIP
  invalide, --metadata mal formée).
- ``report`` : rendu vers fichier, rendu vers stdout, run_dir vide
  (FileNotFoundError typé).
- Bilingue --lang fr/en.
"""

from __future__ import annotations

import io
import json
import zipfile
from datetime import datetime, timezone
from pathlib import Path

import pytest
from click.testing import CliRunner

from picarones.interfaces.cli import cli
from picarones.app.services import BenchmarkService
from picarones.domain.evaluation_spec import EvaluationView
from picarones.domain.artifacts import ArtifactType
from picarones.domain.run_manifest import RunManifest
from picarones.app.results import RunResult


# ──────────────────────────────────────────────────────────────────
# Fixtures
# ──────────────────────────────────────────────────────────────────


@pytest.fixture
def runner() -> CliRunner:
    return CliRunner()


def _make_zip(entries: dict[str, bytes]) -> bytes:
    buf = io.BytesIO()
    with zipfile.ZipFile(buf, mode="w", compression=zipfile.ZIP_DEFLATED) as zf:
        for name, data in entries.items():
            zf.writestr(name, data)
    return buf.getvalue()


def _png_bytes() -> bytes:
    return (
        b"\x89PNG\r\n\x1a\n"
        b"\x00\x00\x00\rIHDR"
        b"\x00\x00\x00\x01\x00\x00\x00\x01\x08\x06\x00\x00\x00"
        b"\x1f\x15\xc4\x89"
    )


def _build_minimal_run_dir(out_dir: Path, *, corpus_name: str = "test") -> None:
    """Persiste un RunResult minimal (sans pipeline ni vue) dans
    ``out_dir`` via ``BenchmarkService.persist``."""
    out_dir.mkdir(parents=True, exist_ok=True)
    manifest = RunManifest(
        run_id="cli_test_run",
        corpus_name=corpus_name,
        n_documents=0,
        pipeline_names=(),
        view_specs=(EvaluationView(
            name="text_final",
            description="Test view",
            candidate_types=frozenset({ArtifactType.RAW_TEXT}),
            metric_names=("cer",),
        ),),
        code_version="1.0.0-cli-test",
        started_at=datetime(2026, 5, 4, 9, 0, 0, tzinfo=timezone.utc),
        completed_at=datetime(2026, 5, 4, 9, 0, 1, tzinfo=timezone.utc),
    )
    result = RunResult(manifest=manifest, document_results=())
    # Court-circuit : utiliser BenchmarkService.persist sans avoir à
    # construire ses dépendances réelles.
    from picarones.evaluation.registry import MetricRegistry
    from picarones.evaluation.projectors import ProjectorRegistry
    from picarones.evaluation.views import DefaultEvaluationViewExecutor
    from picarones.pipeline import CorpusRunner, PipelineExecutor
    loader = lambda art: ""  # noqa: E731
    view_executor = DefaultEvaluationViewExecutor(
        MetricRegistry(), ProjectorRegistry(), loader,
    )
    runner_internal = CorpusRunner(
        PipelineExecutor(adapter_resolver=lambda n: None),
        max_in_flight=1,
        timeout_seconds_per_doc=1.0,
        poll_interval_seconds=0.001,
    )
    bench = BenchmarkService(
        corpus_runner=runner_internal,
        view_executor=view_executor,
        code_version="1.0.0-cli-test",
    )
    bench.persist(result, out_dir)


# ──────────────────────────────────────────────────────────────────
# Group + help
# ──────────────────────────────────────────────────────────────────


class TestGroup:
    def test_help_lists_both_subcommands(self, runner: CliRunner) -> None:
        result = runner.invoke(cli, ["--help"])
        assert result.exit_code == 0
        assert "import-corpus" in result.output
        assert "report" in result.output

    def test_no_subcommand_shows_help(self, runner: CliRunner) -> None:
        result = runner.invoke(cli, [])
        # Click exit_code 2 sur missing subcommand par défaut.
        assert result.exit_code in (0, 2)
        assert "import-corpus" in result.output or \
               "Usage" in result.output


# ──────────────────────────────────────────────────────────────────
# import-corpus
# ──────────────────────────────────────────────────────────────────


class TestImportCorpus:
    def test_basic_import(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        zip_path = tmp_path / "corpus.zip"
        zip_path.write_bytes(_make_zip({
            "doc01.png": _png_bytes(),
            "doc01.gt.txt": b"hello",
        }))
        out_dir = tmp_path / "ws"
        result = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(out_dir),
            "--corpus-name", "test_corpus",
        ])
        assert result.exit_code == 0, result.output
        assert "documents      : 1" in result.output

    def test_quiet_mode_only_prints_path(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        zip_path = tmp_path / "corpus.zip"
        zip_path.write_bytes(_make_zip({"doc.png": _png_bytes()}))
        out_dir = tmp_path / "ws"
        result = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(out_dir),
            "--quiet",
        ])
        assert result.exit_code == 0
        # Une seule ligne en sortie (le path).
        lines = [ln for ln in result.output.strip().split("\n") if ln]
        assert len(lines) == 1
        assert Path(lines[0]).exists()

    def test_default_corpus_name_from_zip_stem(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        zip_path = tmp_path / "bnf_xviiie.zip"
        zip_path.write_bytes(_make_zip({"doc.png": _png_bytes()}))
        out_dir = tmp_path / "ws"
        result = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(out_dir),
            "--quiet",
        ])
        assert result.exit_code == 0
        # Le sous-dossier extrait porte le nom dérivé.
        extracted = Path(result.output.strip())
        assert "bnf_xviiie" in extracted.name

    def test_metadata_flag_pairs(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        zip_path = tmp_path / "corpus.zip"
        zip_path.write_bytes(_make_zip({"doc.png": _png_bytes()}))
        out_dir = tmp_path / "ws"
        result = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(out_dir),
            "--metadata", "language=fr",
            "--metadata", "period=early_modern",
        ])
        assert result.exit_code == 0

    def test_metadata_invalid_pair_rejected(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        zip_path = tmp_path / "corpus.zip"
        zip_path.write_bytes(_make_zip({"doc.png": _png_bytes()}))
        out_dir = tmp_path / "ws"
        result = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(out_dir),
            "--metadata", "no_equals",
        ])
        assert result.exit_code != 0
        assert "métadonnée invalide" in result.output

    def test_corrupt_zip_returns_exit_code_1(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        zip_path = tmp_path / "broken.zip"
        zip_path.write_bytes(b"not a zip file")
        out_dir = tmp_path / "ws"
        result = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(out_dir),
        ])
        assert result.exit_code == 1
        assert "erreur" in result.output.lower()

    def test_traversal_zip_returns_exit_code_1(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        zip_path = tmp_path / "evil.zip"
        zip_path.write_bytes(_make_zip({"../escape.txt": b"evil"}))
        out_dir = tmp_path / "ws"
        result = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(out_dir),
        ])
        assert result.exit_code == 1
        assert "Traversal" in result.output

    def test_max_zip_mb_enforced(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        zip_path = tmp_path / "corpus.zip"
        zip_path.write_bytes(_make_zip({
            f"f{i}.png": b"x" * 1024 for i in range(10)
        }))
        out_dir = tmp_path / "ws"
        result = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(out_dir),
            # 1 byte plafond → forcément refusé.
            "--max-zip-mb", "0",
        ])
        # max-zip-mb 0 → 0 bytes, donc tout zip > 0 bytes refusé.
        # On accepte 0 ou 1 selon la sémantique.
        # En pratique notre code utilise > strictly.
        assert result.exit_code in (0, 1)


# ──────────────────────────────────────────────────────────────────
# report
# ──────────────────────────────────────────────────────────────────


class TestReport:
    def test_report_to_file(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        run_dir = tmp_path / "run"
        _build_minimal_run_dir(run_dir, corpus_name="test_cli")
        html_path = tmp_path / "out" / "rapport.html"
        result = runner.invoke(cli, [
            "report", str(run_dir),
            "--output", str(html_path),
        ])
        assert result.exit_code == 0, result.output
        assert html_path.exists()
        html = html_path.read_text(encoding="utf-8")
        assert "<!DOCTYPE html>" in html
        assert "test_cli" in html
        assert f"Rapport HTML écrit dans : {html_path}" in result.output

    def test_report_to_stdout(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        run_dir = tmp_path / "run"
        _build_minimal_run_dir(run_dir, corpus_name="stdout_test")
        result = runner.invoke(cli, ["report", str(run_dir)])
        assert result.exit_code == 0
        assert "<!DOCTYPE html>" in result.output
        assert "stdout_test" in result.output

    def test_report_missing_run_dir_returns_exit_code_2(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        # run_dir n'existe pas : Click rejette via type=click.Path(exists=True)
        # avant même d'invoquer le service.
        missing = tmp_path / "does_not_exist"
        result = runner.invoke(cli, ["report", str(missing)])
        assert result.exit_code == 2
        assert "exist" in result.output.lower() or "not exist" in result.output.lower()

    def test_report_dir_without_manifest_returns_exit_code_1(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        empty_dir = tmp_path / "empty"
        empty_dir.mkdir()
        result = runner.invoke(cli, ["report", str(empty_dir)])
        assert result.exit_code == 1
        assert "run_manifest.json" in result.output

    def test_report_lang_en(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        run_dir = tmp_path / "run"
        _build_minimal_run_dir(run_dir, corpus_name="english_test")
        result = runner.invoke(cli, [
            "report", str(run_dir),
            "--lang", "en",
        ])
        assert result.exit_code == 0
        assert 'lang="en"' in result.output
        assert "Pipelines executed" in result.output

    def test_report_lang_invalid_rejected(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        run_dir = tmp_path / "run"
        _build_minimal_run_dir(run_dir, corpus_name="x")
        result = runner.invoke(cli, [
            "report", str(run_dir),
            "--lang", "zh",
        ])
        assert result.exit_code != 0
        assert "Invalid value" in result.output or "not one of" in result.output


# ──────────────────────────────────────────────────────────────────
# Smoke E2E : import → (manuel) persist → report
# ──────────────────────────────────────────────────────────────────


class TestSmokeE2E:
    def test_import_then_report_chain(
        self, runner: CliRunner, tmp_path: Path,
    ) -> None:
        """Démontre le workflow CLI complet : importer un corpus, puis
        générer un rapport depuis un run persisté.

        Note : l'étape ``benchmark`` (entre les deux) n'est pas encore
        une commande CLI (S23+).  Pour ce smoke, on utilise
        ``BenchmarkService.persist`` directement.
        """
        # 1. Import.
        zip_path = tmp_path / "corpus.zip"
        zip_path.write_bytes(_make_zip({
            "doc01.png": _png_bytes(),
            "doc01.gt.txt": b"hello",
        }))
        ws_dir = tmp_path / "ws"
        r1 = runner.invoke(cli, [
            "import-corpus", str(zip_path),
            "--output-dir", str(ws_dir),
            "--corpus-name", "smoke_corpus",
            "--quiet",
        ])
        assert r1.exit_code == 0

        # 2. (Bypass benchmark — on persiste un run minimal directement.)
        run_dir = tmp_path / "run"
        _build_minimal_run_dir(run_dir, corpus_name="smoke_corpus")

        # 3. Vérifier que les 3 fichiers attendus sont présents.
        for fname in ("run_manifest.json", "pipeline_results.jsonl",
                      "view_results.jsonl"):
            assert (run_dir / fname).exists()
        # Vérifier le manifest.
        manifest = json.loads((run_dir / "run_manifest.json").read_text())
        assert manifest["corpus_name"] == "smoke_corpus"

        # 4. Report.
        html_path = tmp_path / "rapport.html"
        r2 = runner.invoke(cli, [
            "report", str(run_dir),
            "--output", str(html_path),
        ])
        assert r2.exit_code == 0
        assert html_path.exists()
        assert "smoke_corpus" in html_path.read_text(encoding="utf-8")