Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

Claude commited on May 13

Commit

ed02e58

unverified ·

1 Parent(s): f2308fc

fix(audit): Phase 10 — except: pass silencieux + ratchet logger prefix

L'audit code-quality avait dénoncé 9 ``except: pass`` silencieux
violant la règle CLAUDE.md (« remplacer par
``logger.warning(\"[module] fonctionnalité dégradée : %s\", e)`` »).

**Sites corrigés (7)**

- ``evaluation/statistics/friedman_nemenyi.py:62-63`` :
``except ImportError: pass`` → ``logger.warning("[friedman_nemenyi]
scipy.stats indisponible, fallback Wilson-Hilferty")``.
- ``evaluation/metrics/image_quality.py:128-129, 135-136`` :
2 × ``except ImportError: pass`` (numpy, Pillow) →
``logger.warning("[image_quality] %s indisponible, scoring désactivé")``.
- ``adapters/corpus/iiif.py:422-423`` :
``except ImportError: pass`` (tqdm) →
``logger.debug("[iiif] tqdm indisponible — import sans progress bar")``.
- ``evaluation/statistics/clustering.py:111-112`` :
``except re.error: pass`` → ``logger.warning("[clustering]
pattern d'erreur invalide '%s' ignoré")``.
- ``app/services/path_security.py:435-438`` :
``except OSError: pass`` sur ``os.chmod`` (cleanup Windows) →
``logger.debug("[path_security] chmod IWRITE échoué")``.
- ``app/services/benchmark_runner.py:1542-1546`` :
``except Exception: pass`` sur progress_callback →
``logger.debug("[benchmark_runner] progress_callback raised")``.
- ``adapters/storage/job_store.py:208-214`` :
``except sqlite3.Error: pass`` sur PRAGMA WAL →
``logger.info("[job_store] PRAGMA WAL refusé, fallback rollback")``.
- ``evaluation/metrics/robustness.py:534-537`` :
``except OSError: pass`` sur ``os.unlink(tmp)`` →
``logger.debug("[robustness] cleanup tmp file échoué")``.

Tous les nouveaux logs portent le préfixe ``[<module>]`` conforme à
la convention CLAUDE.md.

**Test ratchet : préfixe logger**

Nouveau ``tests/architecture/test_logger_prefix.py`` — scan AST :

- ``test_unprefixed_logs_below_baseline`` — pour chaque appel
``logger.{warning,info,error,debug,critical,exception}(...)``
vérifie que le 1er argument littéral commence par
``[<module>]`` (regex ``^\[[\w./\-]+\]``). Baseline : 46
sites résiduels (dette pré-existante, non bloquante).
- ``test_baseline_must_be_tightened_when_progress_made`` —
symétrique, oblige à abaisser la baseline en cas de correction.

**Bilan**

Suite : 4 784 passed, 16 skipped, 8 deselected, 2 xfailed. Ruff
propre. Aucun ``except ImportError/Error/Exception: pass`` muet
sur les 8 sites identifiés ; chaque dégradation laisse un signal
opérationnel observable.

Phase 10 partielle — restent les 6+ ``raise HTTPException`` sans
``from exc`` dans les routers FastAPI (traitement bulk dans une PR
dédiée) et les 46 logs résiduels sans préfixe (ratchet permet la
réduction incrémentale).

Files changed (9) hide show

picarones/adapters/corpus/iiif.py +5 -2
picarones/adapters/storage/job_store.py +6 -2
picarones/app/services/benchmark_runner.py +7 -3
picarones/app/services/path_security.py +8 -2
picarones/evaluation/metrics/image_quality.py +12 -4
picarones/evaluation/metrics/robustness.py +5 -2
picarones/evaluation/statistics/clustering.py +8 -2
picarones/evaluation/statistics/friedman_nemenyi.py +9 -2
tests/architecture/test_logger_prefix.py +131 -0

picarones/adapters/corpus/iiif.py CHANGED Viewed

@@ -419,8 +419,11 @@ class IIIFImporter:
             try:
                 from tqdm import tqdm
                 iterator = tqdm(canvases, desc="Import IIIF", unit="page")
-            except ImportError:
-                pass
         for canvas in iterator:
             doc_id = f"{_slugify(canvas.label) or f'canvas_{canvas.index+1:04d}'}"

             try:
                 from tqdm import tqdm
                 iterator = tqdm(canvases, desc="Import IIIF", unit="page")
+            except ImportError as exc:
+                logger.debug(
+                    "[iiif] tqdm indisponible (%s) — import sans progress bar",
+                    exc,
+                )
         for canvas in iterator:
             doc_id = f"{_slugify(canvas.label) or f'canvas_{canvas.index+1:04d}'}"

picarones/adapters/storage/job_store.py CHANGED Viewed

@@ -207,11 +207,15 @@ class JobStore:
                     )
             try:
                 conn.execute("PRAGMA journal_mode = WAL;")
-            except sqlite3.Error:  # pragma: no cover
                 # WAL non supporté (FAT32, NFS sans verrous) : on
                 # reste en rollback journal, fonctionnel mais moins
                 # concurrent en lecture.
-                pass
     @classmethod
     def _apply_migrations(

                     )
             try:
                 conn.execute("PRAGMA journal_mode = WAL;")
+            except sqlite3.Error as exc:  # pragma: no cover
                 # WAL non supporté (FAT32, NFS sans verrous) : on
                 # reste en rollback journal, fonctionnel mais moins
                 # concurrent en lecture.
+                logger.info(
+                    "[job_store] PRAGMA WAL refusé (%s) — fallback "
+                    "rollback journal (perte concurrence lectures)",
+                    exc,
+                )
     @classmethod
     def _apply_migrations(

picarones/app/services/benchmark_runner.py CHANGED Viewed

@@ -1539,11 +1539,15 @@ def _execute_via_benchmark_service(
             )
             try:
                 progress_callback(engine_name, idx, doc.id)
-            except Exception:  # noqa: BLE001
                 # On ignore silencieusement les erreurs du
                 # callback (un caller qui crashe ne doit pas faire
-                # tomber le benchmark).  Même contrat ici.
-                pass
         return RunContext(
             document_id=doc.id,
             code_version=code_version,

             )
             try:
                 progress_callback(engine_name, idx, doc.id)
+            except Exception as exc:  # noqa: BLE001
                 # On ignore silencieusement les erreurs du
                 # callback (un caller qui crashe ne doit pas faire
+                # tomber le benchmark).  Logge en debug pour
+                # diagnostic en cas de comportement bizarre.
+                logger.debug(
+                    "[benchmark_runner] progress_callback raised, ignoring: %s",
+                    exc,
+                )
         return RunContext(
             document_id=doc.id,
             code_version=code_version,

picarones/app/services/path_security.py CHANGED Viewed

@@ -31,12 +31,15 @@ Anti-sur-ingénierie
 from __future__ import annotations
 import shutil
 import uuid
 from pathlib import Path
 from picarones.domain.errors import PicaronesError
 class PathValidationError(PicaronesError, ValueError):
     """Levée quand un chemin utilisateur sort de la zone autorisée.
@@ -432,10 +435,13 @@ def _on_rmtree_error(func, path, exc_info):
     import stat
     try:
         os.chmod(path, stat.S_IWRITE | stat.S_IREAD)
-    except OSError:
         # Le chmod lui-même a échoué — on laisse la prochaine
         # tentative remonter l'erreur originale.
-        pass
     func(path)

 from __future__ import annotations
+import logging
 import shutil
 import uuid
 from pathlib import Path
 from picarones.domain.errors import PicaronesError
+logger = logging.getLogger(__name__)
 class PathValidationError(PicaronesError, ValueError):
     """Levée quand un chemin utilisateur sort de la zone autorisée.
     import stat
     try:
         os.chmod(path, stat.S_IWRITE | stat.S_IREAD)
+    except OSError as exc:
         # Le chmod lui-même a échoué — on laisse la prochaine
         # tentative remonter l'erreur originale.
+        logger.debug(
+            "[path_security] chmod IWRITE échoué sur %s (cleanup Windows ?) : %s",
+            path, exc,
+        )
     func(path)

picarones/evaluation/metrics/image_quality.py CHANGED Viewed

@@ -125,15 +125,23 @@ def analyze_image_quality(image_path: str | Path) -> ImageQualityResult:
         import numpy as np
         from PIL import Image
         return _analyze_with_numpy(path, np, Image)
-    except ImportError:
-        pass
     # Essai avec Pillow seul
     try:
         from PIL import Image
         return _analyze_with_pillow(path, Image)
-    except ImportError:
-        pass
     return ImageQualityResult(
         error="Pillow non disponible (pip install Pillow)",

         import numpy as np
         from PIL import Image
         return _analyze_with_numpy(path, np, Image)
+    except ImportError as exc:
+        logger.warning(
+            "[image_quality] numpy ou Pillow indisponible (%s) — "
+            "fallback Pillow seul",
+            exc,
+        )
     # Essai avec Pillow seul
     try:
         from PIL import Image
         return _analyze_with_pillow(path, Image)
+    except ImportError as exc:
+        logger.warning(
+            "[image_quality] Pillow indisponible (%s) — "
+            "scoring désactivé pour %s",
+            exc, path,
+        )
     return ImageQualityResult(
         error="Pillow non disponible (pip install Pillow)",

picarones/evaluation/metrics/robustness.py CHANGED Viewed

@@ -369,8 +369,11 @@ class RobustnessAnalyzer:
                         finally:
                             try:
                                 os.unlink(tmp_path)
-                            except OSError:
-                                pass
                     if doc_cers:
                         cer_per_level.append(sum(doc_cers) / len(doc_cers))

                         finally:
                             try:
                                 os.unlink(tmp_path)
+                            except OSError as exc:
+                                logger.debug(
+                                    "[robustness] cleanup tmp file %s échoué : %s",
+                                    tmp_path, exc,
+                                )
                     if doc_cers:
                         cer_per_level.append(sum(doc_cers) / len(doc_cers))

picarones/evaluation/statistics/clustering.py CHANGED Viewed

@@ -6,7 +6,10 @@ Regroupe les substitutions OCR/HTR fréquentes en clusters lisibles
 from __future__ import annotations
 import re
 from collections import defaultdict
 from dataclasses import dataclass
@@ -108,8 +111,11 @@ def cluster_errors(
                         })
                         matched = True
                         break
-                except re.error:
-                    pass
             if not matched:
                 # Regrouper les substitutions restantes par paire de caractères

 from __future__ import annotations
+import logging
 import re
+logger = logging.getLogger(__name__)
 from collections import defaultdict
 from dataclasses import dataclass
                         })
                         matched = True
                         break
+                except re.error as exc:
+                    logger.warning(
+                        "[clustering] pattern d'erreur invalide '%s' ignoré : %s",
+                        _pat, exc,
+                    )
             if not matched:
                 # Regrouper les substitutions restantes par paire de caractères

picarones/evaluation/statistics/friedman_nemenyi.py CHANGED Viewed

@@ -12,11 +12,14 @@ calcul (ce module) et présentation (l'autre).
 from __future__ import annotations
 import math
 from typing import Optional
 from picarones.evaluation.statistics.wilcoxon import _normal_sf
 # Valeurs critiques de la distribution du Studentized Range divisées par √2,
 # pour df = ∞ (approximation usuelle pour Nemenyi). Source : tables de Tukey.
 # Clé : nombre de traitements k ; valeur : q_α pour α ∈ {0.05, 0.01}.
@@ -59,8 +62,12 @@ def _chi_square_sf(x: float, df: int) -> float:
     try:
         from scipy.stats import chi2 as _chi2  # type: ignore[import-untyped]
         return float(_chi2.sf(x, df))
-    except ImportError:
-        pass
     # Wilson-Hilferty : transforme chi² en approximation normale
     z = (((x / df) ** (1.0 / 3.0)) - (1.0 - 2.0 / (9.0 * df))) / math.sqrt(2.0 / (9.0 * df))
     return _normal_sf(z)

 from __future__ import annotations
+import logging
 import math
 from typing import Optional
 from picarones.evaluation.statistics.wilcoxon import _normal_sf
+logger = logging.getLogger(__name__)
 # Valeurs critiques de la distribution du Studentized Range divisées par √2,
 # pour df = ∞ (approximation usuelle pour Nemenyi). Source : tables de Tukey.
 # Clé : nombre de traitements k ; valeur : q_α pour α ∈ {0.05, 0.01}.
     try:
         from scipy.stats import chi2 as _chi2  # type: ignore[import-untyped]
         return float(_chi2.sf(x, df))
+    except ImportError as exc:
+        logger.warning(
+            "[friedman_nemenyi] scipy.stats indisponible (%s) — "
+            "fallback approximation Wilson-Hilferty (précis ≥ df=3)",
+            exc,
+        )
     # Wilson-Hilferty : transforme chi² en approximation normale
     z = (((x / df) ** (1.0 / 3.0)) - (1.0 - 2.0 / (9.0 * df))) / math.sqrt(2.0 / (9.0 * df))
     return _normal_sf(z)

tests/architecture/test_logger_prefix.py ADDED Viewed

	@@ -0,0 +1,131 @@

+"""Phase 10 audit code-quality (2026-05) — chaque appel
+``logger.{warning,info,error,debug,critical,exception}(...)`` dans
+le code source doit commencer par un préfixe ``[module]`` qui
+identifie la source du log.
+Convention CLAUDE.md :
+.. code-block:: python
+    logger.warning("[ner.attach] %s/%s : extraction NER dégradée : %s", ...)
+    logger.info("[job_store] WAL non supporté, fallback rollback")
+    logger.debug("[robustness] cleanup tmp file échoué : %s", exc)
+Bénéfice : un opérateur qui voit un warning ``"backup failed"`` dans
+les logs sans préfixe ne sait pas si ça vient de l'OCR, du job store
+ou d'un détecteur narratif.  Avec ``[job_store] backup failed`` la
+source est immédiate.
+Stratégie : test **ratchet** — accepter le baseline actuel, refuser
+toute nouvelle régression.  Le nettoyage complet (~30 sites résiduels)
+peut se faire progressivement.
+"""
+from __future__ import annotations
+import ast
+import re
+from pathlib import Path
+REPO_ROOT = Path(__file__).resolve().parents[2]
+PRODUCTION = REPO_ROOT / "picarones"
+_LOG_METHODS = frozenset({
+    "debug", "info", "warning", "error", "critical", "exception",
+})
+#: Pattern attendu : le 1er argument est une f-string ou un str
+#: littéral qui commence par ``[<module>]`` (lowercase, _-., max 40 chars).
+_PREFIX_RE = re.compile(r"^\[[\w./\-]+\]")
+def _scan_unprefixed_logs() -> list[tuple[Path, int, str]]:
+    """``(path, lineno, snippet)`` pour chaque appel ``logger.<method>``
+    dont le premier argument littéral ne commence pas par ``[<module>]``.
+    """
+    findings: list[tuple[Path, int, str]] = []
+    for path in sorted(PRODUCTION.rglob("*.py")):
+        if "__pycache__" in path.parts:
+            continue
+        try:
+            tree = ast.parse(path.read_text(encoding="utf-8"))
+        except SyntaxError:
+            continue
+        for node in ast.walk(tree):
+            if not isinstance(node, ast.Call):
+                continue
+            func = node.func
+            if not isinstance(func, ast.Attribute):
+                continue
+            if func.attr not in _LOG_METHODS:
+                continue
+            # Vérifier que c'est bien ``logger.<method>``.  On accepte
+            # aussi ``logging.warning(...)`` (root) et ``self.logger.warning(...)``.
+            if not node.args:
+                continue
+            first = node.args[0]
+            # Extraire la string littérale.
+            msg: str | None = None
+            if isinstance(first, ast.Constant) and isinstance(first.value, str):
+                msg = first.value
+            elif isinstance(first, ast.JoinedStr):
+                # f-string : on prend les morceaux constants au début.
+                parts = []
+                for v in first.values:
+                    if isinstance(v, ast.Constant) and isinstance(v.value, str):
+                        parts.append(v.value)
+                    else:
+                        break
+                if parts:
+                    msg = "".join(parts)
+            if msg is None:
+                # Premier argument dynamique (variable, fonction…) — on
+                # ne peut pas vérifier statiquement, skip.
+                continue
+            if not _PREFIX_RE.match(msg):
+                findings.append((path, node.lineno, msg[:60]))
+    return findings
+#: Baseline du nombre de logs sans préfixe.  Phase 10 audit
+#: code-quality (2026-05) : ~30 sites résiduels acceptés.  Test
+#: ratchet — ne peut que baisser.
+UNPREFIXED_LOGS_BASELINE = 46
+def test_unprefixed_logs_below_baseline() -> None:
+    """Le compteur de logs sans préfixe ``[module]`` ne peut que baisser."""
+    findings = _scan_unprefixed_logs()
+    count = len(findings)
+    if count > UNPREFIXED_LOGS_BASELINE:
+        sample = "\n".join(
+            f"  {p.relative_to(REPO_ROOT)}:{ln} → {msg!r}"
+            for p, ln, msg in findings[:30]
+        )
+        more = (
+            f"\n  ... ({count - 30} de plus)"
+            if count > 30
+            else ""
+        )
+        raise AssertionError(
+            f"Logs sans préfixe ``[module]`` : {count} > baseline "
+            f"{UNPREFIXED_LOGS_BASELINE}.\n\n"
+            f"{sample}{more}\n\n"
+            "Convention CLAUDE.md : chaque log doit commencer par "
+            "``[<module>]`` pour identifier sa source.  Exemples : "
+            "``logger.warning(\"[ner.attach] extraction NER dégradée\")``"
+        )
+def test_baseline_must_be_tightened_when_progress_made() -> None:
+    """Symétrique : oblige à abaisser ``UNPREFIXED_LOGS_BASELINE``
+    quand des sites sont corrigés."""
+    count = len(_scan_unprefixed_logs())
+    assert count >= UNPREFIXED_LOGS_BASELINE - 5, (
+        f"Logs sans préfixe : {count} < baseline {UNPREFIXED_LOGS_BASELINE}.\n"
+        f"Abaisser UNPREFIXED_LOGS_BASELINE = {count} pour verrouiller le gain."
+    )