Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Running

Claude commited on May 1

Commit

6a9d280

unverified ·

1 Parent(s): b7dca96

docs: corriger les docstrings mensongères sur les shims dans les init.py

Les docstrings de ``picarones/measurements/__init__.py`` et
``picarones/extras/__init__.py`` mentionnaient encore une
"rétrocompatibilité absolue via fichiers-shims" qui n'existe plus
depuis la refonte 3 cercles. Un utilisateur lisant ces docs
écrivait du code (``from picarones.core.taxonomy import …``)
qui ne marche plus.

Ce commit :

- ``measurements/__init__.py`` : docstring réécrite pour refléter
la structure réelle. La liste des sous-modules est mise à jour
avec les ~8 modules philologiques promus depuis ``extras/``,
les modules ``image_predictive``, ``module_policy``, et la
famille des câblages adaptifs ``*_runner``. La fausse promesse
de rétrocompatibilité est supprimée. Référence vers le manifeste
``docs/architecture.md`` ajoutée.

- ``extras/__init__.py`` : docstring réécrite. La section "Convention
de rétrocompat" qui décrivait des shims inexistants est supprimée.
Le sous-package ``importers`` est documenté explicitement avec
son statut (``huggingface`` et ``escriptorium`` expérimentaux,
``UserWarning`` à l'import).

Aucun changement de code — uniquement de la doc qui mentait sur
l'état réel du système.

https://claude.ai/code/session_01Hsd7kL8yeCbXn1mA7GQK9L

Files changed (2) hide show

picarones/extras/__init__.py +14 -15
picarones/measurements/__init__.py +74 -44

picarones/extras/__init__.py CHANGED Viewed

@@ -1,22 +1,21 @@
 """Plugins Picarones — Cercle 3 de l'architecture.
-Modules optionnels, niche, ou préventifs qui ne servent pas
-directement la question centrale du produit (« peut-on déployer ce
-moteur en prod sur ce corpus ? »). Ils sont **séparables** : leur
-absence ne casse pas le bench standard.
-À terme, certains de ces sous-packages pourront être distribués comme
-packages PyPI séparés (``picarones-historical``, ``picarones-importers``).
-Pour l'instant ils vivent comme sous-packages internes pour limiter le
-churn.
-Convention de rétrocompat
--------------------------
-Pour chaque module déplacé depuis ``picarones/core/`` ou
-``picarones/report/`` vers ``picarones/extras/``, un fichier-shim est
-laissé à l'ancien emplacement qui réexporte les noms publics. Les
-imports historiques (``from picarones.measurements.taxonomy_intra_doc import
-...``) continuent à fonctionner sans modification.
 Voir :doc:`docs/architecture.md` pour la cartographie complète
 et les critères d'assignation au Cercle 3.

 """Plugins Picarones — Cercle 3 de l'architecture.
+Modules optionnels et **séparables** : leur absence ne casse pas
+le bench standard. Ils étendent Picarones avec des fonctionnalités
+qui ne servent pas directement la question centrale (« peut-on
+déployer ce moteur en prod sur ce corpus ? ») et qui dépendent
+typiquement de sources externes (IIIF, eScriptorium, HuggingFace…).
+Sous-packages
+-------------
+- :mod:`importers` — connecteurs corpus (IIIF, Gallica, HTR-United,
+  HuggingFace, eScriptorium). Les modules ``huggingface`` et
+  ``escriptorium`` émettent un ``UserWarning`` à l'import car ils
+  n'ont pas été validés sur des instances de production.
+À terme, ces sous-packages pourront être distribués comme packages
+PyPI séparés (``picarones-importers``…). Pour l'instant ils vivent
+comme sous-packages internes pour limiter le churn.
 Voir :doc:`docs/architecture.md` pour la cartographie complète
 et les critères d'assignation au Cercle 3.

picarones/measurements/__init__.py CHANGED Viewed

@@ -1,49 +1,74 @@
 """Métriques officielles Picarones — Cercle 2.
-Phase E du chantier de refonte en 3 cercles. Ce package contient
-l'ensemble des **mesures et analyses au-delà du noyau** : tout ce qui
-calcule, agrège ou interprète des métriques sur un corpus, mais qui
-n'est pas une abstraction du domaine (Cercle 1, ``core/``) ni un
-plugin niche (Cercle 3, ``extras/``).
 Sous-modules
 ------------
-Métriques scalaires et structurelles :
-- :mod:`confusion`           matrice de confusion Unicode
-- :mod:`char_scores`         scores ligatures/diacritiques
 - :mod:`taxonomy`             taxonomie 9 classes d'erreurs
 - :mod:`taxonomy_comparison`  comparaison taxonomique miroir
-- :mod:`structure`            analyse structurelle (lignes/blocs)
 - :mod:`line_metrics`         distribution CER par ligne (Gini, percentiles)
-- :mod:`hallucination`        détection hallucinations VLM
-- :mod:`reading_order`        F1 ordre de lecture (ICDAR 2015)
-- :mod:`layout`               F1 layout par type de région
-- :mod:`error_absorption`     correction vs introduction par jonction
-- :mod:`searchability`        recherchabilité fuzzy (Levenshtein)
-- :mod:`numerical_sequences`  préservation dates/cotes/numéraux
-- :mod:`numerical_sequences_runner`
-- :mod:`rare_tokens`          rappel sur tokens rares
-- :mod:`readability`          Δ Flesch (sur-normalisation)
-- :mod:`readability_runner`
-- :mod:`searchability_runner`
-- :mod:`specialization`       spécialisation inter-moteurs
 - :mod:`worst_lines`          lignes pires globales
-- :mod:`inter_engine`         divergence taxonomique + oracle gap
-- :mod:`incremental_comparison` ANOVA-like par slot
-- :mod:`baseline_comparison`  comparaison à l'historique
-- :mod:`longitudinal`         régression linéaire + change-point
 Fiabilité et calibration :
 - :mod:`calibration`          ECE, MCE, reliability bins
 - :mod:`reliability`          IAA Cohen κ + multirun stability
 - :mod:`robustness`           courbes CER vs dégradation
 - :mod:`robustness_projection` projection sur corpus réel
-NER :
 - :mod:`ner`, :mod:`ner_backends`
 Économie et opération :
@@ -52,36 +77,41 @@ NER :
 - :mod:`cost_projection`      projection à volume cible
 - :mod:`marginal_cost`        coût par erreur évitée
-Contexte corpus :
-- :mod:`history`              historique SQLite
-- :mod:`difficulty`           score difficulté intrinsèque
-- :mod:`image_quality`        contraste, bruit, flou…
-- :mod:`normalization`        profils Unicode
-Statistiques :
-- :mod:`statistics`           Wilcoxon, Friedman, Nemenyi, Pareto, CDD
 Aide à la décision :
 - :mod:`levers`               leviers d'amélioration factuels
 - :mod:`equivalence_profile`  curseur fin équivalences diplomatiques
-Hooks et registres :
-- :mod:`builtin_hooks`        12 hooks doc + 12 agrégateurs natifs
 Moteur narratif :
-- :mod:`narrative` (sous-package) : facts, registry, arbiter, renderer, 18 détecteurs
-Rétrocompatibilité absolue
---------------------------
-Tous les modules historiquement dans ``picarones.core.X`` restent
-accessibles via des fichiers-shims qui les redirigent vers le nouvel
-emplacement. Aucun import existant ne casse.
-Voir :doc:`docs/architecture.md` et la phase E du plan de
-refonte.
 """

 """Métriques officielles Picarones — Cercle 2.
+Ce package contient l'ensemble des mesures et analyses qui calculent,
+agrègent ou interprètent des métriques sur un corpus. Il dépend du
+cercle 1 (``picarones.core``) qui définit les abstractions, et est
+consommé par le cercle 3 (``picarones.report``, ``picarones.cli``,
+``picarones.web``) qui présente les résultats.
 Sous-modules
 ------------
+Coeur :
+- :mod:`metrics`              compute_metrics (CER/WER/MER/WIL via jiwer)
+- :mod:`statistics`           Wilcoxon, Friedman, Nemenyi, Pareto, CDD
+- :mod:`runner`               run_benchmark — orchestration parallèle
+- :mod:`builtin_hooks`        12 hooks doc + 12 agrégateurs natifs
+- :mod:`builtin_metrics`      enregistrement métriques dans le registry
+- :mod:`alto_metrics`         métriques jonction TEXT/ALTO
+- :mod:`normalization`        profils Unicode
+Erreurs et taxonomie :
+- :mod:`confusion`            matrice de confusion Unicode
+- :mod:`char_scores`          scores ligatures/diacritiques
 - :mod:`taxonomy`             taxonomie 9 classes d'erreurs
 - :mod:`taxonomy_comparison`  comparaison taxonomique miroir
+- :mod:`taxonomy_cooccurrence` Jaccard inter-classes
+- :mod:`taxonomy_intra_doc`   heatmap classes × position
+Structure et lignes :
+- :mod:`structure`            blocs/lignes/mots
 - :mod:`line_metrics`         distribution CER par ligne (Gini, percentiles)
 - :mod:`worst_lines`          lignes pires globales
 Fiabilité et calibration :
 - :mod:`calibration`          ECE, MCE, reliability bins
 - :mod:`reliability`          IAA Cohen κ + multirun stability
+- :mod:`hallucination`        détection hallucinations VLM
 - :mod:`robustness`           courbes CER vs dégradation
 - :mod:`robustness_projection` projection sur corpus réel
+Image et difficulté :
+- :mod:`image_quality`        contraste, bruit, flou…
+- :mod:`image_predictive`     complexité paléographique
+- :mod:`difficulty`           score difficulté intrinsèque
+Contenu et lisibilité :
+- :mod:`searchability`        recherchabilité fuzzy (Levenshtein)
+- :mod:`numerical_sequences`  préservation dates/cotes/numéraux
+- :mod:`rare_tokens`          rappel sur tokens rares
+- :mod:`readability`          Δ Flesch (sur-normalisation)
+Structure ALTO et entités :
+- :mod:`layout`               F1 layout par type de région
+- :mod:`reading_order`        F1 ordre de lecture (ICDAR 2015)
 - :mod:`ner`, :mod:`ner_backends`
+- :mod:`error_absorption`     correction vs introduction par jonction
+Inter-moteurs et historique :
+- :mod:`inter_engine`         divergence taxonomique + oracle gap
+- :mod:`specialization`       spécialisation inter-moteurs
+- :mod:`baseline_comparison`  comparaison à l'historique
+- :mod:`longitudinal`         régression linéaire + change-point
+- :mod:`incremental_comparison` ANOVA-like par slot
+- :mod:`history`              historique SQLite
 Économie et opération :
 - :mod:`cost_projection`      projection à volume cible
 - :mod:`marginal_cost`        coût par erreur évitée
+Philologie historique :
+- :mod:`mufi`                 couverture MUFI (médiéval)
+- :mod:`abbreviations`        signes d'abréviation Capelli
+- :mod:`unicode_blocks`       précision par bloc Unicode
+- :mod:`early_modern_typography` ligatures imprimées XVIᵉ-XVIIIᵉ
+- :mod:`modern_archives`      marqueurs XIXᵉ-XXᵉ
+- :mod:`roman_numerals`       numéraux romains
+- :mod:`lexical_modernization` sur-normalisation lexicale
+- :mod:`philological_runner`  câblage runner adaptive
+Pipelines composées (axe B) :
+- :mod:`pipeline_benchmark`, :mod:`pipeline_comparison`,
+  :mod:`pipeline_spec_loader`
 Aide à la décision :
 - :mod:`levers`               leviers d'amélioration factuels
 - :mod:`equivalence_profile`  curseur fin équivalences diplomatiques
+- :mod:`module_policy`        manifest + audit modules contribués
+Câblages adaptifs (suffixe ``_runner``) :
+- :mod:`readability_runner`, :mod:`searchability_runner`,
+  :mod:`numerical_sequences_runner` — adaptive masking
+  document-par-document, consommés par :mod:`builtin_hooks`.
 Moteur narratif :
+- :mod:`narrative` (sous-package) : arbiter, registry, renderer,
+  18 détecteurs en 6 familles. Le modèle de données (``Fact``,
+  ``FactType``, ``DetectorRegistry``) vit en cercle 1 dans
+  :mod:`picarones.core.facts`.
+Voir :doc:`docs/architecture.md` pour la cartographie complète et
+la règle de dépendance des 3 cercles.
 """

docs: corriger les docstrings mensongères sur les shims dans les __init__.py

docs: corriger les docstrings mensongères sur les shims dans les init.py