Spaces:
Sleeping
Sleeping
Claude
sprint92: A.II.9 - métriques longitudinales (régression + change-point + détecteur)
cf6df23 unverified | # Templates de rendu narratif — français. | |
| # | |
| # Chaque clé correspond à une valeur de ``FactType``. La valeur est un template | |
| # Python ``.format()`` qui consomme les champs du ``Fact.payload``. | |
| # | |
| # Règle anti-hallucination : n'introduire aucune valeur numérique ou nom | |
| # d'entité qui ne soit pas dans le ``payload``. Les tests parsent la synthèse | |
| # rendue et vérifient la traçabilité. | |
| global_leader_cer: >- | |
| Sur ce corpus de {n_docs} documents, {engine} obtient le CER moyen le plus | |
| bas ({cer_pct} %). | |
| statistical_tie: >- | |
| Les moteurs {engines_list} ne sont pas statistiquement distinguables | |
| (Friedman-Nemenyi, α = {alpha}, n = {n_blocks} documents, CD = {critical_distance}). | |
| significant_gap: >- | |
| L'écart entre {leader} et {runner_up} est statistiquement significatif | |
| (Wilcoxon, p = {p_value:.4f}, Δ CER = {delta_cer_pct} points sur {n_pairs} paires). | |
| stratum_winner: >- | |
| Sur la strate « {stratum} » ({n_docs_stratum} documents), {engine} domine | |
| nettement avec un CER de {cer_pct} % contre {second_cer_pct} % pour {second_engine}. | |
| stratum_collapse: >- | |
| {engine} est globalement compétitif ({global_cer_pct} %) mais s'effondre sur | |
| la strate « {stratum} » ({local_cer_pct} % sur {n_docs_stratum} documents, | |
| soit {delta_cer_pct} points au-dessus de sa moyenne). | |
| error_profile_outlier: >- | |
| Le profil d'erreurs de {engine} est atypique : {proportion_pct} % de la | |
| classe « {error_class} », contre une médiane de {median_proportion_pct} % | |
| sur les autres moteurs (ratio ×{ratio_to_median}). | |
| llm_hallucination_flag: >- | |
| Signal d'hallucination sur {engine} ({reasons_list}) — | |
| {hallucinating_rate_pct} % de documents au-dessus des seuils d'alerte. | |
| robustness_fragile: >- | |
| {engine} est fragile à la dégradation « {degradation} » : son CER passe de | |
| {cer_baseline_pct} % à {cer_degraded_pct} % au niveau maximal (ratio ×{ratio}). | |
| speed_winner: >- | |
| {engine} est le plus rapide ({mean_duration} s / doc, ×{speedup} plus vite | |
| que la médiane) pour un CER comparable ({cer_pct} %). | |
| confidence_warning: >- | |
| Classement fragile : l'intervalle de confiance à {confidence_level} % de {engine} s'étend | |
| sur {ci_width_pct} points de CER, à comparer à l'écart de {gap_to_runner_up_pct} points avec le second. | |
| pareto_alternative: >- | |
| À coût sensiblement inférieur, {engine} offre un compromis intéressant | |
| ({cer_pct} % de CER pour {cost} €/{cost_unit_pages} pages, contre {leader_cer_pct} % / | |
| {leader_cost} € pour {leader}, soit ×{cost_saving_ratio} moins cher). | |
| cost_outlier: >- | |
| Coût disproportionné pour {engine} ({cost} €/{cost_unit_pages} pages, ×{ratio_to_median} | |
| la médiane) sans avantage de qualité compensatoire (CER {cer_pct} %). | |
| ensemble_opportunity: >- | |
| Les moteurs {pair_a} et {pair_b} ont des profils d'erreurs divergents | |
| ({divergence_metric}={divergence}). Sur ce corpus de {doc_count} documents, | |
| {best_engine} préserve {best_recall_pct} % des tokens ; un voting majoritaire | |
| entre les moteurs en préserverait {oracle_recall_pct} %, soit | |
| {absolute_gap_pct} points récupérables ({relative_gap_pct} % des erreurs | |
| du meilleur moteur). | |
| median_mean_gap_warning: >- | |
| Distribution asymétrique pour {engine} : médiane CER {median_cer_pct} % | |
| vs moyenne {mean_cer_pct} % sur {n_docs} documents (écart relatif | |
| {relative_gap_pct} %). La moyenne est tirée par quelques documents | |
| catastrophiques — la médiane (utilisée pour le tri par défaut) est | |
| plus représentative. | |
| stratification_recommended: >- | |
| Corpus hétérogène ({n_strata} strates) : {leader} performe très | |
| différemment selon le type de document — médiane CER | |
| {min_stratum_cer_pct} % sur « {min_stratum} » contre | |
| {max_stratum_cer_pct} % sur « {max_stratum} », soit {gap_pct} points | |
| d'écart. Le classement global masque cette disparité ; consulter la | |
| vue stratifiée. | |
| engine_off_baseline: >- | |
| {engine} a obtenu {cer_current_pct} % CER ici, vs {cer_historical_mean_pct} % | |
| en moyenne sur les {n_runs} runs précédents de votre institution sur | |
| ce même corpus (écart relatif {relative_delta_pct} %). Ce corpus lui | |
| est plus difficile que d'habitude. | |
| engine_unstable: >- | |
| Sur {n_runs} runs successifs, {engine} produit des sorties variables | |
| (CV CER {cer_cv_pct} %, paires de runs identiques {identical_run_rate_pct} %). | |
| La reproductibilité est limitée — interpréter le CER moyen avec prudence. | |
| regression_in_history: >- | |
| Sur les {n_runs} runs historiques pour {engine}, le CER moyen | |
| est passé de {first_cer_pct} % à {last_cer_pct} % | |
| (variation cumulée {absolute_delta_pct} points). Vérifier ce qui | |
| a changé dans le pipeline ou les modèles. | |