Distribution du CER par moteur

Profil des moteurs (radar)

Axe radar : CER, WER, MER, WIL — valeurs inversées (plus c'est haut, meilleur est le moteur).

CER par document (tous moteurs)

Temps d'exécution moyen (secondes/document)

Qualité image ↔ CER (scatter plot)

Chaque point = un document. Axe X = score qualité image [0–1]. Axe Y = CER. Corrélation négative attendue.

Taxonomie des erreurs par moteur

Distribution des classes d'erreurs (classes 1–9 de la taxonomie Picarones).

Courbes de fiabilité

Pour les X% documents les plus faciles (triés par CER croissant), quel est le CER moyen cumulé ? Une courbe basse = moteur performant même sur les documents faciles.

Intervalles de confiance à 95 % (bootstrap)

IC à 95% sur le CER moyen par moteur (1000 itérations bootstrap).

Erreurs communes / exclusives (Venn)

Intersection des ensembles d'erreurs entre les 2 ou 3 premiers concurrents. Erreurs communes = segments partagés.

Tests de Wilcoxon — comparaisons par paires

Test signé-rangé de Wilcoxon (non-paramétrique). Seuil α = 0.05.

Clustering des patterns d'erreurs

Gini vs CER moyen — idéal : bas-gauche

Axe X = CER moyen, Axe Y = coefficient de Gini. Un moteur idéal a CER bas ET Gini bas (erreurs rares et uniformes).

Ratio longueur vs ancrage — hallucinations VLM

Axe X = score d'ancrage trigrammes [0–1]. Axe Y = ratio longueur sortie/GT. Zone ⚠️ : ancrage < 0.5 ou ratio > 1.2 → hallucinations probables.

Compromis qualité / coût

Les moteurs sur la frontière de Pareto (en évidence) sont ceux pour lesquels aucun autre moteur n'offre simultanément un meilleur CER ET un meilleur coût. Prix indicatifs (table interne, datée). Le mode carbone est expérimental.

Hypothèses détaillées par moteur

{% if calibration_summary_html or reliability_diagrams_html %}

Calibration des moteurs

{% if calibration_summary_html %}

{% endif %} {% if reliability_diagrams_html %}

{% endif %}

ECE (Expected Calibration Error) : moyenne pondérée des écarts |confiance − précision| par bin. Plus l'ECE est bas, plus le moteur est honnête sur sa fiabilité — la diagonale du diagramme représente la calibration parfaite. Un ECE élevé signale qu'on ne peut pas se fier au score de confiance pour cibler la relecture humaine.

{% endif %} {% if ner_summary_html or ner_per_category_html %}

Précision sur entités nommées

{% if ner_summary_html %}

{% endif %} {% if ner_per_category_html %}

{% endif %}

F1 calculé par alignement IoU ≥ 0,5 sur les spans (labels case-insensitive). Plus le F1 est haut, plus le moteur restitue fidèlement les entités nommées (personnes, lieux, dates) — ce qui prédit l'utilité aval pour l'indexation prosopographique. Cette métrique mesure conjointement OCR + extracteur NER ; le modèle d'extraction lui-même peut halluciner.

{% endif %} {% if philological_profile_html %}

{% endif %} {% if searchability_html %}

{% endif %} {% if numerical_sequences_html %}

{% endif %} {% if readability_html %}

{% endif %} {% if specialization_html %}

{% endif %} {% if divergence_matrix_html or oracle_gap_html %}

Analyse inter-moteurs

{% if divergence_matrix_html %}

{% endif %} {% if oracle_gap_html %}

{% endif %}

Plus la divergence est élevée, plus deux moteurs se trompent sur des classes d'erreurs différentes — ils sont alors candidats à un voting ensemble. L'oracle est la borne supérieure du recall token-level atteignable par ce voting (proxy bag-of-words).

{% endif %} {% if economics_view_html %}

{% endif %} {% if advanced_taxonomy_view_html %}

{% endif %} {% if diagnostics_view_html %}

{% endif %} {% if rare_token_recall_html %}

{% endif %} {% if taxonomy_cooccurrence_html %}

{% endif %} {% if taxonomy_intra_doc_html %}

{% endif %} {% if marginal_cost_html %}

{% endif %}

Matrice de corrélation entre métriques

Moteur :

Coefficient de Pearson entre les métriques CER, WER, qualité image, ligatures, diacritiques. Vert = corrélation positive, Rouge = corrélation négative.