Spaces:
Sleeping
Sleeping
File size: 5,588 Bytes
b6bdecc fc30527 b6bdecc | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 | # Base de prix indicative des moteurs OCR/HTR et des LLM utilisés dans les
# pipelines OCR+LLM. Sert uniquement à la vue Pareto coût/qualité du rapport.
#
# AVERTISSEMENT
# -------------
# Ces prix sont des estimations datées et vieillissent vite. Ils sont donnés
# à titre indicatif et ne remplacent pas une négociation commerciale ou un
# relevé sur facture. Toute institution menant un benchmark avec un budget
# réel doit surcharger ces valeurs via ``ReportGenerator(..., pricing=...)``.
#
# CONVENTIONS
# -----------
# - Unité monétaire : EUR (conversion indicative depuis USD quand applicable)
# - Prix exprimé par 1000 pages traitées (1 page = 1 document moyen patrimonial,
# environ 1 500 caractères ou ~2 000 tokens LLM).
# - kWh par 1000 pages : estimation énergétique pour le calcul carbone optionnel.
# - Intensité carbone du réseau (g CO2 / kWh) : dépend du mix électrique de la
# région où le moteur est exécuté (France ≈ 58, US moyen ≈ 400, Irlande ≈ 350).
#
# CATÉGORIES
# ----------
# - ``type: local`` : moteur open-source tournant sur machine de l'utilisateur.
# Coût effectif = temps d'inférence × taux horaire paramétré.
# - ``type: cloud_api`` : service facturé à la page ou au token.
meta:
last_updated: "2026-04-01"
# Sprint A8 (m-14) — date au-delà de laquelle la table est considérée
# obsolète. Le moteur narratif émet un Fact ``PRICING_STALENESS_WARNING``
# si ``today > valid_until`` au moment de générer le rapport.
# Politique : 6 mois de validité par défaut. À ré-évaluer trimestriellement
# au minimum, plus souvent si un fournisseur cloud change ses tarifs.
valid_until: "2026-10-01"
currency: EUR
default_hourly_rate_local_cpu_eur: 0.08 # machine locale amortie
default_hourly_rate_local_gpu_eur: 1.20 # g4dn.xlarge ou équivalent
default_grid_intensity_g_co2_per_kwh: 58 # France 2025 (mix bas carbone)
cloud_grid_intensity_g_co2_per_kwh: 380 # moyenne cloud hyperscalers
engines:
# ── OCR classiques locaux ─────────────────────────────────────────
tesseract:
type: local
local_mean_seconds_per_page: 2.0
kwh_per_1k_pages: 0.012
notes: "Open-source, CPU uniquement. Rapide mais moins précis sur écriture manuscrite."
pero_ocr:
type: local
local_mean_seconds_per_page: 18.0
kwh_per_1k_pages: 0.300
hourly_rate_override_eur: 1.20 # GPU
notes: "HTR deep learning, GPU recommandé. Best-in-class sur documents historiques."
kraken:
type: local
local_mean_seconds_per_page: 8.0
kwh_per_1k_pages: 0.150
hourly_rate_override_eur: 1.20
notes: "HTR open-source, GPU recommandé. Modèles pré-entraînés via HTR-United."
calamari:
type: local
local_mean_seconds_per_page: 6.0
kwh_per_1k_pages: 0.100
hourly_rate_override_eur: 1.20
# ── APIs OCR cloud ────────────────────────────────────────────────
mistral_ocr:
type: cloud_api
api_price_per_1k_pages: 0.90 # ≈ 0.001 USD / page, endpoint /v1/ocr dédié
pricing_source_url: "https://mistral.ai/pricing"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.120
notes: "Endpoint /v1/ocr dédié (pas chat/completions)."
google_vision:
type: cloud_api
api_price_per_1k_pages: 1.40 # Document Text Detection, 1-1000 = $1.50/1k
pricing_source_url: "https://cloud.google.com/vision/pricing"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.120
azure_doc_intel:
type: cloud_api
api_price_per_1k_pages: 9.50 # Read S1 tier
pricing_source_url: "https://azure.microsoft.com/pricing/details/ai-document-intelligence/"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.120
# ── LLM pour pipelines OCR+LLM ────────────────────────────────────
# Estimation par page : prompt ~500 tokens + réponse ~1500 tokens = 2k tokens.
# Les VLM consomment en plus des tokens image (~1k tokens pour une page A4).
"gpt-4o":
type: cloud_api
api_price_per_1k_pages: 7.50 # approx 2.5k tokens text + 1k image
pricing_source_url: "https://openai.com/api/pricing/"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.200
"gpt-4o-mini":
type: cloud_api
api_price_per_1k_pages: 0.45
pricing_source_url: "https://openai.com/api/pricing/"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.060
"claude-sonnet-4-6":
type: cloud_api
api_price_per_1k_pages: 6.00
pricing_source_url: "https://www.anthropic.com/pricing"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.180
"claude-haiku-4-5":
type: cloud_api
api_price_per_1k_pages: 0.80
pricing_source_url: "https://www.anthropic.com/pricing"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.070
"mistral-large-latest":
type: cloud_api
api_price_per_1k_pages: 2.40
pricing_source_url: "https://mistral.ai/pricing"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.150
"ministral-3b-latest":
type: cloud_api
api_price_per_1k_pages: 0.08
pricing_source_url: "https://mistral.ai/pricing"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.040
notes: "Text-only, ne supporte pas le mode multimodal."
"pixtral-large-latest":
type: cloud_api
api_price_per_1k_pages: 3.00
pricing_source_url: "https://mistral.ai/pricing"
pricing_date: "2026-01"
kwh_per_1k_pages: 0.170
|