Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

App Files Files Community

Picarones / CHANGELOG.md

Claude

chore: remplacer toutes les références bnf/picarones par maribakulj/Picarones

cecde1f unverified 3 months ago

preview code

Raw

History Blame

13 kB

	# Changelog — Picarones

	Tous les changements notables de ce projet sont documentés dans ce fichier.

	Le format suit [Keep a Changelog](https://keepachangelog.com/fr/1.0.0/).
	La numérotation de version suit [Semantic Versioning](https://semver.org/lang/fr/).

	---

	## [1.0.0] — Sprint 9 — 2025-03

	### Ajouté
	- `README.md` complet bilingue (français + anglais) avec badges CI, description des fonctionnalités, tableau des moteurs, variables d'environnement
	- `INSTALL.md` — guide d'installation détaillé pour Linux (Ubuntu/Debian), macOS et Windows, incluant Tesseract, Pero OCR, Ollama, configuration des clés API, Docker
	- `CHANGELOG.md` — historique des sprints 1 à 9
	- `CONTRIBUTING.md` — guide pour contribuer : ajouter un moteur OCR, un adaptateur LLM, soumettre une PR
	- `Makefile` — commandes `make install`, `make test`, `make demo`, `make serve`, `make build`, `make build-exe`, `make docker-build`, `make lint`, `make clean`
	- `Dockerfile` — image Docker multi-étape basée sur Python 3.11-slim, Tesseract pré-installé, `CMD ["picarones", "serve", "--host", "0.0.0.0"]`
	- `docker-compose.yml` — service Picarones + service Ollama optionnel (profil `ollama`)
	- `.github/workflows/ci.yml` — pipeline GitHub Actions : tests sur Python 3.11/3.12, Linux/macOS/Windows, rapport de couverture
	- `picarones.spec` — configuration PyInstaller pour générer des exécutables standalone (Linux, macOS, Windows)
	- `picarones/__main__.py` — permet l'exécution via `python -m picarones`
	- Version bumped à `1.0.0` dans `pyproject.toml` et `__init__.py`
	- Extras PyPI `[llm]`, `[ocr-cloud]`, `[all]` dans `pyproject.toml`
	- Tests Sprint 9 : `tests/test_sprint9_packaging.py` (30 tests)

	### Modifié
	- `pyproject.toml` : version 1.0.0, nouveaux extras, classifiers mis à jour, URLs projet ajoutées

	---

	## [0.8.0] — Sprint 8 — 2025-03

	### Ajouté
	- eScriptorium (`picarones/importers/escriptorium.py`)
	- `EScriptoriumClient` : connexion par token API, listing projets/documents/pages, gestion de la pagination
	- `import_document()` : import d'un document avec ses transcriptions comme corpus Picarones
	- `export_benchmark_as_layer()` : export des résultats benchmark comme couche OCR nommée dans eScriptorium
	- `connect_escriptorium()` : connexion avec validation automatique
	- Gallica API (`picarones/importers/gallica.py`)
	- `GallicaClient` : recherche SRU par cote/titre/auteur/date/langue/type
	- Récupération OCR Gallica texte brut (`f{n}.texteBrut`)
	- Import IIIF Gallica avec enrichissement OCR comme vérité terrain de référence
	- Métadonnées OAI-PMH (`/services/OAIRecord`)
	- `search_gallica()`, `import_gallica_document()` — fonctions de commodité
	- Suivi longitudinal (`picarones/core/history.py`)
	- `BenchmarkHistory` : base SQLite horodatée par run, moteur, corpus, CER/WER
	- `record()` depuis `BenchmarkResult`, `record_single()` pour imports manuels
	- `query()` avec filtres engine/corpus/since/limit
	- `get_cer_curve()` : données prêtes pour Chart.js
	- `detect_regression()` / `detect_all_regressions()` : seuil configurable en points de CER
	- `export_json()` — export complet de l'historique
	- `generate_demo_history()` : 8 runs fictifs avec régression simulée au run 5
	- Analyse de robustesse (`picarones/core/robustness.py`)
	- 5 types de dégradation : bruit gaussien, flou, rotation, réduction de résolution, binarisation
	- `degrade_image_bytes()` : Pillow (préféré) ou fallback pur Python
	- `RobustnessAnalyzer.analyze()` : CER par niveau, seuil critique automatique
	- `DegradationCurve`, `RobustnessReport`, `_build_summary()`
	- `generate_demo_robustness_report()` : rapport fictif réaliste sans moteur réel
	- CLI Sprint 8
	- `picarones history` : historique avec filtres, détection de régression, export JSON, mode `--demo`
	- `picarones robustness` : analyse de robustesse, barres ASCII, export JSON, mode `--demo`
	- `picarones demo --with-history --with-robustness` : démonstration intégrée
	- `picarones/importers/__init__.py` mis à jour pour exporter les nouveaux importeurs

	### Tests
	- `tests/test_sprint8_escriptorium_gallica.py` : 74 tests (eScriptorium, Gallica, CLI)
	- `tests/test_sprint8_longitudinal_robustness.py` : 86 tests (history, robustesse, CLI)
	- Total : 743 tests (anciennement 583)

	---

	## [0.7.0] — Sprint 7 — 2025-02

	### Ajouté
	- Rapport HTML v2
	- Intervalles de confiance Bootstrap à 95% (`bootstrap_ci()`)
	- Tests de Wilcoxon et matrices de tests par paires (`wilcoxon_test()`, `pairwise_stats()`)
	- Courbes de fiabilité (CER cumulatif par percentile de qualité)
	- Diagrammes de Venn des erreurs communes/exclusives entre concurrents (2 et 3 ensembles)
	- Clustering des patterns d'erreurs (k-means simplifié sur n-grammes d'erreur)
	- Matrice de corrélation entre métriques (Pearson)
	- Score de difficulté intrinsèque par document (`compute_difficulty()`, `compute_all_difficulties()`)
	- Scatter plots interactifs qualité image vs CER, colorés par type de script
	- Heatmaps de confusion unicode améliorées
	- `picarones/core/statistics.py` : module dédié aux tests statistiques
	- `picarones/core/difficulty.py` : score de difficulté intrinsèque

	### Tests
	- `tests/test_sprint7_advanced_report.py` : 100 tests (bootstrap, Wilcoxon, Venn, clustering, difficulté)
	- Total : 583 tests (anciennement 483)

	---

	## [0.6.0] — Sprint 6 — 2025-02

	### Ajouté
	- Interface web FastAPI (`picarones/web/app.py`)
	- Endpoints REST pour lancer des benchmarks, consulter les résultats, lister les moteurs
	- Streaming des logs en temps réel (Server-Sent Events)
	- `picarones serve` — lancement du serveur uvicorn
	- Import HuggingFace Datasets (`picarones/importers/huggingface.py`)
	- Recherche, filtrage et import partiel de datasets OCR/HTR
	- Datasets patrimoniaux pré-référencés : IAM, RIMES, READ-BAD, Esposalles…
	- Cache local avec gestion des versions
	- Import HTR-United (`picarones/importers/htr_united.py`)
	- Listing et import depuis le catalogue HTR-United
	- Lecture des métadonnées : langue, script, institution, époque
	- Adaptateurs Ollama (`picarones/llm/ollama_adapter.py`)
	- Support de Llama 3, Gemma, Phi et tout modèle Ollama local
	- Mode texte seul (LLMs non multimodaux)
	- Profils de normalisation pré-configurés
	- Français médiéval, Français moderne, Latin médiéval, Imprimés anciens
	- Profil personnalisé exportable/importable

	### Tests
	- `tests/test_sprint6_web_interface.py` : 90 tests
	- Total : 483 tests (anciennement 393)

	---

	## [0.5.0] — Sprint 5 — 2025-02

	### Ajouté
	- Matrice de confusion unicode (`picarones/core/confusion.py`)
	- `build_confusion_matrix()`, `aggregate_confusion_matrices()`
	- Affichage compact trié par fréquence d'erreur
	- Scores ligatures et diacritiques (`picarones/core/char_scores.py`)
	- `compute_ligature_score()` : fi, fl, ff, ffi, ffl, st, ct, œ, æ, ꝑ, ꝓ…
	- `compute_diacritic_score()` : accents, cédilles, trémas, diacritiques combinants
	- Taxonomie des erreurs en 10 classes (`picarones/core/taxonomy.py`)
	- Confusion visuelle, erreur diacritique, casse, ligature, abréviation, hapax, segmentation, hors-vocabulaire, lacune, sur-normalisation LLM
	- Analyse structurelle (`picarones/core/structure.py`)
	- Score d'ordre de lecture, taux de segmentation des lignes, conservation des sauts de paragraphe
	- Métriques de qualité image (`picarones/core/image_quality.py`)
	- Netteté (Laplacien), niveau de bruit, contraste (Michelson), détection rotation résiduelle
	- Corrélations image ↔ CER
	- Intégration de toutes ces métriques dans le rapport HTML (vue Analyse, vue Caractères)
	- Scatter plots qualité image vs CER

	### Tests
	- `tests/test_sprint5_advanced_metrics.py` : 100 tests
	- Total : 393 tests (anciennement 293)

	---

	## [0.4.0] — Sprint 4 — 2025-01

	### Ajouté
	- Adaptateurs APIs cloud OCR
	- Mistral OCR (`picarones/engines/mistral_ocr.py`) — Mistral OCR 3, multimodal
	- Google Vision (`picarones/engines/google_vision.py`) — Document AI
	- Azure Document Intelligence (`picarones/engines/azure_doc_intel.py`)
	- Import IIIF v2/v3 (`picarones/importers/iiif.py`)
	- Sélecteur de pages (`"1-10"`, `"1,3,5"`, `"all"`)
	- Téléchargement images et extraction des annotations de transcription si disponibles
	- Compatibilité : Gallica, Bodleian, British Library, BSB, e-codices, Europeana
	- `picarones import iiif <url>` — commande CLI
	- Normalisation unicode (`picarones/core/normalization.py`)
	- NFC, caseless, diplomatique (tables ſ=s, u=v, i=j, æ=ae, œ=oe…)
	- Profils configurables via YAML
	- CER diplomatique dans les métriques

	### Tests
	- `tests/test_sprint4_normalization_iiif.py` : 100 tests
	- Total : 293 tests (anciennement 193)

	---

	## [0.3.0] — Sprint 3 — 2025-01

	### Ajouté
	- Pipelines OCR+LLM (`picarones/pipelines/base.py`)
	- Mode 1 — Post-correction texte brut (LLM reçoit la sortie OCR)
	- Mode 2 — Post-correction avec image (LLM reçoit image + OCR)
	- Mode 3 — Zero-shot LLM (LLM reçoit uniquement l'image)
	- Chaînes composables multi-étapes
	- Adaptateurs LLM
	- OpenAI (`picarones/llm/openai_adapter.py`) — GPT-4o, GPT-4o mini
	- Anthropic (`picarones/llm/anthropic_adapter.py`) — Claude Sonnet, Haiku
	- Mistral (`picarones/llm/mistral_adapter.py`) — Mistral Large, Pixtral
	- Détection de sur-normalisation LLM (`picarones/pipelines/over_normalization.py`)
	- Mesure du taux de modification sur des passages déjà corrects
	- Classe 10 dans la taxonomie des erreurs
	- Bibliothèque de prompts
	- Prompts pour manuscrits médiévaux, imprimés anciens, latin
	- Versionning des prompts dans les métadonnées du rapport
	- Vue spécifique OCR+LLM dans le rapport : diff triple GT / OCR brut / après correction

	### Tests
	- `tests/test_sprint3_llm_pipelines.py` : 100 tests
	- Total : 193 tests (anciennement 93)

	---

	## [0.2.0] — Sprint 2 — 2025-01

	### Ajouté
	- Rapport HTML interactif (`picarones/report/generator.py`)
	- Fichier HTML auto-contenu, lisible hors-ligne
	- Tableau de classement des concurrents (CER, WER, scores), tri par colonne
	- Graphique radar (spider chart) : CER / WER / Précision diacritiques / Ligatures
	- Vue Galerie : toutes les images avec badges CER colorés (vert→rouge), filtres
	- Vue Document : image zoomable + diff coloré façon GitHub, scroll synchronisé N-way
	- Vue Analyse : histogrammes de distribution CER, scatter plots
	- Recommandation automatique de moteur
	- Exports CSV, JSON, ALTO XML depuis le rapport
	- Diff coloré (`picarones/report/diff_utils.py`)
	- Diff au niveau caractère et mot
	- Insertions (vert), suppressions (rouge), substitutions (orange)
	- Bascule diplomatique / normalisé
	- `picarones demo` — rapport de démonstration avec données fictives réalistes
	- `picarones report --results results.json` — génère le HTML depuis un JSON existant
	- `picarones/fixtures.py` — générateur de benchmarks fictifs (12 textes médiévaux, 4 concurrents)

	### Tests
	- `tests/test_report.py`, `tests/test_diff_utils.py` : 93 tests
	- Total : 93 tests (anciennement 20)

	---

	## [0.1.0] — Sprint 1 — 2025-01

	### Ajouté
	- Structure complète du projet Python avec `pyproject.toml`, `setup`, packaging
	- Adaptateur Tesseract 5 (`picarones/engines/tesseract.py`) via `pytesseract`
	- Configuration lang, PSM, DPI
	- Récupération de la version
	- Adaptateur Pero OCR (`picarones/engines/pero_ocr.py`)
	- Chargement de modèle, traitement d'image
	- Interface abstraite `BaseOCREngine` avec `process_image()`, `get_version()`, propriétés
	- Calcul CER et WER (`picarones/core/metrics.py`) via `jiwer`
	- CER brut, NFC, caseless
	- WER, WER normalisé, MER, WIL
	- Longueurs de référence et hypothèse
	- Chargement de corpus (`picarones/core/corpus.py`)
	- Dossier local : paires image / `.gt.txt`
	- Détection automatique des extensions image (jpg, png, tif, bmp…)
	- Classe `Corpus`, `Document`
	- Export JSON (`picarones/core/results.py`)
	- `BenchmarkResult`, `EngineReport`, `DocumentResult`
	- `ranking()` : classement par CER moyen
	- `to_json()` avec horodatage et métadonnées
	- Orchestrateur benchmark (`picarones/core/runner.py`)
	- Traitement séquentiel des documents par moteur
	- Barre de progression `tqdm`
	- Cache des sorties par hash SHA-256
	- CLI Click (`picarones/cli.py`)
	- `picarones run` — benchmark complet
	- `picarones metrics` — CER/WER entre deux fichiers
	- `picarones engines` — liste des moteurs avec statut
	- `picarones info` — version et dépendances
	- `--fail-if-cer-above` pour intégration CI/CD

	### Tests
	- `tests/test_metrics.py`, `test_corpus.py`, `test_engines.py`, `test_results.py` : 20 tests