Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Running

Claude commited on Mar 11

Commit

cecde1f

unverified ·

1 Parent(s): 1c939df

chore: remplacer toutes les références bnf/picarones par maribakulj/Picarones

- pyproject.toml : auteur → maribakulj, toutes les URLs du projet
- README.md, INSTALL.md, Dockerfile, CHANGELOG.md, SPECS.md : URLs GitHub et mentions institution
- importers (gallica, iiif, htr_united, huggingface, escriptorium) : User-Agent, institution, données d'exemple
- fixtures.py, cli.py, history.py : corpus/institution dans données de démo
- tests : noms de projets et institutions dans les jeux de données de test

Les URLs externes réelles (gallica.bnf.fr) et la terminologie technique (SRU) sont conservées.

https://claude.ai/code/session_017gXea9mxBQqDTAsSQd7aAq

Files changed (17) hide show

CHANGELOG.md +1 -1
Dockerfile +1 -1
INSTALL.md +3 -3
README.md +3 -3
SPECS.md +1 -1
picarones/cli.py +1 -1
picarones/core/history.py +1 -1
picarones/fixtures.py +4 -4
picarones/importers/escriptorium.py +1 -1
picarones/importers/gallica.py +1 -1
picarones/importers/htr_united.py +2 -2
picarones/importers/huggingface.py +3 -3
picarones/importers/iiif.py +1 -1
pyproject.toml +6 -6
tests/test_sprint6_web_interface.py +1 -1
tests/test_sprint8_escriptorium_gallica.py +2 -2
tests/test_sprint8_longitudinal_robustness.py +1 -1

CHANGELOG.md CHANGED Viewed

@@ -38,7 +38,7 @@ La numérotation de version suit [Semantic Versioning](https://semver.org/lang/f
   - `export_benchmark_as_layer()` : export des résultats benchmark comme couche OCR nommée dans eScriptorium
   - `connect_escriptorium()` : connexion avec validation automatique
 - **Gallica API** (`picarones/importers/gallica.py`)
-  - `GallicaClient` : recherche SRU BnF par cote/titre/auteur/date/langue/type
   - Récupération OCR Gallica texte brut (`f{n}.texteBrut`)
   - Import IIIF Gallica avec enrichissement OCR comme vérité terrain de référence
   - Métadonnées OAI-PMH (`/services/OAIRecord`)

   - `export_benchmark_as_layer()` : export des résultats benchmark comme couche OCR nommée dans eScriptorium
   - `connect_escriptorium()` : connexion avec validation automatique
 - **Gallica API** (`picarones/importers/gallica.py`)
+  - `GallicaClient` : recherche SRU par cote/titre/auteur/date/langue/type
   - Récupération OCR Gallica texte brut (`f{n}.texteBrut`)
   - Import IIIF Gallica avec enrichissement OCR comme vérité terrain de référence
   - Métadonnées OAI-PMH (`/services/OAIRecord`)

Dockerfile CHANGED Viewed

@@ -44,7 +44,7 @@ FROM python:3.11-slim AS runtime
 LABEL description="Picarones — Plateforme de comparaison de moteurs OCR pour documents patrimoniaux"
 LABEL version="1.0.0"
-LABEL org.opencontainers.image.source="https://github.com/bnf/picarones"
 LABEL org.opencontainers.image.licenses="Apache-2.0"
 WORKDIR /app

 LABEL description="Picarones — Plateforme de comparaison de moteurs OCR pour documents patrimoniaux"
 LABEL version="1.0.0"
+LABEL org.opencontainers.image.source="https://github.com/maribakulj/Picarones"
 LABEL org.opencontainers.image.licenses="Apache-2.0"
 WORKDIR /app

INSTALL.md CHANGED Viewed

@@ -67,7 +67,7 @@ tesseract --list-langs
 ### 2.3 Picarones
 ```bash
-git clone https://github.com/bnf/picarones.git
 cd picarones
 # Créer un environnement virtuel (recommandé)
@@ -121,7 +121,7 @@ brew install tesseract-lang   # Installe tous les modèles
 ### 3.3 Picarones
 ```bash
-git clone https://github.com/bnf/picarones.git
 cd picarones
 python3.11 -m venv .venv
@@ -176,7 +176,7 @@ Télécharger depuis [git-scm.com](https://git-scm.com/download/win) et installe
 ### 4.4 Picarones
 ```powershell
-git clone https://github.com/bnf/picarones.git
 cd picarones
 python -m venv .venv

 ### 2.3 Picarones
 ```bash
+git clone https://github.com/maribakulj/Picarones.git
 cd picarones
 # Créer un environnement virtuel (recommandé)
 ### 3.3 Picarones
 ```bash
+git clone https://github.com/maribakulj/Picarones.git
 cd picarones
 python3.11 -m venv .venv
 ### 4.4 Picarones
 ```powershell
+git clone https://github.com/maribakulj/Picarones.git
 cd picarones
 python -m venv .venv

README.md CHANGED Viewed

@@ -12,7 +12,7 @@ pinned: false
 > **Plateforme de comparaison de moteurs OCR/HTR pour documents patrimoniaux**
 Apache 2.0
-[![CI](https://github.com/bnf/picarones/actions/workflows/ci.yml/badge.svg)](https://github.com/bnf/picarones/actions/workflows/ci.yml)
 [![Python 3.11+](https://img.shields.io/badge/python-3.11+-blue.svg)](https://www.python.org/downloads/)
 [![License: Apache 2.0](https://img.shields.io/badge/License-Apache%202.0-green.svg)](LICENSE)
@@ -67,7 +67,7 @@ documents historiques (manuscrits, imprimés anciens, archives).
 |--------|----------|
 | Dossier local | `picarones run --corpus ./corpus/` |
 | IIIF (Gallica, Bodleian, BL…) | `picarones import iiif <url>` |
-| Gallica (API BnF + OCR) | `GallicaClient` / `picarones import iiif` |
 | HuggingFace Datasets | `picarones import hf <dataset>` |
 | HTR-United | `picarones import htr-united` |
 | eScriptorium | `EScriptoriumClient` |
@@ -96,7 +96,7 @@ documents historiques (manuscrits, imprimés anciens, archives).
 ```bash
 # Cloner et installer
-git clone https://github.com/bnf/picarones.git
 cd picarones
 pip install -e .

 > **Plateforme de comparaison de moteurs OCR/HTR pour documents patrimoniaux**
 Apache 2.0
+[![CI](https://github.com/maribakulj/Picarones/actions/workflows/ci.yml/badge.svg)](https://github.com/maribakulj/Picarones/actions/workflows/ci.yml)
 [![Python 3.11+](https://img.shields.io/badge/python-3.11+-blue.svg)](https://www.python.org/downloads/)
 [![License: Apache 2.0](https://img.shields.io/badge/License-Apache%202.0-green.svg)](LICENSE)
 |--------|----------|
 | Dossier local | `picarones run --corpus ./corpus/` |
 | IIIF (Gallica, Bodleian, BL…) | `picarones import iiif <url>` |
+| Gallica (API SRU + OCR) | `GallicaClient` / `picarones import iiif` |
 | HuggingFace Datasets | `picarones import hf <dataset>` |
 | HTR-United | `picarones import htr-united` |
 | eScriptorium | `EScriptoriumClient` |
 ```bash
 # Cloner et installer
+git clone https://github.com/maribakulj/Picarones.git
 cd picarones
 pip install -e .

SPECS.md CHANGED Viewed

@@ -621,7 +621,7 @@ Risque spécifique aux pipelines OCR+LLM : le LLM "corrige" à tort des graphies
 | **Sprint 6** | 1-2 sem. | Interface web FastAPI, import HTR-United / HuggingFace, profils de normalisation, Ollama (LLMs locaux) |
 | **Sprint 7** | 1-2 sem. | Rapport HTML v2 : vue Caractères, scatter plots, heatmaps, clustering |
 | **Sprint 8** | 2 sem. | Intégration eScriptorium et Gallica API, suivi longitudinal, analyse de robustesse, prompts bibliothèque |
-| **Sprint 9+** | Continu | Tests utilisateurs BnF, documentation, packaging Docker, CI/CD, publication open-source |
 ---

 | **Sprint 6** | 1-2 sem. | Interface web FastAPI, import HTR-United / HuggingFace, profils de normalisation, Ollama (LLMs locaux) |
 | **Sprint 7** | 1-2 sem. | Rapport HTML v2 : vue Caractères, scatter plots, heatmaps, clustering |
 | **Sprint 8** | 2 sem. | Intégration eScriptorium et Gallica API, suivi longitudinal, analyse de robustesse, prompts bibliothèque |
+| **Sprint 9+** | Continu | Tests utilisateurs, documentation, packaging Docker, CI/CD, publication open-source |
 ---

picarones/cli.py CHANGED Viewed

@@ -709,7 +709,7 @@ def history_cmd(
     \b
     Exemples :
         picarones history
-        picarones history --engine tesseract --corpus "Chroniques BnF"
         picarones history --regression --regression-threshold 0.02
         picarones history --demo   # données fictives de démonstration
         picarones history --export-json historique.json

     \b
     Exemples :
         picarones history
+        picarones history --engine tesseract --corpus "Chroniques médiévales"
         picarones history --regression --regression-threshold 0.02
         picarones history --demo   # données fictives de démonstration
         picarones history --export-json historique.json

picarones/core/history.py CHANGED Viewed

@@ -565,7 +565,7 @@ def generate_demo_history(
     rng = random.Random(seed)
     engines = ["tesseract", "pero_ocr", "ancien_moteur"]
-    corpus = "Chroniques médiévales BnF"
     # Trajectoires de CER simulées (amélioration progressive + bruit)
     base_cers = {

     rng = random.Random(seed)
     engines = ["tesseract", "pero_ocr", "ancien_moteur"]
+    corpus = "Chroniques médiévales"
     # Trajectoires de CER simulées (amélioration progressive + bruit)
     base_cers = {

picarones/fixtures.py CHANGED Viewed

@@ -30,7 +30,7 @@ from picarones.core.line_metrics import compute_line_metrics, aggregate_line_met
 from picarones.core.hallucination import compute_hallucination_metrics, aggregate_hallucination_metrics
 # ---------------------------------------------------------------------------
-# Textes GT réalistes (documents patrimoniaux BnF)
 # ---------------------------------------------------------------------------
 _GT_TEXTS = [
@@ -137,7 +137,7 @@ def _vlm_hallucinations(text: str, rng: random.Random) -> str:
         "Ledit document fut enregistré au greffe le lendemain.",
         "Signé et paraphé par le notaire royal en présence de témoins.",
         "Archives nationales, cote F/7/1234, pièce n° 42.",
-        "Transcription réalisée d'après l'original conservé à la BnF.",
         "Le présent acte a été lu et approuvé par toutes les parties.",
         "En foi de quoi nous avons apposé notre sceau et notre signature.",
         "Registre des délibérations du Parlement de Paris, tome III.",
@@ -493,7 +493,7 @@ def generate_sample_benchmark(
         engine_reports.append(report)
     bm = BenchmarkResult(
-        corpus_name="Corpus de test — Chroniques médiévales BnF",
         corpus_source="/corpus/chroniques/",
         document_count=n_docs,
         engine_reports=engine_reports,
@@ -501,7 +501,7 @@ def generate_sample_benchmark(
             "description": "Données de démonstration générées par picarones.fixtures",
             "script": "gothique textura",
             "langue": "Français médiéval (XIVe-XVe siècle)",
-            "institution": "BnF — Département des manuscrits",
         },
     )

 from picarones.core.hallucination import compute_hallucination_metrics, aggregate_hallucination_metrics
 # ---------------------------------------------------------------------------
+# Textes GT réalistes (documents patrimoniaux)
 # ---------------------------------------------------------------------------
 _GT_TEXTS = [
         "Ledit document fut enregistré au greffe le lendemain.",
         "Signé et paraphé par le notaire royal en présence de témoins.",
         "Archives nationales, cote F/7/1234, pièce n° 42.",
+        "Transcription réalisée d'après l'original conservé aux archives.",
         "Le présent acte a été lu et approuvé par toutes les parties.",
         "En foi de quoi nous avons apposé notre sceau et notre signature.",
         "Registre des délibérations du Parlement de Paris, tome III.",
         engine_reports.append(report)
     bm = BenchmarkResult(
+        corpus_name="Corpus de test — Chroniques médiévales",
         corpus_source="/corpus/chroniques/",
         document_count=n_docs,
         engine_reports=engine_reports,
             "description": "Données de démonstration générées par picarones.fixtures",
             "script": "gothique textura",
             "langue": "Français médiéval (XIVe-XVe siècle)",
+            "institution": "Département des manuscrits",
         },
     )

picarones/importers/escriptorium.py CHANGED Viewed

@@ -102,7 +102,7 @@ class EScriptoriumClient:
     Parameters
     ----------
     base_url:
-        URL racine de l'instance (ex : ``"https://escriptorium.bnf.fr"``).
     token:
         Token d'authentification API (depuis Settings > API dans eScriptorium).
     timeout:

     Parameters
     ----------
     base_url:
+        URL racine de l'instance (ex : ``"https://escriptorium.example.org"``).
     token:
         Token d'authentification API (depuis Settings > API dans eScriptorium).
     timeout:

picarones/importers/gallica.py CHANGED Viewed

@@ -128,7 +128,7 @@ class GallicaClient:
         """Télécharge le contenu d'une URL."""
         req = urllib.request.Request(
             url,
-            headers={"User-Agent": "Picarones/1.0 (BnF; research tool)"},
         )
         try:
             with urllib.request.urlopen(req, timeout=self.timeout) as resp:

         """Télécharge le contenu d'une URL."""
         req = urllib.request.Request(
             url,
+            headers={"User-Agent": "Picarones/1.0 (research tool)"},
         )
         try:
             with urllib.request.urlopen(req, timeout=self.timeout) as resp:

picarones/importers/htr_united.py CHANGED Viewed

@@ -62,7 +62,7 @@ _DEMO_CATALOGUE: list[dict] = [
         "language": ["Latin", "French"],
         "script": ["Gothic"],
         "century": [13, 14, 15],
-        "institution": "IRHT / BnF",
         "description": "Manuscrits médiévaux latins et français, XIIIe-XVe siècles.",
         "license": "CC-BY 4.0",
         "lines": 8700,
@@ -104,7 +104,7 @@ _DEMO_CATALOGUE: list[dict] = [
         "language": ["French"],
         "script": ["Roman"],
         "century": [19],
-        "institution": "BnF",
         "description": "Numérisations de journaux du XIXe siècle (Gallica).",
         "license": "etalab-2.0",
         "lines": 31000,

         "language": ["Latin", "French"],
         "script": ["Gothic"],
         "century": [13, 14, 15],
+        "institution": "IRHT",
         "description": "Manuscrits médiévaux latins et français, XIIIe-XVe siècles.",
         "license": "CC-BY 4.0",
         "lines": 8700,
         "language": ["French"],
         "script": ["Roman"],
         "century": [19],
+        "institution": "Gallica",
         "description": "Numérisations de journaux du XIXe siècle (Gallica).",
         "license": "etalab-2.0",
         "lines": 31000,

picarones/importers/huggingface.py CHANGED Viewed

@@ -106,14 +106,14 @@ _REFERENCE_DATASETS: list[dict] = [
     },
     {
         "dataset_id": "bnf-gallica/gallica-ocr",
-        "title": "Gallica OCR — BnF",
         "description": "Extraits d'imprimés anciens numérisés depuis Gallica avec vérité terrain.",
         "language": ["French", "Latin"],
-        "tags": ["ocr", "historical", "printed", "gallica", "bnf", "french"],
         "license": "etalab-2.0",
         "size_category": "10K<n<100K",
         "task": "image-to-text",
-        "institution": "Bibliothèque nationale de France",
         "downloads": 2800,
     },
     {

     },
     {
         "dataset_id": "bnf-gallica/gallica-ocr",
+        "title": "Gallica OCR",
         "description": "Extraits d'imprimés anciens numérisés depuis Gallica avec vérité terrain.",
         "language": ["French", "Latin"],
+        "tags": ["ocr", "historical", "printed", "gallica", "french"],
         "license": "etalab-2.0",
         "size_category": "10K<n<100K",
         "task": "image-to-text",
+        "institution": "Gallica",
         "downloads": 2800,
     },
     {

picarones/importers/iiif.py CHANGED Viewed

@@ -315,7 +315,7 @@ def _download_url(
 ) -> bytes:
     """Télécharge une URL avec retry exponentiel."""
     headers = {
-        "User-Agent": "Picarones/1.0 (BnF OCR benchmark platform; https://github.com/bnf/picarones)"
     }
     last_exc: Optional[Exception] = None
     for attempt in range(retries):

 ) -> bytes:
     """Télécharge une URL avec retry exponentiel."""
     headers = {
+        "User-Agent": "Picarones/1.0 (OCR benchmark platform; https://github.com/maribakulj/Picarones)"
     }
     last_exc: Optional[Exception] = None
     for attempt in range(retries):

pyproject.toml CHANGED Viewed

@@ -9,7 +9,7 @@ description = "Plateforme de comparaison de moteurs OCR/HTR pour documents patri
 readme = "README.md"
 requires-python = ">=3.11"
 license = { text = "Apache-2.0" }
-authors = [{ name = "Bibliothèque nationale de France — Département numérique" }]
 keywords = ["ocr", "htr", "patrimoine", "benchmark", "cer", "wer", "gallica", "escriptorium", "iiif"]
 classifiers = [
     "Development Status :: 5 - Production/Stable",
@@ -36,11 +36,11 @@ dependencies = [
 ]
 [project.urls]
-Homepage = "https://github.com/bnf/picarones"
-Documentation = "https://github.com/bnf/picarones/blob/main/INSTALL.md"
-Repository = "https://github.com/bnf/picarones"
-Changelog = "https://github.com/bnf/picarones/blob/main/CHANGELOG.md"
-"Bug Tracker" = "https://github.com/bnf/picarones/issues"
 [project.optional-dependencies]
 # Développement et tests

 readme = "README.md"
 requires-python = ">=3.11"
 license = { text = "Apache-2.0" }
+authors = [{ name = "maribakulj" }]
 keywords = ["ocr", "htr", "patrimoine", "benchmark", "cer", "wer", "gallica", "escriptorium", "iiif"]
 classifiers = [
     "Development Status :: 5 - Production/Stable",
 ]
 [project.urls]
+Homepage = "https://github.com/maribakulj/Picarones"
+Documentation = "https://github.com/maribakulj/Picarones/blob/main/INSTALL.md"
+Repository = "https://github.com/maribakulj/Picarones"
+Changelog = "https://github.com/maribakulj/Picarones/blob/main/CHANGELOG.md"
+"Bug Tracker" = "https://github.com/maribakulj/Picarones/issues"
 [project.optional-dependencies]
 # Développement et tests

tests/test_sprint6_web_interface.py CHANGED Viewed

@@ -81,7 +81,7 @@ class TestHTRUnitedEntry:
         d = {
             "id": "test-corpus", "title": "Test Corpus", "url": "https://github.com/test/corpus",
             "language": ["French"], "script": ["Gothic"], "century": [14, 15],
-            "institution": "BnF", "description": "Un corpus de test.", "license": "CC-BY 4.0",
             "lines": 5000, "format": "ALTO", "tags": ["test", "médiéval"],
         }
         e = HTRUnitedEntry.from_dict(d)

         d = {
             "id": "test-corpus", "title": "Test Corpus", "url": "https://github.com/test/corpus",
             "language": ["French"], "script": ["Gothic"], "century": [14, 15],
+            "institution": "Test Org", "description": "Un corpus de test.", "license": "CC-BY 4.0",
             "lines": 5000, "format": "ALTO", "tags": ["test", "médiéval"],
         }
         e = HTRUnitedEntry.from_dict(d)

tests/test_sprint8_escriptorium_gallica.py CHANGED Viewed

@@ -79,7 +79,7 @@ class TestEScriptoriumClient:
         from picarones.importers.escriptorium import EScriptoriumClient, EScriptoriumProject
         client = EScriptoriumClient("https://example.org", token="tok")
         mock_data = [
-            {"pk": 1, "name": "Projet BnF", "slug": "projet-bnf",
              "owner": {"username": "user1"}, "documents_count": 5},
         ]
         with patch.object(client, "_paginate", return_value=mock_data):
@@ -87,7 +87,7 @@ class TestEScriptoriumClient:
             assert len(projects) == 1
             assert isinstance(projects[0], EScriptoriumProject)
             assert projects[0].pk == 1
-            assert projects[0].name == "Projet BnF"
             assert projects[0].document_count == 5
     def test_list_documents_with_project_filter(self):

         from picarones.importers.escriptorium import EScriptoriumClient, EScriptoriumProject
         client = EScriptoriumClient("https://example.org", token="tok")
         mock_data = [
+            {"pk": 1, "name": "Projet Test", "slug": "projet-test",
              "owner": {"username": "user1"}, "documents_count": 5},
         ]
         with patch.object(client, "_paginate", return_value=mock_data):
             assert len(projects) == 1
             assert isinstance(projects[0], EScriptoriumProject)
             assert projects[0].pk == 1
+            assert projects[0].name == "Projet Test"
             assert projects[0].document_count == 5
     def test_list_documents_with_project_filter(self):

tests/test_sprint8_longitudinal_robustness.py CHANGED Viewed

@@ -43,7 +43,7 @@ class TestBenchmarkHistory:
     def test_record_single(self, db):
         db.record_single(
             run_id="run001",
-            corpus_name="BnF Test",
             engine_name="tesseract",
             cer_mean=0.12,
             wer_mean=0.20,

     def test_record_single(self, db):
         db.record_single(
             run_id="run001",
+            corpus_name="Corpus Test",
             engine_name="tesseract",
             cer_mean=0.12,
             wer_mean=0.20,