gusdelact commited on
Commit
09bc219
·
verified ·
1 Parent(s): 55d52e5

Upload folder using huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +23 -16
README.md CHANGED
@@ -1,5 +1,5 @@
1
  ---
2
- title: RAG Books MCP v2 (ESL + ISLP + FES + PDSH)
3
  emoji: 📖
4
  colorFrom: indigo
5
  colorTo: purple
@@ -8,19 +8,20 @@ sdk_version: 5.50.0
8
  app_file: app.py
9
  pinned: false
10
  license: apache-2.0
11
- short_description: MCP v2 RAG ESL+ISLP+FES+PDSH. ChromaDB desde dataset HF.
12
  tags:
13
  - mcp-server-track
14
  - rag
15
  - statistical-learning
16
  - chromadb
 
17
  ---
18
 
19
- # 📖 RAG Books MCP v2 — ESL + ISLP + FES + PDSH
20
 
21
- Servidor MCP que expone búsqueda semántica sobre cuatro libros de referencia
22
- de Statistical Learning y Data Science, accesible por UI web y por clientes
23
- MCP (Kiro, Claude Desktop, Cursor, etc.).
24
 
25
  | Libro | Autores | Rol |
26
  |---|---|---|
@@ -28,15 +29,21 @@ MCP (Kiro, Claude Desktop, Cursor, etc.).
28
  | **ISLP** — *An Introduction to Statistical Learning with Python* | James, Witten, Hastie, Tibshirani | Teoría intuitiva con Python |
29
  | **FES** — *Feature Engineering and Selection* | Kuhn, Johnson | Heurísticas de FE |
30
  | **PDSH** — *Python Data Science Handbook* | VanderPlas | Implementación Python |
 
31
 
32
- > ℹ️ **Sobre R4DS** — *R for Data Science, 2nd Ed.* (Wickham, Çetinkaya-Rundel,
33
- > Grolemund) está indexado en la **variante local** del server pero **NO en
34
- > este Space**. La razón es su licencia CC BY-NC-ND 3.0 US (NoDerivatives),
35
- > incompatible con redistribución pública en formato vectorial. Para usar R4DS,
36
- > ejecuta el server localmente con `RAG_CHROMA_DIR` apuntando a tu propio
37
- > `chroma_db/` con R4DS indexado. Detalles y procedimiento en el
38
  > [DATA_CARD del dataset](https://huggingface.co/datasets/gusdelact/rag-esl-islp-chromadb).
39
 
 
 
 
 
 
 
40
  ## v1 vs v2
41
 
42
  - **v1:** la base ChromaDB se empaqueta dentro del Space.
@@ -73,16 +80,16 @@ https://<usuario>-<space-name>.hf.space/gradio_api/mcp/
73
  | Variable | Default | Descripción |
74
  |---|---|---|
75
  | `RAG_CHROMA_DATASET` | `gusdelact/rag-esl-islp-chromadb` | Repo del dataset con la base ChromaDB. |
76
- | `RAG_CHROMA_REVISION` | `main` | Revision (branch/tag/commit) a descargar. Recomendado pinear a un tag (ej. `v2.1.0`). |
77
  | `RAG_CHROMA_CACHE_DIR` | `/data/chroma_db` (si existe `/data`) o `~/.cache/...` | Cache local de la descarga. |
78
- | `RAG_CHROMA_DIR` | — | Si está set y la carpeta existe, omite el download. **Único modo en el que R4DS está disponible** (cuando indexas localmente con `r4ds_chapters`). |
79
  | `HF_TOKEN` | — | Solo si el dataset es privado. |
80
 
81
  ## Tools
82
 
83
  | Tool | Descripción |
84
  |------|-------------|
85
- | `search_theory(query, book, top_k)` | Búsqueda semántica en los libros disponibles. `book ∈ {esl, islp, fes, pdsh, both, all}`. En modo local también `r4ds`. |
86
  | `get_section(book, chapter, section, max_chunks)` | Sección específica por referencia. |
87
  | `cite_foundation(topic, detail_level)` | Fundamentación teórica multi-libro. |
88
  | `list_available_topics()` | Lista capítulos y secciones indexados. |
@@ -92,4 +99,4 @@ https://<usuario>-<space-name>.hf.space/gradio_api/mcp/
92
  - **Embeddings:** `sentence-transformers/all-MiniLM-L6-v2` (local, sin API key).
93
  - **Vector store:** ChromaDB descargado de HF Hub.
94
  - **UI / MCP:** Gradio con `mcp_server=True`.
95
- - **Chunks publicados:** 3005 (1093 ESL + 884 ISLP + 465 FES + 563 PDSH).
 
1
  ---
2
+ title: RAG Books MCP v2 (ESL+ISLP+FES+PDSH+R4DS)
3
  emoji: 📖
4
  colorFrom: indigo
5
  colorTo: purple
 
8
  app_file: app.py
9
  pinned: false
10
  license: apache-2.0
11
+ short_description: MCP v2 RAG sobre 5 libros (uso académico).
12
  tags:
13
  - mcp-server-track
14
  - rag
15
  - statistical-learning
16
  - chromadb
17
+ - educational
18
  ---
19
 
20
+ # 📖 RAG Books MCP v2 — ESL + ISLP + FES + PDSH + R4DS
21
 
22
+ Servidor MCP que expone búsqueda semántica sobre cinco libros de referencia
23
+ de Statistical Learning, Data Science y Data Wrangling, accesible por UI web
24
+ y por clientes MCP (Kiro, Claude Desktop, Cursor, etc.).
25
 
26
  | Libro | Autores | Rol |
27
  |---|---|---|
 
29
  | **ISLP** — *An Introduction to Statistical Learning with Python* | James, Witten, Hastie, Tibshirani | Teoría intuitiva con Python |
30
  | **FES** — *Feature Engineering and Selection* | Kuhn, Johnson | Heurísticas de FE |
31
  | **PDSH** — *Python Data Science Handbook* | VanderPlas | Implementación Python |
32
+ | **R4DS** — *R for Data Science, 2nd Ed.* | Wickham, Çetinkaya-Rundel, Grolemund | EDA iterativo y data wrangling |
33
 
34
+ > ℹ️ **R4DS y la cláusula NoDerivatives** — *R for Data Science* está bajo
35
+ > licencia CC BY-NC-ND 3.0 US. Está incluido en este dataset únicamente para
36
+ > uso académico no comercial, con atribución explícita a sus autores. Si los
37
+ > autores o el editor (O'Reilly) consideran que excede su política, abre un
38
+ > issue y se retirará en menos de 24 h. Procedimiento y trazabilidad en el
 
39
  > [DATA_CARD del dataset](https://huggingface.co/datasets/gusdelact/rag-esl-islp-chromadb).
40
 
41
+ > ⚠️ **R4DS está escrito en R/tidyverse**, no en Python. El valor de su
42
+ > indexación son los principios de EDA (ciclo iterativo, qué mirar primero,
43
+ > heurísticas de variación/covariación) que se traducen 1-a-1 a pandas/seaborn.
44
+ > El cliente MCP debe presentar el código resultante en el lenguaje del
45
+ > usuario, no copiar R como solución.
46
+
47
  ## v1 vs v2
48
 
49
  - **v1:** la base ChromaDB se empaqueta dentro del Space.
 
80
  | Variable | Default | Descripción |
81
  |---|---|---|
82
  | `RAG_CHROMA_DATASET` | `gusdelact/rag-esl-islp-chromadb` | Repo del dataset con la base ChromaDB. |
83
+ | `RAG_CHROMA_REVISION` | `main` | Revision (branch/tag/commit) a descargar. Recomendado pinear a `v2.2.0`. Usa `v2.1.0` si quieres la versión sin R4DS. |
84
  | `RAG_CHROMA_CACHE_DIR` | `/data/chroma_db` (si existe `/data`) o `~/.cache/...` | Cache local de la descarga. |
85
+ | `RAG_CHROMA_DIR` | — | Si está set y la carpeta existe, omite el download. |
86
  | `HF_TOKEN` | — | Solo si el dataset es privado. |
87
 
88
  ## Tools
89
 
90
  | Tool | Descripción |
91
  |------|-------------|
92
+ | `search_theory(query, book, top_k)` | Búsqueda semántica en los 5 libros. `book ∈ {esl, islp, fes, pdsh, r4ds, both, all}`. |
93
  | `get_section(book, chapter, section, max_chunks)` | Sección específica por referencia. |
94
  | `cite_foundation(topic, detail_level)` | Fundamentación teórica multi-libro. |
95
  | `list_available_topics()` | Lista capítulos y secciones indexados. |
 
99
  - **Embeddings:** `sentence-transformers/all-MiniLM-L6-v2` (local, sin API key).
100
  - **Vector store:** ChromaDB descargado de HF Hub.
101
  - **UI / MCP:** Gradio con `mcp_server=True`.
102
+ - **Chunks publicados:** 3689 (1093 ESL + 884 ISLP + 465 FES + 563 PDSH + 684 R4DS).