rag-books-mcp / README.md
gusdelact's picture
Upload folder using huggingface_hub
738eae1 verified
|
Raw
History Blame Contribute Delete
3.72 kB

A newer version of the Gradio SDK is available: 6.19.0

Upgrade
metadata
title: RAG Books MCP (ESL+ISLP+FES+PDSH+R4DS)
emoji: 📖
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: 5.50.0
app_file: app.py
pinned: false
license: apache-2.0
short_description: MCP RAG sobre 5 libros de Statistical Learning.
tags:
  - mcp-server-track
  - rag
  - statistical-learning
  - chromadb
  - educational

📖 RAG Books MCP — ESL + ISLP + FES + PDSH + R4DS

Servidor MCP (Model Context Protocol) que expone búsqueda semántica sobre cinco libros de referencia de Statistical Learning, Data Science y Data Wrangling, accesible tanto por interfaz web como por clientes MCP (Kiro, Claude Desktop, Cursor, etc.).

Libro Autores Rol
ESLThe Elements of Statistical Learning Hastie, Tibshirani, Friedman Teoría rigurosa
ISLPAn Introduction to Statistical Learning with Python James, Witten, Hastie, Tibshirani Teoría intuitiva con Python
FESFeature Engineering and Selection Kuhn, Johnson Heurísticas de FE
PDSHPython Data Science Handbook VanderPlas Implementación Python
R4DSR for Data Science, 2nd Ed. Wickham, Çetinkaya-Rundel, Grolemund EDA iterativo y data wrangling

ℹ️ R4DS y la cláusula NoDerivativesR for Data Science está bajo licencia CC BY-NC-ND 3.0 US. Está incluido en este Space para uso académico con atribución explícita. Si los autores o el editor consideran que excede su política, abre un issue en el repo del MCP server y se retirará en menos de 24 h. Detalles en el DATA_CARD del dataset v2.

⚠️ R4DS está escrito en R/tidyverse, no en Python. El valor de su indexación son los principios de EDA y data wrangling que se traducen 1-a-1 a pandas/seaborn. Cualquier cliente MCP debe presentar el código en el lenguaje del usuario, nunca copiar R como solución.

v1 vs v2

  • v1 (este Space): la base ChromaDB se empaqueta dentro del Space (~95 MB de archivos en el repo). Más simple de operar.
  • v2: la base ChromaDB vive en un dataset HF independiente (gusdelact/rag-esl-islp-chromadb) y el Space la descarga al primer uso. Permite re-ingestar sin redeploy. Ver Space v2.

Endpoint MCP

https://<usuario>-<space-name>.hf.space/gradio_api/mcp/

Conexión desde un cliente MCP

{
  "mcpServers": {
    "rag-books-mcp": {
      "url": "https://<usuario>-<space-name>.hf.space/gradio_api/mcp/"
    }
  }
}

Si tu cliente MCP no soporta streamable HTTP nativo, usa mcp-remote como puente:

{
  "mcpServers": {
    "rag-books-mcp": {
      "command": "npx",
      "args": [
        "mcp-remote",
        "https://<usuario>-<space-name>.hf.space/gradio_api/mcp/"
      ]
    }
  }
}

Tools

Tool Descripción
search_theory(query, book, top_k) Búsqueda semántica en los 5 libros (filtrable por libro).
get_section(book, chapter, section, max_chunks) Sección específica por referencia.
cite_foundation(topic, detail_level) Fundamentación teórica multi-libro.
list_available_topics() Lista capítulos y secciones indexados.

Stack

  • Embeddings: sentence-transformers/all-MiniLM-L6-v2 (local, sin API key)
  • Vector store: ChromaDB persistente, 3689 chunks publicados (1093 ESL + 884 ISLP + 465 FES + 563 PDSH + 684 R4DS).
  • UI / MCP: Gradio con mcp_server=True

Repositorio

Código fuente y variante stdio (Git/local): ver el repo del autor.