Spaces:

DazaC
/

giragroup-bi-backend

Sleeping

App Files Files Community

Adzacam commited on 22 days ago

Commit

8d50119

1 Parent(s): e2dca95

feat: implement Jaro-Winkler fuzzy matching for student linking and add data quality diagnostic endpoint

Browse files

Files changed (2) hide show

app.py +181 -23
similarity.py +99 -0

app.py CHANGED Viewed

@@ -15,8 +15,11 @@ from database import (
     DimOrigenDocumental,
     Users,
     FactRendimientoAcademico,
 )
 from ner_engine import ner_engine
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -58,6 +61,11 @@ class ProcessSheetPayload(BaseModel):
     id_tiempo: int = Field(..., ge=1, le=9999)
     id_documento: int = Field(..., ge=1, le=9999)
     id_usuario: int = Field(..., ge=1, le=9999)
     @field_validator('texto_celda')
     @classmethod
@@ -70,6 +78,17 @@ class ProcessSheetPayload(BaseModel):
             raise ValueError('texto_celda no puede estar vacío después de sanitizar')
         return v
 @app.get("/")
 def read_root():
     return {
@@ -122,13 +141,31 @@ def procesar_registro_tabular(payload: ProcessSheetPayload, db: Session = Depend
         confianza_ia = sum([e["score"] for e in entidades]) / len(entidades) if entidades else 1.0
         forzar_revision = confianza_ia < 0.60
-        # 2. Dimensión Estudiante — strip + límite extra de seguridad
         nombre_resuelto = payload.texto_celda[:200].strip()
-        estudiante = db.query(DimEstudiante).filter(
-            DimEstudiante.nombre_completo == nombre_resuelto
-        ).first()
         if not estudiante:
-            estudiante = DimEstudiante(nombre_completo=nombre_resuelto)
             db.add(estudiante)
             db.flush()
@@ -144,9 +181,9 @@ def procesar_registro_tabular(payload: ProcessSheetPayload, db: Session = Depend
         if not db.query(DimModulo).filter(DimModulo.id_modulo == payload.id_modulo).first():
             db.add(DimModulo(
                 id_modulo=payload.id_modulo,
-                nombre_modulo="Modulo Generico",
-                nombre_institucion="GiraGroup",
-                programa="General"
             ))
         # 5. Dimensión Tiempo — columnas reales: gestion, semestre, mes
@@ -208,6 +245,8 @@ def procesar_registro_tabular(payload: ProcessSheetPayload, db: Session = Depend
             "status": "processed",
             "id_estudiante_asignado": estudiante.id_estudiante,
             "confianza_modelo_beto": round(confianza_ia, 4),
             "requiere_auditoria_humana": forzar_revision,
             "alertas_estrategicas": alertas_disparadas
         }
@@ -239,6 +278,34 @@ def analyze_nlp_only(payload: ProcessSheetPayload):
         "alertas_estrategicas": alertas_disparadas
     }
 from typing import List
 @app.post("/api/v1/ingesta/bulk", status_code=status.HTTP_201_CREATED)
@@ -256,16 +323,30 @@ def procesar_lote_tabular(payloads: List[ProcessSheetPayload], db: Session = Dep
             # Dimensiones
             nombre_resuelto = payload.texto_celda[:200].strip()
-            estudiante = db.query(DimEstudiante).filter(DimEstudiante.nombre_completo == nombre_resuelto).first()
             if not estudiante:
-                estudiante = DimEstudiante(nombre_completo=nombre_resuelto)
                 db.add(estudiante)
                 db.flush()
             if not db.query(DimDocente).filter(DimDocente.id_docente == payload.id_docente).first():
                 db.add(DimDocente(id_docente=payload.id_docente, nombre_completo="Docente Generico", area_especialidad="Generico"))
             if not db.query(DimModulo).filter(DimModulo.id_modulo == payload.id_modulo).first():
-                db.add(DimModulo(id_modulo=payload.id_modulo, nombre_modulo="Modulo Generico", nombre_institucion="GiraGroup", programa="General"))
             if not db.query(DimTiempo).filter(DimTiempo.id_tiempo == payload.id_tiempo).first():
                 db.add(DimTiempo(id_tiempo=payload.id_tiempo, gestion=2026, semestre=1, mes="Mayo"))
             if not db.query(DimOrigenDocumental).filter(DimOrigenDocumental.id_documento == payload.id_documento).first():
@@ -308,25 +389,37 @@ def obtener_riesgos_cruzados(
     db: Session = Depends(get_db)
 ):
     try:
-        # Join implícito en el WHERE (filter): compatible sin relationship() en el ORM
-        resultados = db.query(DimEstudiante, FactRendimientoAcademico).\
-            filter(DimEstudiante.id_estudiante == FactRendimientoAcademico.id_estudiante).\
-            filter(FactRendimientoAcademico.nota_final <= limite_nota).\
-            all()
         data = []
-        for est, fact in resultados:
             data.append({
                 "estudiante": est.nombre_completo,
-                "codigo": f"EST-{est.id_estudiante:06d}",
                 "rendimiento": {
-                    "nota_actual": float(fact.nota_final),  # Casteo explícito: Decimal de Postgres → float JSON
                     "estado_academico": "CRÍTICO"
                 },
                 "finanzas": {
-                    "cuotas_mora": min_cuotas,
-                    "deuda_total": 350.0 * min_cuotas,
-                    "estado_cartera": "MORA"
                 },
                 "nivel_riesgo_global": "ALTO - CRÍTICO"
             })
@@ -335,4 +428,69 @@ def obtener_riesgos_cruzados(
     except Exception as e:
         logger.error(f"Fallo en OLAP: {e}")
         # Error crudo al frontend para diagnóstico exacto de PostgreSQL
-        raise HTTPException(status_code=500, detail=f"Error DB: {str(e)}")

     DimOrigenDocumental,
     Users,
     FactRendimientoAcademico,
+    FactSituacionFinanciera,
 )
 from ner_engine import ner_engine
+from similarity import find_best_match
+from typing import List, Optional
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
     id_tiempo: int = Field(..., ge=1, le=9999)
     id_documento: int = Field(..., ge=1, le=9999)
     id_usuario: int = Field(..., ge=1, le=9999)
+    codigo_estudiante: Optional[str] = None
+    programa: Optional[str] = None
+    modulo: Optional[str] = None
+    semestre: Optional[str] = None
+    institucion: Optional[str] = None
     @field_validator('texto_celda')
     @classmethod
             raise ValueError('texto_celda no puede estar vacío después de sanitizar')
         return v
+class ProcessSheetPayloadRaw(BaseModel):
+    texto_celda: str
+    nota_detectada: float
+    asistencia: float
+    incumplimiento_tareas: float
+    codigo_estudiante: Optional[str] = None
+    programa: Optional[str] = None
+    modulo: Optional[str] = None
+    semestre: Optional[str] = None
+    institucion: Optional[str] = None
 @app.get("/")
 def read_root():
     return {
         confianza_ia = sum([e["score"] for e in entidades]) / len(entidades) if entidades else 1.0
         forzar_revision = confianza_ia < 0.60
+        # 2. Dimensión Estudiante — Vinculación por Niveles
         nombre_resuelto = payload.texto_celda[:200].strip()
+        estudiante = None
+        confianza_vinculacion = 0.0
+        nivel_vinculacion = 0
+        # Nivel 1: ID Único
+        if payload.codigo_estudiante:
+            estudiante = db.query(DimEstudiante).filter(DimEstudiante.codigo_estudiante == payload.codigo_estudiante).first()
+            if estudiante:
+                confianza_vinculacion = 1.0
+                nivel_vinculacion = 1
         if not estudiante:
+            # Nivel 2 y 3: Fuzzy matching
+            estudiantes_existentes = db.query(DimEstudiante).all()
+            best_match, score = find_best_match(nombre_resuelto, estudiantes_existentes)
+            if best_match and score >= 0.80:
+                estudiante = best_match
+                confianza_vinculacion = score
+                nivel_vinculacion = 2 if payload.programa and payload.semestre else 3
+        if not estudiante:
+            estudiante = DimEstudiante(nombre_completo=nombre_resuelto, codigo_estudiante=payload.codigo_estudiante)
             db.add(estudiante)
             db.flush()
         if not db.query(DimModulo).filter(DimModulo.id_modulo == payload.id_modulo).first():
             db.add(DimModulo(
                 id_modulo=payload.id_modulo,
+                nombre_modulo=payload.modulo or "Modulo Generico",
+                nombre_institucion=payload.institucion or "GiraGroup",
+                programa=payload.programa or "General"
             ))
         # 5. Dimensión Tiempo — columnas reales: gestion, semestre, mes
             "status": "processed",
             "id_estudiante_asignado": estudiante.id_estudiante,
             "confianza_modelo_beto": round(confianza_ia, 4),
+            "confianza_vinculacion": round(confianza_vinculacion, 4),
+            "nivel_vinculacion": nivel_vinculacion,
             "requiere_auditoria_humana": forzar_revision,
             "alertas_estrategicas": alertas_disparadas
         }
         "alertas_estrategicas": alertas_disparadas
     }
+@app.post("/api/v1/nlp/quality-check")
+def nlp_quality_check(payload: ProcessSheetPayloadRaw):
+    """
+    Evalúa la calidad del dato sin aplicar clamping (diagnóstico en lugar de corrección silenciosa).
+    """
+    inconsistencias = []
+    if payload.nota_detectada > 100 or payload.nota_detectada < 0:
+        inconsistencias.append({"campo": "nota", "original": payload.nota_detectada, "corregido": max(0, min(100, payload.nota_detectada)), "tipo": "FUERA_RANGO"})
+    if payload.asistencia > 100 or payload.asistencia < 0:
+        inconsistencias.append({"campo": "asistencia", "original": payload.asistencia, "corregido": max(0, min(100, payload.asistencia)), "tipo": "FUERA_RANGO"})
+    if payload.incumplimiento_tareas > 100 or payload.incumplimiento_tareas < 0:
+        inconsistencias.append({"campo": "incumplimiento_tareas", "original": payload.incumplimiento_tareas, "corregido": max(0, min(100, payload.incumplimiento_tareas)), "tipo": "FUERA_RANGO"})
+    nombre_limpio = payload.texto_celda.strip()
+    if not nombre_limpio or nombre_limpio.lower() in ["sin nombre", "desconocido"]:
+        inconsistencias.append({"campo": "nombre", "original": payload.texto_celda, "corregido": "Estudiante (Sin Nombre)", "tipo": "NOMBRE_VACIO"})
+    elif len(nombre_limpio) < 3 or nombre_limpio.replace('.', '').replace(',', '').isdigit():
+        inconsistencias.append({"campo": "nombre", "original": payload.texto_celda, "corregido": nombre_limpio, "tipo": "NOMBRE_SOSPECHOSO"})
+    return {
+        "status": "checked",
+        "inconsistencias": inconsistencias,
+        "score_calidad": 1.0 if not inconsistencias else max(0.0, 1.0 - (len(inconsistencias) * 0.2))
+    }
 from typing import List
 @app.post("/api/v1/ingesta/bulk", status_code=status.HTTP_201_CREATED)
             # Dimensiones
             nombre_resuelto = payload.texto_celda[:200].strip()
+            estudiante = None
+            confianza_vinculacion = 0.0
+            if payload.codigo_estudiante:
+                estudiante = db.query(DimEstudiante).filter(DimEstudiante.codigo_estudiante == payload.codigo_estudiante).first()
+                if estudiante: confianza_vinculacion = 1.0
             if not estudiante:
+                # Fuzzy match optimization (in bulk it can be slow, but okay for MVP)
+                estudiantes_existentes = db.query(DimEstudiante).all()
+                best_match, score = find_best_match(nombre_resuelto, estudiantes_existentes)
+                if best_match and score >= 0.80:
+                    estudiante = best_match
+                    confianza_vinculacion = score
+            if not estudiante:
+                estudiante = DimEstudiante(nombre_completo=nombre_resuelto, codigo_estudiante=payload.codigo_estudiante)
                 db.add(estudiante)
                 db.flush()
             if not db.query(DimDocente).filter(DimDocente.id_docente == payload.id_docente).first():
                 db.add(DimDocente(id_docente=payload.id_docente, nombre_completo="Docente Generico", area_especialidad="Generico"))
             if not db.query(DimModulo).filter(DimModulo.id_modulo == payload.id_modulo).first():
+                db.add(DimModulo(id_modulo=payload.id_modulo, nombre_modulo=payload.modulo or "Modulo Generico", nombre_institucion=payload.institucion or "GiraGroup", programa=payload.programa or "General"))
             if not db.query(DimTiempo).filter(DimTiempo.id_tiempo == payload.id_tiempo).first():
                 db.add(DimTiempo(id_tiempo=payload.id_tiempo, gestion=2026, semestre=1, mes="Mayo"))
             if not db.query(DimOrigenDocumental).filter(DimOrigenDocumental.id_documento == payload.id_documento).first():
     db: Session = Depends(get_db)
 ):
     try:
+        # Hacer JOIN real con FactSituacionFinanciera (LEFT JOIN para no excluir si no hay finanzas)
+        resultados = db.query(
+            DimEstudiante,
+            FactRendimientoAcademico,
+            FactSituacionFinanciera
+        ).join(
+            FactRendimientoAcademico, DimEstudiante.id_estudiante == FactRendimientoAcademico.id_estudiante
+        ).outerjoin(
+            FactSituacionFinanciera, DimEstudiante.id_estudiante == FactSituacionFinanciera.id_estudiante
+        ).filter(FactRendimientoAcademico.nota_final <= limite_nota).all()
         data = []
+        for est, fact_aca, fact_fin in resultados:
+            cuotas = fact_fin.cuotas_impagas if fact_fin else min_cuotas
+            if cuotas < min_cuotas:
+                continue
+            deuda = float(fact_fin.monto_deuda) if fact_fin else 350.0 * cuotas
+            estado_cartera = fact_fin.estado_cartera if fact_fin else "MORA"
             data.append({
                 "estudiante": est.nombre_completo,
+                "codigo": est.codigo_estudiante or f"EST-{est.id_estudiante:06d}",
                 "rendimiento": {
+                    "nota_actual": float(fact_aca.nota_final),
                     "estado_academico": "CRÍTICO"
                 },
                 "finanzas": {
+                    "cuotas_mora": cuotas,
+                    "deuda_total": deuda,
+                    "estado_cartera": estado_cartera
                 },
                 "nivel_riesgo_global": "ALTO - CRÍTICO"
             })
     except Exception as e:
         logger.error(f"Fallo en OLAP: {e}")
         # Error crudo al frontend para diagnóstico exacto de PostgreSQL
+        raise HTTPException(status_code=500, detail=f"Error DB: {str(e)}")
+class FinancePayload(BaseModel):
+    id_estudiante: int
+    id_tiempo: int
+    monto_deuda: float
+    cuotas_impagas: int
+    estado_cartera: str
+    tipo_alerta: str
+@app.post("/api/v1/ingesta/financiera", status_code=status.HTTP_201_CREATED)
+def procesar_registro_financiero(payload: FinancePayload, db: Session = Depends(get_db)):
+    try:
+        nuevo_hecho = FactSituacionFinanciera(
+            id_estudiante=payload.id_estudiante,
+            id_tiempo=payload.id_tiempo,
+            monto_deuda=payload.monto_deuda,
+            cuotas_impagas=payload.cuotas_impagas,
+            estado_cartera=payload.estado_cartera,
+            tipo_alerta=payload.tipo_alerta
+        )
+        db.add(nuevo_hecho)
+        db.commit()
+        return {"status": "success", "inserted": True}
+    except Exception as e:
+        db.rollback()
+        raise HTTPException(status_code=500, detail=str(e))
+@app.get("/api/v1/dashboard/kpis")
+def get_dashboard_kpis(db: Session = Depends(get_db)):
+    try:
+        # Calcular KPIs desde la BD
+        from sqlalchemy import func
+        total_estudiantes = db.query(DimEstudiante).count()
+        total_documentos = db.query(DimOrigenDocumental).count()
+        # Rendimiento académico stats
+        stats_aca = db.query(
+            func.avg(FactRendimientoAcademico.nivel_confianza_ia).label('avg_conf'),
+            func.sum(func.cast(FactRendimientoAcademico.requiere_revision, db.bind.dialect.type_compiler.process(db.bind.dialect, type_=db.bind.dialect.type_compiler.type_dialect.Boolean))).label('auditorias')
+        ).first()
+        avg_conf = float(stats_aca.avg_conf) if stats_aca and stats_aca.avg_conf else 0.0
+        # auditorias could be None or something else depending on driver, simpler approach:
+        auditorias = db.query(FactRendimientoAcademico).filter(FactRendimientoAcademico.requiere_revision == True).count()
+        total_hechos = db.query(FactRendimientoAcademico).count()
+        pct_auditoria = (auditorias / total_hechos) if total_hechos > 0 else 0
+        calidad_data_score = 0.96 # Hardcode mock if not storing raw inconsistencies in DB, but could derive from auditorias
+        return {
+            "status": "success",
+            "kpis": {
+                "calidad_datos": round(1.0 - (pct_auditoria * 0.5), 2),
+                "registros_unificados": total_estudiantes,
+                "documentos_procesados": total_documentos,
+                "estudiantes_relacionados": round(1.0 - (total_estudiantes / total_hechos if total_hechos > 0 else 1.0), 2),
+                "casos_auditoria": round(pct_auditoria, 2),
+                "confianza_promedio": round(avg_conf, 2),
+                "total_hechos": total_hechos
+            }
+        }
+    except Exception as e:
+        logger.error(f"Fallo KPI: {e}")
+        raise HTTPException(status_code=500, detail=str(e))

similarity.py ADDED Viewed

	@@ -0,0 +1,99 @@

+import re
+import unicodedata
+def normalize_text(text: str) -> str:
+    if not text:
+        return ""
+    # Remove accents
+    text = ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn')
+    text = text.lower()
+    # Remove non-alphanumeric (keep spaces)
+    text = re.sub(r'[^a-z0-9\s]', '', text)
+    # Collapse spaces
+    text = re.sub(r'\s+', ' ', text).strip()
+    return text
+def jaro_winkler_similarity(s1: str, s2: str) -> float:
+    """
+    Pure Python implementation of Jaro-Winkler similarity.
+    Returns a float between 0.0 and 1.0.
+    """
+    s1 = normalize_text(s1)
+    s2 = normalize_text(s2)
+    if s1 == s2:
+        return 1.0
+    len1, len2 = len(s1), len(s2)
+    if len1 == 0 or len2 == 0:
+        return 0.0
+    match_distance = max(len1, len2) // 2 - 1
+    s1_matches = [False] * len1
+    s2_matches = [False] * len2
+    matches = 0
+    for i in range(len1):
+        start = max(0, i - match_distance)
+        end = min(i + match_distance + 1, len2)
+        for j in range(start, end):
+            if s2_matches[j]:
+                continue
+            if s1[i] == s2[j]:
+                s1_matches[i] = True
+                s2_matches[j] = True
+                matches += 1
+                break
+    if matches == 0:
+        return 0.0
+    t = 0
+    k = 0
+    for i in range(len1):
+        if s1_matches[i]:
+            while not s2_matches[k]:
+                k += 1
+            if s1[i] != s2[k]:
+                t += 1
+            k += 1
+    t /= 2.0
+    jaro = (matches / len1 + matches / len2 + (matches - t) / matches) / 3.0
+    # Winkler modification
+    prefix = 0
+    max_prefix = min(4, min(len1, len2))
+    for i in range(max_prefix):
+        if s1[i] == s2[i]:
+            prefix += 1
+        else:
+            break
+    # Standard Winkler weight is 0.1
+    jw = jaro + prefix * 0.1 * (1.0 - jaro)
+    return jw
+def find_best_match(target: str, candidates: list, threshold: float = 0.80):
+    """
+    Finds the best match for 'target' in 'candidates' (a list of dicts with 'name' and 'id' or object).
+    Returns (best_candidate, best_score) or (None, 0.0)
+    """
+    best_score = 0.0
+    best_candidate = None
+    for candidate in candidates:
+        # Assuming candidate is an object with 'nombre_completo' attribute
+        name = getattr(candidate, 'nombre_completo', None)
+        if not name:
+            continue
+        score = jaro_winkler_similarity(target, name)
+        if score > best_score:
+            best_score = score
+            best_candidate = candidate
+    if best_score >= threshold:
+        return best_candidate, best_score
+    return None, best_score