Spaces:

DazaC
/

giragroup-bi-backend

Sleeping

App Files Files Community

Adzacam commited on 23 days ago

Commit

68485d3

1 Parent(s): 5f553ce

feat: integrate MLOps memory lookup and fuzzy matching into nlp analysis endpoint

Browse files

Files changed (1) hide show

app.py +40 -3

app.py CHANGED Viewed

@@ -342,15 +342,48 @@ def procesar_registro_tabular(payload: ProcessSheetPayload, db: Session = Depend
         raise HTTPException(status_code=500, detail=str(err))
 @app.post("/api/v1/nlp/analyze")
-def analyze_nlp_only(payload: ProcessSheetPayload):
     """
     Fase 1: Solo ejecuta el modelo NLP (BETO) sobre el texto y devuelve las métricas.
     NO inserta en la base de datos. Usado para el Staging area en el Frontend.
     """
     entidades = ner_engine.extract_entities(payload.texto_celda)
     confianza_ia = sum([e["score"] for e in entidades]) / len(entidades) if entidades else 1.0
-    forzar_revision = confianza_ia < 0.60
     alertas_disparadas = []
     if payload.nota_detectada <= 70.0:
         alertas_disparadas.append("RIESGO_ACADEMICO_CRITICO")
@@ -361,7 +394,11 @@ def analyze_nlp_only(payload: ProcessSheetPayload):
         "status": "analyzed",
         "confianza_modelo_beto": round(confianza_ia, 4),
         "requiere_auditoria_humana": forzar_revision,
-        "alertas_estrategicas": alertas_disparadas
     }
 @app.post("/api/v1/nlp/quality-check")

         raise HTTPException(status_code=500, detail=str(err))
 @app.post("/api/v1/nlp/analyze")
+def analyze_nlp_only(payload: ProcessSheetPayload, db: Session = Depends(get_db)):
     """
     Fase 1: Solo ejecuta el modelo NLP (BETO) sobre el texto y devuelve las métricas.
     NO inserta en la base de datos. Usado para el Staging area en el Frontend.
     """
     entidades = ner_engine.extract_entities(payload.texto_celda)
     confianza_ia = sum([e["score"] for e in entidades]) / len(entidades) if entidades else 1.0
+    nombre_resuelto = payload.texto_celda[:200].strip()
+    # 1. Consultar log_auditoria_nlp (MLOps Memory)
+    log_memoria = db.query(LogAuditoriaNlp).filter(
+        LogAuditoriaNlp.texto_original == nombre_resuelto
+    ).order_by(LogAuditoriaNlp.created_at.desc()).first()
+    candidatos_difusos = []
+    regla_aplicada = False
+    if log_memoria:
+        # BETO "recuerda" la decisión humana previa
+        nombre_resuelto = log_memoria.correccion_humana
+        confianza_ia = 1.0
+        forzar_revision = False
+        regla_aplicada = True
+    else:
+        # Fuzzy Matching
+        estudiantes_existentes = db.query(DimEstudiante).all()
+        best_match, score = find_best_match(nombre_resuelto, estudiantes_existentes)
+        # Generar Top 3 candidatos para el dropdown de resolución
+        from rapidfuzz import fuzz
+        for est in estudiantes_existentes:
+            s = fuzz.token_sort_ratio(nombre_resuelto.lower(), est.nombre_completo.lower()) / 100.0
+            if s > 0.4:
+                candidatos_difusos.append({"id": est.id_estudiante, "nombre": est.nombre_completo, "score": round(s, 2)})
+        candidatos_difusos = sorted(candidatos_difusos, key=lambda x: x["score"], reverse=True)[:3]
+        if score > 0.8:
+            confianza_ia = score
+        forzar_revision = confianza_ia < 0.60
     alertas_disparadas = []
     if payload.nota_detectada <= 70.0:
         alertas_disparadas.append("RIESGO_ACADEMICO_CRITICO")
         "status": "analyzed",
         "confianza_modelo_beto": round(confianza_ia, 4),
         "requiere_auditoria_humana": forzar_revision,
+        "alertas_estrategicas": alertas_disparadas,
+        "entidades_nlp": entidades,
+        "candidatos_difusos": candidatos_difusos,
+        "regla_memoria_aplicada": regla_aplicada,
+        "nombre_resuelto": nombre_resuelto
     }
 @app.post("/api/v1/nlp/quality-check")