Spaces:

DazaC
/

giragroup-bi-backend

Sleeping

App Files Files Community

Adzacam commited on 19 days ago

Commit

0dee76d

1 Parent(s): 04b8e02

feat: expand data ingestion models to support marketing and survey pipelines and centralize fact insertion logic

Browse files

Files changed (2) hide show

app.py +110 -58
database.py +2 -2

app.py CHANGED Viewed

@@ -124,6 +124,20 @@ class ProcessSheetPayload(BaseModel):
     tipo_fuente: Optional[str] = None
     genero: Optional[str] = None
     ciudad: Optional[str] = None
     @field_validator('texto_celda')
     @classmethod
@@ -152,6 +166,20 @@ class ProcessSheetPayloadRaw(BaseModel):
     tipo_fuente: Optional[str] = None
     genero: Optional[str] = None
     ciudad: Optional[str] = None
 from typing import Union
@@ -519,20 +547,47 @@ def procesar_lote_tabular(payloads: List[ProcessSheetPayload], db: Session = Dep
             db.flush() # Importante: flush para poder usar los IDs recién creados
             # Hecho (La data de payload ya viene corregida por ti desde el frontend)
-            nuevo_hecho = FactRendimientoAcademico(
-                id_estudiante=estudiante.id_estudiante,
-                id_docente=payload.id_docente,
-                id_modulo=payload.id_modulo,
-                id_tiempo=payload.id_tiempo,
-                id_documento=payload.id_documento,
-                id_usuario_carga=payload.id_usuario,
-                nota_final=payload.nota_detectada,
-                asistencia_pct=payload.asistencia,
-                incumplimiento_actividades_pct=payload.incumplimiento_tareas,
-                nivel_confianza_ia=confianza_ia,
-                requiere_revision=forzar_revision
-            )
-            db.add(nuevo_hecho)
         # Al final, guardamos todo junto
         db.commit()
@@ -1199,9 +1254,18 @@ def batch_analyze_nlp(
     existing_users = {u.id for u in db.query(Users).all()}
     for record in records:
-        # Extraer NLP
         entidades = ner_engine.extract_entities(record.texto_celda)
-        confianza_ia = sum([e["score"] for e in entidades]) / len(entidades) if entidades else 1.0
         nombre_resuelto = record.texto_celda[:200].strip()
         # Consultar log_auditoria_nlp primero
@@ -1224,25 +1288,35 @@ def batch_analyze_nlp(
                 db.flush()
                 estudiantes_existentes.append(estudiante)
         else:
-            best_match, score = find_best_match(nombre_resuelto, estudiantes_existentes)
-            if best_match and score >= 0.8:
-                estudiante = best_match
-                if score < confianza_ia:
-                    confianza_ia = score
             else:
-                estudiante = DimEstudiante(nombre_completo=nombre_resuelto, codigo_estudiante=record.codigo_estudiante, genero=record.genero, ciudad=record.ciudad)
-                db.add(estudiante)
-                db.flush()
-                estudiantes_existentes.append(estudiante)
-        candidatos_difusos = get_top_matches(nombre_resuelto, estudiantes_existentes, top_k=5) if requiere_revision or confianza_ia < 0.60 else []
         # Calculo de alertas
         alertas = []
-        if record.nota_detectada <= 70.0:
-            alertas.append("RIESGO_ACADEMICO_CRITICO")
-        if record.asistencia < 70.0 or record.incumplimiento_tareas > 30.0:
-            alertas.append("RIESGO_DESERCION_ALTA")
         # Ensure dimensions exist using in-memory cache to prevent lock contention
         docente_name = getattr(record, 'docente', None) or "Docente Generico"
@@ -1281,7 +1355,7 @@ def batch_analyze_nlp(
         db.flush()
         requiere_revision = False
-        if confianza_ia < 0.60:
             log = LogAuditoriaNlp(
                 texto_original=nombre_resuelto,
                 prediccion_beto=nombre_resuelto,
@@ -1293,32 +1367,9 @@ def batch_analyze_nlp(
             db.flush()
             requiere_revision = True
-        # Insert into Constellation Schema ALWAYS
-        if record.tipo_fuente == "FINANCE":
-            fact = FactSituacionFinanciera(
-                id_estudiante=estudiante.id_estudiante,
-                id_tiempo=id_tiempo_val,
-                monto_deuda=getattr(record, 'monto_deuda', 0),
-                cuotas_impagas=getattr(record, 'cuotas_impagas', 0),
-                estado_cartera="AL_DIA",
-                tipo_alerta="NINGUNA"
-            )
-            db.add(fact)
-        else:
-            fact = FactRendimientoAcademico(
-                id_estudiante=estudiante.id_estudiante,
-                id_docente=id_docente_val,
-                id_modulo=id_modulo_val,
-                id_tiempo=id_tiempo_val,
-                id_documento=id_documento_val,
-                id_usuario_carga=id_usuario_val,
-                nota_final=record.nota_detectada,
-                asistencia_pct=record.asistencia,
-                incumplimiento_actividades_pct=record.incumplimiento_tareas,
-                nivel_confianza_ia=confianza_ia,
-                requiere_revision=requiere_revision
-            )
-            db.add(fact)
         results.append({
             "anonymized_name": anonymize_name(nombre_resuelto),
@@ -1327,7 +1378,8 @@ def batch_analyze_nlp(
             "alertas": alertas,
             "requiere_revision": requiere_revision,
             "status": "pending_human_review" if requiere_revision else "inserted",
-            "candidatos_difusos": candidatos_difusos
         })
     try:

     tipo_fuente: Optional[str] = None
     genero: Optional[str] = None
     ciudad: Optional[str] = None
+    # Financial fields
+    monto_deuda: Optional[float] = 0.0
+    cuotas_impagas: Optional[int] = 0
+    # Marketing fields
+    leads: Optional[int] = 0
+    reservas: Optional[int] = 0
+    inscritos: Optional[int] = 0
+    costo: Optional[float] = 0.0
+    # Survey fields
+    pregunta: Optional[str] = None
+    puntuacion: Optional[float] = 0.0
     @field_validator('texto_celda')
     @classmethod
     tipo_fuente: Optional[str] = None
     genero: Optional[str] = None
     ciudad: Optional[str] = None
+    # Financial fields
+    monto_deuda: Optional[float] = 0.0
+    cuotas_impagas: Optional[int] = 0
+    # Marketing fields
+    leads: Optional[int] = 0
+    reservas: Optional[int] = 0
+    inscritos: Optional[int] = 0
+    costo: Optional[float] = 0.0
+    # Survey fields
+    pregunta: Optional[str] = None
+    puntuacion: Optional[float] = 0.0
 from typing import Union
             db.flush() # Importante: flush para poder usar los IDs recién creados
             # Hecho (La data de payload ya viene corregida por ti desde el frontend)
+            # Determinar area (Fallback a ACADEMIC si no se provee)
+            area = getattr(payload, 'tipo_fuente', 'ACADEMIC')
+            if not area:
+                area = 'ACADEMIC'
+            if area == "MARKETING":
+                nuevo_hecho = FactMarketingInscripciones(
+                    id_modulo=payload.id_modulo,
+                    id_tiempo=payload.id_tiempo,
+                    leads=getattr(payload, 'leads', 1),
+                    reservas=getattr(payload, 'reservas', 0),
+                    inscritos=getattr(payload, 'inscritos', 0),
+                    costo_programa=getattr(payload, 'costo', 0)
+                )
+                db.add(nuevo_hecho)
+            elif area == "SURVEYS":
+                nuevo_hecho = FactEvaluacionDocente(
+                    id_docente=payload.id_docente,
+                    id_modulo=payload.id_modulo,
+                    id_estudiante=estudiante.id_estudiante,
+                    id_tiempo=payload.id_tiempo,
+                    pregunta_bloque=getattr(payload, 'pregunta', 'General'),
+                    puntuacion=getattr(payload, 'puntuacion', 5.0),
+                    comentario=nombre_resuelto
+                )
+                db.add(nuevo_hecho)
+            else: # ACADEMIC
+                nuevo_hecho = FactRendimientoAcademico(
+                    id_estudiante=estudiante.id_estudiante,
+                    id_docente=payload.id_docente,
+                    id_modulo=payload.id_modulo,
+                    id_tiempo=payload.id_tiempo,
+                    id_documento=payload.id_documento,
+                    id_usuario_carga=payload.id_usuario,
+                    nota_final=payload.nota_detectada,
+                    asistencia_pct=payload.asistencia,
+                    incumplimiento_actividades_pct=payload.incumplimiento_tareas,
+                    nivel_confianza_ia=confianza_ia,
+                    requiere_revision=forzar_revision
+                )
+                db.add(nuevo_hecho)
         # Al final, guardamos todo junto
         db.commit()
     existing_users = {u.id for u in db.query(Users).all()}
     for record in records:
+        # 1. Determinar el área y calcular confianza ajustada
+        area = getattr(record, 'tipo_fuente', 'ACADEMIC')
+        if not area:
+            area = 'ACADEMIC'
         entidades = ner_engine.extract_entities(record.texto_celda)
+        if entidades:
+            confianza_ia = sum([e["score"] for e in entidades]) / len(entidades)
+        else:
+            # Para áreas no académicas, la falta de entidades persona no es penalizable severamente
+            confianza_ia = 0.85 if area != 'ACADEMIC' else 0.40
         nombre_resuelto = record.texto_celda[:200].strip()
         # Consultar log_auditoria_nlp primero
                 db.flush()
                 estudiantes_existentes.append(estudiante)
         else:
+            # Skip fuzzy match for non-academic/non-finance areas where "student" name isn't critical
+            if area in ['ACADEMIC', 'FINANCE']:
+                best_match, score = find_best_match(nombre_resuelto, estudiantes_existentes)
+                if best_match and score >= 0.8:
+                    estudiante = best_match
+                    if score < confianza_ia:
+                        confianza_ia = score
+                else:
+                    estudiante = DimEstudiante(nombre_completo=nombre_resuelto, codigo_estudiante=record.codigo_estudiante, genero=record.genero, ciudad=record.ciudad)
+                    db.add(estudiante)
+                    db.flush()
+                    estudiantes_existentes.append(estudiante)
             else:
+                # Mock student for MARKETING/SURVEYS if none exists to satisfy foreign keys
+                estudiante = estudiantes_existentes[0] if estudiantes_existentes else DimEstudiante(nombre_completo="Anonimo")
+                if not estudiantes_existentes:
+                    db.add(estudiante)
+                    db.flush()
+                    estudiantes_existentes.append(estudiante)
+        candidatos_difusos = get_top_matches(nombre_resuelto, estudiantes_existentes, top_k=5) if requiere_revision or (confianza_ia < 0.60 and area in ['ACADEMIC', 'FINANCE']) else []
         # Calculo de alertas
         alertas = []
+        if area == 'ACADEMIC':
+            if getattr(record, 'nota_detectada', 100) <= 70.0:
+                alertas.append("RIESGO_ACADEMICO_CRITICO")
+            if getattr(record, 'asistencia', 100) < 70.0 or getattr(record, 'incumplimiento_tareas', 0) > 30.0:
+                alertas.append("RIESGO_DESERCION_ALTA")
         # Ensure dimensions exist using in-memory cache to prevent lock contention
         docente_name = getattr(record, 'docente', None) or "Docente Generico"
         db.flush()
         requiere_revision = False
+        if confianza_ia < 0.60 and area in ['ACADEMIC', 'FINANCE']:
             log = LogAuditoriaNlp(
                 texto_original=nombre_resuelto,
                 prediccion_beto=nombre_resuelto,
             db.flush()
             requiere_revision = True
+        # Insert into Constellation Schema ALWAYS based on area
+        # ELIMINADO: La inserción a las tablas de hechos ahora OCURRE ÚNICAMENTE en /api/v1/ingesta/bulk
+        # para evitar duplicación de datos entre el análisis y la confirmación final.
         results.append({
             "anonymized_name": anonymize_name(nombre_resuelto),
             "alertas": alertas,
             "requiere_revision": requiere_revision,
             "status": "pending_human_review" if requiere_revision else "inserted",
+            "candidatos_difusos": candidatos_difusos,
+            "area_asignada": area
         })
     try:

database.py CHANGED Viewed

@@ -171,7 +171,7 @@ class FactEvaluacionDocente(Base):
 class FactMarketingInscripciones(Base):
     """Métricas de OKRs de Marketing y ventas."""
-    __tablename__ = "fact_marketing_inscripciones"
     id_hecho_mkt  = Column(Integer, primary_key=True)
     id_modulo     = Column(Integer, ForeignKey("dim_modulo.id_modulo"))
     id_tiempo     = Column(Integer, ForeignKey("dim_tiempo.id_tiempo"))
@@ -182,7 +182,7 @@ class FactMarketingInscripciones(Base):
 class FactRentabilidadPresupuesto(Base):
     """Indicadores de Rentabilidad, Egresos y EBITDA (Ejecutado vs Meta)."""
-    __tablename__ = "fact_rentabilidad_presupuesto"
     id_hecho_rent = Column(Integer, primary_key=True)
     id_modulo     = Column(Integer, ForeignKey("dim_modulo.id_modulo"))
     id_tiempo     = Column(Integer, ForeignKey("dim_tiempo.id_tiempo"))

 class FactMarketingInscripciones(Base):
     """Métricas de OKRs de Marketing y ventas."""
+    __tablename__ = "fact_marketing"
     id_hecho_mkt  = Column(Integer, primary_key=True)
     id_modulo     = Column(Integer, ForeignKey("dim_modulo.id_modulo"))
     id_tiempo     = Column(Integer, ForeignKey("dim_tiempo.id_tiempo"))
 class FactRentabilidadPresupuesto(Base):
     """Indicadores de Rentabilidad, Egresos y EBITDA (Ejecutado vs Meta)."""
+    __tablename__ = "fact_rentabilidad"
     id_hecho_rent = Column(Integer, primary_key=True)
     id_modulo     = Column(Integer, ForeignKey("dim_modulo.id_modulo"))
     id_tiempo     = Column(Integer, ForeignKey("dim_tiempo.id_tiempo"))