DESAFÍO III

💡 ¿Qué hace? Nuestra solución predice qué coolers tienen alta probabilidad de fallar antes de que ocurra la falla. Utilizando datos históricos (temperatura, consumo eléctrico, apertura de puertas, voltaje, etc.), entrenamos un modelo de machine learning con XGBoost que asigna a cada cooler un nivel de riesgo con semáforo:

🔴 Rojo: Alta probabilidad de falla

🟠 Amarillo: Riesgo medio

🟢 Verde: Funcionamiento normal

Esto permite al equipo técnico actuar de forma preventiva y evitar pérdidas por producto no refrigerado.

🧱 ¿Cómo lo construimos? Desarrollamos esta solución aplicando un enfoque estructurado de ciencia de datos (CRISP-DM), en ocho pasos clave:

Carga y limpieza de +335,000 registros (enero 2023 - abril 2025).

Generación de variables derivadas, incluyendo variables de historial (lags) y condiciones binarias críticas (c_energia, c_termostato, etc.).

Entrenamiento de modelo XGBoost optimizado con validación cruzada y early stopping.

Interpretación con SHAP para entender la influencia de cada variable.

Clasificación semafórica según umbrales de riesgo definidos.

Exclusión de coolers ya detectados (warnings).

Selección de la última predicción por cooler.

Exportación a Excel con probabilidades, métricas y ranking de variables.

🧩 Retos que enfrentamos Desbalance de clases: solo 0.7% de los coolers tenía un warning real. Nos enfocamos en optimizar la métrica PR-AUC.

Datos irregulares: muchos coolers tenían registros no secuenciales o valores atípicos (por ejemplo, consumo 0 con horas de uso altas).

Sensores defectuosos: algunas fallas parecían ser errores de medición, no fallas reales.

Segmentación de clientes: identificar qué tipo de cliente era prioritario ante una falla (resolvimos priorizando los clientes grandes).

🏆 Logros de los que estamos orgullosos Obtener un modelo predictivo funcional e interpretable, con resultados sólidos.

Integrar SHAP para explicar las predicciones de forma clara al negocio.

Diseñar un esquema de semáforo fácil de interpretar para toma de decisiones inmediata.

Proveer un entregable listo para implementar: archivo Excel con predicciones y recomendaciones.

Alinear el análisis con impacto económico real, maximizando la prevención en clientes de alto valor.

📚 Lo que aprendimos Que anticiparse a una falla es mucho más valioso que reaccionar ante ella.

La interpretabilidad del modelo es clave para que el negocio confíe en él.

La calidad de los datos importa: limpiar, agrupar y derivar variables fue esencial para mejorar la predicción.

Un buen modelo no solo predice bien, sino que prioriza correctamente.

🚀 ¿Qué sigue para el Desafío III? Incorporar variables externas: ubicación, clima, ventas por cliente.

Automatizar el sistema: actualización diaria de datos y generación automática de alertas técnicas.

Desarrollar un dashboard visual con geolocalización de coolers en riesgo.

Implementar el modelo a nivel nacional y medir el retorno financiero al evitar pérdidas por fallas.

Built With

python

Updates

Angie Yamilette Vázquez Urtiz started this project — Jun 15, 2025 01:40 PM EDT

Leave feedback in the comments!

Log in or sign up for Devpost to join the conversation.