IA | Proyecto

Ingeniería de datos – estructurando el caos ferroviario

PorMiguel 31/12/202501/01/2026

De manuales de taller en PDF y partes de trabajo en papel a un Data Lake estructurado en JSON.

El desafío de los datos «sucios«.

En la industria ferroviaria, los datos raramente vienen limpios. Lo habitual es encontrar Documentación técnica (ITs) en PDF, partes de taller manuscritos o en Excel desconectados, o logs de sensores sin procesar.

Para este proyecto, he simulado este entorno real creando un Pipeline de ingesta (en Python), que normaliza estas fuentes dispares en una estructura maestra unificada.

Arquitectura de datos (esquema JSON).

He diseñado un esquema de datos relacional ligero para alimentar la aplicación web sin necesidad de una base de datos pesada (SQL) para la demo, pero manteniendo la integridad referencial necesaria para el análisis.

Entidades principales.

1. El parque de Uts (`fleet`):

Cada unidad tiene un ID único (`trainId`), tipo (`type`) y estado actual.

«`json

{ «id»: «465-228», «type»: «Civia», «status»: «Operational», «kms»: 120500 }

«`

2. El histórico (`historicalData`):

Aquí reside la inteligencia. En lugar de guardar «averías», se guardan eventos. Cada evento tiene metadatos enriquecidos:

* `risk`: el score calculado por el modelo.

* `correlation_type`: la razón del fallo (térmico, uso, vibración).

* `cost_impact`: el coste estimado si no se actúa.

Limpieza y normalización.

Un paso crítico fue la anonimización y normalización. Uno de los problemas es que los talleres suelen tener nombres distintos para lo mismo («Taller de componentes Norte», «Base Mantenimiento N»).

Para solucionarlo, estandaricé a códigos de operador (`MEC-01`, `ELE-01`) para permitir agregaciones (group by) limpias en los cuadros de mando.

Preparando el terreno para ML

Estructurar los datos de esta manera me facilitó enormemente el siguiente paso: el Machine Learning. Al tener `temp` y `failure_risk` en la misma fila de datos temporal, entrenar un modelo se convierte en una tarea directa, a diferencia de lo complejo que es intentar correlacionar Excel con PDFs.

En el próximo artículo, mostraré cómo uso Python para generar «datos sintéticos avanzados» que imitan la realidad operativa para entrenar nuestro motor predictivo.

Este es el segundo de los cinco artículos que he redactado acerca del proyecto KPI Ferroviaria, si no has leído el anterior, te dejo el enlaces para el primero.

IA | Proyecto

El motor predictivo, decodificando patrones de fallo.
PorMiguel 01/01/202601/01/2026

Más allá de la media: cómo algoritmos simples pueden detectar problemas complejos. Lógica de simulación: «Digital Twin». Para este portfolio,(pincha aquí para verlo de forma interactiva) no tenía acceso a datos reales de Renfe en tiempo real, así que construí, con la ayuda de la IA, un generador de datos sintéticos (Digital Twin) en Python…

Leer más El motor predictivo, decodificando patrones de fallo.
IA | Proyecto

Ejecución técnica – construyendo el MVP
PorMiguel 01/01/2026

Web components, Python y la estrategia «Standalone» para un despliegue sin fricción. Stack tecnológico elegido. Para este MVP (Producto Mínimo Viable), he priorizado la velocidad de desarrollo y la portabilidad. * Backend (simulación): Python. Es el lenguaje nativo del Data Science. Usé `pandas` (simulado con diccionarios para portabilidad) y `random` para la generación estocástica de…

Leer más Ejecución técnica – construyendo el MVP
IA | Proyecto

Business Intelligence – de datos a rentabilidad
PorMiguel 01/01/202601/01/2026

Cómo transformar una alerta técnica en una decisión de negocio que ahorra dinero. El coste de la no calidad. En Business Development, el lenguaje no es «voltios» ni «pascales», es Euros y ROI. Es un negocio, y complicado, porque se trabaja con dinero público, en el caso de RENFE. Una avería en vía no cuesta…

Leer más Business Intelligence – de datos a rentabilidad
IA | Proyecto

Del taller ferroviario al algoritmo – Ingeniería de Dominio
PorMiguel 31/12/202501/01/2026

Cómo mi experiencia en mantenimiento ferroviario definió las variables clave para un modelo predictivo. El problema: La incertidumbre en el mantenimiento. En el sector ferroviario en España, la disponibilidad de flota lo es todo. Un tren parado más tiempo del estipulado en taller por una avería imprevista («mantenimiento correctivo») es un coste exponencial: no solo…

Leer más Del taller ferroviario al algoritmo – Ingeniería de Dominio
IA | U22

Automatizar con IA para liberar tiempo
PorMiguel 12/11/202501/01/2026

Así he diseñado un sistema de alertas deportivas sin servidores ni costes, y en 20 minutos. En el análisis deportivo, la velocidad con la que llega la información define la calidad de la decisión. Los resultados, parciales o finales, condicionan el análisis de rendimiento, la planificación de contenidos y el seguimiento de competiciones. Sin embargo,…

Leer más Automatizar con IA para liberar tiempo
IA | Scouting | U22

Detección de talento en la Liga U22: data analyst + IA
PorMiguel 31/12/202501/01/2026

. En el baloncesto moderno, mirar solo los puntos, rebotes y asistencias es como intentar entender una película viendo solo el tráiler. El verdadero juego ocurre en los espacios, en la eficiencia de cada posesión y en la química invisible entre los cinco jugadores en pista. Para este análisis, he utilizado la arquitectura Antigravity, un…

Leer más Detección de talento en la Liga U22: data analyst + IA