¿Tu última iniciativa de IA Generativa no está dando los resultados esperados? ¿Los informes de negocio requieren días de conciliaciones manuales? Probablemente, no se trata de un problema de algoritmos ni de personas, sino de algo más fundamental: la calidad de tus datos. No construimos casas sobre cimientos agrietados: ¿por qué deberíamos construir nuestro negocio sobre datos poco fiables?
Según Gartner, ya en 2020 (mucho antes de la actual «carrera» por implementar soluciones de IA), la baja calidad de los datos costaba a las organizaciones, en promedio, unos 11 millones de dólares al año. Esta estimación luego aumentó a 12,9 millones de dólares (+19%), sumando un dato aún más preocupante: el 60% de las empresas encuestadas en 2024 no sabía cuál era el impacto económico real de esta situación.
Pero el daño real, hoy más que nunca, es estratégico: decisiones más lentas, confianza erosionada y, sobre todo, la imposibilidad de aprovechar las oportunidades que ofrece la Inteligencia Artificial, como ha evidenciado —en el contexto italiano, 3 de cada 4 empresas corren el riesgo de no estar preparadas— la investigación sobre IA y Calidad de los Datos realizada para Irion por el Politécnico de Milán (Observatorio Big Data & Business Analytics).
Si hace cinco años hablar de calidad de los datos significaba sentar las bases para gestionar el patrimonio informativo, hoy significa construir una “plataforma de lanzamiento” para la IA generativa, la Observabilidad de Datos y la creación de Data Products fiables. La Calidad de los Datos sale cada vez más de su cauce como disciplina técnica para convertirse en savia vital, en el corazón del negocio.
Además, el artículo 10 «Datos y gobernanza de datos» del AI Act, el marco legal aprobado por la Unión Europea en materia de Inteligencia Artificial, menciona expresamente obligaciones de calidad, gobernanza y trazabilidad de los datos para los sistemas de IA “de alto riesgo”. Ejemplos: scoring bancario y de seguros para el acceso al crédito o el cálculo de primas, selección de personal, gestión de infraestructuras, sistemas biométricos, evaluaciones automatizadas, apoyo a decisiones judiciales, policía predictiva y control de fronteras.
Según la Global Data Management Community (DAMA), la Calidad de los Datos “consiste en la planificación, implementación y control de las actividades que aplican técnicas de gestión de la calidad de los datos, con el fin de garantizar que sean adecuados para su propósito y satisfagan las necesidades de los usuarios.” Hablando de DAMA International, en el verano de 2025 se llevó a cabo el kickoff global de los trabajos para actualizar el DMBOK® (Data Management Body of Knowledge) a su tercera versión.
¿Por qué debería una empresa contar con un sistema de Calidad de los Datos?
Gartner ya señalaba hace cinco años (Gartner: “5 Steps to Build a Business Case for Continuous Data Quality Assurance”, 20 de abril de 2020, Saul Judah, Alan D. Duncan, Melody Chien, Ted Friedman) que la estimación sobre las pérdidas económicas causadas por los “datos deficientes” estaba destinada a aumentar “a medida que los entornos empresariales se vuelven cada vez más digitalizados y complejos”.
La información es la base de todo proceso empresarial, y la calidad de los datos que se recopilan, almacenan y utilizan condiciona inevitablemente el negocio de la organización, tanto en el presente como en el futuro. “La baja calidad de los datos destruye el valor del negocio”, subraya Gartner.
Porque a partir de ellos se obtienen las informaciones que constituyen el conocimiento y generan las ideas de negocio, que a su vez aportan ventajas competitivas y garantizan el posicionamiento en el mercado. Podemos compararlos, por tanto, con los cimientos de una casa: solo si son sólidos podemos esperar resistir incluso a los terremotos.
Fechas de nacimiento registradas en el año 2190, secuencias de números idénticos como números de identificación fiscal, direcciones compuestas solo por el nombre de la calle. Estas son solo algunas de las anomalías presentes en las bases de datos de una empresa. Pero si una dirección incorrecta puede traducirse en una falta de contacto con un cliente o potencial cliente —generando una pérdida—, las consecuencias serán muy distintas cuando un dato erróneo se utilice para determinar un perfil de riesgo.
Aún más peligrosa es la entrega al equipo directivo de informes que contienen datos incorrectos, lo que puede llevar a tomar decisiones estratégicas “distorsionadas” y a impactos en el rendimiento financiero de la organización. Todo esto genera, además, una gran desconfianza entre los empleados hacia los datos, minando su credibilidad y su utilización.
Para poder ser competitivos, es esencial construir un sistema de verificación de la calidad de los datos, de modo que se disponga de información fiable para el uso empresarial al que está destinada, respetando los plazos de corte del proceso, así como ser capaces de activar acciones diagnósticas bien estructuradas y de eliminar de forma estructural las anomalías detectadas.
¿Cuáles son las modalidades de aplicación y los principales criterios de control?
Implementar un sistema de Calidad de los Datos es una actividad a largo plazo. Entrar en detalle en cada fase requeriría la redacción de un libro, pero en síntesis podemos resumir algunos pasos principales:
- La definición de una política empresarial que establezca las “reglas del juego” para todos los actores implicados;
- la identificación de un ámbito piloto sobre el cual detectar los datos presentes en las distintas fases del proceso, y sobre los que ejecutar las correspondientes etapas de transformación y control, utilizando un sistema basado en reglas, incluso expresadas en lenguaje natural (reglas técnicas, por ejemplo, verificación del formato de fecha; de negocio, por ejemplo, un préstamo cancelado debe tener un saldo igual a cero; o de reconciliación, tras haber normalizado adecuadamente los datos a comparar);
- mantener operativo el sistema y monitorear la evolución de la calidad de los datos, dotándose de una serie de indicadores de soporte;
- emprender posibles actividades de eliminación de las anomalías detectadas y de mejora estructural;
- ampliar a nuevos usos previstos.
La parte más exigente, en términos de tiempo necesario, es probablemente la definición de los sistemas de control que verifican la conformidad de los datos con una serie de criterios, generan resultados y permiten detectar datos anómalos. En 2013, DAMA UK (DAMA-DMBOK Capítulo 13) identificó seis dimensiones sobre las cuales deben converger los controles técnicos y de negocio:
- Completitud: el porcentaje de datos almacenados con respecto al potencial del 100%;
- Unicidad: ninguna instancia (objeto) de la entidad será registrada más de una vez, según la forma en que dicho objeto sea identificado;
- Oportunidad: el nivel en que los datos representan la realidad en el momento requerido;
- Validez: los datos son válidos si cumplen con la sintaxis (formato, tipo, rango) de su definición;
- Precisión: el nivel en que los datos describen correctamente el objeto o el evento del “mundo real” al que hacen referencia;
- Consistencia: la ausencia de diferencias al comparar dos o más representaciones de una “cosa” con una misma definición.
Los criterios enumerados anteriormente representan, obviamente, solo una selección de un conjunto más amplio de criterios de calidad de los datos reconocidos en la literatura. Si las seis dimensiones nos indican «cuál es» el estado de salud del dato en un momento determinado, la Observabilidad de Datos nos ayuda a entender «por qué» y a prevenir problemas futuros. Es un enfoque holístico que monitorea constantemente la salud de los datos a lo largo de todas las pipelines, no solo en la base de datos final. Citando a Gartner, es “la capacidad de una organización de tener una visibilidad amplia de su panorama de datos y de las dependencias multinivel”.
“Observar” las data pipelines significa ser capaz de monitorear no solo la calidad estática, sino también la frescura, el volumen, el esquema y el linaje (lineage) de los datos, prácticamente en tiempo real: esto permite detectar anomalías (por ejemplo, una caída repentina en el número de registros en un flujo de datos) antes de que estas afecten a los procesos de negocio.
En otras palabras: podríamos ver la Calidad de los Datos tradicional como un chequeo médico anual, una fotografía de tu estado de salud; mientras que la Observabilidad de Datos se asemeja a un fitness tracker, el smartwatch que monitorea tus parámetros vitales las 24 horas del día, avisando de una posible anomalía (por ejemplo: un ritmo cardíaco irregular) en el momento en que ocurre, y permitiendo actuar antes de que se convierta en un problema más grave.
¿Cómo estructurar métricas e indicadores de Calidad de los Datos?
El correcto funcionamiento operativo y la mejora del rendimiento del sistema de Calidad de los Datos no pueden prescindir de la disponibilidad de una serie de medidas: no es posible mejorar lo que no se mide. Un sistema de métricas debe representar las necesidades informativas primarias:
- es recomendable identificar unas pocas medidas clave y centrar en ellas la actividad de reporting. Si bien es cierto que “no se puede gestionar lo que no se puede medir”, también lo es que “medir tiene un coste”;
- en líneas generales, es recomendable que las métricas estén lo más integradas posible en un sistema, es decir, que sean coherentes y estén conectadas entre sí mediante un esquema lógico. Es importante buscar siempre consistencia en los términos y en las definiciones de las métricas;
- el sistema debe estar equilibrado, es decir, debe incluir diversos tipos y perspectivas, ponderándolos según su representatividad;
- es recomendable presentar las métricas divididas en grupos o tipologías afines;
- el propósito de las métricas en un sistema de Calidad de los Datos no es medir la productividad o la calidad de las personas, ni fomentar la competencia entre individuos o departamentos, sino medir la calidad del producto (los datos) y de los procesos. Por ejemplo: en lugar de medir el número de flujos validados por día, es preferible medir el número de flujos sin errores. Medir el rendimiento individual puede ser una tentación, pero es sin duda una de las prácticas más perjudiciales para una iniciativa de calidad. La única medición de rendimiento aceptable es a nivel de grupo de trabajo;
- una métrica debería ser siempre validada empíricamente en una variedad de contextos antes de ser publicada.
¿Por qué Irion EDM permite estructurar un sistema de Data Quality eficaz?
Un sistema de calidad, a medida que aumenta el número de ámbitos informativos que deben controlarse y la cantidad de controles que deben gestionarse, clasificarse, ejecutarse periódicamente y medirse, encuentra un soporte imprescindible en el uso de herramientas tecnológicas para automatizar las fases más exigentes, como por ejemplo la ejecución periódica de controles, el cálculo de métricas de calidad y la producción de informes.
Irion ha llevado a cabo cientos de proyectos en este ámbito, desarrollando una plataforma que permite reducir los tiempos de preparación y acelerar la aplicación de los procedimientos de control, cumpliendo plenamente con las políticas empresariales. ¿Algunos ejemplos?
- potentes motores de control que ejecutan 2,5 millones de controles por minuto, verificando más de 60 millones de registros;
- una estructura flexible de Data Quality Governance colaborativa para las interacciones entre los distintos especialistas de datos;
- una métrica debería siempre ser validada empíricamente en una variedad de contextos antes de ser publicada.
- un módulo que permite adoptar métricas ya probadas por diversas organizaciones o definir, calcular y analizar cualquier tipo de indicador sobre cualquier tipo de proceso de negocio;
- automatismos para generar de forma inteligente, en pocos segundos, las reglas técnicas a partir de los metadatos.
Irion EDM está actualmente en uso en 8 de los 10 principales grupos bancarios italianos, en la mitad de las principales aseguradoras y en grandes organizaciones y entidades complejas, en sectores como energía, servicios públicos, transporte, logística y administración pública. Aquí algunos ejemplos en el ámbito de las soluciones avanzadas para la Calidad de los Datos:
- Grandes instituciones financieras utilizan nuestra plataforma diariamente para certificar la coherencia y corrección formal de tablas sensibles en enormes bases de datos con millones de transacciones, asegurando los reportes obligatorios y minimizando los riesgos de sanciones.
- Un líder bancario italiano utiliza un «Motor de Reclasificación Contable» basado en Irion para clasificar automáticamente 400 millones de transacciones diarias, garantizando coherencia entre contabilidad, balances y reportes regulatorios, y cumpliendo con los estrictos requisitos de la Circular 285 del Banco de Italia.
- Para una importante entidad de crédito, Irion gestiona el proceso de eliminación automática (derecho al «Olvido») de los datos personales tras un determinado período, operando sobre varias bases de datos críticas en los ámbitos de Finanzas y Tesorería, y garantizando el pleno cumplimiento del GDPR.
Irion EDM y la visión moderna de la Calidad de los Datos (DQ)
Irion es la única empresa italiana en el Magic Quadrant™ 2025 de Gartner® para las “Augmented Data Quality Solutions”. Un marco moderno de Calidad de los Datos necesita un motor potente y flexible como Irion EDM, la plataforma que hace posible esta visión estratégica permitiendo:
- Automatizar y escalar: ejecutar millones de controles por minuto sobre decenas de millones de registros
- Centralizar la Gobernanza de Datos implementando arquitecturas Hub & Spoke
- Activar la Observabilidad de Datos monitorizando la fiabilidad de los Data Products
- Generar reglas automáticamente: aprovechar los metadatos para crear reglas de control automatizadas, acelerando la implementación
- Involucrar al negocio: proporcionar interfaces intuitivas para la gestión de reglas, la remediación y la Justificación de Datos.
Ignorar la calidad de los datos hoy significa construir el propio futuro digital —basado en la IA, en decisiones Data-driven y en la automatización— sobre bases frágiles e inestables. Significa alimentar los propios algoritmos con “datos basura”, obteniendo resultados poco fiables. No basta con tapar las grietas: es necesario reparar en profundidad los cimientos de nuestra casa (el negocio). Además de las dimensiones clásicas de la calidad de los datos, abrazar el nuevo paradigma de la observabilidad y el poder de la automatización es un primer paso fundamental para transformar los datos de un riesgo oculto en un activo central para la empresa.