Según la Comunidad Mundial de Gestión de Datos (DAMA), la calidad de los datos «consiste en la planificación, la ejecución y el control de las actividades que aplican las técnicas de gestión de la calidad de los datos para garantizar que se ajustan a su finalidad y satisfacen las necesidades de los usuarios».
Pero, ¿por qué debe una empresa dotarse de un sistema de Calidad de Datos?
Según Gartner (Gartner: «5 Steps to Build a Business Case for Continuous Data Quality Assurance», 20 de abril de 2020, Saul Judah, Alan D. Duncan, Melody Chien, Ted Friedman) «La mala calidad de los datos destruye el valor empresarial. Investigaciones recientes indican que las organizaciones calculan que el coste medio de la mala calidad de los datos es de 10,8 millones de dólares al año. Es probable que esta cifra aumente a medida que los entornos empresariales se vuelvan cada vez más digitalizados y complejos».[/vc_column_text]La información es la base de todo proceso empresarial y la calidad de los datos que se recogen, almacenan y utilizan afecta inevitablemente al negocio de la organización hoy y mañana. En resumen, la mala calidad de los datos destruye el valor del negocio porque de los datos surge la información que constituye el conocimiento y genera las ideas de negocio que conducen a la ventaja competitiva y aseguran el posicionamiento en el mercado. Es comparable a los cimientos de una casa, sólo si son sólidos podemos esperar resistir incluso los terremotos.
Fechas de nacimiento valoradas en 2190, secuencias de números idénticos como números de IVA, direcciones que consisten sólo en la indicación de la calle. Estas son sólo algunas de las anomalías presentes en la base de datos de una empresa, pero si una dirección incorrecta puede dar lugar a una falta de contacto con un cliente o cliente potencial que genere una pérdida, se producirán diferentes consecuencias cuando se utilice un dato incorrecto en la determinación del perfil de riesgo. Más peligroso aún es la entrega de informes con datos incorrectos a la dirección, lo que puede conducir a decisiones estratégicas «distorsionadas» y a impactos en el rendimiento financiero de la organización.
Todo ello genera, además, entre los empleados una gran desconfianza hacia los datos minando la credibilidad de los mismos y su uso.
Para ser competitivos, es imprescindible construir un sistema de verificación de la calidad de los datos para disponer de información fiable para el uso empresarial al que están destinados, respetando los tiempos de corte del proceso, así como poder activar acciones de diagnóstico bien concebidas y de eliminación estructural de las anomalías encontradas.
¿Cuáles son los métodos de aplicación y los principales criterios de control?
La creación de un sistema de calidad de datos es una actividad a largo plazo. Entrar en los detalles de cada fase requeriría escribir un libro, pero podemos resumir algunos pasos principales:
- La definición de una polícy empresarial que ilustra las «reglas del juego» para todos los actores implicados;
- la identificación de un área piloto sobre la que identificar los datos presentes en las distintas fases del proceso sobre los que realizar las fases de transformación y control adecuadas mediante un sistema de reglas, también expresadas en lenguaje natural (reglas técnicas, por ejemplo, verificación del cumplimiento del formato de la fecha y reglas de negocio, por ejemplo, un préstamo cancelado tiene un saldo cero o una conciliación, tras haber normalizado adecuadamente los datos a comparar);
- mantener el sistema a pleno rendimiento y controlar la evolución de la calidad de los datos mediante una serie de indicadores de apoyo;
- emprender cualquier actividad para eliminar las anomalías detectadas y realizar mejoras estructurales;
- ampliar a nuevos destinos de usos.
La parte más difícil, en términos de tiempo, es probablemente la definición de los sistemas de control que comprueban la conformidad de los datos con un conjunto de criterios, producen resultados y permiten interceptar los valores atípicos. En 2013, DAMA UK (DAMA-DMBOK Capítulo 13) identificó seis dimensiones en las que deben converger los controles empresariales y técnicos:
- Integridad: el porcentaje de datos almacenados en comparación con el potencial del 100%;
- Unicidad: ninguna instancia (cosa) de la entidad se registrará más de una vez en función de cómo se identifique esa cosa;
- Puntualidad: nivel en el que los datos representan la realidad en el momento requerido;
- Validez: los datos son válidos si se ajustan a la sintaxis (formato, tipo, rango) de su definición;
- Exactitud: nivel en el que los datos describen correctamente el objeto o evento del «mundo real» que se describe;
- Coherencia: ausencia de diferencias, al comparar dos o más representaciones de una «cosa» con una definición.
Los criterios anteriores son, por supuesto, sólo una selección de un conjunto más amplio de criterios de calidad de datos conocidos en la literatura.
¿Cómo estructurar las métricas e indicadores de calidad de datos?
El correcto funcionamiento y la mejora del rendimiento del sistema de Calidad de Datos no puede prescindir de la disponibilidad de una serie de medidas: no es posible mejorar si no se mide. Un sistema de métricas debe representar las necesidades primarias de información:
- lo mejor es identificar unas pocas medidas clave y centrar los informes en ellas. Si es cierto que «no se puede gestionar lo que no se puede medir», también lo es que «medir tiene un coste»;
- En general, es conveniente que las métricas estén agrupadas en la medida de lo posible, es decir, cohesionadas y vinculadas entre sí por un esquema lógico. Busque siempre la coherencia en los términos y definiciones de las métricas;
- el sistema debe ser equilibrado, es decir, incluir varios tipos y perspectivas, ponderando su representatividad;
- Es bueno presentar las métricas subdivididas en grupos o tipos relacionados;
- el objetivo de las métricas en un sistema de Calidad de Datos no es medir la productividad o la calidad de las personas ni estimular la competencia entre personas/oficinas, sino medir la calidad del producto (los datos) y de los procesos. Por ejemplo: en lugar de medir el número de flujos validados por día, es mejor medir el número de flujos sin errores. Medir el rendimiento de las personas puede ser tentador, pero es sin duda una de las cosas más perjudiciales para una iniciativa de calidad. La única medida de rendimiento aceptable, si la hay, es a nivel de grupo de trabajo;
- una métrica siempre debe ser validada empíricamente en una variedad de contextos antes de ser publicada.
¿Por qué Irion EDM es un valioso soporte tecnológico para estructurar un sistema eficaz de Calidad de Datos?
A medida que aumenta el número de campos de información que hay que controlar y el número de controles que hay que gestionar, calificar, realizar periódicamente y medir, un sistema de calidad encuentra un apoyo esencial en el uso de herramientas tecnológicas que automatizan las fases más exigentes, como, por ejemplo, la ejecución periódica de los controles, el cálculo de las métricas de calidad, la elaboración de informes.
Irion ha llevado a cabo numerosos proyectos en este ámbito, desarrollando una plataforma que permite reducir los tiempos de preparación y agilizar la aplicación de los procedimientos de control en pleno cumplimiento de las políticas corporativas. ¿Algunos ejemplos?
- potentes motores de control que realizan 2,5 millones de comprobaciones por minuto, verificando más de 60 millones de registros;
- un sistema flexible de gobernanza de la calidad de los datos en colaboración para las interacciones entre los distintos especialistas en datos;
- un sistema eficaz para la gestión de los problemas de «remediation» y mala calidad de los datos;
- un módulo que permite adoptar métricas ya probadas por diversas realidades o definir, calcular y analizar cualquier tipo de indicador sobre cualquier tipo de proceso empresarial;
- automatismos para generar de forma inteligente, en pocos segundos, reglas técnicas a partir de los metadatos.