¿Qué es la Calidad de Datos Aumentada y cómo funciona?

La Calidad de Datos Aumentada significa aplicar funciones avanzadas para automatizar algunos procesos de Calidad de Datos (DQ) con la ayuda de «metadatos activos» y de tecnologías como la Inteligencia Artificial y el Aprendizaje Automático.

Muchas tareas de DQ pueden automatizarse, por ejemplo, la elaboración de perfiles, el cotejo de datos, la vinculación automática entre entidades, la fusión, la depuración, la supervisión, la alineación automática entre las normas de control de la empresa y las de TI, la resolución de anomalías o las advertencias de mala calidad. Gobernar los datos significa crear y mantener las condiciones que permitan disponer de los datos necesarios cuando se necesiten, garantizar que sean completos y precisos, y así maximizar los beneficios de su uso.  ¿Pero qué pasa si la información no es fiable? Si los datos son erróneos, ¿cuáles serán las consecuencias para la toma de decisiones?

El objetivo de la Calidad de Datos Aumentada es garantizar datos fiables y de alta calidad, lo que es vital para las organizaciones. Su propósito es también reducir las tareas manuales en las prácticas de DQ, reduciendo la intervención humana en favor de los flujos de trabajo automatizados dentro de los procesos y, en consecuencia, ahorrando tiempo y recursos.

¿Cómo funciona?

La información siempre ha sido fundamental para los negocios. Pero si, por un lado, el valor de los datos se convierte cada vez más en un factor de ventaja competitiva, por otro, el crecimiento exponencial de los datos disponibles dificulta la identificación de los que son útiles en un momento dado y para un fin determinado. También se convierte en un reto comprender el origen y la responsabilidad de los datos, verificar su fiabilidad y frescura, averiguar los posibles requisitos normativos que hay que cumplir.

En este ecosistema, según Gartner, es posible habilitar la Calidad de Datos Aumentada en tres «áreas» específicas:

  • Descubrimiento. Estas funciones se desarrollan utilizando el potencial de los metadatos activos y los datos de referencia en entornos distribuidos con un gran número de activos de datos (internos y externos): en la nube o, si es necesario, incluso en la multicloud, o en las instalaciones. Entre ellas se encuentran las técnicas para encontrar dónde residen los datos, para clasificar, por ejemplo, los datos sensibles con fines de privacidad (detectándolos automáticamente por sus propias características), o para revelar las correlaciones entre los datos que residen en diferentes fuentes.
  • Sugerencias. A partir de los metadatos, es posible perfilar los términos de negocio para sugerir el enriquecimiento automático del Catálogo de Datos, proponer la conexión de ciertos atributos a una entidad específica, sugerir acciones de remediación para corregir posibles anomalías detectadas (aprendiendo del comportamiento de los usuarios), identificar posibles conexiones de linaje entre las entidades del proceso de negocio, proponer reglas de control de datos, o utilizar los datos que se pueden deducir de la lectura del registro de la aplicación.
  • Automatización. Muchas prácticas habituales pueden automatizarse. Entre ellas, la corrección de anomalías por encima de un determinado umbral de confianza o la aplicación de reglas a determinados tipos de datos, como los sensibles por motivos de privacidad. Por ejemplo, un motor de verbalización puede reducir drásticamente el tiempo necesario para redactar la documentación actualizada de acuerdo con las normas y los procedimientos de control, garantizando al mismo tiempo la coherencia entre las normas empresariales y las técnicas en caso de inspección.

Pero entremos en más detalles considerando un ejemplo práctico. Como demuestra Gartner en el siguiente esquema, en un proceso típico de DQ es posible identificar en cada fase algunas «acciones» que pueden ser automatizadas.

Todas estas premisas demuestran que una herramienta de DQ eficaz y avanzada, capaz de verificar mediante controles la conformidad de los datos con los requisitos técnicos y de negocio, debe complementarse con una herramienta de Data Governance, o un sistema de gestión de metadatos. Este último gestiona el «carné de identidad» de los datos de la empresa, incluyendo todas las entidades empresariales (semántica, propiedad, procesos impactados, reglas de calidad y retención, etc.) y técnicas (formatos, aplicaciones de origen, controles físicos, etc.) que los caracterizan, sus atributos y relaciones mutuas. Estos dos componentes están estrechamente interconectados, al igual que la Calidad de Datos y el Gobierno de Datos son dos disciplinas inseparables que se apoyan mutuamente. La plataforma Irion EDM ofrece todas las herramientas de los sistemas de Calidad de Datos y Gobierno de Datos integradas en un único entorno. Garantiza flexibilidad y escalabilidad, se ajusta al contexto y está preparada para el futuro.

Scroll al inicio