Irion Data Product Mario Vellella Mauro Tuvo

El término “producto de datos”, gracias en parte al interés generado por la arquitectura Data Mesh, es ahora uno de los mantras de la gestión de datos moderna, al que se refieren los profesionales de los datos, con distintos significados y en diferentes contextos, como concepto central de una organización impulsada por los datos.

Pero, ¿en qué se diferencia en la práctica de un simple conjunto de datos? ¿Cuáles son sus rasgos distintivos y aplicaciones concretas? ¿Cómo se realiza y utiliza realmente un producto de datos?

Concepto de producto genérico

Empecemos por la metáfora que sugiere la definición. Un Data Product es un producto que trata una pieza de conocimiento basada en datos (informe, base de datos, resultados de un modelo ML/AI, etc.).

En términos generales, un producto es un bien o servicio que satisface las necesidades del consumidor. Esto se traduce en una serie de características, atributos.

  • Satisfacer una necesidad: el producto, desde el punto de vista del marketing, no es sólo una mercancía útil, sino también un medio de comunicación entre quienes lo producen y quienes lo consumen. Una condición necesaria, pero no suficiente, para el éxito de una empresa es disponer de una oferta en constante sintonía con las necesidades del consumidor. La capacidad de interceptar, o incluso anticipar, la necesidad o el interés de los clientes potenciales y de satisfacerlos mediante la oferta de productos son factores decisivos para la difusión del producto/servicio entre los consumidores.
  • Utilidad y usabilidad: el producto debe ser consumible por los clientes potenciales. El producto suele presentarse en un catálogo en el que se describen sus principales características, usos potenciales y cualidades distintivas. En muchos casos, también va acompañado de instrucciones en las que se indican sus características principales, cómo utilizarlo, los requisitos previos para su consumo (pensemos, por ejemplo, en las herramientas necesarias para montar un mueble), advertencias.
  • Garantía: marca del proveedor, marcas de certificación (Bio, ESG, ISO, etc.), cobertura contra defectos o mal funcionamiento durante un periodo de tiempo determinado. A veces, incluso la descripción de las materias primas y el proceso de fabricación del producto contribuyen a la percepción de calidad.

Todas estas características, y otras relativas al concepto general de producto, pueden aplicarse, convenientemente declinadas con respecto a sus especificidades, a los productos de datos.

Puesto que el objeto del Data Product es la información basada en datos, las características antes mencionadas, en el contexto específico del producto de datos, consisten en metadatos: propiedad (el proveedor), calidad (la garantía), posibles fines de uso (el modo de uso), linaje de los datos (el origen), restricciones de seguridad y protección de datos (las advertencias), etc.

¿Qué es el Data Product y para qué sirve?

Dicho esto, para entrar en la especificidad de un producto de datos, vamos a referirnos ahora a dos de los cuatro principios fundacionales de la arquitectura Data Mesh, aunque de hecho el concepto de producto de datos también encuentra aplicación en otros contextos.

Un Data Product es una colección de datos, acompañada del código necesario para su consumo y de los metadatos que describen sus características.

  • Principio de Propiedad de Dominio – En la arquitectura Data Mesh, los datos se organizan en Dominios. Un Dominio comprende un conjunto de datos homogéneos con respecto a determinados criterios (origen, agregación, consumo) y se sitúa bajo la propiedad de un equipo interdisciplinar (empresa y TIC) de actores que operan en el ámbito de competencia de estos datos. El concepto de dominio de datos se inspira en el modelo DDD (Data Domain Design) de diseño de software. El objetivo de la organización del Dominio de Datos es atribuir la gestión de los datos a los actores que tienen mayor competencia en ello, reduciendo así la entropía informativa resultante de la concentración de datos en un entorno tripulado por figuras que no tienen el conocimiento detallado de las esferas individuales gestionadas que poseen quienes operan directamente en él. Sin embargo, la mera aplicación del principio de Propiedad de Dominio corre el riesgo de tener como único efecto la disgregación de los datos en silos, situación que en ausencia de contrapesos crearía problemas de integración y coherencia global.
  • Principio de los datos como producto – Aquí es donde entra en juego el segundo principio, que indica las formas en que interactúan los distintos ámbitos para garantizar una gestión fluida y eficaz de los procesos empresariales. Como se anticipó, el marco de la Malla de Datos está orientado a la gestión de datos analíticos, resultantes de operaciones de agregación, integración y control de calidad. Sin embargo, es importante precisar que estos datos pueden tener finalidades muy diversas: uso con fines de análisis e investigación (también mediante la aplicación de técnicas y tecnologías de inteligencia artificial y aprendizaje automático), elaboración de informes internos o externos (por ejemplo, para cumplir los requisitos de información reglamentaria), pero también apoyo a procesos operativos posteriores a los que los originaron. Un Producto de Datos es una colección de datos, acompañada del código necesario para su consumo y de los metadatos que describen sus características (contenido, precisión y exactitud, frescura, fuentes, modo de uso, propiedad, etc.). Un Producto de Datos se crea dentro de un Dominio de Datos, a partir de datos procedentes de sus propios procesos operativos y/o de otros Productos de Datos; está destinado a ser consumido por el propio Dominio o por otros Dominios. El conjunto de Productos de Datos se registra en un catálogo central y constituye una red de comunicación que garantiza un grado adecuado de integración e interoperabilidad entre Dominios. Un Producto de Datos debe cumplir un conjunto mínimo de criterios para ser considerado como tal.

Revisemos brevemente estos criterios.

  1. Facilidad de búsqueda: un producto de datos debe ser fácil de buscar. Esto sólo puede hacerse mediante el uso de metainformación (como significados, contextualización, propiedades, fuente de origen, ruta de datos, etc.). Este servicio de búsqueda centralizada permite a los consumidores de datos encontrar fácilmente un conjunto de datos de su interés. Por tanto, cada producto de datos debe estar dotado, para ser completo, de los metadatos necesarios para facilitar su descubrimiento.
  2. Utilizable: Un producto de datos, una vez identificado, debe tener un método de entrega conforme a una convención global que ayude a los usuarios a acceder a él de forma sistemática. Teniendo en cuenta la facilidad de uso como objetivo, cada producto de datos debe tener un método de entrega que garantice su plena usabilidad, en línea con las reglas de accesibilidad y cumplimiento de las normas corporativas.
  3. Fiable, verdadero: Puesto que ningún consumidor utilizará para sus decisiones y/o procesamientos datos en los que no confíe, los propietarios de productos de datos deberán dotar a su artefacto de metadatos relativos a la veracidad de las fuentes y a lo bien que reflejan la realidad de los hechos ocurridos o la alta probabilidad de veracidad del conocimiento que se generó a partir de ellos mediante su procesamiento y transformación. La aplicación de la limpieza de datos y la verificación automática de la integridad de los datos en el momento de la creación del producto son algunas de las técnicas que deben utilizarse para proporcionar un nivel aceptable de calidad. Proporcionar la procedencia y la ruta de los datos como metadatos asociados a cada producto de datos ayuda a los consumidores a ganar más confianza en el producto de datos y en su idoneidad para el uso previsto.
  4. Inteligibles: los productos de calidad no requieren la ayuda del fabricante para ser utilizados: pueden descubrirse, entenderse y consumirse de forma independiente. La creación de conjuntos de datos como productos con un impacto mínimo para su uso por ingenieros y científicos de datos requiere una semántica y una sintaxis de datos bien descritas, idealmente acompañadas de conjuntos de datos de muestra a modo de ejemplo.
  5. Interoperables, conformes a standards globales: otra característica de los productos de datos es garantizar la interoperabilidad entre los dominios que los utilizan. Esta característica sólo puede lograrse utilizando métodos de normalización centralizados que permitan producir conocimientos respetando ciertas reglas comunes de clasificación y contextualización.
  6. Seguro y regulado por un control de acceso global: El acceso seguro a los conjuntos de datos de productos es una necesidad, independientemente de si la arquitectura está centralizada o no. En el mundo de los productos de datos, el control de acceso debe aplicarse al más alto nivel de granularidad, para cada producto de datos. De forma similar a los dominios operativos, las políticas de control de acceso pueden definirse de forma centralizada, pero aplicarse en el punto de acceso a cada producto de datos individual.
  7. Valor intrínseco: como cualquier producto, el producto de datos también debe contener metadatos de negocio que ayuden a percibir su valor para la empresa (uso previsto, proceso de negocio en el que se utiliza, etc.), independientemente del modelo utilizado para estimar el valor del producto (coste de margen, valor de venta/intercambio, etc.).

Los contextos de aplicación del data product

Un artefacto que reúne estas características encuentra su aplicación en muchos contextos.

Ya hemos visto el papel fundamental que desempeña la comunicación entre dominios en el framework Data Mesh. En este paradigma arquitectónico y social de gestión de datos, a los dos principios mencionados se unen los de “Plataforma de datos de autoservicio” y “Gobernanza computacional federada”. Para más detalles sobre este tema, pulse aquí.

En términos más generales, la organización de los activos de información en Data Product facilita su extracción de valor por parte de personas muy distintas dentro de la organización, incluso aquellas que no desempeñan directamente funciones de gestión de datos. Un catálogo de productos de datos enumera y describe estos objetos, que sólo pasan a formar parte de él tras un proceso de certificación y cualificación que los distingue por cumplir los criterios antes mencionados. Esta acepción de producto de datos no obliga a aplicar los demás principios del marco de malla de datos, pero responde no obstante a la necesidad de valorizar los activos de información.

Un paso más con respecto al Catálogo de Productos de Datos puede ser el establecimiento de un Mercado de Datos, un entorno en el que usuarios de distintos ámbitos puedan no sólo ver las características de los productos de datos existentes, sino también activar su uso (versiones extemporáneas o actualizadas periódicamente), o solicitar la realización de nuevos productos de datos, mediante la activación de procesos dedicados.

Producto de datos, gobernanza de datos e intercambio de datos

Como es fácil adivinar, los procesos que gestionan la creación, mantenimiento y consumo de los productos de datos deben basarse en un sistema de gobernanza capaz de garantizar su eficacia, viabilidad y sostenibilidad. Sin entrar en detalle en estos aspectos, nos parece esencial reconocer el valor de un modelo organizado por productos de datos como promotor del papel del Chief Data Officer y como facilitador de un sistema de compartición de datos que hoy es prioritario para el mercado.

La importancia del intercambio de datos se pone de manifiesto en la encuesta “Chief Data Officer” de Gartner de 2022, según la cual el 86% de los participantes dijeron que compartir datos es esencial para el éxito de su organización.

Por lo tanto, un Data Product representa, para la comunidad de consumidores potenciales, un objeto que debe contener, para ser intercambiado libremente, toda la meta-información, recogida por el sistema de gobernanza, que permitan su puesta a disposición en formas y con modalidades de utilización adaptadas a las necesidades de los usuarios, “de marca CDO”.

A pesar de los muchos beneficios que reporta el intercambio de datos, la resistencia de organizaciones y particulares a este principio puede ser significativa. Los metadatos deben permitir eliminar los “prejuicios” sobre la calidad de los datos, su posible uso indebido, la privacidad, la seguridad y la propiedad, tanto a nivel individual como organizativo.

¿Por qué es necesario disponer de un soporte instrumental adecuado para la gestión de los Data Product?

A menudo es la ausencia de un soporte instrumental adecuado, que gestione eficazmente los metadatos descriptivos y de aplicación, lo que constituye un obstáculo para la continuación de un camino evolutivo hacia un modelo de gobernanza de los productos de datos capaz de aprovechar el potencial de los datos y ponerlos al servicio de la consecución de los objetivos empresariales.

Es sin duda un camino complejo, que requiere visión, determinación, elecciones correctas. Pero también es un camino indispensable, si las predicciones de los analistas son correctas:

  • En 2022, más de la mitad de los servicios de datos y análisis estarán automatizados y no requerirán intervención humana.
  • Para 2023, el 30% de las organizaciones experimentarán un alto ROI de los recursos destinados a la gobernanza de datos y analítica mediante la gestión de la porción más pequeña de sus activos de datos que sea relevante para alcanzar sus objetivos estratégicos.

Irion EDM® es un sistema de gestión de datos empresariales totalmente basado en metadatos, una herramienta flexible que permite y respalda la evolución de un sistema de gobierno de datos a lo largo del tiempo al permitir la implantación eficaz de diferentes estilos de gobierno.

En las soluciones de gestión de datos implantadas con Irion EDM®, los metadatos desempeñan un papel fundamental:

  • describen las características técnicas y empresariales de los datos y las relaciones con otras entidades conectadas a ellos (activos informáticos, unidades organizativas, procesos, normas, …) permitiendo las características fundacionales de los productos de datos (capacidad de búsqueda, usabilidad, compresibilidad, fiabilidad, interoperabilidad, etc.);
  • son flexibles: pueden adaptarse para representar entidades, acontecimientos y fenómenos relevantes para cada empresa, lo que hace que los productos de datos sean útiles en las decisiones empresariales;
  • son dinámicas: pueden cambiar con el tiempo, adaptándose a los cambios en las áreas de negocio y aplicación;
  • algunas de ellas son de implementación, es decir, impulsan los motores de gestión de datos de la plataforma (conexión con las fuentes, integración de datos, aplicación de reglas de control, enriquecimiento, clasificación, análisis, orquestación, …) garantizando así la entrega del producto de datos en función de las necesidades del consumidor y de las distintas opciones arquitectónicas;
  • son integrables: los metadatos empresariales, técnicos y de implementación pueden relacionarse entre sí y representarse y explorarse en un único modelo que puede respaldar el trabajo de ingenieros de datos, analistas empresariales, propietarios de datos, científicos de datos y todas las funciones implicadas en la gestión de datos empresariales.

Los autores

Mario Vellella

Irion Domain Advisory Leader

PhD con más de 25 años de experiencia en el sector financiero, anteriormente investigador, consultor y directivo en el área de gestión de riesgos, así como colaborador del Departamento de Economía y Gestión de la Universidad “Sapienza” de Roma. Autor de publicaciones científicas internacionales, Mario cuenta con un alto nivel de experiencia como Experto de Dominio en Gobernanza de Datos y Gestión Integrada de Riesgos adquirida tanto como consultor para empresas multinacionales como dentro del Grupo Poste Italiane. En particular, para BancoPosta fue Chief Data Officer, responsable de la Oficina de Análisis Integrado de Riesgos y Validación de Modelos tras haber diseñado e implantado el modelo avanzado de gestión del riesgo operativo del intermediario.

LinkedIn
Mauro Tuvo, Irion Principal Advisor

Mauro Tuvo

Irion Principal Advisor

Mauro Tuvo lleva más de treinta años apoyando a organizaciones italianas y europeas en la gestión de activos de información, ocupándose del desarrollo y supervisión de la oferta, el diseño de soluciones y el desarrollo de oportunidades de negocio relacionadas con temas de Enterprise Data Management. A lo largo de los años sus actividades se han centrado en la Calidad de Datos, Gobierno de Datos y Cumplimiento (GDPR, IFRS17, Reporting Regulatorio), adquiriendo una amplia experiencia en la definición y aplicación de metodologías en el mercado y en contextos académicos y políticos. Principal Advisor de Irion, autor de textos, artículos y publicaciones sobre temas de gestión de datos, Mauro ha impartido clases en másteres y cursos de especialización en las universidades de Padua, Pavía, Verona, Milán Bicocca y Politécnica de Turín. Participa como ponente en conferencias y seminarios y es miembro del comité técnico de Dama Italia y del Observatorio de la Gobernanza de la Información de ABI Lab.

LinkedIn

También puede interesarle: