Data Product, che cos’è? Contesti applicativi e ruolo dei metadati

Irion Data Product Mario Vellella Mauro Tuvo

Il termine “data product”, grazie anche all’interesse suscitato dal framework Data Mesh, è ormai uno dei mantra del modern data management, indicato dai professionisti dei dati, con differenti accezioni e in differenti contesti, come un concetto portante di un’organizzazione data driven.

Ma in pratica in cosa si differenzia da un semplice dataset? Quali sono le sue caratteristiche distintive e le sue concrete applicazioni? Come concretamente si realizza e si utilizza un data product?

Il concetto generico di prodotto

Proviamo a partire dalla metafora che la definizione suggerisce. Il data product è un prodotto che ha ad oggetto una quota di conoscenza fondata sui dati (report, base dati, Esiti di un modello di ML/AI ecc.).

In termini generali un prodotto è un bene o un servizio che soddisfa i bisogni dei consumatori. Ne conseguono una serie di caratteristiche, di attributi.

  • Soddisfazione di un bisogno: il prodotto, in una visione orientata al marketing, non è solo merce utile, ma anche mezzo di comunicazione e tra chi lo produce e chi lo consuma. Premessa necessaria, ma non sufficiente, per il successo di un’impresa è avere un’offerta costantemente in sintonia con le esigenze dei consumatori. La capacità di intercettare, o addirittura anticipare, il bisogno o l’interesse dei potenziali clienti e di soddisfarli attraverso la proposta di prodotti sono fattori critici per la diffusione del prodotto/servizio presso i consumatori.
  • Utilità e fruibilità: il prodotto deve essere consumabile da parte dei potenziali clienti. Il prodotto è solitamente presentato in un catalogo che ne descrive le principali caratteristiche, i potenziali impieghi, le qualità distintive.  È inoltre in molti casi corredato da istruzioni che ne indicano le principali caratteristiche, le modalità di utilizzo, eventuali prerequisiti per il consumo (basti pensare, ad esempio, agli attrezzi necessari per il montaggio di un mobile), le avvertenze 
  • Garanzia: il brand del fornitore, i marchi di certificazione (Bio, ESG, ISO, ecc.), la copertura da eventuali difetti o malfunzionamenti per un determinato periodo di tempo. Talvolta anche la descrizione delle materie prime e del processo di realizzazione del prodotto contribuisce a favorire una percezione di qualità.

Tutte queste caratteristiche, ed altre relative al concetto generale di prodotto, possono essere applicate, opportunamente declinate rispetto alle loro specificità, ai data product.

Poiché l’oggetto del data product è un’informazione basata sui dati,  le caratteristiche sopra illustrate, nell’ambito specifico del data product, sono costituite da metadati: la ownership (il fornitore), la qualità (la garanzia), le potenziali finalità di impiego (le modalità d’uso), il data lineage (l’origine), i vincoli di sicurezza e protezione dei dati personali (le avvertenze) e così via.

Cos’è il Data Product e a cosa serve

Ciò premesso, per entrare nel merito delle caratteristiche specifiche di un data product, facciamo ora riferimento a due dei quattro principi fondanti del framework Data Mesh, anche se in effetti il concetto data product trova applicazione anche in altri contesti.

Un Data Product è una collezione di dati, corredati dal codice necessario per il loro consumo e dai metadati che ne descrivono le caratteristiche.

  • Principio di Domain Ownership – Nel Data Mesh i dati vengono organizzati in Domini. Un Dominio comprende una serie di dati omogenei rispetto a determinati criteri (l’origine, l’aggregazione, il consumo) e viene posto sotto la ownership di un team interdisciplinare (business e ICT) di attori operanti nella sfera di competenza di questi dati. Il concetto di Dominio Dati è ispirato al modello DDD (Data Domain Design) per la progettazione del software. L’obiettivo della organizzazione per Data Domain è quello di attribuire la gestione dei dati ai soggetti che ne detengono la maggiore competenza, riducendo così l’entropia informativa derivante dalla concentrazione dei dati in un ambiente presidiato da figure che non hanno quella conoscenza di dettaglio dei singoli ambiti gestiti detenuta da chi vi opera direttamente. Tuttavia, la sola applicazione del principio di Domain Ownership rischia di avere l’unico effetto di scomporre i dati in silos, situazione che in assenza di contrappesi creerebbe problemi di integrazione e coerenza complessiva.
  • Principio di Data as a Product – Ed è qui che interviene il secondo principio, che indica le modalità con cui i singoli domini interagiscono per garantire una gestione fluida ed efficiente dei processi aziendali. Come anticipato, il framework Data Mesh è orientato alla gestione dei dati analitici, risultanti da operazioni di aggregazione, integrazione, controllo della qualità. È però importante precisare che questi dati possono avere molte differenti finalità: impiego per scopo di analisi e ricerca (anche attraverso l’applicazione di tecniche e tecnologie di intelligenza artificiale e machine learning), rendicontazione interna o esterna (ad esempio per conformità a requisiti di reporting regolamentare), ma anche supporto a processi operativi a valle di quelli che li hanno originati. Un Data Product è una collezione di dati, corredati dal codice necessario per il loro consumo e dai metadati che ne descrivono le caratteristiche (contenuto, precisione e accuratezza, freschezza, fonti, modalità di utilizzo, ownership…). Un Data Product è realizzato all’interno di un Dominio Dati, partendo da dati originati dai propri processi operativi e/o da altri Data Product; è destinato al consumo da parte del Dominio stesso o di altri Domini. L’insieme dei Data Product è censito in un catalogo centrale e costituisce un reticolo di comunicazione che assicura un adeguato grado di integrazione e interoperabilità tra i Domini. Un Data Product deve rispondere ad un set minimo di criteri per essere considerato tale.

Passiamo ora brevemente in rassegna questi criteri.

  1. Facilmente ricercabile: Un prodotto di dati deve essere facilmente individuabile. Questa caratteristica può avvenire solo attraverso l’utilizzo di meta-informazioni (come significati, contestualizzazione, proprietà, fonte di origine, percorso dei dati ecc.). Questo servizio centralizzato di ricerca consente ai consumatori di dati di trovare facilmente un set di dati di loro interesse. Ogni prodotto di dati deve essere quindi corredato, per essere completo, dei metadati necessari a facilitarne la scoperta.
  2. Fruibile: Un prodotto di dati, una volta individuato, dovrebbe avere un metodo di delivery secondo una convenzione globale che aiuti gli utenti ad accedervi in modo sistematico. Considerando la facilità d’uso come un obiettivo, ogni prodotto dati dovrà prevedere un metodo di delivery che ne garantisca la piena fruizione, in linea con le regole di accessibilità e di compliance previste nell’ambito degli standard aziendali.
  3. Affidabile, veritiero: Poiché nessun consumatore utilizzerà per le proprie decisioni e/o elaborazioni dati di cui non si fida, i proprietari dei prodotti di dati dovranno corredare il loro artefatto di metadati in merito alla veridicità delle fonti e a quanto essi riflettano la realtà degli eventi che si sono verificati o l’alta probabilità della veridicità della conoscenza che da essi, attraverso elaborazioni e trasformazioni, è stata generata. L’applicazione della pulizia dei dati e la verifica automatica dell’integrità dei dati al momento della creazione del prodotto sono alcune delle tecniche da utilizzare per fornire un livello di qualità accettabile. Fornire la provenienza e il percorso dei dati come metadati associati a ciascun prodotto di dati aiuta i consumatori a ottenere ulteriore fiducia nel prodotto di dati e nella sua idoneità per la relativa destinazione d’uso.
  4. Comprensibile: I prodotti di qualità non richiedono l’aiuto del produttore per essere utilizzati: possono essere scoperti, compresi e consumati in modo indipendente. La creazione di insiemi di dati come prodotti con un impatto minimo per l’utilizzo da parte dei data engineer e dei data scientist richiede una semantica e una sintassi dei dati ben descritte, idealmente accompagnate da insiemi di dati campione come esempi.
  5. Interoperabile, conforme a standard globali: un’altra caratteristica dei data products è quella di garantire l’interoperabilità tra i domini che lo utilizzano. Tale caratteristica si può ottenere solo utilizzando metodi di standardizzazione centralizzati che consentono di produrre conoscenza rispettando alcune regole comuni di classificazione e contestualizzazione.
  6. Sicuro e regolato da un controllo globale degli accessi: L’accesso sicuro agli insiemi di dati dei prodotti è un must, indipendentemente dal fatto che l’architettura sia centralizzata o meno. Nel mondo dei prodotti di dati il controllo degli accessi deve essere applicato al massimo livello di granularità, per ciascun prodotto di dati. Analogamente ai domini operativi, le politiche di controllo degli accessi possono essere definite a livello centrale, ma applicate al momento dell’accesso a ogni singolo prodotto di dati.
  7. Valore intrinseco: come ogni prodotto anche il data products deve contenere metadati di business che contribuiscano a percepire il suo valore per l’azienda (destinazione d’uso, processo di business su cui viene utilizzato, ecc.), ciò a prescindere dal modello utilizzato per stimare il valore del prodotto (costo Mark-up, valore di vendita/scambio, ecc.).

I contesti di applicazione del data product

Un artefatto che risponde a queste caratteristiche trova la sua applicazione in molti contesti.

Abbiamo già visto il ruolo fondamentale di abilitatore della comunicazione tra Domini nel framework Data Mesh. In questo paradigma architetturale e sociale di data management ai due principi sopra citati si aggiungono quelli di “Self-serve data platform” e “Federated computational governance”. Ulteriori dettagli su questo argomento possono essere trovati qui.

Più generalmente un’organizzazione del patrimonio informativo in data product ne facilita l’estrazione di valore da parte di personas molto differenti all’interno dell’organizzazione, anche quelle non direttamente impegnate in ruoli dedicai alla gestione dei dati. Un Data Product Catalog elenca e descrive questi oggetti, che ne entrano a far parte solo a seguito di un processo di certificazione e qualificazione che li contraddistingue come rispondenti ai criteri sopra visti. Questa accezione di data product non rende necessaria l’applicazione degli altri principi del framework Data Mesh, ma risponde comunque alla necessità di valorizzazione degli asset informativi.

Un ulteriore passo rispetto al Data Product Catalog può essere l’insediamento di un Data Marketplace, un ambiente in cui utenti di differente estrazione possono non solo visionare le caratteristiche dei data product esistenti, ma attivarne la fruizione (estemporanea o periodica delle versioni aggiornate), o richiedere la realizzazione di nuovi data product, attraverso l’attivazione di processi dedicati.

Data product, data governance and data sharing

Come è facile intuire, i processi che gestiscono la realizzazione, la manutenzione e il consumo di data product devono poggiare su un sistema di governo in grado di garantirne l’efficacia, la vitalità e la sostenibilità. Senza entrare nel dettaglio di questi aspetti, pensiamo sia essenziale riconoscere il valore di un modello organizzato per data product come promotore del ruolo del Chief Data Officer e come abilitatore di un sistema di data sharing che rappresenta oramai una priorità per il mercato.

L’importanza della condivisione dei dati è evidenziata dall’indagine Gartner “Chief Data Officer” del 2022, secondo cui l’86% dei partecipanti ha dichiarato che la condivisione dei dati è essenziale per il successo della propria organizzazione.

Un data product quindi rappresenta, per la comunità dei potenziali consumatori, un oggetto che deve contenere, per essere scambiato liberamente, tutte le meta-informazioni, raccolte dal sistema di governance, che consentano di renderlo disponibile in forme e con modalità di fruizione commisurate alle necessità degli utenti, “a marchio CDO”.

Nonostante i numerosi vantaggi della condivisione dei dati, la resistenza da parte dell’organizzazione e dei singoli a questo principio  può essere significativa. I metadati devono consentire di fugare i “bias” relativi alla qualità dei dati, al potenziale uso improprio, alla privacy, alla sicurezza e alla proprietà, sia a livello individuale che organizzativo.

Perché è necessario avere un adeguato sostegno strumentale per la gestione dei data product?

Spesso è proprio l’assenza di un adeguato sostegno strumentale, che gestisca efficientemente i metadati descrittivi e attuativi, che rappresenta una barriera alla prosecuzione di un percorso evolutivo verso un modello di governo dei data products che è in grado di sfruttare il potenziale dei dati e di metterlo al servizio del conseguimento degli obiettivi aziendali.

È un percorso sicuramente complesso, che richiede visione, determinazione, scelte corrette. Ma è anche un percorso irrinunciabile, se le previsioni degli analisti sono corrette:

  • Entro il 2022, più della metà dei servizi di data e analytics saranno automatizzati e non richiederanno interventi umani.
  • Entro il 2023, il 30% delle organizzazioni registrerà un ROI elevato delle risorse impegnate in data & analytics governance gestendo la quota parte minima della totalità dei propri data asset che è rilevante per il raggiungimento dei propri obiettivi strategici.

Irion EDM® è un sistema di Enterprise Data Management completamente metadata-driven, uno strumento flessibile che abilita e sostiene l’evoluzione nel tempo di un sistema di Data Governance consentendo l’implementazione efficiente di differenti stili di governo.

Nelle soluzioni di Data Management implementate con Irion EDM® i metadati hanno un ruolo fondamentale:

  • descrivono le caratteristiche tecniche e di business dei dati e le relazioni con le altre entità ad essi connesse (asset IT, unità organizzative, processi, regole, …) consentendo di abilitare le caratteristiche fondanti dei data products (ricercabilità, fruibilità, compressibilità, affidabilità, interoperabilità ecc);
  • sono flessibili – in grado di adattarsi a rappresentare le entità, gli eventi e i fenomeni rilevanti per ogni singola azienda, rendendo quindi i data products utili nelle decisioni aziendali;
  • sono dinamici – possono variare nel tempo adattandosi alle evoluzioni del business e degli ambiti di applicazione;
  • alcuni di essi sono attuativi – pilotano cioè i motori di data management della piattaforma (connessione alle fonti, data integration, applicazioni di regole di controllo, arricchimento, classificazione, analytics, orchestrazione, …) garantendo quindi le delivery del data product secondo le esigenze del consumatore e le diverse scelte architetturali;
  • sono integrabili – metadati di business, tecnici, attuativi possono essere messi in relazione gli uni con gli altri e rappresentati ed esplorati in un unico modello in grado di supportare il lavoro di data engineer, business analyst, data owner, data scientist, e di tutti i ruoli impegnati nella gestione dei dati aziendali.

Gli autori

Mario Vellella

Irion Domain Advisory Leader

PhD con oltre 25 anni di esperienza nel settore finance, già ricercatore, consulente e funzionario direttivo in area risk management, nonché collaboratore del Dipartimento di Economia e Management della “Sapienza” di Roma. Autore di pubblicazioni scientifiche internazionali, Mario ha un’elevata competenza come Domain Expert sulla Data Governance e sulla gestione integrata dei rischi maturata sia come consulente di multinazionali che all’interno del Gruppo Poste Italiane. In particolare, per BancoPosta è stato Chief Data Officer, responsabile dell’Ufficio Analisi integrata rischi e convalida modelli dopo aver ideato e implementato il modello avanzato per la gestione dei rischi operativi dell’intermediario.

LinkedIn
Mauro Tuvo, Irion Principal Advisor

Mauro Tuvo

Irion Principal Advisor

Mauro Tuvo da oltre trent’anni supporta organizzazioni italiane ed europee nella gestione degli asset informativi, curando lo sviluppo e il presidio dell’offerta, il disegno delle soluzioni e lo sviluppo delle opportunità di business legate alle tematiche di Enterprise Data Management. Le sue attività si sono nel tempo concentrate su Data Quality, Data Governance e Compliance (GDPR, IFRS17, Regulatory Reporting), maturando negli anni una vasta esperienza nella definizione e nell’applicazione di metodologie che lo vedono protagonista sul mercato e in contesti accademici e di indirizzo.
Principal Advisor in Irion, autore di testi, articoli e pubblicazioni su tematiche relative alla gestione dei dati, Mauro ha svolto attività di docenza in master e corsi di specializzazione presso le università di Padova, Pavia, Verona, Milano Bicocca, Politecnico di Torino. Partecipa in qualità di relatore a convegni e seminari, è membro del comitato tecnico di Dama Italy e dell’Osservatorio Information Governance di ABI Lab.

LinkedIn
Torna in alto