Cosa significa in concreto metadata driven?

La parola metadati evoca in molti di noi un senso di astratto, di diafano, di evanescente. Sappiamo invece che i metadati, opportunamente gestiti, sono potenti strumenti per far succedere le cose. Questa concretizzazione del concetto di metadato è alla base di un modello di funzionamento metadata driven. Applicato alle discipline di data management, un approccio metadata driven consiste nel pilotare il funzionamento del sistema di gestione dei dati attraverso un modello di governo costituito da una serie di entità, attributi, relazioni, regole, metadati insomma.

Come funziona in pratica? Se parliamo di data quality, sappiamo che possiamo implementare un impianto di controllo realizzando una serie di programmi ciascuno dei quali avrà l’obiettivo di eseguire un test su uno o più dati. Non disponendo di informazioni a corredo dei controlli non avremo modo di capire quali controlli sono stati applicati a quali dati e cosa fanno, se non andando a leggere il codice di ogni controllo o la relativa documentazione. Inoltre ogni controllo potrà essere realizzato con diversi stili di programmazione, e modalità di rilevazione e registrazione degli esiti. In un approccio metadata driven la componente di governo e quella esecutiva sono disaccoppiate. Da una parte un sistema di metadati descriverà le caratteristiche e le regole di esecuzione dei controlli: quali dati sono coinvolti, la formula o l’algoritmo da eseguire, il criterio di qualità da verificare, la periodicità di esecuzione, le modalità di esecuzione, di raccolta e registrazione degli esiti, e così via.

Sulla base di alcuni di questi metadati un motore di data quality eseguirà i controlli; altri metadati verranno utilizzati da un sistema di misurazione degli indicatori di qualità dei dati. Ne conseguono significativi benefici in termini di standardizzazione dei controlli, eseguiti da uno strumento generalizzato sulla base di un unico corredo di metadati, e di governo complessivo degli impianti di controllo.

Ma questo modello di funzionamento può essere generalizzato ad altre discipline di gestione dei dati: un motore di data discovery potrà ricercare la presenza di campi fisici che nei sistemi informatici rappresentano un codice fiscale o un indirizzo di email sulla base di regole di discovery (es. espressioni regolari) che sono registrate come attributi delle corrispondenti entità nel sistema di metadati; un motore di data masking potrà applicare ad una tabella o ad un database le tecniche di masking più opportune, registrate come regole nel sistema di metadati insieme alle coordinate dei dati da pseudonimizzare. E così via.

Naturalmente un approccio di questo tipo ha requisiti strumentali abbastanza stringenti: una soluzione metadata driven deve disporre delle due tipologie di componenti, il metadata system e i motori di attuazione delle tecniche di data management (masking, profiling, discovery, quality, ingestion, aggregation, reporting, ecc…); queste componenti dovranno essere connesse senza soluzione di continuità; anche perché in alcuni casi saranno i motori a generare nuovi metadati (ad esempio la relazione tra una entità “Codice Fiscale” e i campi fisici che lo rappresentano nei sistemi informatici) che andranno ad arricchire il modello di governo complessivo dei dati.
E’ sulla base di questo e di altri principi, che abbiamo realizzato la nostra piattaforma di EDM; per una gestione e un governo dei dati realmente utili e a prova di futuro.