La tua ultima iniziativa di AI Generativa non sta dando i risultati sperati? I report di business richiedono giorni di riconciliazioni manuali? Probabilmente, non è un problema di algoritmi o di persone, ma di fondamenta: la qualità dei tuoi dati. Non costruiamo case su basi incrinate: perché dovremmo costruire il nostro business su dati inaffidabili?
Secondo Gartner, già nel 2020 (ben prima dell’attuale “corsa” a implementare soluzioni AI) la scarsa qualità dei dati costava già alle organizzazioni, in media, circa 11 milioni di dollari annui. La stima è poi lievitata a 12,9 milioni di dollari (+19%), aggiungendo un dato ancor più inquietante: il 60% delle aziende intervistate nel 2024 non sapeva quale fosse l’impatto effettivo, in termini economici, di questa situazione.
Ma il danno reale, oggi più che mai, è strategico: decisioni più lente, fiducia erosa e soprattutto l’impossibilità di cogliere le opportunità offerte dall’Intelligenza Artificiale, come ha evidenziato – nel contesto italiano 3 aziende su 4 rischiano di farsi trovare impreparate – la ricerca su AI e Data Quality svolta per Irion dal Politecnico di Milano (Osservatorio Big Data & Business Analytics).
Se cinque anni fa parlare di qualità dei dati significava gettare le basi per governare il patrimonio informativo, oggi significa costruire una “rampa di lancio” per l’AI generativa, la Data Observability e la creazione di Data Product affidabili. La Data Quality esce sempre più spesso dal suo alveo di disciplina tecnica per diventare linfa vitale, nel cuore del business.
Inoltre, l’articolo 10 “Data and data governance” dell’ AI Act, il framework legale varato dall’Unione Europea in tema di Intelligenza Artificiale, cita espressamente obblighi di qualità, governo e tracciabilità dei dati per i sistemi AI “ad alto rischio”. Esempi: banking e insurance scoring per accesso al credito o calcolo premi, selezione del personale, gestione infrastrutture, sistemi biometrici, valutazioni automatizzate, supporto alle decisioni giudiziarie, polizia predittiva e controllo frontiere.
Secondo la Global Data Management Community (DAMA) la Data Quality “consiste nella pianificazione, implementazione e controllo delle attività che applicano tecniche di gestione della qualità dei dati, al fine di garantire che siano adatti allo scopo e soddisfino le esigenze degli utilizzatori.” A proposito di DAMA International, nell’estate 2025 si è tenuto il kickoff globale dei lavori per aggiornare il DMBOK® (Data Management Body of Knowledge) alla terza versione.
Perché un’azienda dovrebbe dotarsi di un sistema di Data Quality?
Gartner notava già cinque anni fa (Gartner: “5 Steps to Build a Business Case for Continuous Data Quality Assurance”, 20 Aprile 2020, Saul Judah, Alan D. Duncan, Melody Chien, Ted Friedman) che la stima sulle perdite economiche a causa dei “poor data” era destinata ad aumentare “man mano che gli ambienti di business diventano sempre più digitalizzati e complessi”.
Le informazioni sono la base di ogni processo aziendale e la qualità dei dati che vengono raccolti, memorizzati e utilizzati condizionano inevitabilmente il business dell’organizzazione di oggi e domani. “La scarsa qualità dei dati distrugge il valore del business”, sottolinea Gartner, perché da essi si arriva alle informazioni che costituiscono la conoscenza e generano le intuizioni di business, che a loro volta portano vantaggi competitivi e garantiscono il posizionamento di mercato. Possiamo paragonarle quindi alle fondamenta di una casa: solo se sono solide possiamo aspettarci di resistere anche ai terremoti.
Date di nascita valorizzate nel 2190, sequenze di numeri identici come partite iva, indirizzi costituiti dalla sola indicazione della via. Queste sono solo alcune delle anomalie presenti nei database di un’azienda, ma se un indirizzo errato può tradursi in un mancato contatto con un cliente o potenziale tale generando una perdita, conseguenze differenti si avranno quando un dato errato viene utilizzato nella determinazione del profilo di rischio.
Ancor più pericolosa è la consegna al management di report contenenti dati non corretti che possono portare a decisioni strategiche “distorte” e a impatti sulle prestazioni finanziarie dell’organizzazione. Tutto ciò genera, inoltre, tra i dipendenti grande sfiducia nei confronti dei dati minando la credibilità degli stessi e il loro utilizzo.
Per poter essere competitivi è essenziale costruire un sistema di verifica della qualità dei dati in modo da disporre di informazioni affidabili per l’utilizzo business a cui sono destinate, rispettando i tempi di cut-off del processo, nonché essere in grado di attivare azioni diagnostiche ben architettate e di rimozione strutturale delle anomalie riscontrate.
Quali sono le modalità di applicazione e i maggiori criteri di controllo?
Realizzare un sistema di Data Quality è un’attività a lungo termine. Entrare nel dettaglio di ogni fase richiederebbe la stesura di un libro, ma in sintesi possiamo riassumere alcuni passi principali:
- La definizione di una policy aziendale che illustri le “regole del gioco” per tutti gli attori coinvolti;
- l’individuazione di ambito pilota sul quale identificare i dati presenti nelle varie fasi del processo sui quali eseguire opportune fasi di trasformazione e di controllo utilizzando un sistema a regole, anche espresse in linguaggio naturale (regole tecniche, ad es. verifica del rispetto formato data e di business, ad es. un prestito estinto ha saldo uguale a zero o di riconciliazione, dopo aver opportunamente normalizzato i dati da confrontare);
- mantenere a regime l’impianto e monitorare l’andamento della qualità dei dati dotandosi di una serie di indicatori a supporto;
- intraprendere eventuali attività di rimozione delle anomalie rilevate e di miglioramento strutturale;
- ampliare a nuove destinazioni d’uso.
La parte più impegnativa, in termini di tempo necessario, è probabilmente la definizione degli impianti di controllo che verificano la conformità dei dati ad una serie di criteri, producono esiti e consentono di intercettare i dati anomali. Nel 2013 DAMA UK (DAMA-DMBOK Capitolo 13) ha identificato sei dimensioni rispetto a cui far convergere i controlli tecnici e di business:
- Completezza: la percentuale di dati archiviati rispetto al potenziale del 100%;
- Unicità: nessuna istanza (cosa) dell’entità verrà registrata più di una volta in base al modo in cui tale cosa viene identificata;
- Tempestività: il livello a cui i dati rappresentano la realtà nel momento richiesto;
- Validità: i dati sono validi se sono conformi alla sintassi (formato, tipo, intervallo) della sua definizione;
- Accuratezza: il livello in cui i dati descrivono correttamente l’oggetto o l’evento “mondo reale” che viene descritto;
- Consistenza: l’assenza di differenza, quando si confrontano due o più rappresentazioni di una “cosa” con una definizione.
I criteri sopra elencati rappresentano ovviamente soltanto una selezione di un insieme più ampio di criteri di qualità dei dati noti in letteratura. Se le sei dimensioni ci dicono “qual è” lo stato di salute del dato in un determinato momento, la Data Observability ci aiuta a capire “perché” e a prevenire problemi futuri. È un approccio olistico che monitora costantemente la salute dei dati lungo tutte le pipeline, non solo nel database finale. Citando Gartner è “la capacità di un’organizzazione di avere un’ampia visibilità del proprio panorama di dati e delle dipendenze multi-livello”.
“Osservare” le data pipeline significa essere in grado di monitorare non solo la qualità statica, ma anche la freschezza, il volume, lo schema e la discendenza (lineage) dei dati, sostanzialmente in tempo reale: questo permette di rilevare anomalie (ad esempio: un calo improvviso di record in un flusso dati) prima che queste impattino i processi di business.
In altre parole: potremmo vedere la Data Quality tradizionale come un check-up medico annuale, con una fotografia della propria salute; mentre la Data Observability assomiglia a un fitness tracker, lo smartwatch che monitora i tuoi parametri vitali 24 ore su 24, avvisando di una potenziale anomalia (ad esempio: battito cardiaco irregolare) quando si verifica e permettendo di agire prima che diventi un problema più serio.
Come strutturare metriche e indicatori di Data Quality?
Il corretto funzionamento a regime e il miglioramento delle prestazioni del sistema di Data Quality non possono prescindere dalla disponibilità di una serie di misure: non è possibile migliorare se non si misura. Un sistema di metriche deve rappresentare le esigenze informative primarie:
- è bene individuare poche misure chiave e concentrare su di esse l’attività di reporting. Se è vero che “non si può gestire quello che non si può misurare” è anche vero che “misurare costa”;
- in linea generale, è bene che le metriche siano il più possibile riunite a sistema, cioè coese e collegate le une alle altre da uno schema logico. È bene cercare sempre una consistenza nei termini e nelle definizioni delle metriche;
- il sistema deve essere bilanciato, cioè comprendere varie tipologie e prospettive, pesandole per rappresentatività;
- è bene presentare le metriche suddivise in gruppi o tipologie affini;
- lo scopo delle metriche di un sistema di Data Quality non è quello di misurare la produttività o la qualità delle persone o stimolare la competizione tra le persone/uffici, ma di misurare la qualità del prodotto (i dati) e dei processi. Ad esempio: anziché misurare il numero di flussi validati al giorno è meglio misurare il numero di flussi senza errori. La misurazione delle prestazioni delle persone può essere una tentazione, ma è sicuramente una delle cose più dannose per un’iniziativa di qualità. L’unica eventuale misurazione di prestazione accettabile è a livello di gruppo di lavoro;
- una metrica dovrebbe sempre essere validata empiricamente in una varietà di contesti prima di essere pubblicata.
Perché Irion EDM permette di strutturare un impianto di Data Quality efficace?
Un sistema di qualità, con il crescere del numero di ambiti informativi da controllare e del numero di controlli da gestire, qualificare, eseguire periodicamente, misurare trova un supporto irrinunciabile nell’impiego di strumenti tecnologici per automatizzare le fasi più impegnative, quali, ad esempio, eseguire controlli periodici, calcolare metriche di qualità, produrre report.
Irion ha realizzato centinaia di progetti in questo ambito, sviluppando una piattaforma che permette di ridurre i tempi di predisposizione e accelerare l’applicazione delle procedure di controllo nel pieno rispetto delle policy aziendali. Qualche esempio?
- potenti motori di controllo che eseguono 2,5 milioni di controlli al minuto, verificando oltre 60 milioni di record;
- un impianto flessibile di Data Quality Governance collaborativo per le interazioni tra i vari data specialist;
- un efficace sistema per la gestione della remediation e delle issue di scarsa qualità dei dati;
- un modulo che permette di adottare metriche già testate da varie realtà o di definire, calcolare e analizzare qualunque tipologia di indicatore su qualunque tipologia di processo di business;
- automatismi per generare intelligentemente, in pochi secondi, le regole tecniche a partire dai metadati.
Irion EDM è in uso oggi in 8 dei 10 maggiori gruppi bancari italiani, metà delle principali assicurazioni e in grandi realtà e organizzazioni complesse, in ambiti quali energy, utility, trasporti, logistica e Pubblica amministrazione. Eccone alcuni esempi nel perimetro delle soluzioni avanzate per la Data Quality:
- Grandi istituti finanziari usano la nostra piattaforma quotidianamente per certificare la coerenza e correttezza formale di tabelle sensibili in enormi database con milioni di transazioni, mettendo in sicurezza le segnalazioni obbligatorie e minimizzando i rischi sanzionatori
- Un leader bancario italiano usa un “Motore di Riclassificazione Contabile” basato su Irion per classificare automaticamente 400 milioni di transazioni giornaliere, garantendo coerenza tra contabilità, bilancio e segnalazioni di vigilanza e rispettando i rigidi requisiti della Circolare 285 di Banca d’Italia
- Per un importante istituto di credito, Irion gestisce il processo di cancellazione automatica (diritto “Deleto”) dei dati personali dopo un certo periodo, operando su diverse basi dati critiche in ambito Finanza e Tesoreria e garantendo la piena conformità al GDPR
Irion EDM e la visione moderna della DQ
Irion è l’unica azienda italiana nel Magic Quadrant™ 2025 di Gartner® per le “Augmented Data Quality Solutions”. Un moderno framework di Data Quality ha bisogno di un motore potente e flessibile come Irion EDM, la piattaforma che abilita questa visione strategica permettendo di:
- Automatizzare e scalare: eseguire milioni di controlli al minuto su decine di milioni di record
- Centralizzare la Data Governance implementando architetture Hub & Spoke
- Attivare la Data Observability monitorando l’affidabilità dei Data Product
- Generare regole automaticamente: sfruttare i metadati per creare regole di controllo automatizzate, accelerando l’implementazione
- Coinvolgere il Business: fornire interfacce intuitive per la gestione delle regole, la remediation e la Data Justification
Ignorare la qualità dei dati oggi significa costruire il proprio futuro digitale, basato sull’AI, sulle decisioni Data-driven e sull’automazione, su basi fragili e pericolanti. Significa alimentare i propri algoritmi con “dati spazzatura”, ottenendo risultati inaffidabili. Non basta tappare le crepe: occorre riparare nel profondo le fondamenta della nostra casa (business). Oltre alle classiche dimensioni della qualità dei dati, abbracciare il nuovo paradigma dell’osservabilità e la potenza dell’automazione è un primo passo fondamentale per trasformare i dati da rischio nascosto in asset centrale per l’azienda.