10/02/2021

Notizie

Data Integration, che cos’è? A cosa serve?

Per DAMA l’integrazione dei dati descrive i processi relativi allo spostamento e al consolidamento dei dati all’interno e tra data store, applicazioni e organizzazioni.

In parole più semplici è l’insieme di tutte quelle azioni necessarie a unificare diverse sorgenti informative, in modo da creare una vista unica su un determinato processo. La necessità di gestire in modo efficiente il trasferimento dei dati è ormai un driver primario per la maggior parte delle organizzazioni che dispongono di centinaia o migliaia di database e archivi. Ma non è sufficiente nell’epoca della digital transformation: è infatti necessario saper gestire flussi di dati strutturati (interni o derivanti da fonti esterne) e non strutturati (esempio dati che arrivano dai social) che si riversano da fonti apparentemente infinite. L’integrazione consolida i dati in forme coerenti, fisiche o virtuali per soddisfare i requisiti di “utilizzo” di tutte le applicazioni e i processi aziendali.

Integrare i dati è fondamentale per diversi motivi:

gestire, elaborare, confrontare, arricchire diverse tipologie di dati tra loro al fine di sviluppare analisi avanzate dalle quali estrarre nuova conoscenza
disporre di dati in modo sicuro, in conformità alle normative, nel formato e nel lasso di tempo necessari
diminuire i costi la complessità della gestione delle soluzioni unificare i sistemi e migliorare la collaborazione
ricercare pattern nascosti e relazioni tra diverse fonti
mappare il data lineage
in caso di fusioni aziendali per migrare i dati o riunire i sistemi informativi

La Data Integration è prerequisito essenziale per il Data Warehousing, il Data Management, la Business Intelligence e per il Big Data Management. Se negli anni passati veniva considerato normale nelle divisioni IT creare dei silos di dati, separati per ogni funzione aziendale, oggi, con l’introduzione dei Big Data e del Cloud, è ormai imprescindibile oltrepassare questa configurazione architetturale.

I Big Data tendono a integrare vari tipi di dati, tra cui quelli:

strutturati e archiviati nei database,
di testo non strutturati nei documenti o nei file,
altri tipi non strutturati come quelli audio, video e di streaming.

Ma è ormai chiaro come, più che dal volume di dati, il valore estraibile dai Big Data provenga dalla correlazione di una varietà di fonti, tipologie e formati di dati. Tuttavia, la gestione, l’integrazione e la governance di dati eterogenei è una sfida che molte aziende affrontano quotidianamente, in maniera non sempre ottimale.

Come applicare la Data Integration?

Esistono molteplici tecniche utilizzate per realizzare l’integrazione tra le diverse tipologie di dati sopra citate tra cui l’ETL (Extract, Transform, Load) che è sicuramente la più diffusa negli ultimi decenni e l’ELT che inverte le ultime due attività per ottenere maggiore funzionalità.

L’ETL prevede tre fasi:

Fase 1 – Estrazione: questo processo comprende la selezione dei dati richiesti da una sorgente o da diverse fonti. I dati estratti vengono quindi organizzati in un data store fisico su disco o su memoria.

Fase 2 – Trasformazione: i dati vengono trasformati in base ad una serie di regole per adattarsi al modello del data warehouse o alle esigenze operative, tipici esempi di trasformazioni sono modifiche al formato, le concatenazioni, l’eliminazione dei valori nulli, che potrebbero portare a risultati non corretti durante le analisi o modifica dell’ordine degli elementi di dati o dei record per fittare un pattern definito.

Fase 3 – Caricamento: questa fase consiste nella memorizzazione o presentazione fisica del risultato delle trasformazioni nel sistema target. Esistono due diversi tipi, ovvero si parla di caricamento in modalità batch, in cui i dati vengono integralmente riscritti sostituendo i precedenti, o in modalità incrementale periodica grazie alla quale si rilevano e inseriscono nel data warehouse solo i cambiamenti avvenuti a partire dall’ultimo caricamento.

Questo sistema nel tempo, nella sua applicazione, ha evidenziato però alcuni limiti:

una crescente complessità di orchestrazione dei percorsi di trasformazione
imponendo una descrizione dettagliata del processo non consente ottimizzazioni delle elaborazioni, né in ragione della distribuzione attuale dei dati, né in seguito a miglioramenti del software
non è autonoma in termini di potenzialità funzionali e deve spesso ricorrere a sistemi esterni di appoggio
la necessità di procedere con altri strumenti e per vie non coordinate alla definizione di tabelle, viste e infrastrutture varie di sostegno
lo sforamento dei costi e dei tempi di implementazione
l’abbattimento delle performance elaborative
la crescita dei costi di manutenzione e di gestione di cambiamenti
l’impossibilità di cicli di test e sviluppi paralleli e coordinati
l’impossibilità pressoché totale di documentare e tracciare i processi, con buona pace dei requisiti di lineage e ripetibilità
muove più e più volte significative masse di dati dalle aree di staging ai server di elaborazione e viceversa; non esegue le logiche elaborative dove risiedono i dati, ma muove giga di dati dove sa eseguire le trasformazioni funzionali.

L’ELT è una tecnologia emergente che si pone l’obiettivo di superare gli “svantaggi” dell’ETL, l’ordine delle fasi varia in Estrazione, Caricamento, Trasformazione (Extract, Load, Transform). Le trasformazioni si verificano dopo il caricamento sul sistema target, spesso come parte del processo. L’ELT, in sostanza, consente di istanziare i dati di origine sul sistema target come dati non elaborati, che possono essere utili per altri processi. Le modifiche avverranno quindi nel sistema di destinazione. Ciò è divenuto più comune con la diffusione degli ambienti Big Data dove il processo ELT carica il data lake.

Questa “variazione di fase” realizza alcuni benefici, i principali sono:

analizza rapidamente grandi pool di dati e richiede meno manutenzione
è un processo più economico, in quanto richiede meno tempo nel caricamento dei dati
poiché comporta il caricamento e la trasformazione dei dati in pezzi più piccoli, rende più facile la gestione del progetto
utilizza lo stesso hardware per l’elaborazione e la memorizzazione riducendo al minimo il costo aggiuntivo dell’hardware
può elaborare sia dati semi-strutturati che non strutturati

Perché Irion EDM è una piattaforma unica per gestire, con efficacia, progetti di Data Integration in presenza di grandi moli di dati?

Irion EDM non è un sistema di ETL procedurale, ma ha un approccio dichiarativo, “disruptive” rispetto ai vecchi e tradizionali sistemi. Ha sviluppato con anni di esperienza, in contesti mission critical e “data intensive”, una serie di tecnologie avanzate per superarne i limiti:

Irion EDM applica una tecnologia nominata DELT® (Declarative, Extract, Load and Transform) che va oltre l’approccio ELT, infatti oltre ad invertire le fasi, tutto il processo è svolto in conformità ad un modello dichiarativo.
Irion è una piattaforma Metadata Driven: abilita e accende la potenza dei metadati. Non solo ti aiuta a trovarli, a identificarli e a catalogarli tramite evolute tecniche di metadata ingestion e translation, ma ti aiutiamo a potenziarli trasformandoli da passive metadata in active metadata.
In virtù della tecnologia EasT® (Everything as a Table) ogni dataset utilizzato nell’elaborazione viene riesposto virtualmente come se fosse una tabella (o un insieme di tabelle). La piattaforma opera implicitamente tutte le trasformazioni necessarie per far sì che un insieme di dati disponibile in qualsiasi formato (file CSV, Excel, XML, Cobol, DB, Web Services, API, SAP, …) sia mappato opportunamente.
Grazie ad IsolData® (altra tecnologia proprietaria) i dati elaborati dai moduli dell’applicazione non persistono nel sistema, ma vengono automaticamente gestiti senza che questo richieda lo sviluppo di codice. Isoldata è infatti la capacità di Irion di isolare in uno spazio di lavoro dedicato, tutto ciò che serve (input, output, dati temporanei) per eseguire una singola unità di elaborazione di una soluzione.
La piattaforma Irion è in grado di connettersi ad un elevato numero di fonti: sono disponibili centinaia di connettori alle strutture informative e ai sistemi applicativi più disparati, da quelli più datati ai più moderni, strutturati e non strutturati, disponibili on-premises o multi-cloud. Connettori specifici possono, inoltre, essere sviluppati grazie a potenti funzionalità incluse nella piattaforma. Tutti i dati disponibili nelle differenti fonti sono accessibili dai moduli come tabelle virtuali.
Irion EDM coordina automaticamente la partecipazione contemporanea di più team sullo stesso progetto; è pensato per essere utilizzato da tecnici IT, data analyst, data officer con funzionalità dedicate ai singoli ruoli.
Per usare Irion EDM non è necessario imparare un nuovo linguaggio, basta semplicemente conoscere l’SQL imparato a scuola o sul “campo”
e molto altro ancora…

Vuoi saperne di più?

Scopri attraverso esempi pratici come altre realtà di successo hanno già avviato la loro trasformazione.

SCOPRI IRION DATA INTEGRATION

Dalla BCBS 239 alla Guida RDARR: cinque step per affrontare i nuovi requisiti del risk reporting bancario

BCBS 239, che cos’è? Cosa richiede? Come essere compliant?

Digital Asset Library disponibile nel Partner Portal: accelera i tuoi progetti con tecnologie Irion

Inizia oggi stesso a valorizzare il tuo patrimonio informativo

Richiedi una demo

Scopri di persona come la piattaforma Irion EDM® può aiutarti a utilizzare i tuoi dati in maniera competitiva.

Contattaci

Esplora un mondo di opportunità e soluzioni con Irion EDM®. Contattaci ora per trasformare la tua esperienza.

Video tutorial

Guarda i video tutorial del prodotto per scoprire tutte le funzionalità e le potenzialità di Irion EDM®.

Da dove iniziare

Irion EDM®​ Overview

Augmented Data Quality

Data Governance

Data Quality Management

Metadata Management

Data Reconciliation

Data Modeling & Design

Data Integration & Interoperability

Reference & Master Data Management

Data Analytics & Business Intelligence

Use Case Overview

Storie di successo

In primo piano

Quadratura Derivati Quotati

Enterprise PEC Manager

Riassicurazione – Stop Loss

Calcolo tariffe prestazioni portuali

Overview

Servizi

Blog

Newsroom

Partner Program

Partner Portal

Digital Asset Library

Una storia di innovazione

Careers

Data Integration, che cos’è? A cosa serve?

Per DAMA l’integrazione dei dati descrive i processi relativi allo spostamento e al consolidamento dei dati all’interno e tra data store, applicazioni e organizzazioni.

Come applicare la Data Integration?

Perché Irion EDM è una piattaforma unica per gestire, con efficacia, progetti di Data Integration in presenza di grandi moli di dati?

Vuoi saperne di più?

Dalla BCBS 239 alla Guida RDARR: cinque step per affrontare i nuovi requisiti del risk reporting bancario

BCBS 239, che cos’è? Cosa richiede? Come essere compliant?

Digital Asset Library disponibile nel Partner Portal: accelera i tuoi progetti con tecnologie Irion

Inizia oggi stesso a valorizzare il tuo patrimonio informativo

Richiedi una demo

Contattaci

Video tutorial

Per iniziare

Servizi

Azienda

Vision

Risorse

Informazioni legali

Irion EDM® Overview