La richiesta di analizzare nuovi tipi di dati ha determinato notevoli cambiamenti nel panorama degli analytics. La risposta è la creazione di un catalogo dei dati presenti in azienda per ottenere il massimo valore di business, governando i dati su più data store
Molte aziende vanno ben oltre il semplice data warehouse, e oggi le esigenze sono quelle di acquisire, elaborare e analizzare nuovi dati strutturati, semi-strutturati e non strutturati da fonti interne ed esterne, per analisi che non si trovano in un data warehouse tradizionale. Di conseguenza, sono necessari nuovi tipi di carichi di lavoro analitici per ricavare informazioni su questi nuovi tipi di dati: è questo che ha portato all’utilizzo di nuovi data store e di piattaforme analitiche oltre al data warehouse.
La complessità aumenta
Tuttavia, il problema di avere più data store analitici in locale e nel cloud è che la complessità aumenta, in quanto molti tipi di dati diversi vengono importati in tutti questi data store. Di conseguenza, molte aziende stanno affrontando la realtà di non disporre di un data lake centralizzato di tutti i dati in un data store, ma di avere un data lake distribuito con più data store che possono comprendere più sistemi Hadoop, DBMS relazionali, data store NoSQL e cloud storage.
Gli utenti business non hanno alcun posto dove andare per scoprire se sono già disponibili dati affidabili, preparati e integrati in grado di soddisfare le loro esigenze e di risparmiare tempo. La risposta a tutti questi problemi è la creazione di un enterprise information catalog, cioè un catalogo dei dati presenti in azienda, che consente di vedere quali dati e quali elaborazioni vi sono su più data store, sia locali sia nel cloud. Si tratta oggi di un aspetto essenziale sia nella governance dei dati sia negli analytics.
La lista delle cose da fare
Quando si cerca di acquistare un catalogo di dati, alcune delle funzionalità chiave da cercare possono essere queste: 1) nominare/mettere un segnalibro e registrare le fonti dei dati; 2) rilevare automaticamente i dati per capire quali dati vi sono nelle fonti, nei data lake e nei data store analitici, che possono contenere sia dati grezzi importati sia dati affidabili già puliti e integrati in data warehouse, data mart e in sistemi master di gestione dei dati. Questo comprende anche la discovery automatica dei dati nei database RDBMS, Hadoop, cloud storage e NoSQL.
Durante la discovery automatica sarà possibile:
- Utilizzare il machine learning integrato per etichettare/mettere un nome automaticamente e annotare i singoli campi di dati per indicare qual è il significato dei dati.
- Utilizzare il machine learning integrato per riconoscere automaticamente i dati che corrispondono a schemi predefiniti o definiti dall’utente, per determinare istantaneamente cosa significano i dati.
- Rilevare automaticamente i dati identici, simili e correlati in più data store, indipendentemente dal fatto che i nomi di questi dati siano diversi.
- Profilare automaticamente i dati per comprendere la qualità di ogni oggetto.
- Ricavare automaticamente la discendenza dei dati per capire da dove provengono i dati.
- Scoprire automaticamente i dati personali (PII, Personally Identifiable Information).
- Rilevare automaticamente le variazioni (un requisito fondamentale).
- Consentire agli utenti di taggare manualmente i dati per introdurli nel catalogo.
- Creare ruoli all’interno del catalogo, come per esempio: proprietari dei dati, date expert, curatori o produttori dei dati, data steward, consumatori.
- Consentire la creazione e il mantenimento di comunità virtuali permettendo alle persone non solo di curare, collaborare e modificare manualmente i tag generati automaticamente dal software durante la discovery automatica, ma anche di collaborare con altre elaborazioni nel catalogo, come per esempio: job ETL, job di preparazione dati self-service, modelli analitici, dashboard, report BI, e così via.
- Definire un insieme di termini commerciali comuni in un glossario aziendale del catalogo e/o importare i termini in un glossario aziendale del catalogo che può essere utilizzato per contrassegnare i dati pubblicati in un catalogo per capire cosa significano i dati.
- Contrassegnare automaticamente i dati a livello di field per sapere cosa significa.
- Contrassegnare i dati nel set di dati, nel folder, nel database e a livello di raccolta.
- Supportare più schemi predefiniti di classificazione di governance dei dati (tagging) che indicano i livelli di riservatezza, la conservazione e l’attendibilità dei dati (cioè la qualità). Lo scopo di questi schemi è quello di essere in grado di taggare i dati con un livello specifico di riservatezza e con un livello specifico di conservazione per sapere come governarli in termini di protezione e conservazione dei dati.
- Aggiungere schemi di classificazione della governance dei dati definiti dall’utente per consentire ai dati di essere taggati/etichettati in conformità con questi schemi per sapere come organizzarli e governarli.
- Automatizzare la classificazione dei dati utilizzando modelli predefiniti, modelli definiti dall’utente (per esempio espressioni regolari o elenchi di riferimento) per identificare e classificare automaticamente tipi specifici di dati in un data lake, per esempio per riconoscere un codice fiscale e un indirizzo e-mail, il nome di una società, un numero di carta di credito.
- Automatizzare la classificazione dei dati utilizzando l’intelligenza artificiale per osservare, apprendere e predire il significato dei dati in un data lake.
- Consentire la codifica manuale dei dati e di altre elaborazioni nel catalogo per specificare il significato dei dati e consentire la corretta gestione dei dati.
Consentire più governance e utilizzare i tag da inserire nei dati, tra cui:
- Un livello di tag di confidenzialità, per esempio allo scopo di classificarlo come PII, Personally Identifiable Information.
- Un livello di tag di qualità.
- Un livello di tag di conservazione dei dati.
- Un tag di utilizzo business, per esempio engagement dei clienti, gestione dei rischi, ecc.
- Tagging di un file per indicare il livello di conservazione o a quale zona di elaborazione appartiene all’interno di un data lake, come per esempio la zona di importazione, quella dei dati grezzi approvati, quella della raffineria dati o quella dei dati attendibili.
- Propagare automaticamente i tag utilizzando il machine learning per riconoscere dati simili su più data store.
- Definire, gestire e allegare politiche e regole a tag specifici (per esempio un tag PII, Personally Identifiable Information) per sapere come governare in modo coerente tutti i dati nel catalogo che sono stati etichettati con lo stesso tag.
- Importare i metadati da strumenti di terze parti per scoprire, classificare e pubblicare automaticamente quanto segue nel catalogo (job ETL sviluppati dall’IT; job di preparazione dati self-service; elaborazioni dei tool di BI come query report, dashboard, modelli analitici; notebook di data science, tabelle virtuali in un server di virtualizzazione dei dati per capire cosa è disponibile attraverso il data lake distribuito per preparare, interrogare, riportare e analizzare i dati contenuti al suo interno).
- Classificare manualmente (taggare) e pubblicare i lavori ETL sviluppati, le “ricette” di preparazione dei dati self-service, le tabelle virtuali, le query BI, i report, i cruscotti, i modelli analitici e i quaderni di data science sul catalogo.
- Creare un “data marketplace” all’interno del catalogo per offrire dati e approfondimenti come servizio ai clienti che si iscrivono.
- Supporto della ricerca sfaccettata per ingrandire e trovare i dati “pronti per l’uso” e altre risorse analitiche come report, dashboard e modelli pubblicati nel catalogo che un utente è autorizzato a vedere.
- Comprendere le relazioni tra dati ed elaborazioni nel catalogo per formulare raccomandazioni sui dati correlati.
- Consentire agli utenti di vedere facilmente le linee end-to-end in termini tecnici e di business e navigare nelle relazioni per esplorare i dati correlati.
- Integrare il catalogo con altri strumenti e applicazioni tramite le API REST.
Mike Ferguson
Managing director di Intelligent Business Strategies Ltd, come analista è specializzato in business intelligence ed enterprise business integration. Con oltre trenta anni di esperienza in ambito IT, ha svolto consulenze per importanti aziende su temi quali la business intelligence, l’enterprise architecture, la business process integration, l’application integration e la data integration. Oltre a essere speaker in numerosi eventi e seminari in tutto il mondo, è anche autore di svariati articoli tecnici.
Mike Ferguson sarà il chairman della Conferenza di Technology Transfer “Big Data International Conference” il 3-4 dicembre 2018 a Roma.
Presenterà inoltre i seminari “Enterprise Data Governance & Master Data Management” il 15-16 novembre 2018 e “Progettare, costruire e gestire un Enterprise Data Lake” il 5-6 dicembre 2018.