Completezza, accuratezza, tempestività, coerenza, univocità, integrità, conformità, ma anche tracciabilità dei processi di trasformazione dei dati. Come coltivare la qualità dei dati per evitare il rischio di decisioni sbagliate, processi inefficienti, performance ridotte, opportunità mancate e sfiducia
La qualità dei dati è un requisito fondamentale per ottimizzare la raccolta e l’analisi dei dati. Oltre che la successiva esplorazione e interpretazione delle informazioni, nascoste nei Big Data. Un corretto processo di data quality si traduce in aumento dell’efficacia dei processi decisionali. I dati “puliti” sono la base per sviluppare progetti efficienti e solidi, in grado di supportare appieno le strategie data-driven. Si fa presto a dire analytics, monetization e trasformazione dei dati in conoscenza. Occorre però essere meno superficiali nell’associare ai dati un valore intrinseco. Nelle operazioni di utilizzo, secondo i diversi paradigmi, i dati vengono conservati, spostati o copiati da un repository all’altro. Tutte operazioni – costose in termini di risorse – che rischiano di avere un impatto negativo dal punto di vista dell’integrità e della qualità dei dati.
Senza una base integra, univoca e accessibile di dati, è difficile estrarre vero valore di business. Il ciclo di vita del dato, dalla gestione all’analisi, richiede pratiche e strumenti adeguati. Sicurezza, consistenza, incorruttibilità, qualità e integrità dei dati sono fattori determinanti per le strategie di ogni organizzazione, soprattutto a supporto dei processi decisionali assistiti dall’intelligenza artificiale. Non basta avere una fonte di informazione, è necessario porre al centro delle attività aziendali una vera “data community” per incentivare un’evoluzione più spedita e stabile interna all’organizzazione. Troppo spesso le aziende si ritrovano a lavorare con dati non “puliti”. Questa non uniformità del dato può avere impatti potenzialmente disastrosi per chi necessita di muoversi con agilità e velocità nel proprio mercato di riferimento. Oggi, i CDO sono chiamati a colmare il divario fra l’IT e il mondo del business, non solo attraverso l’inserimento di soluzioni innovative o di risorse professionali specializzate, ma soprattutto con la possibilità di condividere scelte, esperienze e responsabilità.
TRACCIABILITÀ DEI PROCESSI
La qualità del dato si misura in base a sette dimensioni: completezza, accuratezza, tempestività, coerenza, univocità, integrità, conformità. Ognuna di esse deve essere rispettata per avere un dato di qualità. Oggi, il concetto di data quality sta evolvendo verso una ottava dimensione che è essenzialmente quella legata alla tracciabilità dei processi di trasformazione dei dati, come conseguenza dei nuovi algoritmi. «Il data lineage è indispensabile per tenere traccia del confine, talvolta sottile e ingannevole, tra dato, informazione e insight» – spiega Giancarlo Vercellino, associate director Research & Consulting di IDC Italy. «Un elemento indispensabile per fare quel “sanity check” che è richiesto per valutare la correttezza dei workflow analitici». I dati sono alla base, ma le aziende come possono fidarsi completamente dei dati in loro possesso? Secondo Vercellino – le aziende non devono fidarsi dei dati, ma dei processi che sono in grado di costruire sui dati. «I processi possono essere monitorati e se necessario emendati. I dati, soprattutto quando provengono da fonti esterne, non possono sempre e comunque essere validati o accertati. Una azienda propriamente data-driven deve imparare a convivere con l’errore, che è un po’ il rumore di fondo, il rumore bianco, che contraddistingue una società che produce e macina grandi quantità di dati ogni giorno».
L’automazione di tanti processi che caratterizzano il back-end dell’IT aziendale – oggi parliamo di data governance, ma pensiamo a tutto quanto sta avvenendo con il Serverless lato configurazione e deployment – avrà un impatto molto importante nel rafforzare la credibilità di una organizzazione data-driven. «L’errore umano – spiega Vercellino – è il primo fattore che può mettere a repentaglio la qualità dei dati, introducendo distorsioni e manipolazioni che possono poi impattare sulle decisioni finali. Una macchina capace di portare avanti in modo autonomo e controllabile alcuni aspetti legati alla data curation potrebbe accelerare in modo importante il time-to-insight».
Una comprensione approssimativa della realtà porta sempre a decisioni errate. Quando gli insights vengono utilizzati per guidare i manager esecutivi e i direttori di funzione, si entra nel dominio della politica aziendale e capire se una decisione sia giusta o sbagliata diventa un tema di dibattito o un esercizio di potere. «Quando gli insights vengono impiegati per automatizzare i processi – precisa Vercellino – se sono stati commessi degli errori di gestione del dato, diventa immediatamente evidente a tutti: in primo luogo ai clienti, poi a chi lavora a contatto con i clienti e quindi a chi controlla i numeri. In questo caso, diventa davvero difficile nascondere la polvere sotto il tappeto». L’implementazione di un attento processo di data quality può ridurre costi e rischi su entrambi i fronti. Le ragioni sono le più disparate e dipendono dai casi d’uso. «In ambito finanziario – spiega Vercellino – la qualità dei dati può mitigare i rischi di un affidamento. In ambito di servizio, la qualità dei dati può ridurre il rischio di churn dei clienti. In ambito industriale, la qualità del dato può garantire l’efficienza del prezzo edonico di un prodotto, calcolando finemente quello che è il contributo marginale di ogni fattore produttivo alla qualità del prodotto finale. I casi possibili sono tanti». Il CDO ha la responsabilità di costruire un processo capace di gestire gli analytics e gli insights come se fossero un processo industriale – avverte Vercellino – garantendo la valorizzazione dei dati e promuovendo una cultura centrata sul dato a tutti i livelli aziendali. «Si tratta di compiti assolutamente non facili che richiedono una stretta collaborazione con CEO, CIO, CTO, COO e CMO per essere perfettamente allineati sugli obiettivi e sui tempi necessari per una trasformazione di questo tipo».
BASE DI PARTENZA E NON DI ARRIVO
Avere dati precisi e accessibili nelle modalità giuste e nel tempo giusto oggi non è più sufficiente. Determinanti sono requisiti come la coerenza e l’univocità – spiega Paolo Aversa, managing director di ally Consulting. «Un dato che è utilizzato da più funzioni aziendali deve essere per prima cosa univoco, ma allo stesso tempo deve poter essere elaborato in modo automatico in informazioni specifiche e utili al singolo contesto, mantenendo la coerenza anche trasversalmente alle funzioni organizzative». Un altro aspetto cruciale è la conformità formale: i dati che stiamo raccogliendo seguono le best practice aziendali e rispecchiano i processi di efficienza definiti dal top management? «Avere sotto controllo questo aspetto è fondamentale – continua Aversa – perché permette di capire se le strategie intraprese sono davvero funzionali o se devono essere adeguate all’evolvere della nostra impresa». Secondo Andrea Zinno, data evangelist di Denodo, il concetto di qualità non può limitarsi a indagare la componente estensionale dei dati (le loro occorrenze), ma deve estendersi anche a quella intensionale (il loro significato) – «perché ancor prima di garantire la qualità dei dati rilevati, è importante garantirla per il loro significato, facendo sì che questo sia esplicito, indagabile e condivisibile, che rappresenti, cioè, quello che realmente deve essere rappresentato, dando la possibilità di evolvere, di catturare quei “punti di vista” che sono inevitabili e necessari all’interno di ogni azienda e che rappresentano, in ultimo, quelle che sono le responsabilità dei ruoli aziendali».
La data quality è parte integrante della data strategy e rappresenta la base di partenza e non di arrivo – spiega Filippo Gentilini, marketing Di.Tech – per consentire alle aziende di approntare strategie efficaci basate sulle informazioni e sulla conoscenza, che abilitano i processi di trasformazione digitale completa. «Non bisogna fermarsi all’ottenimento della sola qualità del dato, ma è necessario dotarsi anche di partner e strumenti in grado di analizzarli, per applicare le strategie migliori per il proprio business che permettano un vantaggio competitivo». La scelta e l’utilizzo di opportune metriche per la definizione e la misurazione della qualità dei dati è essenziale per supportare correttamente le scelte di business. «Completezza, accuratezza, tempestività, coerenza, integrità e conformità – mette in evidenza Lara Binotti, sales director di Holonix – sono solo alcuni esempi di metriche operative utilizzabili, ma che per loro stessa natura sono molto manuali e quindi suscettibili di errori sostanziali. L’apprendimento automatico è divenuto l’approccio dominante e sta cambiando la metodologia di implementazione della data quality».
EFFICACIA E COERENZA
Nell’era della data economy sempre più aziende stanno puntando sulla data monetization. Guardando ai “big” come Google o Facebook – spiega Glauco Cataldi, cloud sales specialist integration solution di Oracle Italia – è chiaro che il successo viene oltre che alla capacità di raccogliere grandi moli di dati dall’affidabilità che i dati trattati forniscono per gli scopi richiesti. «La data quality diventerà sempre più pervasiva, rafforzata dall’apprendimento automatico e specializzandosi su processi definiti per scopi ben precisi, che si tratti del lancio di un prodotto o di un sondaggio su un dato argomento». Per Mirko Menecali, Partner and Alliance manager di Sinfo One i dati sono il patrimonio principale di qualsiasi sistema e la loro qualità è direttamente connessa con l’efficacia complessiva del sistema/processo, sia esso un’applicazione operativa, un ERP, un tool di analitica e business intelligence. E oltre ai requisiti di completezza, precisione, disponibilità e tempestività, ce ne sono molti altri da prendere in considerazione – «come la coerenza centrale nei sistemi di analitica che usano diverse fonti dati, l’univocità nei sistemi ERP, la conformità formale fondamentale nei sistemi EDI, l’integrità fondamentale quando si usa IoT».
Difficile dire quale sia il più importante, anche se negli ultimi tempi viene stressato il concetto di tempestività intesa come velocità di fruizione. Entrando nello specifico delle applicazioni di BI – Menecali spiega che gli utenti evoluti, come i data scientist, devono accedere a importanti moli di dati preparati per supportare analisi complesse e destrutturate. «Rispondere a queste richieste in modo tempestivo richiede, anche in aree tradizionali come il data warehousing, approcci evoluti come l’Unified Star Schema e l’utilizzo di “tabelle ponte” per aumentare la tempestività di presentazione dei dati». Per misurare la qualità dei dati vanno definite delle metriche standard valide a prescindere dal contesto di utilizzo e altre che invece devono essere strettamente legate al contesto – evidenzia Antonio Cataldi, project manager di Skìanet, Community Partner Network di Seeweb. «Quelle più usate sono l’accessibilità, l’accuratezza, la consistenza e la quantità. Il contributo di tecnologie di AI e ML offre un grande supporto per tutto il ciclo di vita del dato, dalla data creation, alla data maintenance e alla data protection, riducendo notevolmente il costo di queste operazioni, automatizzandole». A prescindere dalle specificità definite, fulcro del cambiamento è la partecipazione delle unità di business alla gestione diretta della qualità dei dati. E su questo punto Antongiulio Donà, VP Sales Italy di Talend mette in chiaro che i dati – secondo le definizioni dell’IT e dei gestori delle applicazioni – «non hanno la qualità che il business attende che non è semplicemente “tecnica” ma è direttamente legata all’utilizzo che il business ne dovrà fare. Oggi, è il data scientist che assorbe buona parte della distanza fra i due concetti di qualità. Distribuire la responsabilità è cruciale».
TRASPARENZA E RAPPRESENTATIVITÀ
La data quality dovrà sempre di più evolvere come caratteristica intrinseca dell’impresa che va gestita nella fase di raccolta del dato, nel suo aggiornamento, fino alla sua rielaborazione in informazione. «Gli strumenti avanzati di business analytics – spiega Paolo Aversa di ally Consulting – sono tool fondamentali per individuare scostamenti, mancanze e deviazioni di processo. Allo stesso tempo, avere un partner specializzato nella data analysis e nella consulenza IT e di processo è indispensabile per garantire l’efficacia della data quality, grazie all’introduzione di automazioni di interi processi o semplicemente di alcuni task critici che riducono l’errore umano e permettono di raccogliere molti più dati in meno tempo». Il supporto del consulente – continua Aversa – diventa cruciale anche per la definizione delle strategie che consentono di sfruttare al meglio i dati e di garantirne l’affidabilità nel tempo. «Non è sufficiente avere una buona strategia di raccolta e di rielaborazione. È fondamentale definire anche le modalità di aggiornamento, verifica della coerenza e dell’attendibilità del dato. In questo caso, strumenti tecnologici avanzati come i sensori IoT e le piattaforme di Process Orchestrator sono ideali per gestire con efficacia ed efficienza situazioni che mutano nel tempo».
Se è vero che le aziende non devono fidarsi dei dati ma dei processi che sono in grado di costruire sui dati, la prima parola chiave in grado di rafforzare la fiducia – afferma Andrea Zinno di Denodo – è “trasparenza”, in tutti i sensi. E questo significa – «piena consapevolezza di ciò che si possiede, in termini di dati; possibilità di conoscere la genesi di ciascun dato, per quanto elementare questo possa essere (Data Lineage); capacità di sapere, in ogni momento, chi ha fatto cosa e per fare cosa». La seconda parola chiave è “rappresentatività” – continua Zinno – «sia per il significato dei dati, che deve essere aderente a ciò che si intende rappresentare, sia per la conseguente rilevazione, che deve sempre essere una fotografia aggiornata di ciò che si osserva, perché in un mondo digitale, che si muove sempre più velocemente e dove i dati sono gli occhi con i quali lo si osserva, non si può correre il rischio di vedere qualcosa che è già passato». Dal mondo finanziario a quello industriale, l’implementazione di un attento processo di data quality può ridurre costi e rischi grazie al contributo di tecnologie avanzate per automatizzare i processi di data quality. Per esempio, nel retail food italiano, il volume di dati da gestire, interni all’organizzazione o esterni, è sempre in crescita.
Per questa ragione – spiega Filippo Gentilini di Di.Tech – «sono necessarie tecnologie come l’AI e il ML che consentono elaborazioni precise e veloci, per automatizzare i processi e creare una migliore data quality. Esempi pratici sono l’adozione di strumenti di predictive pricing, per un migliore posizionamento, oppure soluzioni di retail intelligence per una più efficace gestione del processo promozionale o di riordino». Una corretta data quality – continua Gentilini – «abilita efficaci analisi su dati provenienti da una pluralità di fonti, consentendo alle aziende di ottimizzare e migliorare i propri servizi e prendere decisioni strategiche in modo più consapevole, prevendendo rischi e costi. Data scientist e system integrator specializzati hanno un ruolo fondamentale in questo processo di digital transformation, portando tecnologie, ma soprattutto competenze non banalmente recuperabili all’interno delle organizzazioni». Per Antongiulio Donà di Talend – «devono crescere gli strumenti, intelligenti e non, a supporto dell’analisi della qualità. Soprattutto, avvicinando il Business alla gestione diretta della qualità in modalità self-service. In particolare, Talend ha recentemente aggiunto alla sua piattaforma uno strumento, TrustScore, che è in grado di fornire una “istantanea” sulla qualità assoluta di qualsiasi insieme di dati aziendali».
DATA QUALITY AS A SERVICE
La crescita del ML può influire in modo considerevole sulle metodologie utilizzate per verificare la qualità dei dati. «Parte dei processi di standardizzazione, come la corrispondenza dei dati, potrebbe essere automatizzata configurando un modello di ML in modo che impari a riconoscere e prevedere le corrispondenze come operazione di routine» – spiega Lara Binotti di Holonix. «Più dati vengono forniti al modello, migliori saranno le prestazioni dell’algoritmo ML e più accurati i risultati. Per questo motivo, il ML risulta più scalabile rispetto agli approcci tradizionali». Garantire dati attendibili e di alta qualità allo scopo di ridurre i compiti manuali legati alle pratiche di data quality, diminuendo l’intervento umano a favore dell’automatizzazione dei flussi di lavoro all’interno dei processi con un conseguente risparmio di tempo e costi, sono alcuni degli effetti derivanti dall’utilizzo di tecnologie ML e AI. «Oltre a un efficace strumento di data quality in grado di verificare, attraverso l’esecuzione di controlli, la rispondenza dei dati a una serie di requisiti tecnici e di business, è necessario – avverte Lara Binotti – dotarsi di un tool di data governance, cioè di un sistema di gestione dei metadati, che gestisca una “carta di identità” delle informazioni aziendali, comprendente tutte le entità tecniche e di business».
E questo significa avere processi di qualità fortemente integrati nei processi di lavorazione e trasformazione dei dati, in modo costante, giorno per giorno. Perché – come afferma Glauco Cataldi di Oracle Italia – «eseguire un processo di qualità isolato non porta risultati accettabili. Un tool di monitoraggio è importante per dare evidenza degli interventi qualitativi apportati e verificare gli SLA da mantenere nel tempo». Secondo Cataldi, i dati rappresentano la base su cui costruire e consolidare l’impresa un po’ come le fondamenta di un edificio. «Ma se le fondamenta non sono solide e c’è troppa sabbia nel calcestruzzo è chiaro che non sopporteranno il peso dell’edificio causandone gravi crepe fino al crollo. Il futuro di un’azienda si basa su delle scelte che vengono prese in funzione dei dati che si hanno a disposizione e se non sono attendibili porteranno a scelte sbagliate». Un’azienda che decide di innovare il proprio business lo farà basandosi sui dati che ha a disposizione, quindi se il dato non è affidabile la probabilità di fallimento sarà alta. Al contrario un’analisi di mercato, basata su dati qualitativamente buoni e attendibili porterà a considerazioni corrette e probabilità di successo molto alte. «Una buona analisi riduce – spiega Cataldi – i rischi sugli investimenti e permette un’ottimizzazione sana dei costi. La bontà dell’analisi parte dai dati che devono essere quantitativamente idonei per lo scopo e qualitativamente buoni».
L’investimento, in questo modo, è sicuramente considerevole e cresce al crescere dei dati. La grande novità oggi in questo settore è legata al cloud. Con un approccio tradizionale, l’azienda deve dotarsi di un software di data quality che implementa i classici algoritmi, formare il personale, investire in hardware capace di supportare la capacità di calcolo: con costi importanti che crescono al crescere dei dati. «Le soluzioni di data quality in cloud, disponibili in forma di servizio, riducono notevolmente i costi – afferma Cataldi – permettendo di accedere a capacità di calcolo altissime e impensabili fino ad oggi, allocando un numero di processori, teoricamente infinito e per il solo tempo necessario. È possibile eseguire i processi di qualità in modo rapidissimo e idoneo alla lavorazione del dato end-to-end nei tempi stabiliti. I vantaggi di questa soluzione sono molteplici, si riesce ad avere tutta la capacità di calcolo di cui si ha bisogno pagandola per il solo tempo necessario, ottenendo dati certificati, nei tempi desiderati, nelle applicazioni di primario interesse». Ogni progetto di implementazione deve includere un’adeguata fase di data quality – afferma Mirko Menecali di Sinfo One. «Noi adottiamo una metodologia che impone determinati standard aiutandoci a non sottovalutare questo processo. Alcuni clienti hanno adottato questi standard procedurali, per esempio, individuando figure specifiche a livello di funzione responsabilizzate sulla qualità dei dati generati e figure centrali con il compito di gestire il governo delle informazioni».
Gli impatti negativi di una cattiva attenzione alla data quality possono essere diversi. «Basti pensare a una campagna marketing – spiega Antonio Cataldi di Skìanet – dove non avere dati aggiornati può causare delle perdite importanti quando si cerca di contattare un grande numero di clienti. Così come usare modelli predittivi con dati non completi può guidare a decisioni sbagliate, causando un ulteriore spreco economico. In generale, prendere decisioni data-driven senza un’adeguata attenzione alla data quality, può portare fuori strada o quanto meno a un rendimento molto inferiore alle potenzialità». Una gestione attenta della data quality garantisce la massima adesione delle scelte aziendali alle realtà del mercato e della catena produttiva sia essa di servizi o di beni. «Senza qualità – avverte Antongiulio Donà di Talend – è difficile scegliere la strada per il successo ma, ancor di più, analizzare i risultati delle scelte».
CDO, CERNIERA TRA IT E BUSINESS
Il compito del CDO sarà sempre più centrale. La consapevolezza che il dato è alla base dell’evoluzione economica, sociale, politica è direttamente proporzionale alla necessità di una presa di responsabilità da parte di chiunque abbia la capacità di collezionare dati – «perché i dati sono “armi” che possono fare del bene o meno a seconda dell’utilizzo» – afferma Glauco Cataldi di Oracle Italia. «ll CDO è esattamente quella figura che si assume la responsabilità di garantire la conformità alle normative, di conoscere i movimenti dei dati all’interno dell’infrastruttura aziendale e di mantenerli integri e sicuri.
Il CDO è un ruolo diventato ormai da tempo di primaria importanza con l’avvento dei big data. Oltre alle responsabilità sulla qualità e sulle scelte relative ai dati – secondo Antonio Cataldi di Skìanet – il ruolo più importante è quello di far interagire costantemente IT e Business. «Il CDO, con una conoscenza approfondita sulle tecnologie di utilizzo dei dati e una visione chiara degli obiettivi del business, ha il compito di interfacciarsi con i diversi reparti per farli collaborare per un unico obiettivo». La figura del CDO è quanto mai strategica – spiega Antongiulio Donà di Talend – «ma purtroppo è ancora un “ministro senza portafoglio” e questo non consente un approccio veramente strategico, in quanto le loro scelte sono sottomesse a dinamiche che sfuggono al loro controllo. Il CDO in alcuni casi è sotto l’IT, in altri lo troviamo in staff, ma molto raramente ha indipendenza nelle scelte».
Data analytics
La nuova frontiera dei commercialisti
Far emergere con chiarezza l’immensa quantità di informazioni celate nei dati che risiedono all’interno degli applicativi è uno degli obiettivi di Wolters Kluwer Tax & Accounting Italia. Alessia Berra, product management & marketing director dell’azienda, evidenzia in particolare il grande valore del patrimonio informativo contenuto all’interno dei gestionali utilizzati dai professionisti 4.0. «Grazie alle avanzate tecnologie delle nostre soluzioni offriamo al professionista quanto gli serve per fornire in modo semplice ed efficace un servizio di consulenza ai propri clienti. Per esempio, il nostro applicativo Fattura SMART mutua la sua capacità di generazione di analytics dall’ecosistema nel quale è nato. Genya è infatti un progetto digitale olistico, fruibile in cloud, rivoluzionario per prestazioni, usabilità, look and feel, flessibilità, performance e intuitiva semplicità, in grado di aiutare il professionista nel percorso di trasformazione del suo ruolo in consulente d’impresa.
Grazie a chiare e immediatamente usufruibili dashbord, Fattura SMART diventa un esempio di “edge computing” in ambito amministrativo e finanziario. L’analisi congiunta – tra piccolo imprenditore, commerciante o artigiano e il proprio commercialista – dell’output di dati del nostro applicativo di fatturazione elettronica consente di restituire preziose informazioni anche alle realtà più piccole del mondo produttivo e del retail». Ogni impresa necessita di una guida e indirizzo strategico e spesso proprio le realtà più piccole sono carenti in questa specifica capacità analitica. Il percorso che rende più “data-driven” la gestione dell’impresa avviene attraverso il coinvolgimento di tecnologie evolute, competenze organizzative e data analysis profonde. Diventa sempre più necessario, anche per i professionisti, raccogliere e analizzare i dati che emergono dai vari applicativi e utilizzarli per ricavarne le informazioni necessarie a raggiungere obiettivi di crescita e sviluppo.