Dati al comando, linee guida per una corretta strategia. Con l’avvento dell’AI Act e la crescente attenzione alla compliance, le aziende pubbliche e private devono ridefinire il modo in cui raccolgono, gestiscono e utilizzano i dati. Ecco come costruire un sistema integrato di governance per coniugare efficienza, affidabilità e sicurezza
Con la crescita della quantità di dati digitali gestiti, registrata dopo la netta affermazione di paradigmi tecnologici come il cloud computing e l’Internet delle cose – e con la forte evoluzione del modello di business data-driven, alimentata da una nuova cultura della business intelligence e dell’intelligenza artificiale – tutte le aziende, praticamente senza eccezione, hanno dovuto confrontarsi in questi anni con la necessità di implementare strategie di data governance più solide e resilienti. La data strategy definisce il “cosa” e il “perché” (obiettivi e valore dei dati). La data governance si occupa del “come” (processi, regole e gestione pratica dei dati).
Nello storico dominio delle architetture di database, uno dei pilastri dell’ingegneria informatica, la priorità era ottimizzare fattori come l’accessibilità, la velocità della ricerca, l’aggiornamento e la coerenza interna. Oggi l’aspetto architetturale delle strutture dei dati è solo uno degli elementi di una disciplina, la gestione del data lifecycle, in cui rientrano aspetti di sicurezza, organizzazione e compliance normativa la cui natura non necessariamente ingegneristica finisce comunque per influenzare scelte organizzative e procedurali. La complessità di queste procedure richiede a sua volta una robusta dose di automazione, in cui l’AI gioca un ruolo fondamentale, migliorando la qualità dei dati, rilevando anomalie, ottimizzando la gestione e la protezione dei dati. Al tempo stesso, una governance efficace dei dati è un presupposto fondamentale per sfruttare appieno il potenziale dell’AI, poiché una “buona” AI, specialmente nel nuovo dominio generativo, dipende dalla pulizia delle sorgenti informative, dell’affidabilità e organizzazione dei modelli, nonché dall’appropriatezza delle domande e degli stimoli, i famosi “prompt”, che sono alla base di decisioni accurate e informate. In questo contesto, AI e data governance lavorano insieme per migliorare l’affidabilità, la trasparenza e la sicurezza dei dati all’interno delle organizzazioni.
Il dossier si propone di delineare i punti essenziali e i presupposti teorici di una strategia di data e AI governance aziendale, anche lungo l’asse dei ruoli e gli accorgimenti organizzativi da adottare, con la finalità di garantire al ciclo di vita del dato – dalla sua generazione alla definitiva archiviazione o distruzione – un percorso che sia in linea con gli obiettivi di creazione di valore a partire dai dati stessi e con il quadro normativo che nell’opinione generale è stato forse il fattore più importante nella definizione della “nuova” data governance.
L’obiettivo è di prendere in esame anche i fondamentali aspetti tecnologici e le categorie di piattaforme e applicazioni che oggi sono al servizio di queste strategie e più specificatamente delle nascenti pratiche del DataOps, intesa nella definizione di IBM come “insieme di pratiche di gestione dei dati condivisi, volte ad accelerare la distribuzione, mantenere la qualità, promuovere la collaborazione e massimizzare il valore dai dati”. Secondo questa definizione, ovviamente ispirata alla filosofia DevOps, l’obiettivo del DataOps è garantire che funzioni di sviluppo che in passato venivano portate avanti all’interno di silos indipendenti gli uni dagli altri, siano automatizzate e agili. In altre parole, se il DevOps si occupa di razionalizzare e snellire le attività di sviluppo software, il DataOps si concentra sull’automazione del processo di gestione e analisi dei dati.
IL MANUALE DI RIFERIMENTO
Molti dei principi illustrati in questo dossier si ispirano alla Guida alla data governance di Evren Eryurek, Uri Gilad, Valliappa Lakshmanan, Anita Kibunguchy-Grant e Jessi Ashdown, pubblicata da O’Reilly Media nel 2021. Gli autori della guida, molti dei quali coinvolti nelle attività del cloud pubblico di Google, identificano proprio nel cloud l’origine e la destinazione di una moderna strategia di gestione dei dati “nel cloud e per il cloud”, individuando un altro momento spartiacque nella vita dei consumatori di servizi infrastrutturali: l’avvento della normativa europea GDPR, che ha avuto – anche fuori dall’Europa – un profondo impatto sulle aspettative percepite dalle aziende. L’entrata in vigore della normativa sulla privacy, scrivono gli autori della Guida, ha focalizzato l’attenzione generale su tre potenziali fattori di rischio legati all’uso delle informazioni conservate in cloud: protezione dei dati, conformità alle normative vigenti e visibilità, tracciabilità e controllo. L’archiviazione dei dati in un’infrastruttura cloud pubblica preoccupano le grandi aziende tipicamente abituate a distribuire i propri sistemi informativi in modalità “on prem” e si aspettano una sicurezza rigorosa. A fronte di una crescente percezione mediatica degli effetti delle minacce informatiche e delle violazioni della sicurezza, molte aziende hanno cominciato a temere di poter diventare vittime di questi eventi e questo ha rafforzato il bisogno di gestire meglio il rischio dovuto alla mancata protezione da accessi non autorizzati o all’esposizione di dati sensibili (dati relativi all’identità delle persone, informazioni aziendali riservate, segreti commerciali, proprietà intellettuale).
Per quanto riguarda la compliance normativa, su scala globale, oltre alla GDPR si registra un aumento di regolamenti nazionali e di settori, in particolare quello bancario e assicurativo, che implicano tutta una serie di processi e di ruoli aziendali adibiti alla tutela della privacy e della integrità dei dati personali. Le stesse normative definiscono tali ruoli e processi in modo esplicito, contribuendo a innalzare il livello di attenzione e a definire opportune policy di monitoraggio e attuazione all’interno delle singole aziende. Come conseguenza di questi due fattori, i professionisti della gestione dei dati e i “consumatori” di dati aziendali hanno preso coscienza dei grossi limiti di visibilità che le loro organizzazioni possono avere sul proprio patrimonio informativo. L’incertezza relativa a tutti questi punti limita la capacità di sfruttare ulteriormente i propri dati per migliorare la produttività o generare valore per l’azienda.
L’ORGANO DI GOVERNO
Un buon piano di governance dei dati deve includere la creazione di un organo di governo o un vero e proprio board decisionale, oltre a un set definito di procedure e un flusso di esecuzione di tali procedure. In parole povere, la governance dei dati implica il modo in cui persone, processi e tecnologia lavorano insieme per consentire una misurabile conformità rispetto alle policy sui dati che l’azienda ha concordato e definito. Una organizzazione deve approcciarsi alla governance dei dati in modo esaustivo, dall’assunzione e immissione dei dati, passando attraverso diversi momenti: catalogazione, persistenza, conservazione, gestione dell’archiviazione, condivisione, archiviazione, backup, ripristino, prevenzione di furti e violazioni, rimozione e definitiva eliminazione. Cerchiamo di capire che cosa prevede ciascuna di queste fasi.
CLASSIFICAZIONE DEI DATI
Valutare correttamente un asset dati e analizzare il contenuto dei suoi diversi attributi può aiutare a categorizzare l’asset dati per una successiva organizzazione. Questo processo può servire anche a stabilire se l’oggetto contiene dati sensibili e, in tal caso, classificarlo in termini di livello di sensibilità dei dati, come dati personali e privati, dati riservati o proprietà intellettuale. Per implementare la governance dei dati nel cloud, bisogna porre estrema attenzione nel profilare e classificare i dati sensibili per determinare quali policy e procedure di governance verranno applicate a questi dati. Una volta valutati e classificati gli asset dati, è fondamentale documentare i profili raccolti, in modo che le varie comunità di utenti di dati abbiano visibilità sul panorama dei dati dell’intera organizzazione. È necessario mantenere un catalogo dati che contenga metadati strutturali, metadati di oggetti-dati e la valutazione dei livelli di sensibilità in relazione alle direttive di governance (per esempio la conformità a una o più normative relative alla privacy dei dati). Il catalogo dati non solo consente agli utenti di visualizzare queste informazioni, ma può anche fungere come una sorta di “indice inverso” al quale ricorrere per la ricerca e la scoperta, sia per stringa/parola/espressione, sia per concetto (presupponendo la disponibilità delle corrette ontologie). È inoltre importante comprendere il formato degli oggetti dati strutturati e semi-strutturati e consentire ai sistemi di trattamento di gestire questi tipi di dati in modo diverso, se necessario.
QUALITÀ E ACCESSO
Diversi utenti di dati possono avere diversi requisiti di qualità dei dati, quindi è importante fornire uno strumento per documentare i livelli di qualità previsti e mettere a disposizione tecniche e strumenti adatti a supportare il processo di validazione e monitoraggio dei dati. Il processo di gestione della qualità del dato deve comprendere la creazione di parametri di controllo per la validazione; l’attivazione di un costante monitoraggio e segnalazione delle variazioni della qualità; il supporto di una precisa diagnostica che misuri il livello di gravità degli incidenti; un’ulteriore fase “autoptica” che individui le cause principali di queste perdite; e, partendo da queste, una fase di remediation in un cui vengono fornite precise indicazioni su come riparare incidenti e guasti ed evitare che questi si ripetano anche in futuro.
Un corretto trattamento della gestione della qualità deve quindi mirare a fornire dati misurabili per questo tipo di analisi. Ci sono due aspetti della governance dell’accesso ai dati. Il primo riguarda la modalità di erogazione degli accessi alle risorse disponibili. È importante fornire servizi dati che consentano agli utenti di accedere ai dati di proprio interesse e in questo senso la maggior parte delle piattaforme cloud prevede anche una metodologia di sviluppo dei servizi-dati. Il secondo aspetto da considerare è la prevenzione di accessi impropri o non autorizzati. È importante definire identità, gruppi e ruoli e assegnare diritti di accesso per stabilire un livello di accesso chiaramente gestibile. In questo dominio le best practice puntano verso la gestione dei servizi di accesso e l’interoperabilità con i servizi di gestione dell’identità e dell’accesso (IAM) messo a disposizione del provider cloud, definendo ruoli, relativi diritti di accesso e gestendo e assegnando chiavi di accesso che assicurino che solo persone e sistemi autorizzati e autenticati siano in grado di accedere alle risorse dati in base alle regole che sono state definite.
AUDIT E PROTEZIONE
Una organizzazione deve essere in grado di valutare i propri servizi-dati per assicurarsi che funzionino come previsto. Monitoraggio, audit e tracciamento (chi ha fatto cosa, quando e con quali informazioni) aiutano i team di cybersecurity a raccogliere dati, identificare minacce e agire su tali minacce prima che queste possano tradursi in compromissioni o perdite di informazione. È importante eseguire audit regolari per verificare l’efficacia dei controlli al fine di contenere nel tempo più rapido possibile le eventuali minacce e valutare lo stato generale della sicurezza. Nonostante gli sforzi di queste squadre e il loro impegno nel mantenere determinati livelli di sicurezza che escludano l’accesso non autorizzato, il concetto di sicurezza perimetrale non basta a proteggere i dati più sensibili. Se in teoria è possibile impedire che qualcuno possa accedere a un sistema protetto dall’esterno, è molto più complesso proteggersi da una violazione della sicurezza interna o da un eventuale tentativo di esfiltrazione (furto di dati), manovrato dall’interno del perimetro protettivo. È importante quindi istituire una serie di metodi di protezione aggiuntivi, tra cui la crittografia statica dei dati “a riposo”, la crittografia dinamica sui flussi di dati in transito, il mascheramento e persino la definitiva eliminazione, per fare in modo che i dati eventualmente esposti a “sguardi” e impieghi non autorizzati non possano essere letti immediatamente.
I TRE AMBITI DELLA GOVERNANCE
La qualità del dato, il controllo degli accessi da parte delle varie tipologie di utenti, e la prevenzione di eventi che possono portare al degrado di qualità, alla perdita o addirittura al furto dei dati più sensibili – ci dimostrano che la pratica della data governance è in realtà un ibrido multidisciplinare, al quale devono contribuire competenze aziendali molto diverse. La data governance è principalmente focalizzata sull’accessibilità, sul rendere i dati facilmente accessibili, raggiungibili e pre-indicizzati in modo da favorire la ricerca delle informazioni rilevanti, per una base di utenti che di solito rappresenta l’intera popolazione di knowledge worker di una organizzazione aziendale. La data governance può in una certa misura ampliare il momento del data enablement, abbracciando opportuni flussi di lavoro durante i quali avviene l’acquisizione del dato da parte dei loro utenti. Per “attivazione” o data enablement si intende la capacità di andare oltre alla semplice accessibilità.
Il concetto si estende a quegli strumenti che consentono un’analisi e un trattamento dei dati per rispondere a una precisa richiesta da parte del business. Quanto spende l’azienda per questa voce? Possiamo ottimizzare questa supply chain? E così via. L’argomento è decisivo e richiede una conoscenza approfondita di come si “lavora” sui dati. Per favorire ulteriormente questa conoscenza è opportuno prevedere fin dall’inizio la creazione di metadati che descrivono i dati, includendo parametri di tipo valoriale, l’indicazione della loro origine e discendenza ed eventualmente il contatto diretto con il curatore e il proprietario dei dati in questione, per consentire ulteriori approfondimenti.
La sicurezza va a intersecarsi sia con il problema dell’attivazione sia con la governance dei dati, ed è normalmente concepita come l’insieme dei meccanismi messi in atto per prevenire e bloccare ogni accesso non autorizzato. La governance dei dati include quindi la presenza di tradizionali meccanismi di cybersicurezza, ma va oltre la semplice prevenzione dell’accesso non autorizzato per occuparsi di policy, trasformazione e capacità di verificare l’efficacia e i livelli di applicazione delle policy previste. L’implementazione corretta di tutte le dinamiche di sicurezza promuove quel grado di “data trust” o affidabilità del dato, necessaria per la piena condivisione dell’informazione e l’effettiva “democratizzazione” del dato all’interno dell’organizzazione.
COME IMPLEMENTARE IL PIANO
Implementare un piano di governance all’altezza di tutte queste aspettative richiede una perfetta sinergia tra strumenti, ruoli e processi. Il punto di partenza è la creazione di un dizionario che descrive come un’organizzazione lavora con i dati ed è su questo primo strumento di base che si regge l’intera strategia di governance. Un dizionario può assumere forme diverse, da un semplice documento cartaceo a un vero e proprio framework che codifica o automatizza determinate policy relative ai dati. Di norma il dizionario sarà responsabilità dell’ufficio legale, quando il primo obiettivo è la conformità, o più propriamente dell’ufficio dati, che si occupa della standardizzazione dei singoli elementi utilizzati. Una volta definito il dizionario, gli infotype contenuti al suo interno possono essere raggruppati in classi di dati e per ogni classe di dati può essere definita una policy. Una volta che i dati gestiti dall’organizzazione sono definiti nel dizionario aziendale, le policy che regolano le varie classi di dati possono essere assegnate ai dati ripartiti nei diversi contenitori. In molti casi, insieme alla specifica della classe di dati, l’ufficio responsabile definisce un libro delle policy aziendali che serve a specificare le classi di dati utilizzate, i tipi di dati elaborati, indirizzando anche l’aspetto procedurale: in pratica cosa è consentito e cosa non è consentito fare con i dati.
POLICY BOOK
Un policy book aziendale ben calibrato e ben documentato è utilissimo per comprendere, organizzare e applicare le proprie politiche in materia di informazione, ma consente anche di reagire rapidamente alla continua evoluzione delle normative che regolano aspetti come la privacy, la continuità e la disponibilità dei dati. La capacità di fornire rapidamente e facilmente la documentazione e le prove di conformità – non solo in occasione di audit esterni ma anche nelle indagini promosse al proprio interno – non va mai sottovalutata. Per limitare la responsabilità, l’impatto del rischio e l’esposizione ad azioni legali, l’azienda è tenuta anche a definire una precisa durata, minima e massima, per la conservazione dei suoi dati.
Ciò è importante perché durante un’eventuale indagine da parte delle autorità, queste possono richiedere determinati tipi di dati che l’azienda è obbligata a fornire. Sul piano fiscale e contributivo, per esempio, ci sono precisi obblighi di conservazione su orizzonti di almeno cinque anni. Un altro tipo di policy riguarda sicuramente il controllo dell’accessibilità. Pur trattandosi di dati digitali, le politiche di accesso non possono essere binarie. Tra “zero accessibilità” e “totale accessibilità” possono esserci diverse gradazioni di accessibilità parziale. In genere queste consistono in forme di accesso a un sottoinsieme dei bit effettivamente conservati o alla possibilità di disporre solo dell’informazione criptata, in modo da consentire una forma semplificata di elaborazione e trattamento.
Il libro delle policy e il dizionario aziendale descrivono i dati gestiti dall’organizzazione. A questi si possono poi aggiungere strumenti più specifici che possono agevolare le attività di governance del dato e i tempi di intervento degli operatori. Per esempio, è possibile rendere ancora più dettagliato il libro delle policy applicando specifiche “policy per caso d’uso”. Vi sono poi attività di classificazione e profilazione dei dati che si avvalgono di strumenti automatici, spesso messi a disposizione dagli stessi cloud provider. Un altro aspetto su cui soffermarsi è la gestione dei metadati e la creazione di cataloghi di dati che permettono di conoscere meglio la natura “ontologica” delle informazioni che vengono elaborate in azienda. E infine, si possono prendere in considerazione strumenti capaci di intervenire sulla qualità e la “normalizzazione” dei dati, per consentire agli utenti risultati ottimali dei vari processi analitici, o anche appositi tool di “data lineage”, il processo di tracciamento del flusso di dati nel tempo, che fornisce una chiara comprensione dell’origine dei dati, dei loro cambiamenti e della loro destinazione finale all’interno delle cosiddette “pipeline” dei dati.
L’USABILITÀ DEL DATO
A questi strumenti si aggiungono quelli che riguardano più da vicino le policy di accesso e controllo dell’usabilità del dato. Pensiamo per esempio alle varie soluzioni e piattaforme che gestiscono la crittografia e la gestione delle chiavi crittografiche; gli strumenti IAM (gestione delle identità e degli accessi); quelli per la gestione delle regole e delle regole di conservazione e delle eventuali procedure di cancellazione dei dati che per ragioni di business o di compliance devono essere rimossi dagli archivi, dinamici o storici che siano. Gli strumenti, tuttavia, non sono l’unico fattore da valutare quando si progetta una strategia di data governance: le persone coinvolte e il processo mediante il quale viene implementata la governance dei dati sono fondamentali per il successo di una strategia, anche se proprio le persone e i processi sono aspetti che spesso vengono trascurati o frettolosamente semplificati, mentre il focus è tutto sugli strumenti e gli ausili tecnologici.
DATI, RUOLI E PROCESSI
Gli strumenti per la governance dei dati, sebbene sempre più sofisticati e smart, non sono sufficienti da soli. Il loro successo dipende strettamente dal modo in cui vengono implementati, dalla comprensione da parte delle persone che li utilizzano e dai processi messi in atto per garantirne il corretto utilizzo. La governance dei dati, infatti, è il risultato di una complessa interazione di ruoli e responsabilità che dovrebbero operare come un meccanismo ben regolato e coordinato. Tuttavia, molte aziende si trovano raramente nella condizione di adempiere pienamente a questi incarichi sia per carenza di competenze specifiche sia, più comunemente, per insufficienza di personale. Di conseguenza, i dipendenti che operano nell’ambito dei dati sono spesso costretti a ricoprire più ruoli contemporaneamente. Anche se si possono identificare tre categorie principali – chi governa, chi autorizza e chi utilizza i dati (utente) – è necessario considerare anche una quarta categoria, quella dei ruoli “ancillari”, che supportano o completano il sistema di governance, come il responsabile legale, i membri del C-level, l’auditor esterno. Tutti questi ruoli, nelle loro specifiche funzioni, se coordinati efficacemente, consentono di costruire un sistema di governance robusto, capace di affrontare le sfide di un ambiente sempre più orientato ai dati e alle normative che li regolano.
Sebbene vi siano molte attività importanti per il successo di una strategia di data governance, si può affermare che le più critiche riguardano la categorizzazione, la classificazione e l’etichettatura dei dati. Per governare i dati, occorre prima conoscere la loro natura e per definizione questa natura può cambiare costantemente. Senza un corretto arricchimento dei dati – che costituisce il compito primario della funzione del data steward – probabilmente non si avrà mai una corretta data governance. ll ruolo del data steward è così importante che, nelle organizzazioni che adottano strategie specifiche di governance dei dati, chi ricopre questa posizione si trova spesso a indossare più “cappelli”. Non solo svolge le proprie mansioni, ma assume anche il ruolo di responsabile della privacy o di data owner. Inoltre, capita frequentemente che il data steward agisca anche come utente, partecipando direttamente all’analisi delle informazioni.
IL CICLO DI VITA DEI DATI
Indipendentemente dalle specificità e dalle esigenze dell’azienda, l’unico modo per rendere concreta la data governance è seguire correttamente ogni fase del ciclo di vita delle informazioni. Definire che cosa sia un data lifecycle sembra quasi intuitivo, ma in realtà è molto complesso. Non esiste un modo standardizzato di concepire le diverse fasi attraversate da un determinato volume di dati, ma si può concordare sul fatto che ogni fase ha determinate caratteristiche esclusive, che la distingue dalle altre. E a causa di queste diverse caratteristiche, all’interno di ogni fase, anche il modo di pensare alla governance varierà man mano che ogni aggregato di dati si sposta dalla sua creazione alla sua archiviazione “statica” o cancellazione definitiva.
È importante sottolineare che questa definizione cerca di catturare l’essenza di ciò che accade a un insieme di dati. Inoltre, non tutte le tipologie di dati passano attraverso ogni fase del ciclo di vita. Le fasi rappresentano una sequenza logica che descrive come i dati potrebbero essere gestiti, tuttavia, questa sequenza non implica che i dati seguano effettivamente tutti i passaggi in modo lineare o che tali fasi si traducano direttamente in flussi operativi reali all’interno di un sistema informatico. In pratica, alcune fasi potrebbero essere saltate, sovrapposte o manifestarsi in modi diversi a seconda della natura dei dati, delle esigenze aziendali o delle caratteristiche del sistema tecnologico adottato.
Le aziende lavorano su due grandi categorie di dati. La prima è quella dei dati transazionali derivati nello svolgersi delle normali transazioni di business e gestiti focalizzandosi soprattutto sulla velocità e sulla capacità di seguire in tempo reale queste transazioni. L’altra grande categoria, è quella dei dati analitici, dove la priorità è la capacità di sintetizzare ed estrarre informazioni da grandi volumi di dati di partenza.
Dati transazionali e dati analitici possono seguire cicli di vita profondamente diversi, poiché la gestione di ciascuno dipende dalle scelte strategiche e operative dell’organizzazione. Tuttavia, questi dati non rimangono confinati nei sistemi transazionali. Al contrario, vengono spesso esportati verso sistemi separati e specializzati, come data warehouse o piattaforme di analisi, per essere elaborati e trasformati in informazioni utili per decisioni strategiche. Durante questo trasferimento e utilizzo, i dati transazionali passano attraverso diverse fasi del ciclo di vita, come la raccolta, l’elaborazione, l’archiviazione e, infine, l’utilizzo a fini analitici. La corretta supervisione dei dati durante tutto il loro ciclo di vita è essenziale per ottimizzarne l’utilità e ridurre al minimo il potenziale di errori. Definire questo processo è necessario per rendere operativa la governance e poiché ogni fase ha esigenze di governance distinte, questa strutturazione favorisce la missione complessiva sull’intero spettro di utenti.
Il modello suggerito (creazione, preparazione, archiviazione, rimozione e cancellazione) è solo una delle tante possibili approssimazioni, ma qualunque variante si decida di apportare, è importante che la struttura definitiva del ciclo di vita guidi, dall’alto, le singole procedure messe in atto. Qualunque framework si scelga di utilizzare deve essere quello che guida i processi e le procedure da mettere in atto. La prima fase del ciclo di vita dei dati è la creazione o l’acquisizione dei dati. I dati vengono ricavati da più fonti, in formati diversi come dati strutturati o non strutturati e in diversi momenti (in batch o come flusso real-time). I clienti possono scegliere di utilizzare opportuni connettori verso dati esistenti, creare nuove pipeline ETL (Extract, transform, load) oppure sfruttare tool di inserimento (ingestion) di terze parti per caricare i dati in una piattaforma dati o in un sistema di archiviazione. In questa fase, possono essere creati e acquisiti anche i metadati. Si osserva che creazione e acquisizione dei dati sono due modalità utilizzate in modo intercambiabile, a seconda della fonte utilizzata principalmente a causa della fonte dei dati: in genere un dato del tutto nuovo viene generato, quello già disponibile viene acquisito manualmente, importato o anche “catturato” (un esempio di quest’ultimo caso è tipicamente il dato rilevato da un sensore IoT). Ognuna di queste modalità scatena situazioni che impattano sulla governance. Per esempio: quali sono i diversi controlli e bilanciamenti per i dati acquisiti dall’esterno di una organizzazione? Probabilmente ci sono contratti e accordi che definiscono in che modo l’azienda è autorizzata a utilizzare questi dati e per quali scopi. Potrebbero esserci anche precise limitazioni su chi può accedere a quei dati specifici.
Una volta acquisiti, i dati subiscono una sorta di pre-trattamento, che precede la fase del vero e proprio utilizzo o valorizzazione. Questa preparazione viene anche definita manutenzione e prevede processi di integrazione, pulizia, scrubbing o estrazione-trasformazione-caricamento per prepararli per l’archiviazione e l’eventuale analisi. In questa fase, alcune delle implicazioni di governance da tener presenti sono il “lineage” (la discendenza), la qualità e la classificazione, che abbiamo discusso in precedenza. Tra le considerazioni da fare c’è ovviamente anche la protezione, statica o dinamica, da dare al proprio patrimonio dati. La terza fase del ciclo di vita dei dati è l’archiviazione dei dati, in cui sia i dati che i metadati vengono archiviati su sistemi di archiviazione e dispositivi con i livelli di protezione appropriati. Poiché ci stiamo concentrando sul ciclo di vita dei dati analitici, un sistema di archiviazione potrebbe essere un data warehouse, un data mart oppure un data lake. I dati devono essere crittografati staticamente per proteggerli da intrusioni e attacchi. Inoltre, i dati devono essere sottoposti a backup per garantire la ridondanza in caso di perdita di dati, eliminazione accidentale o disastro.
La fase di impiego dei dati definisce come i dati vengono finalizzati al supporto degli obiettivi e le operazioni dell’organizzazione. In questa fase, i dati rappresentano davvero un valore e consentono all’organizzazione di prendere decisioni informate. È in questa fase che i dati vengono “interrogati” e se la loro qualità non viene implementata correttamente, le risposte saranno incomplete o addirittura fuorvianti. Poiché i dati vengono utilizzati da più stakeholder e processi interni ed esterni durante questa fase, una corretta gestione degli accessi e un puntuale audit delle tracce di utilizzo sono essenziali.
Nella fase di archiviazione, i dati vengono rimossi da tutti gli ambienti di produzione attivi e trasferiti in un altro ambiente. Qui non verranno più elaborati, utilizzati o pubblicati, ma resteranno a futura disposizione di chi vorrà (o dovrà) tornare a interrogarli. Pur non essendo previste operazioni di manutenzione in questa fase, il piano di governance deve comunque prevedere in dettaglio le modalità dell’archiviazione e i controlli da effettuare, soprattutto dal punto di vista della durata in previsione dell’ultima fase, quella della cancellazione. Nella fase finale, i dati vengono definitivamente rimossi anche dagli archivi storici ed eliminati. Quando si arriva a questo punto in genere si fa riferimento anche alla rimozione di ogni copia rimasta all’interno dell’organizzazione. Prevedere una durata illimitata dei propri archivi diventa un’ipotesi sempre meno realistica, perché anche se i costi unitari dell’archiviazione diminuiscono, il volume delle informazioni cresce enormemente, rendendo troppo oneroso il mantenimento di dati fuori produzione. Ovviamente, ogni decisione di definitiva rimozione deve partire dalla profonda conoscenza delle normative sulla conservazione dei dati e le operazioni devono essere tracciate e certificate affinché le risorse di archiviazione occupate risultino effettivamente libere in caso di inventario.
DATI E INTELLIGENZA ARTIFICIALE
Che posizione assume l’intelligenza artificiale all’interno di una strategia e di una policy di data governance? L’intera disciplina dell’AI – sia che si parli di modellamento e studio dell’andamento del business, di supporto alle decisioni, di simulazione e affiancamento degli esperti umani, sia delle nuove frontiere dell’intelligenza generativa, semantica e linguistica – è profondamente legata alla qualità e all’accessibilità dei dati e dunque alla loro corretta gestione. Per questa ragione, i fondamenti e gli obiettivi della governance (accountability, standardizzazione, conformità, qualità e trasparenza) si applicano almeno tanto all’AI quanto ai dati. La governance dell’AI stabilisce le policy e le procedure per lo sviluppo e l’applicazione di modelli e algoritmi in un’organizzazione. Con una governance adeguata, il machine learning può aggiungere valore ai processi aziendali, rendere ancora più efficienti l’automazione e i meccanismi decisionali e al tempo stesso ridurre rischi di natura normativo-legale e reputazionale.
Nel mondo aziendale e nei servizi pubblici, sta assumendo un’importanza sempre più centrale il “come” un’organizzazione analizza il proprio stato finanziario, prende decisioni, sviluppa e commercializza prodotti o interagisce con i clienti. Questa centralità si accentua ulteriormente quando modelli o algoritmi sono in grado di sostituire, parzialmente o completamente, il ragionamento umano. L’adozione di queste nuove forme di “automazione” solleva inevitabilmente questioni di responsabilità etica e legale che non possono essere ignorate, specialmente quando tecnologie avanzate come i Large Language Models, il cui successo è stato finora soprattutto mediatico, iniziano a trovare applicazione concreta. Questi strumenti diventano parte integrante dei processi aziendali, trasformandosi in pratica quotidiana e introducendo nuove sfide e opportunità. Il requisito minimo che la governance dell’AI deve stabilire è che tutti i modelli e gli algoritmi utilizzati devono essere conformi alle normative pertinenti al settore o all’applicazione a cui afferiscono.
Negli Stati Uniti, per esempio, i settori dei servizi finanziari e dell’istruzione sono soggetti a una legislazione che stabilisce quali tipi di input possono essere inclusi nello sviluppo e nella formazione dei modelli. Questi standard sono pensati per garantire che le classi protette della popolazione ricevano un accesso equo a prestiti, alloggi, istruzione e altri servizi essenziali. Ma il discorso normativo riguarda anche gli stati membri dell’Unione europea, con l’ormai celebre AI Act che ricalca, per la sua validità globale, l’impianto giurisdizionale della GDPR, promettendo di lasciare una traccia profonda e duratura sul tema della governance.
L’AI VISTA DALL’UNIONE EUROPEA
Entrato in vigore nell’agosto del 2024, con un percorso di graduale entrata in vigore e armonizzazione su un orizzonte triennale, l’Artificial Intelligence Act parte dalla definizione di “sistema di intelligenza artificiale” come qualsiasi sistema basato su computer che “opera in modo autonomo per generare output quali previsioni, raccomandazioni o decisioni che influenzano ambienti fisici o virtuali”. Questa ampia definizione, ispirata alle linee guida dell’OCSE, è pensata in modalità “future proof”, per coprire, nel corso del tempo, un’ampia gamma di tecnologie tra cui l’intelligenza artificiale generativa, il deep learning, ma anche tecniche di analisi dei dati più convenzionali. Come nel caso della GDPR, ogni singola organizzazione sarà chiamata a ragionare a fondo sulle implicazioni che questa normativa può avere sulle sue scelte di natura tecnologica. E influirà sulle strategie che verranno messe in atto per garantirne la conformità, ridurre il rischio di esposizione alle sue possibili violazioni e, nel caso, intervenire con le opportune manovre correttive.
L’utilizzo di strumenti di catalogazione per il controllo granulare dei dati è un modo sicuro per limitare, fin dallo stadio della programmazione, ciò che può essere utilizzato come input, da parte di quali funzioni e così via. La legge ci dice quello che possiamo o non possiamo fare. Quando si tratta di AI, tuttavia, oltre ai requisiti legali si pone una serie di potenziali considerazioni etiche, spesso tutte da scoprire, ma che nell’insieme costituiscono lo spinoso ambito delle cose che dovremmo e non dovremmo fare. Ed è in quest’area che gli algoritmi dell’intelligenza artificiale mal governati possono provocare gravi conseguenze di natura reputazionale, indipendentemente dalle dimensioni di una organizzazione. I prossimi anni vedranno sicuramente svilupparsi un ampio dibattito su una “compliance etica” che non ha ancora un suo “How-to” e forse è giusto che non l’abbia mai.