Cambiare marcia trovandosi in una nuova era non è mai facile, durante la transizione: solo col senno di poi si riesce a vedere chiaramente cosa poteva davvero essere giusto, probabilmente per l’intero periodo.
Questa è una perla di saggezza che ho sempre condiviso con il pubblico dei miei keynote nelle conferenze sui big data e sul data warehouse, oltre che nel corso di briefing per grandi aziende. Dato che sono da più di 25 anni nel settore del data management e della business intelligence, ho visto succedersi nel tempo numerosi cambiamenti, a opera delle tecnologie emergenti, dei paradigmi di business e della stessa Legge di Moore. Oggi, i big data e gli analytics promettono davvero di inaugurare l’era dell’informazione, ma siamo ancora nell’infanzia di questa nuova era, e questo rende tutto molto interessante.
Nel 2013, il mercato Big Data, la BI, il NoSQL e il cloud computing hanno visto i vendor emergere, gli operatori storici adattarsi e le tecnologie maturare. In questo articolo, mi concentro sui due eventi più macroscopici che stanno accadendo, quelli che io chiamo la “Battaglia della Persistenza” e la “Gara all’Accesso”, e offro alcune indicazioni (e forse anche una previsione su ciò che ne risulterà) per i prossimi anni. Alcune di queste battaglie sono state risolte nel 2013, mentre altre saranno risolte negli anni successivi, oppure – potenzialmente – non lo saranno affatto. In entrambi i casi, comprendere le battaglie in atto può essere d’aiuto per affrontare le roadmap architetturali, il processo decisionale e le strategie relativi alle tecnologie.
La Battaglia della Persistenza
La Battaglia della Persistenza non è iniziata cinque anni fa con la nascita del fenomeno big data o di Hadoop dell’Apache Foundation: è una battaglia in corso da decenni in tutto il mondo dei dati strutturati. Come il pendolo oscilla ampiamente tra i dati centralizzati e i disparati dati distribuiti, la Battaglia della Persistenza si svolge tra la coerenza dei dati – intrinsecamente derivata da un archivio dati singolo – e le performance derivanti da archivi dati ottimizzati per carichi di lavoro specifici. Lo schieramento della coerenza sostiene che, con risorse sufficienti, l’archivio dati unico è in grado di superare le sfide relative alle performance, mentre lo schieramento delle performance sostiene di poter gestire la complessità degli archivi di dati eterogenei per garantire la coerenza.Alcuni decenni fa, i database multidimensionali, o cubi MOLAP, sono stati ottimizzati per persistere e utilizzare i dati in modo diverso rispetto ai RDBMS, i sistemi di gestione dei database relazionali basati su righe. Non si trattava solo di rappresentare i dati in schemi a stella derivati da un paradigma di modellazione tridimensionale – entrambi molto potenti – ma di descrivere come i dati avrebbero dovuto persistere quando si sapeva come gli utenti vi avrebbero acceduto e interagito. I cubi OLAP rappresentano la prima esperienza utente altamente interattiva: la capacità di scomporre e analizzare (“slice and dice”) i dati dimensionali riassunti, possibilità all’epoca non consentita dai database relazionali.
Rendere persistenti i dati in due diversi archivi dati per scopi diversi è già da decenni parte di un’architettura di BI, e le discussioni odierne sfidano la nozione di base di sistemi transazionali e sistemi analitici: potrebbero essere eseguiti dallo stesso archivio dati in un prossimo futuro.
I dati sono dati
La famiglia NoSQL di archivi dati nasce dalle richieste di business per capitalizzare gli “ordini di grandezza” del volume dei dati e la complessità relativa all’acquisizione dei dati tramite strumentazioni: prima dai siti Internet e dai motori di ricerca che tracciano ogni singolo click, e successivamente dalla rivoluzione cellulare, che traccia ogni singolo post. Ciò che c’è di diverso tra NoSQL e Hadoop è il paradigma.Tecnicamente parlando, i dati sono gratis, ma quello che costa e contribuisce ai calcoli sul ROI sono i costi di storage e di accesso ai dati, cioè le infrastrutture. Per questo, lo sviluppo di una soluzione software che poggiasse su un’infrastruttura di costo più basso, e con minori costi di gestione e meno spazio occupato, si rendeva necessario per affrontare l’ordine di grandezza posto dai Big Data, cioè il più basso costo di capitale relativo ai server, il data center di costo più basso in termini di alimentazione e condizionamento, e la più alta densità di server per metterne un numero maggiore in uno spazio minore (si pensi al calcolo di centesimi per kilowatt). Con il mantra “i dati sono dati” non si chiede di capire come i dati devono essere strutturati in anticipo, e si accetta che le applicazioni che creano i dati possano far evolvere continuamente la struttura o introducano nuovi elementi di dati.
Più in dettaglio
Il principio della Battaglia della Persistenza sostiene che esistono molteplici database (o tecnologie di dati), ciascuna con i propri chiari punti di forza. Per ora, il pendolo ha oscillato nuovamente verso l’architettura di dati distribuiti e federati. Siamo in grado di abbracciare la flessibilità e la gestibilità complessiva delle piattaforme dig data, come Hadoop e MongoDB. I dati modellati in modalità “entity-relationship” nei data warehouse aziendali e nei master data management fondono i contesti coerenti e standard in schemi, e supportano gli aspetti temporali di dati di riferimento con una ricca attribuzione per alimentare gli analytics. Anche i database ottimizzati per gli analytics – come colonnari, MPP, appliance e anche multidimensionali – possono essere combinati con i database in-memory, il cloud computing e il networking ad alte prestazioni, come InfiniBand. Separatamente, database analitici altamente specializzati – come i database a grafo, i documenti, o gli analytics basati su testo – possono essere eseguiti in modo nativo in questi database specializzati.
Modern Data Platform
Le aziende e i vendor stanno cominciando ad accettare che c’è bisogno di più tecnologie di database, intrecciate insieme per fornire la tanto desiderata Modern Data Platform (MDP), ma hanno anche ben presente che il pendolo continua a oscillare. L’informatica basata sul rapporto prezzo-prestazioni continuerà a esistere come fa con la Legge di Moore, in modo che si possano far convergere più CPU core in parallelo con costi inferiori, uno storage più abbondante con la veloce memoria a stato solido e unità disco tradizionali con capacità superiori. Esaminando il tasso di innovazione tecnologica e di maturità che sta guidando oggi i big data, potremmo vedere le capacità dei derivati di Hadoop, di MongoDB, o di alcune emergenti tecnologie che eclissano le tecnologie dati altamente specializzate e ottimizzate che vengono impiegate oggi per soddisfare le esigenze attuali. C’è un ampio dibattito sui diversi ecosistemi database rispetto all’all-in-one Hadoop, ma si tratta semplicemente di una questione di visione e della realtà di ciò che è disponibile oggi.
John O’Brien
Professionista e consulente. Ha 25 anni di esperienza nei settori Data Warehousing e Business Intelligence. La combinazione dei diversi ruoli che ha svolto rende unico e originale il suo punto di vista. Come esperto riconosciuto nel settore BI, ha pubblicato numerosi articoli ed è intervenuto come speaker in importanti conferenze negli Stati Uniti e in Europa. Oggi, John O’Brien svolge attività di ricerca e offre servizi di strategic advisory per guidare le aziende verso la nuova generazione dell’Information Management.
John O’Brien presenterà a Roma per Technology Transfer il seminario “Modern Data Platforms” nell’autunno 2015.