Una nuova generazione di tecnologie e architetture, che racchiudono informazioni provenienti da gestionali, blog e social network. Un mercato in vertiginosa crescita: 32% all’anno fino al 2016 (fonte IDC). In tutte le componenti: hardware, software, servizi e storage. Una tematica che ha applicazioni in tutti i settori del business, e che secondo gli analisti dovrebbe creare milioni di posti di lavoro nei prossimi anni
Nel mondo digitale nel quale viviamo, ogni minuto è generata una quantità di dati enorme. Si tratta di una miniera di dati che può essere sfruttata da aziende private e pubbliche, se dotate di una piattaforma analitica in grado di estrapolare le informazioni utili per le proprie attività. Per queste masse di dati è stato creato da tempo un nuovo termine: big data. Secondo la definizione di IDC (www.idc.com), i big data descrivono una nuova generazione di tecnologie e architetture, intese a estrarre in modo economico valore da volumi di dati di grande dimensione e di ampia varietà, consentendone l’analisi veloce. Si tratta di complesse aggregazioni di dati, provenienti dalle fonti tradizionali ma anche dai social network, dai siti di e-commerce, dal fiume di informazioni, che transita attraverso Internet, che richiedono per l’analisi strumenti più avanzati rispetto a quelli tradizionali.
La crescita dei dati
I big data hanno dimensioni davvero enormi: come unità di misura viene usato lo zettabyte, che è pari a un miliardo di terabyte, un quantitativo di byte che si rappresenta con la cifra 1 seguita da ventuno zeri. Gli archivi crescono a ritmi spaventosi: il 90% dei dati oggi esistenti sono stati prodotti negli ultimi due anni. Addirittura, il ritmo di creazione dei dati è così elevato che ogni due giorni viene prodotta una quantità di informazioni pari a quella creata da quando l’uomo ha iniziato a popolare la Terra fino all’inizio del Millennio. La crescita è soprattutto legata all’aumento dei dati non strutturati. I dati strutturati, infatti, sono tra il 5% e il 10%, il resto è costituito da dati non strutturati. Secondo una stima di IDC, il volume dei contenuti digitali continuerà ad avere questo incremento vertiginoso e raggiungerà otto ZB (8 betabyte, cioè 8 miliardi di terabyte) nel 2015. Parallelamente, gli investimenti nello storage legato all’archiviazione di big data è in forte aumento: IDC prevede avrà un tasso di crescita annua addirittura del 53% tra il 2011 e il 2016, passando in cinque anni da 379,9 milioni di dollari a 6 miliardi. Le performance, più ancora del costo, sono citate come il primo driver nella scelta di architetture storage, per il 68,6% degli intervistati.
Le aziende e i singoli utenti producono un’enorme quantità di dati: basti considerare che ogni minuto vengono spedite più di 200 milioni di email, vengono caricate su YouTube 60 ore di nuovi contenuti, inviati quasi 300mila tweet, fatte più di nove milioni di telefonate.
Oggi, saper leggere e interpretare le informazioni presenti nei propri archivi, e ancor più correlarle con quanto si trova nei social network e su Internet, è una sfida nuova per le organizzazioni, cruciale per il loro stesso business. Per questo, possedere le competenze adeguate per sfruttare i big data è una delle massime priorità per le organizzazioni IT nelle aziende: le linee di business possono misurare ogni attività e tradurre direttamente quelle conoscenze in un processo decisionale più efficace, in una performance più soddisfacente, in una migliore conoscenza del comportamento e delle preferenze dei clienti.
Tipici esempi sono i siti di vendita online di grosse dimensioni, che rilevano non solo ciò che acquistano i clienti, ma anche gli altri articoli esaminati, come viene navigato il sito, il grado di sensibilità alle promozioni e alle recensioni. I loro algoritmi sono in grado di prevedere quali prodotti potrebbero essere comprati dai singoli clienti e per questo sono continuamente affinati, ogni volta che l’utente accede al sito.
L’analisi approfondita di quanto archiviato è spesso impossibile da decifrare a fondo, soprattutto se non si conoscono le interrelazioni tra campi, dati e archivi. Le difficoltà sono anche legate alle fonti dei dati, ai diversi formati dei dati e alla velocità di crescita degli archivi. Il termine big data è spesso associato al paradigma delle 3V (Volume, Varietà, Velocità), che riassume l’impatto di questa tematica sulle aziende. In realtà, sempre più spesso si parla di 4V, perché viene anche considerato il Valore che questi archivi possiedono. In una recente indagine compiuta nel nostro Paese da IDC, il 50% delle aziende intervistate ha indicato nella velocità la principale priorità da gestire nei progetti di big data, più dei volumi e della varietà dei dati.
Big Analytics
Gli strumenti che permettono una corretta modalità di elaborazione e di analisi dei dati sono gli high performance analytics (HPA), che con le loro tecnologie innovative hanno accelerato enormemente i tempi di analisi passando dai giorni e le ore ai minuti e i secondi. Oggi, gli HPA sono in grado di analizzare social network e blog, mettere in relazione quei dati con le informazioni contenute nei sistemi gestionali, elaborare statistiche e analisi di dettaglio e rispondere alle domande sempre più articolate generate dal business. Tutto questo, utilizzando in modo ottimale le infrastrutture, le risorse umane ed economiche a disposizione dei dipartimenti IT. Avere informazioni accurate in tempi rapidi significa avere più tempo per prendere tempestivamente le decisioni giuste su problematiche sempre più complesse, in una finestra sempre più ridotta di opportunità, consentendo in tempo reale di valutare l’impatto economico delle manovre sulle leve di business. Gli high performance analytics generano un vero valore per le aziende, aiutando a cambiare il modo di fare business sul mercato, dando diversi vantaggi che derivano da un approccio integrato. E il valore che si può trovare nei big data può fornire importanti miglioramenti in ogni area aziendale. I dati IDC mostrano come una buona analisi delle informazioni fa aumentare fatturato, cash-flow, produttività delle risorse umane e customer-satisfaction, portando a una riduzione dei costi operativi e a una maggiore flessibilità organizzativa. Gli utilizzatori esperti possono contare su questi strumenti perché accelerano i processi di esplorazione e di analisi, mentre gli utenti non tecnici hanno a disposizione funzionalità analitiche avanzate, senza essere costretti a conoscere le complessità inerenti alle strutture dati.
Come funzionano questi strumenti? Dopo l’acquisizione dei dati, che avviene da qualsiasi sorgente, e il loro successivo caricamento sui server, gli HPA preparano, esplorano e modellano scenari multipli utilizzando tutti i dati a disposizione, non limitandosi a campioni o a sottoinsiemi di dati. Gli utenti sono in grado di esplorare i dati in modalità grafica e interattiva per effettuare analisi, scoprire opportunità nascoste, ottenere informazioni puntuali e di qualità: le analisi più sofisticate sono in genere perfettamente integrate con funzionalità di previsione dinamica, autocharting, drag-and-drop, drill-through. Tutto questo è possibile, con una velocità fino a poco tempo fa impensabile, grazie all’applicazione di alcune avanzate tecnologie e architetture informatiche, in particolare il grid computing, l’in-database, l’in-memory analytics. Il grid computing permette la distribuzione dei processi analitici e degli utenti su hardware dipartimentali e di supporto, migliorando la gestione e le performance e aumentando l’affidabilità del sistema. L’in-database consente l’esecuzione di funzionalità avanzate direttamente all’interno dei data base, evitando la movimentazione di dati tra database e motore di analisi. L’in-memory analytics migliora sensibilmente le prestazioni grazie all’elaborazione dei dati e al calcolo computazionale, utilizzando la memoria RAM invece degli hard disk.
Il valore nascosto dei dati
L’analisi delle informazioni generate dagli utenti sui social media rappresenta uno degli ambiti di maggiore interesse per i big data. Lo sfruttamento dei big data può trasformare anche le imprese tradizionali. Gli analytics permettono di misurare, e quindi di gestire, ogni aspetto della vita dell’azienda, con molta più precisione rispetto al passato, e quindi rendono possibile trovare contributi alla risoluzione di problemi e ai processi decisionali e programmare interventi più efficaci in aree finora dominate dall’istinto e dall’intuito anziché dai dati e dal rigore. Gli analytics riescono a “monetizzare” il patrimonio nascosto nei dati aziendali in numerosi settori. Gli esempi sono molteplici, ne citiamo solo alcuni: nel retail per l’analisi degli scontrini e l’offerta di promozioni personalizzate; nelle assicurazioni per definire le tariffe “pay as you go”; nei servizi finanziari per valutare ogni possibile rischio in pochi minuti; nella pubblica sicurezza (PS) per prevenire le attività criminali nelle aree più problematiche; nelle utilities per tracciare l’erogazione dell’energia dal punto di distribuzione fino al punto di consumo e individuare le potenziali frodi; nel settore farmaceutico per determinare il reale profilo di sicurezza dei tuoi farmaci, analizzando in dettaglio ogni singolo evento e pianificando un efficace processo di farmacovigilanza e di clinical safety. Ma non solo. Secondo Carlo Vercellis, ordinario al Politecnico di Milano dove dirige il laboratorio DOOR e l’Osservatorio Big Data Analytics & Business Intelligence, «l’analisi dei big data offre innumerevoli potenzialità e pressoché tutti i comparti dell’industria e dei servizi sono fortemente coinvolti. Facciamo alcuni esempi: il monitoraggio dei social media permette di analizzare le preferenze e il gusto degli individui, di intercettare le opinioni relative a prodotti, servizi, brand, temi e leader politici. Queste informazioni, integrate con i dati transazionali, permettono alle imprese di ottimizzare le azioni di marketing. L’analisi dei dati raccolti dai sensori consente di svolgere manutenzioni preventive e di ridurre i guasti imprevisti. È inoltre possibile identificare efficacemente le frodi in ambito creditizio, assicurativo, fiscale, monetario, sanitario. La diagnostica medica può trarre enormi benefici, per il cittadino e per i costi del sistema sanitario, dall’analisi puntuale dei percorsi sanitari. I big data descrivono fenomeni di massa e sono caratterizzati da regolarità sorprendenti, ben evidenziate da algoritmi matematici. Siamo in grado di caratterizzare il “sentiment” di milioni di post testuali con un’accuratezza del 90-95% in pochi secondi, contro le innumerevoli ore che tale attività richiederebbe a content analyst umani».
Investimenti in aumento
Con tutte queste applicazioni, non stupisce la costante crescita degli investimenti nei big data, sia in tecnologie e servizi specifici per questa tematica, sia per infrastrutture, software e servizi acquistati e messi in campo in progetti collaterali ai big data. Si tratta di un fenomeno che si sta intrecciando con altre tendenze forti dell’ICT: il cloud, il mobile e il social. Una ricerca condotta lo scorso anno da GigaOm Pro (www.gigaom.com), su decision maker del settore IT di aziende del Nord America, ha rilevato che il 77% degli intervistati dichiara di avere allocato un budget per progetti big data. Un’altra indagine di IDC lo conferma. Nella ricerca si legge che “i big data e gli analytics sono diventati argomenti prioritari nell’agenda di molti manager: con l’opportunità di scoprire il valore dei big data per accelerare l’innovazione, guidare l’ottimizzazione e migliorare la compliance, cresce il bisogno di ricreare i processi di business e garantire la disponibilità di personale adeguatamente qualificato. La capacità di gestire e analizzare i big data, e trarre valore da queste attività, definirà sempre più la capacità di competere di un’organizzazione. Secondo le previsioni di IDC, il mercato worldwide dei big data, che comprende la spesa per tecnologia e servizi, crescerà al ritmo vertiginoso del 32% annuo fino al 2016, con un tasso di crescita quasi sette volte superiore rispetto al mercato globale ICT. Passerà dagli otto miliardi di dollari del 2012 ai 18,5 miliardi di dollari del 2015, fino a raggiungere una dimensione di circa 24 miliardi di dollari nel 2016. Nello stesso periodo, il mercato dei business analytics, di cui i big data fanno parte, crescerà da 100 a 120 miliardi di dollari.
Il 38% degli investimenti nei big data viene fatto nei servizi, il 24% nel software, il 18% nello storage, il 10% nei server, il 6% nelle infrastrutture cloud e il 4% nel networking. Secondo gli analisti di Gartner (www.gartner.com) – che hanno valutato gli investimenti nell’IT guidati da richieste funzionali legate ai big data (un mercato più ampio rispetto a quello analizzato nella ricerca di idc) – gli investimenti negli analytics finalizzati ai social media e all’enterprise software saranno i driver per gli investimenti software fino al 2016. Entro quella data – secondo Gartner – gli investimenti nell’IT legati ai big data passeranno dai 27 miliardi di dollari del 2011 a quasi 55 miliardi di dollari, dei quali poco meno di 44 miliardi saranno spesi nei servizi IT. Gli investimenti in enterprise software passeranno dai 2,6 miliardi di dollari del 2011 ai 6,5 miliardi di dollari: in espansione soprattutto le spese per lo storage management, i DBMS e per l’infrastruttura applicativa e il middleware. Gli investimenti nei social media legati ai big data cresceranno molto di più, dai 76 milioni di dollari del 2011 ai 4.4 miliardi di dollari previsti per il 2016. In pochi anni, sostiene Gartner, i big data diventeranno un fattore indispensabile per la gestione delle informazioni, e da elemento differenziante rispetto alla concorrenza si trasformeranno in “semplici dati”.
Tanto interesse per i big data è ripagato dai risultati. In una ricerca commissionata da Capgemini (www.capgemini.com), che ha coinvolto 607 dirigenti di alto livello, i partecipanti hanno evidenziato che, nei processi in cui è stato applicato un approccio analitico sui big data, le organizzazioni hanno ottenuto un miglioramento medio del 26% delle prestazioni rispetto ai tre anni precedenti e prevedono di ottenere un ulteriore miglioramento del 41% nei prossimi tre anni.
Ma l’interesse sulla tematica dei big data riguarda anche l’Italia? «A dispetto della congiuntura sfavorevole – risponde Carlo Vercellis (Politecnico di Milano, osservatorio BDA&BI) – gli investimenti in sistemi di big data analytics e business intelligence (BDA&BI) nel corso del periodo 2009-2012 sono cresciuti in modo significativo, con incrementi medi annui che superano il 7%. Le ricerche dell’osservatorio BDA&BI suggeriscono anche per il futuro prospettive di sviluppo favorevoli, con una previsione di crescita superiore all’8% per il prossimo triennio. Gli investimenti in sistemi di BDA&BI continuano a risultare superiori alla media degli investimenti in ICT, perché queste applicazioni hanno valenza strategica e rappresentano una priorità per i CIO, per migliorare la qualità delle decisioni, ottimizzare le prestazioni, incrementare i ricavi e ridurre i costi. E’ un fenomeno che riguarda le grandi imprese e la pubblica amministrazione, in qualche misura le medie imprese, ma che purtroppo lambisce solo marginalmente le piccole imprese, per problemi culturali e di costo». A novembre, l’Osservatorio BDA&BI del Politecnico di Milano presenterà i risultati aggiornati relativi al nostro Paese, frutto di una ricerca che è in fase di ultimazione in queste settimane.
Big data step by step
Per iniziare un progetto di big data, ecco cosa consiglia Shaku Atre, presidente di Atre Group (www.atre.com), una società di consulenza operante nel settore della business intelligence, esperta di database management e data warehousing. «Per trasformare i big data in un’opportunità, considerate di compiere questi passaggi». Innanzitutto, pensate: «Cosa vorrei ottenere con la business analytics sui big data? Costruire più prodotti? Costruire prodotti migliori? Fornire servizi migliori? Avviare un nuovo servizio? Comprendere meglio i clienti apprezzando i loro “sentiment” su ciò che piace e ciò che non piace? Comunicare meglio con i vostri clienti, i vostri partner, i vostri fornitori? Occorre poi stabilire quali tipi di big data sono importanti per l’organizzazione, identificare quali tipi di big data sono disponibili nei propri sistemi, e includerli nella vostra strategia aziendale sulla gestione dei dati». Shaku Atre ricorda che i tipi di dati che rientrano nella tematica big data possono essere server log e web log, dati provenienti da reti di sensori, comunicazioni machine to machine, dati provenienti dai social network e dai social media, archivi di informazioni sanitarie, dati metereologici, archivi fotografici, archivi video, dati provenienti dai siti di e-commerce. «E’ necessario – però – acquisire comptenze approfondite su alcune delle tecnologie che supportano la gestione dei big data come i progressi nei DBMS nel caricamento dei dati, nella loro indicizzazione e nel parallelismo, il grid computing, i DBMS “columnar”, i database NoSQL, l’elaborazione distribuita, gli analytics e i database in-memory, i dati cloud e la loro elaborazione. Infine, occorre comprendere che per far sì che il vostro “progetto big data” abbia successo, bisogna sviluppare caratteristiche specifiche di statistica e matematica, competenza nel business, intuizione, tecnologie che supportano la gestione dei big data».
Una volta affrontati questi passi, come si prosegue? Shaku Atre – che recentemente ha tenuto sul tema dei big data alcuni seminari in Italia per Technology Transfer (www.technologytransfer.it) – risponde: «Per continuare, bisogna scoprire che tipo di capacità analitiche di BI sono già in vostro possesso. Cosa manca? Come si può colmare questo gap? Si devono assemblare le competenze necessarie, occorre assicurarsi di avere le infrastrutture adeguate. Inoltre, i big data hanno al loro interno un sacco di “spazzatura”: bisogna essere in grado di identificare i rifiuti nei vostri big data e decidere se buttarli via o ignorarli». Secondo Shaku Atre, la parte più difficile consiste nel modificare la cultura dell’organizzazione IT. «Si devono imparare le tecniche di content intelligence per gestire i dati multi-strutturati e semi-strutturati. Per questi ultimi, le principali tecniche sono: ricerca di base, ricerca avanzata, classificazione, costruzione di una tassonomia. Infine, si deve preparare una matrice con quello che si ha già disponibile e un piano per integrare le tecnologie big data, le competenze e le applicazioni. Fatto questo, ci si può sedere in treno e andare a destinazione con i big data».
Problemi e prospettive
Il recente caso di violazione della sicurezza internazionale noto come “Datagate” ha evidenziato uno dei problemi correlati con lo sviluppo dei big data: la privacy. La creazione e l’utilizzo di questi archivi enormi, infatti, si basa sul teorema secondo cui “tutto ciò che è accessibile può essere utilizzato”. Occorre trovare regole certe e un giusto confine per far coesistere la tutela della privacy non solo con la difesa della sicurezza dei cittadini, ma anche con lo sfruttamento dei dati in altri ambiti, come il marketing più o meno invasivo. Altri problemi connessi con i big data sono legati alla difficoltà di maneggiare l’enorme volume dei dati: la rapidità nella crescita degli archivi spesso supera la capacità di gestione dei dipartimenti IT. Inoltre, non è semplice individuare, né per quanto tempo, questi dati debbano rimanere a disposizione degli high performance analytics, né quali siano i dati a maggior valore per il business, anche perché i dati archiviati oggi potrebbero avere una correlazione con eventi futuri al momento non pianificabili e talvolta nemmeno immaginabili. Quindi, la possibilità che ci siano tanti dati inutili all’interno dei big data (“spazzatura” secondo la definizione di Atre) non è poi così remota.
Il problema più grosso – però – è un altro. In una recente indagine svolta in Italia da IDC, tra le criticità evidenziate dalle aziende in ambito BA e BI, la carenza di competenze interne è al primo posto, indicata da oltre il 50% delle aziende intervistate. Seguono nella classifica altre problematiche come il costo delle soluzioni, la data integration, la performance dei sistemi, la definizione dei requisiti tecnologici e la definizione dei requisiti di business.
La carenza di risorse esperte è evidenziata in un rapporto del McKinsey Global Institute (www.mckinsey.com). Secondo il rapporto, nei prossimi anni soltanto considerando gli Stati Uniti, dovrebbero mancare da 140mila a 190mila data scientist, cioè professionisti dotati di capacità tecniche e analitiche per maneggiare i big data, e addirittura un milione e mezzo di manager e analisti con il know how adeguato per analizzare i big data e ricavarne decisioni efficaci. Secondo Gartner, big data e analytics creeranno nei prossimi anni quasi due milioni di posti di lavoro negli Stati Uniti. Queste previsioni sono vere anche per l’Italia, come spiega Vercellis: «Il ruolo di data scientist è emerso con forza di recente, sotto la spinta dei giganti del web che hanno avviato e potenziato l’analisi di milioni di dati transazionali e di navigazione raccolti nel tempo. Esso è indicato come uno dei job più “sexy” del futuro, con una fortissima domanda di esperti nei big data analytics per il prossimo decennio. Da un decennio, al Politecnico di Milano sono attivi corsi di business intelligence e data mining a livello di laurea magistrale, mentre la nostra business school, il MIP, eroga corsi di formazione e training per chi già lavora».
I big data non sono quindi solo un driver per la spesa it dei prossimi anni: il loro boom creerà tanti posti di lavoro. I grandi vendor it avranno bisogno di nuove risorse specializzate per adeguare e mantenere al passo con i progressi tecnologici la loro offerta in infrastrutture, storage, software e nei servizi di consulenza e di data center. Saranno anche necessarie risorse per definire, disegnare e sviluppare i progetti negli svariati ambiti di applicazione dei big data: data scientist, come si diceva, ma anche manager, analisti, informatici. La rivoluzione dei big data avrà un impatto positivo non solo in termini di occupazione, ma anche in termini di aumento della competitività, dando un impulso nuovo alla diffusione della cultura dell’innovazione in un paese come l’Italia alle prese con il compito impegnativo di riagganciare la crescita.