Big Data, Big Security?

Il paradigma Big Data cambierà completamente la sicurezza IT, promettendo tempi di reazione sempre più brevi, capacità di prevedere i fenomeni e controlli basati sul rischio e sulla capacità di adattarsi al tipo di minaccia. La questione – però – non è se i big data analytics saranno il motore di questo cambiamento, ma si tratta di capire quando le imprese saranno pronte

Router, switch, server. Ma anche domain controller, IDS/IPS, proxy, firewall. L’intera santabarbara della sicurezza. Un flusso ininterrotto di informazioni, terabyte di dati prodotti e raccolti da aziende e organizzazioni per rispetto della normativa oltre che per il monitoraggio della security. Numeri in crescita.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Si stima che nel 2013 HP abbia generato circa un miliardo di miliardi di eventi al giorno, più o meno 12 milioni di eventi al secondo. Parliamo di un gigante certo, ma tutte le grandi organizzazioni arrivano a produrre giornalmente una media tra i dieci e i cento miliardi di eventi. Uno streaming in continua espansione al quale si aggiungono nuovi filoni di dati non strettamente contigui alla sicurezza, correlati all’utilizzo del pc da parte degli utenti, network e applications events, testi, audio, flussi di click, e ancora segnali provenienti da RFID, cellulari, sensori, transazioni commerciali, che alimentano il sistema di raccolta. La buona notizia? Allo stesso modo in cui qualche decennio fa siamo entrati nell’era del riciclo, così i dati di sicurezza – un tempo inutilizzati e gettati via in fretta – conoscono una sorta di seconda giovinezza, grazie a nuove metodologie di analisi e tecnologie, i big data analytics, strumenti di processo e analisi di grandi quantità di dati.

Lotta alle frodi

I tool big data sono in grado di rendere più intellegibili le informazioni e i dati disponibili attraverso la correlazione, il consolidamento e la contestualizzazione di dataset provenienti dalle fonti più disparate su finestre temporali sempre più lunghe. Una tendenza che non è nata ieri. Da qualche tempo, banche, operatori di telefonia, catene retail – complice la diffusione di IDS/IPS, sensori di rete collocati nei punti strategici della rete – producono grandi quantitativi di informazioni di sicurezza. Sono però le società emettitrici di carte di credito le prime a sfruttare con infrastrutture di analisi create ad hoc questi dati. I primi casi di successo si registrano in particolare nella rilevazione delle frodi. Tuttavia, il passaggio dalle tradizionali architetture di gestione a sistemi più avanzati non è né immediato né indolore. La trasformazione comporta costi economicamente insostenibili per molte realtà. Nel frattempo, la risposta dei vendor è di puntare su soluzioni SIEM – Security Information and Event Management – sviluppandone le capacità di aggregare e correlare gli avvisi di sicurezza con set di dati contigui, magari presentandoli in modi più accattivanti su un cruscotto unico. Ben presto però, anche la tecnologia SIEM diventa obsoleta, incapace di gestire grandi quantità di dati non strutturati. E soprattutto di contrastare efficacemente gli attacchi più sofisticati. Questa situazione costringe le grandi organizzazioni a sperimentare, sfruttando meglio i dati e la tecnologia disponibile. Si sviluppano così infrastrutture capaci di incorporare nuovi tool più economici per interrogare i dati, qualunque sia il formato con cui sono raccolti.

Security Information

A partire dagli anni 90, Zions Bancorporation, una società di data mining che annovera tra i propri clienti alcuni tra i maggiori istituti finanziari USA, inizia a sviluppare un’architettura proprietaria per integrare e analizzare quantità di dati sempre maggiori. All’RSA Conference 2012, gli analisti di Zions Bancorporation dimostrano che riuscire a interrogare e analizzare molti più dati e molto più velocemente di quanto si riuscisse a fare in passato è oggi possibile. La demo avviene simulando un ambiente in cui il volume di dati generati dai device di sicurezza raggiunge tre tera ogni sette giorni (dati del 2012) e dove – per caricare 24 ore di log – un giorno intero può non bastare. Se i tempi di una query su una soluzione SIEM variano dai 20 ai 60 minuti, la stessa query lanciata da un sistema di cluster Hadoop – utilizzati in tandem con Hive ed altri tool di business intelligence – ottiene lo stesso risultato in circa un minuto. «La produzione di troppi falsi positivi mina l’affidabilità e l’efficacia delle soluzioni SIEM» – sentenziò all’epoca Preston Wood, CSO di Zions Bancorporation, preconizzando con largo anticipo l’acutizzarsi del problema con il passaggio verso architetture cloud e la raccolta sempre più spinta di dati.  Organizzata su questi presupposti, l’analisi consente di individuare trend, pattern e correlazioni alle quali non sarebbero mai riusciti ad approdare con gli strumenti tradizionali, raggiungendo risultati spendibili in azioni a supporto della sicurezza. Il termine Big Data acquista un’anima. Fare meglio e ancora più velocemente è l’obiettivo di una successiva ricerca condotta presso gli HP Labs. Lungo il solco tracciato da Zions e in uno scenario in cui più dati disponibili portano a disporre di informazioni spendibili in situazioni e ambienti reali – HP dimostra la fattibilità di ottenere percentuali di segnalazioni esatte a fronte di un limitato numero di falsi positivi, disponendo di un set di dati composto da eventi di sicurezza di routine e relativi ad attacchi utilizzati per la detection. Impressionante la base dati di partenza: due miliardi di richieste http, un miliardo di request data DNS (raccolte presso un ISP) e 35 miliardi di alert generati da sistemi di intrusion detection installati in oltre 900 organizzazioni in tutto il mondo. La sfida di incorporare più dataset in un unico frame – una delle grandi promesse dei big data – dopo questa prova diventa realtà. Soprattutto questi due casi, ai quali nel frattempo se ne aggiungeranno molti altri, dimostrano che i limiti delle tecnologie tradizionali – segnatamente la capacità di svolgere l’analisi su dataset strutturati utilizzando query complesse – sono ormai un retaggio del passato.

Detection & Analysis

Il salto di qualità che registrano gli attacchi – cresciuti in intensità e risultati, acutizzando l’inefficacia delle soluzioni esistenti – sollecita la ricerca a compiere passi avanti nel campo dell’analisi e della detection. Prendiamo la modalità di attacco delle minacce APT, basso profilo ed effetti prolungati nel tempo, a completa insaputa dei malcapitati. In questi casi, quanto tempo serve a un’azienda per rilevare una violazione di sicurezza? Secondo uno studio condotto da Vanson Bourne (“Needle in a Datastack: The Rise of Big Security Data”) solo il 35% delle imprese è in grado di rilevare in pochi minuti una violazione dei dati, mentre per il 22% servono almeno 24 ore; addirittura per il 5% delle realtà interpellate è necessaria anche più di una settimana. La detection di questi attacchi richiede la raccolta di grandi quantità di dati effettuando correlazioni su serie storiche di lungo periodo che incorporino anche informazioni di attacchi simili avvenuti in passato sulla rete. E la tempestività dell’intervento anche per via della perdita di valore nel tempo dell’informazione è cruciale per fronteggiare l’intrusione. La promessa dei big data si inserisce proprio in questo solco. E in questo senso gli analytics applicati ai big data rappresentano la versione più recente del bisogno periodico di trovare sempre nuovi approcci alla sicurezza. Senza dubbio,uno degli impatti più significativi delle tecnologie big data è di aver permesso a società di vari settori di costruire infrastrutture di analisi a costi più contenuti rispetto al passato. Hadoop e il suo ecosistema di applicativi collegati (Pig, Hive, Mahout e RHadoop), di stream mining e analisi di eventi complessi, appoggiati a database come NoSQL, hanno reso possibile l’analisi su larga scala di dataset eterogenei, in tempi più brevi rispetto al passato. La crescita delle aspettative nei confronti degli analytics non dovrebbe però farci dimenticare i limiti dell’approccio e delle tecnologie sottostanti.

Questione di scelte

Mettere in piedi un’architettura coerente e funzionale, sapendo scegliere tra quello che esiste, richiede competenze avanzate e idee ben chiare. Si tratta di individuare le fonti di informazioni più utili a sostegno dell’analisi, accedervi e assicurarsi aggiornamenti continui, integrando il tutto all’interno di un’architettura costruita attorno a database capienti per una quantità di dati che giustifichi l’impiego di strumenti big data. «Prendiamo le transazioni bancarie. In Italia, sono attivi circa 30 milioni di conti correnti bancari e otto milioni di conti correnti postali; calcolando una media di 20 operazioni al mese sui conti di persone fisiche, arriviamo a circa 600 milioni di operazioni al mese, sette miliardi in un anno. Numeri di tutto rispetto, lontani però dai volumi di traffico di big data e gestibili da server tradizionali» – ci dice Marco Russo, senior consultant e founder di SQLBI.Uno degli obiettivi dell’analisi è di identificare nuovi indicatori di un possibile attacco. Servono correlazioni significative che possano portare a modelli predittivi di comportamento. Ma distillare da tutti questi dati delle informazioni utilizzabili non è automatico. Non si tratta solo di mettere insieme più fonti, quanto di interrogare i dati in modo efficace. Sapendo che cosa cercare. I dati non parlano da soli. «La tendenza invece è di immagazzinare dati, senza utilizzarli e poi scordarsene» – rileva Russo.«L’analisi di correlazioni esiste da decenni e molte realtà dispongono dei dati per fare questo tipo di analisi. Peccato però – continua Russo – che qui da noi non siano mai fatte, anche perché serve qualcuno che decida le domande e valuti le risposte».Una figura cioè che padroneggi una metodologia efficace che porti a risultati tangibili e che sia in grado di presentare i risultati in modo coerente e comprensibile. Qualcuno che conosca la statistica e la grafica oltre che la sicurezza. Competenze che mancano, in particolare nel nostro paese, almeno a giudicare dal tenore delle riflessioni espresse dalla maggior parte dei partecipanti al recente Digital Customer Experience Forum (Intesa SanPaolo, Enel, Telecom Italia, La Rinascente, Groupama Assicurazioni, Comune di Milano, aizoOn, ContactLab e Indra Italia). «Con i big data, aumentano i volumi a disposizione e in alcuni casi viene a mancare la strutturazione dei dati. Se ho già implementato una strategia di business analytics che include il data mining sui dati che ho già, posso dire che con i big data, aumenta la complessità del problema. Ma se non ho usato quello che già avevo, non ho nessuno degli skill necessari» – spiega Russo. Le opportunità che i big data possono fornire alle imprese sono ampie: innovazione di prodotto/servizio, ottimizzazione di processi e identificazione di nuovi modelli di business, miglioramento della capacità di prendere decisioni tempestive, gestione proattiva dei rischi.

Fenomeno in crescita

«Nel campo della sicurezza, l’analisi può aiutare a prevenire i problemi legati al down di un sistema per sovraccarico; oppure ad analizzare all’interno del data center le cause dei picchi di attività così da spostare – tramite la virtualizzazione – il workload da una parte all’altra, riducendo i rischi di stop delle macchine, dei server e dello storage» –ci dice Sergio Patano, research & consulting manager di IDC. Tuttavia, a fronte di questo ampio spettro di possibilità, sono ancora poche le organizzazioni che possono vantare una matura comprensione delle analisi dei big data. Piuttosto – ci dice Patano – si può parlare di una consapevolezza crescente delle potenzialità e dei vantaggi che i big data possano apportare: «Anche in Italia, alcune aziende iniziano a comprendere le differenze rispetto all’analisi tradizionale. Non si tratta ancora di una consapevolezza acquisita. Ma sta comunque prendendo piede». Detto questo però, non sono ancora molte quelle in grado di impiegare l’analisi a supporto della propria strategia cyber. «Le ultime analisi che abbiamo a disposizione ci mostrano che solo il 30% delle aziende interessate al discorso big data hanno implementato soluzioni con queste caratteristiche al loro interno» – conferma Patano. «La maggior parte di loro sta ancora cercando di capire se e in che misura hanno bisogno di soluzioni big data e analytics». Perciò anche di fronte alle più ottimistiche previsioni di espansione, tutti i maggiori analisti concordano nel dire che ci troviamo ancora in una fase poco più che pioneristica di adozione. Alla luce di questi numeri, qualcuno ritiene che l’analitica Big Data non sia ancora alla portata di molte organizzazioni. E non solo per una questione dicompetenze e di investimenti. Ma non mancano i casi di aziende che iniziano a muovere i primi passi in questa direzione. «Alcune realtà italiane hanno già iniziato a portare avanti alcuni progetti di big data analytics» – afferma Patano. «In particolare, una realtà bancaria utilizza soluzioni big data per fare predictive IT, performance management (all’interno del data center) e prevenzione di attacchi informatici».

Leggi anche:  Quadrant Knowledge Solutions riconosce a Kaspersky Threat Intelligence lo status di Leader

Conclusioni

Sui big data proliferano leggende metropolitane, esagerazioni, diffidenze. In tanti lo hanno già scritto e al riguardo esiste in rete un’interessante e cospicua bibliografia. Di certo, la mancanza di equilibrio nelle valutazioni non aiuta a comprendere possibilità e limiti di questi strumenti. I big data non sono la panacea di tutti i mali. Sebbene si provi a far passare il messaggio che qualsiasi problema – sconfiggere il cancro o debellare la fame nel mondo – possa essere risolto con l’utilizzo dei big data, la realtà è un’altra. Nei casi migliori, un po’ di sano scetticismo porta ad approfondire il discorso e allargare la discussione, contribuendo a una comprensione più profonda dei limiti e delle aspettative lecite. Di certo ibig data non possono fare miracoli. Neppure nel campo della sicurezza IT. Una definizione chiara di big data aiuterebbe a diradare almeno in prima battuta i dubbi più grossolani. Alla fine parliamo di basi dati con alcune caratteristiche peculiari, capienza e capacità superiori di analisi e processo dei dati. Sul piano dell’analisi, i tool big data forniscono nuove opportunità derivanti dallo sfruttamento di svariate fonti di dati per prendere decisioni più circostanziate. Anche nel campo della sicurezza informatica. Ma ci vorranno anni perché le aziende riescano a integrare queste soluzioni, adeguando i propri processi di business. Servono competenze e coraggio. Le aziende – almeno quelle più lungimiranti – dovrebbero iniziare a piccoli passi a sviluppare un piano d’azione che esplori i molteplici casi d’uso e applicazioni nell’organizzazione. In che modo? «Cominciando a valorizzare ciò che si ha. Dando priorità all’investimento in conoscenza, skill e capacità esecutiva, prima di andare a cercare prodotti “risolutivi” senza disporre delle risorse necessarie per gestirli» – afferma Marco Russo.Non bisogna permettere di lasciarsi fuorviare da un’immagine “salvifica” che si riscontra nell’uso (e soprattutto abuso) del termine Big Data, non solo in Italia. Né lasciarsi abbagliare dalle promesse di irrealistiche riduzioni dei costi. Come sempre, un ottimo antidoto contro i bruschi risvegli è quello di concentrarsi sui propri problemi di business. Invece di domandarsi che cosa possono fare i big data, gli specialisti della sicurezza dovrebbero domandarsi: «Qual è il più pressante problema di sicurezza che dovrei risolvere»?

Leggi anche:  Cybersecurity e sostenibilità: lo studio commissionato da Gyala