Una protezione perfetta: come e perché proteggere i big data e i workload open source

Una protezione perfetta: come e perché proteggere i big data e i workload open source

A cura di Fabio Pascali, Country Manager Italia di Veritas Technologies

Con l’aumento delle dimensioni, della complessità e dei servizi offerti dalle organizzazioni, cresce anche la diversità workload da gestire. Le aziende moderne gestiscono applicazioni enormi, alcune delle quali devono elaborare miliardi di richieste al minuto provenienti da tutto il mondo. Accanto a questo flusso di dati, le organizzazioni devono anche fare i conti con nuovi tipi di dati: dalle immagini ai video, fino ai social media; molti di questi dati non sono strutturati e sono difficili da organizzare nei database tradizionali.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Per questo motivo, le organizzazioni utilizzano sempre più spesso i big data e i database open source avanzati e flessibili abbastanza da adattarsi alle loro esigenze. Tuttavia, le strategie tradizionali della data security rappresentano un punto debole nell’infrastruttura.

Le misure di data protection utilizzate in passato non sono più adatte a gestire i nuovi workload. Non si può pensare che i big data o i database open source siano sicuri solo perché li si replicano periodicamente su un altro server.

Sebbene molti big data e database open source offrano una qualche forma di protezione – come la replica, gli snapshot o persino gli strumenti integrati di recovery – mancano delle funzionalità di backup e recovery point-in-time necessarie per ottenere una data protection enterprise. La posta in gioco è troppo alta per gestire una non disponibilità di un workload, quindi le organizzazioni devono svolgere tutte le attività necessarie, dal backup e recovery, all’analisi e al data management.

Cause di preoccupazione

Il tempo è essenziale. I big data e le soluzioni open source sono già diventati cruciali per le aziende. Secondo IDC, i big data diventeranno presto un mercato da 260 miliardi di dollari e più di un terzo delle organizzazioni lavorerà con soluzioni scalabili di big data. Allo stesso tempo, l’open source si colloca tra i database più popolari che le aziende utilizzano per applicazioni mission-critical.

Leggi anche:  Come il “CISO as a Service” può sostenere la cyber-resilienza delle aziende anche nell’era della GenAI

I big data e gli ambienti open source richiedono una serie di requisiti di sicurezza, compreso il recovery point-in-time dell’analisi storica e il recovery rapido dei dati. Il backup è fondamentale: questi workload gestiscono dati e servizi critici che nessuna organizzazione può permettersi di perdere.

La ragione principale per creare copie di backup è la protezione contro la perdita accidentale o dannosa di dati dovuta a errori gestionali o umani. Nell’odierna economia digitale i dati sono preziosi. La loro perdita può portare alla conseguente perdita di “insight” inestimabili o di opportunità fondamentali. Il GDPR, ora in vigore, comporta anche il rischio di gravi sanzioni normative e danni alla reputazione.

Inoltre, nella prima fase di utilizzo dei big data attraverso la creazione dei primi “Data Lake” si prevedevano volumi più gestibili, limitata centralità di business, scarso interesse della compliance verso tali ambienti e replica di dati da altre sorgenti. Con il passare del tempo il ruolo dei Big Data e dei Data Lake ha assunto sempre di più un’importanza strategica crescente, arrivando a far parte di processi di business critici, sotto l’occhio vigile della compliance e dal contenuto sempre più difficilmente recuperabile dai dati sorgenti, a causa di processi di trasformazione nei Data Lake, che rendono i dati unici e quindi fondamentali.

A questo punto si comprende come i backup con copie offsite siano fondamentali per proteggere le aziende dalla perdita dei dati dal sito primario o da situazioni di disastro completo che portano in ogni caso alla non disponibilità di sorgenti di business come i big data.

Ma ci sono anche vantaggi dal punto di vista della resilienza. Secondo uno studio del Ponemon Institute, il costo medio, per minuto, di un’interruzione non pianificata è di 8.851 dollari, ovvero circa 530.000 dollari all’ora. Dato che molti ambienti di database open source o big data sono utilizzati per applicazioni mission-critical, ciò potrebbe avere un impatto finanziario o di conformità significativo per un’organizzazione.

Leggi anche:  Trend Micro protegge i data center privati che utilizzano l’AI

Molte aziende ritengono che le soluzioni di replica siano sufficienti per l’attività, ma non possono essere considerate soddisfacenti. La replica fornisce una protezione in tempo reale o quasi, ma non protegge da errori gestionali o umani – siano essi accidentali o dannosi – che possono causare la perdita di dati. La replica può anche portare a un clustering costoso e dispendioso di risorse, utilizzando spazio disco ulteriore non necessario quando è già insufficiente.

Anche il recovery manuale come misura di protezione ha le sue carenze. A volte, è possibile ricostruire i dati dalle fonti originali attraverso il recovery manuale, ma nella maggior parte delle situazioni i dati saranno persi o non disponibili dalla fonte. Questo, o il processo di ricostruzione è proibitivo in termini di tempo.

Il punto di protezione

Poiché le aziende si affidano sempre più spesso a workload non tradizionali per le loro applicazioni mission-critical, è più che mai importante comprendere la necessità di un backup e recovery affidabile. Per ridurre la complessità di questi ambienti, è fondamentale una strategia unificata.

Non è raro che alcune organizzazioni vedano una crescita dei dati compresa tra il 40% e il 60% all’anno. Per tenere il passo, sono necessari backup eseguiti il più velocemente possibile senza impattare l’attività di produzione. Le aziende dovrebbero puntare su moderne architetture di streaming parallelo per eliminare i rallentamenti e ottimizzare lo storage per questi impegnativi workload multi-node e scale-out. I carichi di lavoro dei big data possono crescere drasticamente in un breve lasso di tempo, quindi è anche importante che le soluzioni siano scalabili automaticamente e rispondenti all’evolvere delle esigenze di questi workload.

Leggi anche:  Analisi di un attacco informatico

Una protezione adeguata non deve essere solo un altro costo di business. Collegando tutti gli ambienti sotto un unico sistema, diventa più facile reperire e utilizzare i dati precedentemente conservati. Secondo IDC, le organizzazioni in grado di analizzare tutti i dati rilevanti e fornire insight attuabili, genereranno entro il 2020 vantaggi nella produttività superiori ai 430 miliardi di dollari rispetto ad aziende meno avanzate dal punto di vista analitico. Il backup, una volta considerato elemento secondario per i volumi di big data, diventa inestimabile.

I big data di nuova generazione e i workload basati su open source abilitano la trasformazione digitale nelle aziende. Senza di essi, le aziende non sarebbero in grado di generare insight o sviluppare le funzionalità innovative e le applicazioni da cui può dipendere la loro rilevanza sul mercato. Per rimanere competitivi e avere un ruolo rilevante per i clienti, è fondamentale che le organizzazioni diano la massima priorità a una corretta protezione.