Il nuovo servizio gestito per i Data Engineer si focalizza sulle attività e riduce i rischi legati alla migrazione al cloud
Cloudera annuncia il rilascio di Cloudera Altus, un’offerta Platform-as-a-Service (PaaS) che semplifica l’esecuzione di applicazioni di elaborazione dati su larga scala nel cloud pubblico. Il servizio Altus iniziale aiuta I data engineer a utilizzare l’infrastruttura on-demand per velocizzare la creazione e l’utiilizzo di pipeline di dati flessibili che alimentano sofisticate applicazioni orientate ai dati.
Applicazioni di data engineering come ETL (Extract, Transform and Load) o batch scoring spesso corrispondono a carichi di lavoro di grandi dimensioni batch-oriented che operano per un periodo di tempo fissato e aiutano le aziende a estrarre informazioni approfondite fondamentali dai dati grezzi. Le aziende ottengono così significativi vantaggi in termini di flessibilità ed efficienza eseguendo tali pipeline su un’infrastruttura elastica. Le grandi aziende desiderano sfruttare l’infrastruttura cloud insieme a strumenti e tecnologie di elaborazione dati di uso comune su vasta scala.
Il servizio Cloudera Altus Data Engineering semplifica lo sviluppo e l’esecuzione di pipeline di dati centralizzando le attività di data engineering e astraendo la gestione dell’infrastruttura e le operazioni che possono essere complesse e dispendiose in termini di tempo. Inoltre, Altus riduce il rischio associato alle migrazioni cloud fornendo agli utenti strumenti di uso comune in un servizio di piattaforma enterprise aperto e unificato che offre storage, metadati, sicurezza e gestione comuni per molteplici applicazioni di data engineering.
“I carichi di lavoro di data engineering sono fondamentali per le applicazioni orientate ai dati odierne”, ha affermato Charles Zedlewski, senior vice president of Products di Cloudera. “Altus semplifica il processo di creazione ed esecuzione di pipeline elastiche di dati preservando la portabilità e semplificando l’inserimento di elementi di data engineering in applicazioni di business intelligence, data science e real-time più complesse”.
Cloudera permette di distribuire in modo semplice, conveniente ed economicamente vantaggioso tali carichi di lavoro ai fornitori di servizi cloud, come Amazon Web Services (AWS), approfittando dell’elasticità del cloud, di storage a basso costo e diverse opzioni di calcolo nonché il rapido provisioning per fornire un servizio dati moderno in grado di affrontare anche il problema aziendale più impegnativo. Le soluzioni di storage di oggetti in cloud come Amazon Simple Storage Service (Amazon S3) si stanno diffondendo sempre più per la loro resilienza, scalabilità e il costo relativamente contenuto.
Secondo IDC, le distribuzioni di cloud pubblico oggi rappresentano il 12% del mercato mondiale complessivo di software business analytics con una crescita prevista pari a un 25% del CAGR entro il 2020. Il cloud è uno degli ambienti di distribuzione in più rapida crescita per i clienti di Cloudera, e Altus contribuisce a semplificare più che mai l’esecuzione di carichi di lavoro di data engineering nel cloud.
Di seguito alcune delle principali caratteristiche e i benefici di Altus:
- Servizio gestito di pipeline elastiche di dati – Cloudera Altus è una soluzione PaaS che consente ai data engineer di effettuare il provisioning, in modo semplice e veloce, di Apache Spark, Apache Hive, Hive on Spark e MapReduce2 su un’infrastruttura cloud nativa. Altus presenta impostazioni cluster e ambienti intelligenti predefiniti che riducono significativamente i tempi e le attività legati alla distribuzione dei cluster, automatizzando processi come il provisioning, la configurazione e l’eliminazione dei cluster.
- Orientamento del carico di lavoro – Cloudera Altus si concentra sulle pipeline di dati piuttosto che su cluster o infrastrutture, in modo che gli utenti possano presentare, clonare ed effettuare il troubleshooting delle pipeline considerando solo in modo marginale l’infrastruttura alla base.
- Nessun silo di dati – Il servizio Altus Data Engineering permette ai data engineer di leggere e scrivere direttamente sugli storage di oggetti in cloud come fa il resto della piattaforma Cloudera. Questi dati sono immediatamente disponibili per essere utilizzati da altri carichi di lavoro Cloudera senza richiedere replicazione dei dati, ETL o modifiche ai formati di file. Così facendo gli utenti possono inserire con più facilità il data engineering all’interno delle applicazioni di data science, business intelligence e DB real time.
- Retro-compatibilità e portabilità della piattaforma – Altus supporta molteplici versioni di CDH, la piattaforma open source più utilizzata nel settore. Gli utenti possono spostare facilmente i carichi di lavoro da e verso il cloud senza dover modificare le proprie applicazioni. Poiché CDH è retro-compatibile con le minor release, i clienti possono sfruttare le più recenti innovazioni provenienti dalla comunità open source di big data Apache senza paura di disgregare le proprie applicazioni ad ogni release.
- Gestione integrata dei carichi di lavoro – Altus automatizza e semplifica le problematiche operativi comuni legate alle pipeline elastiche di dati con la gestione dei carichi di lavoro. Gli utenti possono effettuare il troubleshooting delle attività non andate a buon fine con o senza la presenza di cluster o infrastruttura di calcolo. Inoltre, le funzioni di gestione dei carichi di lavoro di Altus evidenziano variazioni significative nelle prestazioni e propone un’analisi della causa alla base. Così facendo, i clienti possono eseguire le proprie pipeline di dati con una maggior affidabilità e con costi inferiori.
Il rollout iniziale di Cloudera Altus include il supporto per Apache Spark, Apache Hive su MapReduce2, e Hive su Spark. È già disponibile in molte regioni Amazon Web Services (AWS). Più avanti, Cloudera prevede di espandere Altus in modo da supportare altri importanti cloud pubblici come leading public Microsoft Azure, ecc.