Una checklist per il monitoraggio dell’infrastruttura cloud

10 Gennaio 2018

A cura di Katalin Varga, Content Marketing Manager, Dynatrace

Di recente ho dato un’occhiata a uno degli ultimi casi di migrazione su cloud di un nostro cliente, e a come ha soddisfatto le proprie necessità di monitoraggio dell’infrastruttura cloud. Si tratta di una delle più grandi aziende industriali al mondo, tra l’altro.

L’azienda ha da poco implementato un’iniziativa cloud-first. Di conseguenza, ha migrato le proprie applicazioni business-critical aziendali da host esterni su un ambiente AWS gestito internamente, con un approccio “lift-and-shift”. Questo nuovo ambiente, composto da centinaia di host e tecnologie molto diversificate nel cloud AWS, ha portato alla necessità di:

Monitoraggio dell’infrastruttura cloud (su AWS)
Gestione e capacità di analisi dei log

Nell’esperienza di Dynatrace, ci rendiamo conto che la necessità di un’infrastruttura cloud elastica e interamente scalabile aumenta di pari passo con la crescente diffusione di app native in ambiente cloud, che stanno diventando la norma per aziende di ogni dimensione alla ricerca di una migliore customer experience.

Non c’è da stupirsi se, all’inizio del 2017, IDC ha previsto che “la spesa per infrastrutture cloud off-premise avrà un tasso di crescita medio del 14,2% nei prossimi cinque anni, raggiungendo un valore di 48,1 miliardi di dollari nel 2020”. Un’altra cosa di cui ci stiamo rendendo conto è che, una volta passate al cloud, le aziende si accorgono rapidamente che in questo nuovo ambiente l’approccio tradizionale al monitoraggio dell’infrastruttura non funziona più.

Alcune questioni di cui tenere conto

Che sia su AWS, Azure, Google Cloud, OpenStack o CloudFoundry, ecco alcune domande che un’azienda che sta implementando un’infrastruttura in cloud per le app business-critical dovrebbe porsi prima di cominciare a monitorare la propria infrastruttura con una serie di strumenti diversi.

La soluzione è facile da implementare, configurare e mantenere?

Di fronte agli ambienti sempre più complessi delle applicazioni di oggi, la facilità di implementazione e la praticità d’uso sono diventate caratteristiche essenziali.

Le soluzioni di monitoraggio tradizionali richiedono troppa strumentazione e configurazione manuale – il che è uno dei motivi per cui molte aziende oggi monitorano solo il 5 o il 10 per cento delle proprie applicazioni. Io consiglio di puntare su uno strumento di monitoraggio che utilizzi già il potenziale dell’automazione. Questo significa auto-discovery del proprio ambiente cloud, auto-baselining, o persino analisi automatica delle cause dei problemi.

Offre insight in tempo reale sullo stato di salute delle tue risorse in cloud?

Che si scelga di utilizzare un cloud pubblico, privato o ibrido, di virtualizzare il proprio datacenter, o semplicemente di fare il deployment delle proprie applicazioni su CloudFoundry, sarebbe normale aspettarsi da qualsiasi soluzione di monitoraggio di avere un quadro completo e in real-time dello stato di salute di tutta la propria architettura in cloud.

Si ha il pieno controllo dei propri container? E del sistema di load balancing? E dell’hypervisor dynamics? Ci sono così tante componenti in un’infrastruttura cloud che è difficile identificare la causa che sta alla base di comportamenti imprevisti del sistema.

E’ fondamentale scegliere una soluzione di cloud monitoring costruita appositamente per adattarsi agli ambienti dinamici: una soluzione di questo tipo può offrire una visibilità completa e tenere il passo con i rapidi cambiamenti degli ambienti dinamici.

Offre il monitoraggio delle performance di tutto lo stack di applicazioni, o può solo far fronte alle emergenze a livello di infrastruttura?

Anche se una solida infrastruttura cloud costituisce la spina dorsale di qualsiasi azienda di successo, alla fine sono le applicazioni che contano davvero. E se queste falliscono, le reazioni degli utenti possono essere crudeli.

Le applicazioni aziendali possono abbracciare livelli tecnologici diversi e includere componenti provenienti dal cloud, dal data center back-end o persino dal mainframe. Per avere una visione full-stack di tutte le proprie applicazioni, è importante poter monitorare da diverse prospettive:

Digital Experience Analytics
Application Performance Management
Monitoraggio di Cloud e Infrastruttura

E’ raccomandabile quindi scegliere uno strumento di monitoraggio unificato che offra una visione complessiva, non solo dell’infrastruttura cloud, ma anche delle applicazioni che la utilizzano.

È in grado di identificare rapidamente le cause di un problema?

Qual è l’ostacolo principale che intralcia il lavoro dei team IT? Se la risposta è il sovraccarico di notifiche… il vostro non è un caso isolato. Spesso le aziende utilizzano ancora strumenti di monitoraggio differenti per data center, host, processi e servizi. Quando uno di questi componenti rallenta o smette di funzionare, può innescare una reazione a catena con centinaia di altri malfunzionamenti. In questi casi, il team IT si ritrova a essere sommerso da un mare di alert. Gli strumenti che utilizzano un approccio tradizionale alla segnalazione dei malfunzionamenti propongono un’infinità di metriche e grafici, ma lasciano all’utente l’onere di collegare i dati e determinare cosa sta effettivamente accadendo.

La soluzione? Usare un tool che indichi nessi di causalità e non di correlazione. Se uno strumento di monitoraggio può catturare ogni transazione in qualsiasi momento e utilizza un approccio di tagging coerente per tutto il sistema, è in grado di offrire al personale che gestisce la qualità delle prestazioni dei dati basati sui nessi di causalità – il che consente di identificare con certezza l’origine di un malfunzionamento. Saper indirizzare il team Dev direttamente alla causa di un problema non ha prezzo, quando la posta in gioco riguarda tempo, denaro e la reputazione della propria azienda.

È in grado di determinare parametri di riferimento per le performance in ambienti ultradinamici?

Fissare parametri di riferimento per le performance è un altro punto spinoso nel monitoraggio delle infrastrutture cloud. Con soluzioni di APM tradizionali, l’operazione può comportare un lavoro manuale notevole, con grande spreco di tempo e rischio d’errore – soprattutto perché la maggior parte di queste soluzioni di monitoraggio utilizzano medie statistiche e transazioni prese a campione per determinare quali sono le performance normali.

La media statistica non costituisce un parametro adeguato perché nasconde i problemi appiattendo picchi e cali di prestazioni. Il campionamento invece si lascia sfuggire problemi di performance, creando falsi negativi.

Se si vogliono fissare parametri di riferimento efficaci per le performance della propria infrastruttura cloud, bisogna scegliere uno strumento che utilizzi percentili basati su un 100% di dati senza gap. Guardare ai percentili (la mediana e il 10% più lento) mostra cosa sta succedendo davvero: la user experience che la maggior parte degli utenti ha veramente della propria applicazione o del proprio sito.

Offre il monitoraggio integrato dei log, oppure serve un tool extra?

Ricordate l’azienda che ho citato nella mia introduzione? Uno dei requisiti chiave per loro era che la gestione e l’analisi dei log fossero elementi già integrati. Il motivo è comprensibile: poter monitorare le prestazioni delle applicazioni e analizzare i relativi file di log dei processi utilizzando lo stesso strumento aiuta i team DevOps, Sviluppo e QA a compiere il proprio lavoro in modo rapido ed efficiente.

Se l’analisi dei log costituisce una parte importante del processo di monitoraggio, va scelta una soluzione che già integri questa funzione. Avere accesso diretto a tutti i contenuti di log relativi ai propri processi mission-critical amplia le capacità di monitoraggio ben oltre le fonti di dati degli APM tradizionali.

È una soluzione di monitoraggio in grado di scalare assieme alle necessità di business?

L’ultima caratteristica, ma certo non la meno importante, da ricercare in un tool di monitoraggio è la scalabilità necessaria per adattarsi alla crescita del proprio business.

Gli ambienti cloud moderni includono migliaia di nodi con centinaia di tecnologie, distribuiti su data center sparsi per il mondo. E’ possibile continuare a implementare nuovi strumenti di monitoraggio per ogni silos, per assicurarsi che i limiti del sistema non vengano mai raggiunti; presto però ci si ritroverà a farsi domande come:

Fino a che punto questo sistema è scalabile?
Quanto ci vorrà prima che ne occorra uno più aggiornato, più veloce o più grande?

Scegliere una soluzione di monitoraggio in grado di offrire insight in tempo reale sui propri componenti cloud è importante, ma assicurarsi che non faccia fiasco quando si espande il proprio ambiente è semplicemente fondamentale. Quindi bisogna puntare su uno strumento costruito pensando ad ambienti applicativi molto grandi, che è in grado di adattarsi a qualsiasi dimensione.

Concludendo

I business digitali di oggi sono sotto pressione come mai prima d’ora: devono essere più veloci, più intelligenti e più efficaci. Questo è particolarmente vero per le aziende che gestiscono applicazioni destinate ai clienti. In sostanza, la loro capacità di vincere o perdere la battaglia della customer experience dipende dai loro strumenti tecnologici. I trend mostrano che vince questa battaglia chi ha già implementato una strategia di digital transformation – che potrebbe pure includere un’iniziativa cloud-first e la migrazione a un’infrastruttura cloud-based.

Però arrivare lì non basta. La complessa architettura di un ecosistema cloud e l’infinità di componenti che lo costituiscono richiedono capacità di monitoraggio all’avanguardia. Perché monitorare un’architettura cloud moderna con un mucchio di tool diversi e datati? Farlo non avrebbe senso, perché negherebbe i benefici della migrazione al cloud.

È quello che ha capito anche l’azienda descritta nell’introduzione – che, attualmente, sta sviluppando autonomamente nuove applicazioni cloud-native, implementandole nei propri ambienti cloud e monitorandole con Dynatrace.

TI PIACE QUESTO ARTICOLO?

TOP 100 DELL'ICT SOSTENIBILE

WEB COVER

ERP AI-driven, l’ecosistema per il manufacturing