Big data e analytics nell’era Covid-19. Concentrarsi sulla creazione di valore

Breve storia dell’ingegneria dei dati. Linguaggi di programmazione e terreni minati

Che cosa possiamo imparare dall’emergenza Covid-19? Come cambia l’implementazione dei modelli? Quali sono le implicazioni del lavoro da casa? Ecco come i data team possono esprimere al meglio il loro potenziale e creare valore di business

I data team devono smettere di cercare un problema da risolvere e concentrarsi sulla soluzione di un problema concreto di business. Sono ormai passati i giorni in cui si cercava semplicemente di archiviare dati nella speranza che il data team alla fine creasse valore. In effetti, le organizzazioni avrebbero dovuto evitarlo fin dall’inizio. Dobbiamo concentrarci sulla creazione di modelli in grado di migliorare l’efficienza e creare valore di business. Questi modelli dovrebbero far risparmiare denaro all’azienda o migliorare un processo al suo interno, per esempio, ottimizzando i prezzi, gestendo l’inventario, la spesa pubblicitaria o l’acquisizione di nuovi clienti. Alcune organizzazioni hanno ritardato l’implementazione di nuovi modelli in attesa di migliorare quelli esistenti, o addirittura lo hanno fatto in mancanza di un modello di apprendimento automatico. Nell’era pre-Covid-19, questo tipo di ritardo era tollerabile. Ma nell’era del Covid-19, anche i miglioramenti marginali potrebbero fare la differenza tra un’azienda che rimane a galla rispetto a chi licenzia. I modelli potrebbero essere il motore di alcuni miglioramenti che prima non erano critici ma ora sono fondamentali. Inoltre, quando l’implementazione dei modelli sta andando bene, l’organizzazione è ancora vincolata dalla qualità dei suoi dati. Il team di data engineering deve creare valore con soluzioni di dati quality elevate e un’infrastruttura corretta, in modo che i data scientist possano creare modelli significativi.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Le implicazioni del lavoro da casa

Come prima risposta all’emergenza, molte aziende hanno permesso ai dipendenti di lavorare da casa. Per la maggior parte dei dipendenti IT, ciò significa lavorare con il codice su un laptop. Per i data team, si tratta sia di codice sia di dati. I data team devono essere consapevoli della sicurezza e della natura dei dati che potrebbero trovarsi sui loro laptop. Questi dati possono variare da set di dati pubblici fino alle Personally identifiable information (PII) ovvero informazioni di identificazione personale. Se le aziende decidono di copiare i dati su laptop, è necessario implementare processi per impedire la diffusione incontrollata di dati che potrebbero creare danni tanto quanto la diffusione del Covid-19.

Leggi anche:  Mechinno scommette su machinery ed energy

Per esempio, i dipendenti devono essere informati chiaramente che i dati e il codice non possono essere copiati su un personal computer o laptop. Il conferimento di dati su computer non sicuri potrebbe comportare rischi molto seri per l’azienda. Come minimo, i dati aziendali devono essere archiviati su dischi crittografati con chiavi o password complesse. I laptop dovrebbero avere software antivirus installato, aggiornato e funzionante. Per combattere i firewall deboli o inesistenti per le connessioni Internet delle singole persone, dovrebbe essere installato un firewall software. Lavorare da casa può far emergere un’infrastruttura di dati inadeguata. Se una persona dell’azienda sente la necessità di copiare i dati localmente, a parte i dati dei test, ciò potrebbe significare che la stessa organizzazione non ha un’infrastruttura in grado di dare supporto adeguato ai data engineer anche quando lavorano in ufficio. Idealmente, il percorso di minor resistenza dovrebbe essere l’uso dell’infrastruttura esistente dell’organizzazione perché è più facile che replicarla localmente. Per le organizzazioni senza la giusta infrastruttura, il percorso di minor resistenza, o addirittura un requisito per portare a termine il lavoro, è scaricare i dati localmente. Un altro motivo per cui i data team scaricano localmente i dati è quello di aggirare le misure di sicurezza che loro stessi ritengono eccessive o difficili da gestire. Potrebbe essere necessario connettersi a una VPN, quindi passare via SSH a un altro computer, e accedere a un altro sito web solo per ottenere i dati. Il team di data engineering dovrebbe prestare attenzione ai modelli di utilizzo e sul perché il personale ignori l’infrastruttura.

Concentrarsi sull’efficienza

Per alcune aziende, ridurre al minimo la spesa in risorse di computing non era un obiettivo in tempi non di crisi. Ho constatato che il 50% della spesa cloud di un’organizzazione è sottoutilizzata o completamente sprecata. Le aziende dovrebbero dare un’occhiata al loro uso corrente per vedere cosa potrebbe essere chiuso o utilizzato meglio. E possono mettere in atto nuovi processi per identificare rapidamente la persona che ha eliminato alcune risorse oppure vedere qual è il tipo di carico di lavoro in esecuzione su un cluster. In alcune aziende, il passaggio al cloud è stato rimandato. Il passaggio a un provider cloud potrebbe invece consentire recuperi di efficienza che non sono possibili con un cluster locale. Alcune aziende non comprendono cosa potrebbero risparmiare perché guardano ai recuperi di efficienza del cloud esclusivamente dal punto di vista IT. In questa prospettiva, la maggior parte dei programmi funziona 24 ore su 24, 7 giorni su 7 e non può ottenere la stessa efficienza. Per gli analytics, la domanda può presentare picchi: durante la giornata lavorativa, il cluster viene utilizzato pesantemente, ma al termine della giornata lavorativa, il cluster è praticamente inutilizzato. Casi d’uso come questo sono maturi per i recuperi di efficienza che solo il cloud può offrire. Nella mia esperienza, gli use case di analytics e big data possono sfruttare maggiormente le efficienze ottenute dal cloud rispetto al resto dell’azienda.

Leggi anche:  Nella corsa verso l’AGI qualcuno ha già vinto

I recuperi e le perdite di efficienza possono essere ottenuti tramite le nuove tecnologie. Se un tipo di analytics non è efficiente e gli utenti restano inattivi per grandi quantità di tempo in attesa del completamento delle query, le nuove tecnologie potrebbero cambiare completamente l’efficienza delle persone o dell’intero team. L’aggiunta di nuove tecnologie potrebbe portare a perdite di efficienza laddove il team cerca di rendere operativa una nuova tecnologia che non stava migliorando un’esigenza di business specifica. L’aggiunta di tecnologie non necessarie dovrebbe essere evitata, rivalutando la tabella di marcia del progetto per stabilire le reali necessità. La messa in opera di una tecnologia potrebbe addirittura portare a tempi di inattività. Il team di data engineering dovrebbe essere consapevole dei potenziali pro e contro dell’aggiunta di nuove tecnologie.

Riduzioni nella forza lavoro

Alcune aziende potrebbero essere costrette a fare la difficile scelta di ridurre la forza lavoro. Se c’è una riduzione della forza lavoro, i manager dovrebbero tenere conto del modo in cui una pipeline di dati è documentata e funzionante. Nel libro “Data Teams”, mostro che in genere ci sono quattro livelli di valore creati dai data team. Invece di chiedere ai team quanto valore creano, ho chiesto alle aziende quanto valore i team hanno creato per loro. Il range di risposta varia tra “il data team sta creando il massimo valore” e “il progetto sta creando un valore minimo”. Nel mezzo ci sono due livelli intermedi. Nel primo, “il progetto è stagnante e non sta creando alcun valore”. In questo caso, i manager hanno promesso di sfruttare i dati per prendere decisioni migliori, ma i data team hanno lasciato questo sogno completamente irrealizzato. Nell’altro, “il progetto è in fase di pianificazione”. Al business sono state promesse nuove funzionalità, analisi e correzione di precedenti problemi. Ed è questo il momento in cui i data team devono mantenere le promesse. Mentre pensate a quale livello appartiene la vostra organizzazione, l’invito è di dare uno sguardo onesto al valore creato dai data team della vostra azienda e agire di conseguenza.

Leggi anche:  Sostenibilità e cybersecurity, obiettivo convergenza

Jesse Anderson

Data engineer e creative engineer, Jesse Anderson è managing director del Big Data Institute. Si occupa di formazione nell’ambito dei Big Data, settore nel quale è un esperto riconosciuto a livello internazionale. Ha preparato migliaia di persone provenienti sia da startup sia da aziende Fortune 100. Pubblica con O’Reilly e Pragmatic Programmers ed è stato citato da numerosi media quali Wall Street Journal, CNN, BBC, NPR, Engadget e Wired.

Jesse Anderson presenterà per Technology Transfer i seminari “Big Data per Manager” il 26 ottobre 2020 e “Sistemi Big Data real-time con Spark Streaming e Kafka” il 27-28 ottobre 2020.