Nuovi strumenti per identificare, analizzare e prevenire le minacce. Verso la difesa autonoma, ma in guardia contro il rischio di falsi positivi e manipolazione. L’impatto dell’intelligenza artificiale sulla sicurezza informatica e il ruolo dei produttori di software
All’inizio c’erano un cane e un gatto. Riuscire a distinguerli è diventato un esempio archetipico per spiegare alcuni concetti di base nel campo dell’intelligenza artificiale e del machine learning. Sebbene possa sembrare un compito semplice per gli esseri umani, il loro riconoscimento da parte delle macchine richiede sofisticati algoritmi di apprendimento automatico e una grande quantità di dati per l’addestramento. Anche se il problema a prima vista può sembrare agevole da affrontare, può essere esteso per includere sottocategorie più specifiche, come diverse razze di cani o gatti per restare all’esempio di partenza, o per affrontare sfide aggiuntive come la variazione dell’illuminazione o delle pose delle immagini di partenza. Le applicazioni pratiche di questa capacità appresa impattano molti settori, videosorveglianza, ricerca e soccorso, e molto altro ancora.
Nella cybersecurity, l’equivalente della capacità dell’AI di distinguere tra cane e gatto è quella di discernere tra attività legittime e minacciose/dannose su una rete. Una capacità alla base di molte applicazioni di sicurezza, come il rilevamento delle intrusioni, l’analisi dei log e la prevenzione degli attacchi informatici. Un esempio concreto è un sistema di rilevamento delle intrusioni che utilizza algoritmi di Machine learning per analizzare il traffico di rete e identificare comportamenti anomali o sospetti, come i tentativi di accesso non autorizzato o di sfruttamento (exploit) delle vulnerabilità, segnali che potrebbero indicare un attacco informatico in corso; distinguendoli da quelli legittimi, come il traffico di dati tra utenti di un dominio o di una subnet. L’analisi del traffico di rete, l’identificazione del malware, il rilevamento delle anomalie sono attività eseguite utilizzando metodologie di classificazione e rilevazione proprie del ML.
ANALISI, RISPOSTA, DIFESA
L’AI svolge numerose attività di sicurezza che migliorano l’efficacia e la precisione dei meccanismi di protezione. Per esempio, l’intelligenza artificiale generativa analizza enormi quantità di dati prodotti dalle aziende – dal traffico di rete ai registri di sistema – per identificare modelli e anomalie associati alle minacce informatiche. Esaminando i dati relativi ad attacchi precedenti l’AI riconosce, classifica e mitiga le minacce, riducendo le probabilità che un attacco vada a segno. Gli algoritmi inoltre possono generare scenari di test e simulare scenari di attacco. Il Machine learning concentrato sullo sviluppo di algoritmi e tecniche che consentono ai computer di imparare dai dati migliorando le proprie prestazioni nel tempo senza essere esplicitamente programmati per farlo, assiste gli operatori nella raccolta e nella preparazione dei dati; nella scelta e messa a punto degli algoritmi di apprendimento automatico; nell’addestrare il modello che analizza i dati su cui i sistemi sono addestrati e nel valutare le sue prestazioni.
L’AI analizza automaticamente i dati relativi agli eventi di sicurezza, li classifica in base alla loro gravità e quindi intraprende le azioni necessarie, come bloccare il traffico sospetto o avvisare della necessità di risposta alle minacce. La risposta automatizzata agli incidenti informatici, sempre più richiesta per affrontare la complessità e la rapidità delle minacce informatiche moderne rimane però un obiettivo su cui occorre ancora lavorare sebbene siano già molte le tecnologie che stanno facendo progressi significativi in questa direzione. «La R di SOAR – l’architettura che combina strumenti e tecnologie per migliorare la capacità di un’organizzazione di rilevare, rispondere e gestire le minacce informatiche in modo efficace ed efficiente – è li a ricordarcelo» – commenta Michele Colajanni, professore ordinario di Ingegneria Informatica dell’Università di Bologna. L’obiettivo è di guadagnare terreno in direzione di difese sempre più autonome o semiautonome. Sebbene sul loro livello di maturità è lecito esprimere qualche riserva. «Questi strumenti per la quantità di falsi positivi che generano non sono ancora maturi come vorremmo. Perciò al momento la capacità di risposta autonoma è limitata. Solo se si verificano determinati eventi è possibile prendere iniziative di risposta difensive. Il che non significa attaccare l’avversario. Non funziona così nel mondo reale».
Dove l’identificazione dei responsabili dietro un attacco è spesso problematica. Tecniche come l’anonimizzazione dell’indirizzo IP, l’uso di reti di computer compromessi (botnet) e la manipolazione delle tracce digitali, rendono difficile identificarli con certezza. In molti casi gli attacchi sono sponsorizzati o condotti direttamente da entità statali o gruppi affiliati a stati che dispongono di risorse significative per mascherare la propria identità. La complessità stessa delle infrastrutture digitali infine rende difficile tracciare l’origine esatta dell’attacco. «Anche se esistono tecniche e metodologie per condurre indagini sull’attribuzione degli attacchi, è spesso difficile ottenere prove concrete e conclusive per identificare con certezza i responsabili» – conferma Colajanni dell’Università di Bologna. «Nella risposta il rischio è di contrattaccare il computer di qualcuno a sua volta violato. La reazione automatica ci può essere, ma in contesti dove è possibile affermare con certezza che quello individuato è proprio un attacco. Solo in questi casi posso rispondere riconfigurando il firewall oppure attivando dei sistemi di allarme. Il rischio principale, tuttavia, è che di fronte a numerosi falsi allarmi, ci si possa impelagare in reazioni eccessive che potrebbero portare al blocco dell’intera azienda». Arrivando alla paralisi causata dall’attivazione di tutti i sistemi di reazione. Uno degli scenari più critici da affrontare. «L’idea di un contrattacco automatico rimane allettante, tuttavia, nella pratica, risulta impraticabile al di fuori dell’ambito militare. In contesti diversi, potremmo eventualmente sviluppare qualcosa di simile. Ma non per ora».
Attualmente, l’intelligenza artificiale generativa attraverso l’analisi dei dati originati dagli endpoint consente alle piattaforme di sicurezza di apprendere e rispondere ai modelli di attacco. Sfruttando queste informazioni, gli endpoint possono autoripararsi, accendersi o spegnersi a seconda delle necessità, controllare le versioni del sistema operativo e delle applicazioni per monitorare l’aggiornamento di sistemi e applicativi – attività che – se da un lato comporta un enorme carico di risorse operative e umane – resta la causa principale di oltre il 60% degli attacchi informatici, ripristinando autonomamente una configurazione ottimizzata e più sicura. Ancora, il processo di identificazione delle vulnerabilità nel software, precedentemente complesso e manuale, può essere automatizzato dall’intelligenza artificiale generativa. Con il supporto di strumenti basati sull’intelligenza artificiale si può scansionare il codice ed esaminare le applicazioni per individuare potenziali vulnerabilità o configurazioni errate e assistere l’operatore nell’implementazione delle modifiche necessarie. Assistenti virtuali come Charlotte di CrowdStrike o Companion di Trend Micro aiutano ad aumentare la reattività e l’efficacia degli analisti e dei professionisti della sicurezza.
IL CATALOGO È QUESTO
Il potenziale degli strumenti di intelligenza artificiale come ChatGPT, Bard o più di recente Claude è immenso. Tuttavia, questi strumenti sono anche suscettibili di manipolazione da parte dei criminali informatici. «Gli attaccanti sono i primi a trarre vantaggio dall’arrivo di una nuova tecnologia. E questo è vero anche per intelligenza artificiale. Chi non ha vincoli da rispettare, ne può approfittare» – osserva Colajanni dell’Università di Bologna. «Noi difensori abbiamo dei limiti, abbiamo la privacy, abbiamo le norme e quindi possiamo usare soltanto certe funzionalità nella difesa». Chi attacca non ci ha messo molto a sfruttare i vantaggi offerti dall’intelligenza artificiale per migliorare le proprie capacità di eludere le difese di aziende e organizzazioni. Con effetti che sono già evidenti. Secondo l’NCSC, l’Agenzia del governo britannico dedicata alla protezione di cittadini, imprese e infrastrutture del Regno Unito dagli attacchi informatici, l’intelligenza artificiale nei prossimi due anni “quasi certamente” aumenterà il volume e l’impatto degli attacchi informatici. Contribuirà inoltre ad abbattere le barriere tra esperti e dilettanti, consentendo così a entrambe le categorie di intrusori di accedere ai sistemi e raccogliere informazioni sugli obiettivi, estrarre dati sensibili, richiedere un riscatto in criptovaluta e paralizzare i sistemi informatici di una vittima.
Gli attori statali più evoluti – mette in guardia l’NCSC – probabilmente hanno abbastanza malware per addestrare un modello di intelligenza artificiale appositamente creato per generare nuovo codice in grado di eludere le misure di sicurezza, pur senza specificare quali. Uno degli usi più efficaci dell’intelligenza artificiale è la creazione di “attacchi autonomi”. Utilizzando algoritmi di machine learning, gli aggressori addestrano i sistemi a identificare, scansionare e sfruttare automaticamente le vulnerabilità nell’infrastruttura presa di mira. In questo modo, è possibile effettuare attacchi su larga scala senza alcun intervento umano. L’intelligenza artificiale inoltre ha consentito agli aggressori di automatizzare e modulare i propri attacchi in modo più efficace, generando attacchi più sofisticati di phishing o vishing – una truffa di phishing che avviene tramite una telefonata o un messaggio vocale – oppure automatizzando attività come la scansione del perimetro esposto di un’organizzazione per sfruttare in tempo reale le vulnerabilità individuate attraverso l’esecuzione concatenata di diversi exploit.
L’intelligenza artificiale generativa renderà più difficoltoso identificare i messaggi spoof e le attività volte a manipolare/ingannare le persone per estorcere credenziali e materiale riservato. Fino al 2025 – si legge nel rapporto dell’NCSC – l’intelligenza artificiale generativa e i modelli linguistici di grandi dimensioni (LLM) renderanno difficile per tutti stabilire l’autenticità delle e-mail, distinguere una richiesta di reimpostazione della password legittima da una fasulla o a identificare tentativi di phishing, spoofing o ingegneria sociale. Con gli strumenti disponibili online basati sull’intelligenza artificiale generativa è infatti possibile produrre contenuti digitali (testo, immagini, audio e video) estremamente realistici attraverso semplici istruzioni da console. Inoltre, i chatbot animati dall’intelligenza artificiale generativa possono condurre conversazioni capaci di superare agevolmente il Test di Turing, per esempio per ottenere informazioni sensibili o per sferrare attacchi di ingegneria sociale. L’uso di strumenti di intelligenza artificiale in azienda come ChatGPT o Bard, aumenta il rischio di esporre informazioni sensibili, proprietà intellettuale, codice sorgente, segreti commerciali e altro ancora. Questa breve carrellata non esaurisce il catalogo delle minacce. Peraltro – come ci conferma Colajanni – non futuribili ma reali. «Con lo spear phishing, cioè il phishing mirato, chi attacca fa prima intelligence su una persona e poi rende il vettore d’attacco assolutamente credibile. Grazie all’intelligenza artificiale, posso profilare le persone più agevolmente rispetto al passato e creare in maniera automatica una campagna di spear phishing mirata. Ma le applicazioni malevoli interessano anche altri contesti». Gli analisti di Forrester prevedono che i casi d’uso continueranno a proliferare, limitati solo dalla creatività degli aggressori. Utilizzando l’intelligenza artificiale generativa – mettono in guardia i più pessimisti – gli aggressori saranno in grado di elevare gli attacchi a livelli di velocità e complessità senza precedenti.
SUPERARE I LIMITI DELL’AI
Le potenzialità dell’intelligenza artificiale sono così vaste che i suoi casi d’uso sembrano spesso tratti direttamente dalla fantascienza. Tuttavia, come tutti i prodotti creati dagli esseri umani, anche gli algoritmi di intelligenza artificiale e machine learning possono contenere errori, vulnerabilità, pregiudizi. Inoltre, queste tecnologie, come abbiamo visto, possono essere ingannate da chi ne testa le vulnerabilità, inserendo dati inquinati per indurre in errore sia sistemi sia gli utilizzatori. Perciò queste tecnologie dovranno essere migliorate per ridurre i rischi e aumentare affidabilità ed efficacia. Migliorare gli algoritmi utilizzati dall’intelligenza artificiale e dal machine learning significa rendere i modelli più robusti e meno suscettibili a errori e bias. In modo da gestire una vasta gamma di dati e situazioni senza compromettere le prestazioni. Riuscire cioè ad affrontare variazioni nei dati di input, come rumore o dati mancanti, senza produrre risultati drasticamente diversi o errati.
Gli algoritmi devono essere progettati con attenzione per ridurre al minimo il rischio di introdurre o amplificare pregiudizi indesiderati nei risultati. Per esempio, è essenziale evitare che un modello di intelligenza artificiale per la selezione di candidati favorisca una specifica etnia o genere. Inoltre, è fondamentale garantire la trasparenza e la comprensibilità degli algoritmi, in modo che sia sempre possibile comprendere il processo decisionale e identificare eventuali errori o pregiudizi. L’importanza di utilizzare dati adeguati per addestrare l’IA sottolinea la necessità di riflettere le diversità del mondo reale, eliminando la possibilità di pregiudizi e distorsioni. In particolare per il controllo della qualità dei dati è importante implementare procedure di controllo che identifichino e correggano errori o pregiudizi nei dati prima del loro impiego. Più in generale, le prestazioni dei modelli AI devono essere monitorate nel tempo per individuare possibili cambiamenti che richiedono misure correttive. Allo stesso modo, i modelli vanno aggiornati regolarmente con nuovi dati affinché mantengano la loro precisione e affidabilità nel tempo.
I sistemi di intelligenza artificiale come quelli utilizzati per guidare le auto, assistere nella diagnostica medica e fungere da chatbot, apprendono questi compiti analizzando set enormi di dati. Oltra all’aggiornamento periodico, il mantenimento dell’integrità dei dati utilizzati per il training dei sistemi di AI diventerà una sfida continua. I dati spesso presi a prestito dal Web sono suscettibili di manipolazione. Anche poche imprecisioni che sfuggono alla rilevazione, intenzionalmente incorporate durante l’addestramento del modello – spiega Colajanni dell’Università di Bologna – possono inquinare una decisione o indurre all’errore. Grandi set di dati errati introdotti intenzionalmente in un LLM potrebbero causare danni ancora maggiori, con impatti potenzialmente devastanti. Uno dei primi casi d’uso conosciuti è una tecnica di avvelenamento dei dati per causare la deriva algoritmica, una situazione in cui il modello di intelligenza artificiale inizia a comportarsi in modo imprevisto o indesiderato a causa di manipolazioni nei dati prolungati nel tempo. Questi attacchi mirano a produrre risultati errati o indesiderati in determinate situazioni in modo da causare una deriva graduale nel modello. Intenzionali o accidentali questi cambiamenti potrebbero non essere immediatamente rilevati. Per esempio, se un modello di riconoscimento delle immagini è addestrato su un set di dati non rappresentativo della diversità del mondo reale, il sistema potrebbe non essere in grado di riconoscere correttamente nuove immagini che si discostano dai dati di partenza. Nel campo della security, la deriva logaritmica provocata da prestazioni degradate del modello AI di partenza apre a scenari preoccupanti. Detto questo la possibilità di riversare quantità enormi di dati fasulli per corrompere i sistemi e fare in modo che le risposte siano sbagliate non è ancora una capacità concreta. Ma lo potrebbe diventare presto. «Nel momento in cui le difese saranno sempre più basate sui sistemi di intelligenza artificiale – spiega Colajanni – gli attaccanti cercheranno di sfruttare le possibilità offerte da queste tecniche. Per esempio, sistemi addestrati su dataset inquinati potrebbero perdere la capacità di rilevare certe tipologie di attacco. Sappiamo che ci sono stati dei tentativi di cui ignoriamo i risultati. Sappiamo però che quei dati dobbiamo iniziare a proteggerli».
LA DEBOLEZZA DEL SOFTWARE
Le stime del danno finanziario globale causato dal cybercrime possono variare notevolmente a seconda delle fonti e delle metodologie utilizzate per la valutazione. Secondo la società di ricerca Cybersecurity Ventures, citata nel Global Risk Report del World Economic Forum, il danno finanziario globale causato dalla criminalità informatica raggiungerà i 10,5 trilioni di dollari entro il 2025. Una cifra superiore alla ricchezza prodotta in questo momento dal Giappone, la terza economia mondiale, dopo Stati Uniti e Cina. È difficile stabilire in che misura incida la debolezza del software, ma di certo si tratta di una quota importante. Una delle maggiori difficoltà da affrontare quando si parla di sicurezza deriva dal fatto che alcuni dei più importanti software in circolazione contengono milioni di righe di codice, spesso sviluppato da tante società diverse. Sappiamo che alla base di tanti problemi di sicurezza ci sono software immaturi, pieni di bug, che lasciano aperti varchi che poi vengono puntualmente sfruttati. «Questo è il problema principale dell’industria del software e dei servizi» – concorda Colajanni dell’Università di Bologna. «Un settore nel quale non si punta ad avere il prodotto più sicuro, ma ad arrivare per primi sul mercato. Poi tanto se ci sono delle vulnerabilità faccio una patch. Ma non è normale che ogni due settimane siamo costretti ad aggiornare dispositivi e software. È come se ogni due settimane dovessimo portare la macchina a revisionare. Nessun prodotto industriale presenta questa oscenità. Eppure l’accettiamo come se fosse normale».
ALLA RADICE DEL PROBLEMA
Ma se come abbiamo visto l’AI può migliorare il software in circolazione attraverso l’analisi e la verifica del codice e prima ancora contribuire alla scrittura, non è azzardato ritenere che se impiegata su larga scala e con il supporto di investimenti adeguati, l’AI possa dare un contributo importante ad abbattere i costi insostenibili dell’insicurezza. «Se si comincerà – come tutte le norme ci stanno dicendo – a dare più importanza alla necessità di produrre software meno vulnerabile, e quindi se i difensori o i produttori di software cominceranno a usare seriamente questi strumenti, tutti quanti ne beneficeranno» – auspica Colajanni. «Sia le nuove norme europee sia le indicazioni della Cybersecurity and Infrastructure Security Agency (CISA), puntano molto su questo aspetto. Perciò dobbiamo fare in modo che l’impiego dell’AI non resti circoscritta ai soli ambiti della sicurezza. La sfida è di coinvolgere i produttori di hardware e software». Questi strumenti potrebbero perciò essere impiegati per sradicare alla radice una delle cause di debolezza dell’intero ecosistema IT. «Oggi, ci sono sia norme sia gli strumenti per immettere sul mercato prodotti più sicuri» – afferma Colajanni. «Però bisogna usarli. Perché se lo fanno solo gli attaccanti aumentano le possibilità che si apra un solco incolmabile tra attacco e difesa. Non abbiamo vincoli normativi per andare a caccia di vulnerabilità. Se saremo in grado di farlo, il divario tra attacco e difesa potrà essere colmato. Al contrario, se i produttori di software e hardware non utilizzeranno questi strumenti, gli attaccanti avranno la meglio».
UN NUOVO ALLEATO
Lo sviluppo dell’intelligenza artificiale e del machine learning apre prospettive promettenti per superare le difficoltà legate alla sicurezza informatica. Aziende e organizzazioni che combattono la criminalità informatica hanno nell’AI un nuovo alleato che ha ampliato il ventaglio di possibilità a disposizione dei professionisti della sicurezza. Applicazioni di successo dell’intelligenza artificiale come gli algoritmi basati su reti neurali e i sistemi di apprendimento automatico in grado di identificare automaticamente nuove varietà di malware offrono vantaggi significativi nello sforzo di elevare il livello di sicurezza. Compito dei professionisti della sicurezza è di rimanere vigili, sforzandosi al contempo di comprendere vantaggi e rischi di questa tecnologia. Forse in questo momento è prematuro chiedersi se e in che misura l’intelligenza artificiale generativa abbia rafforzato o indebolito la sicurezza informatica. È innegabile che se da un lato la tecnologia ha facilitato la creazione di una classe completamente nuova di soluzioni di sicurezza, dall’altro ha dilatato anche le possibilità a disposizione di chi attacca. Molto più urgente allora, concentrare gli sforzi sul miglioramento degli algoritmi, un aspetto fondamentale per garantire che l’intelligenza artificiale e il machine learning siano utilizzati in modo sicuro ed etico, evitando conseguenze indesiderate e dannose. Accompagnando la ricerca con lo sviluppo di politiche e normative volte a regolamentare l’uso e l’evoluzione delle tecnologie dell’intelligenza artificiale, assicuriamo l’adozione di pratiche etiche e responsabili, affrontando apertamente i rischi associati alla loro implementazione.
Reti intelligenti: Westcon presenta la piattaforma Juniper AI Networking