Non importa quale sia il modello di machine learning utilizzato per l’Intelligenza Artificiale: deve comunque essere allenato con dei dati
Di Pier Giuseppe Dal Farra, IoT Industry Business Expert di Orange Business Services
Le modalità con le quali si effettua il training dell’IA possono variare, ma di solito si tratta di ripetere le stesse operazioni numerose volte fino a quando l’IA non inizia a identificare autonomamente la risposta più appropriata. C’è però un problema: l’intelligenza artificiale è affidabile solo quanto le informazioni che riceve.
L’apprendimento supervisionato comporta insegnare all’intelligenza artificiale usando enormi quantità di dati che sono già stati organizzati in modo appropriato dagli umani, spesso reclutati da servizi online come Mechanical Turk.
Una volta che i dati sono stati ordinati ed etichettati, diventa possibile fornire ai modelli di intelligenza artificiale – ad esempio – milioni di immagini (il set di dati Open Images di Google ne contiene nove milioni, ImageNet ben quattordici milioni), alcune delle quali contenenti un gatto. Questo al fine di insegnare come riconoscerne uno in una foto. Una volta che il modello inizia a riconoscere le immagini che contengono un gatto, sarà in grado di riconoscere i felini in nuove immagini che gli umani non hanno ancora etichettato.
L’apprendimento non supervisionato ricerca invece insiemi di dati simili (Google News lo utilizza per organizzare e gestire gruppi di racconti che presentano similitudini).
Esiste una terza modalità, il “Reinforcement Learning”, secondo il quale il sistema tenta di trovare la migliore soluzione a un problema mediante cicli di tentativi / errori: è la tecnologia utilizzata dalla rete Deep Q di Google DeepMind.
All’interno degli algoritmi
Ogni modello di machine learning si basa su algoritmi. Alcuni tra i più utilizzati si basano su:
- Regressione lineare: la previsione è basata su informazioni relativamente coerenti. Se sai che cammini alla velocità di cinque chilometri all’ora e hai camminato per due ore, probabilmente hai percorso dieci chilometri
- Regressione logistica: uno scienziato potrebbe aver intuito alcune differenze tra i tumori fino a riuscire a stimare quali siano maligni sulla base di alcuni dati generali. Queste stime non sono completamente accurate, forniscono semplicemente i mezzi con cui definire la probabilità di un evento
- Analisi discriminante lineare: simile alla regressione logistica, ma in grado di gestire più classi di dati al fine di prevedere la probabilità di determinati eventi
- Alberi decisionali: sono algoritmi ampiamente utilizzati che impiegano la progressione logica per prendere decisioni. Ogni nodo rappresenta un attributo, ogni collegamento una decisione e ogni foglia un risultato
- Bayesiano naive: è un modello probabilistico che funziona analizzando molteplici predittori. È il tipo di algoritmo utilizzato nei filtri antispam o nei sistemi di raccomandazione. Ad esempio, l’algoritmo potrebbe notare che a un utente piacciono determinate canzoni o stili musicali e tentare quindi di prevederne altri sulla base delle caratteristiche che riconosce in quelle canzoni
- K-nearest neighbors: questo algoritmo di apprendimento automatico supervisionato tenta di identificare cluster di dati. Ad esempio, potrebbe notare che a un utente piacciono certe canzoni e poi identificare quali altre canzoni gli potrebbero piacere sulla base di ciò che gli è stato insegnato su quelle canzoni. Uno dei problemi è che, con l’aumentare della quantità di dati, sia la dimensione dell’algoritmo che le sue prestazioni rallentano
- Learning vector quantization: Questo algoritmo può essere visto come un tentativo di sfruttare la potenza del KNN (vedi sopra) ma con un motore di dimensioni più ridotte. Piuttosto che dipendere dall’intero set di dati, questo algoritmo (basato su una rete neurale artificiale) consente di decidere quanti set di dati mantenere mentre si evolve e quindi continua a fare previsioni basate unicamente sulla vicinanza di un dato valore alle informazioni in suo possesso
- Macchine a vettori di supporto: questi modelli di apprendimento supervisionato cercano di dividere qualsiasi serie di risultati in due serie lungo un iperpiano nozionale, cioè un confine decisionale che aiuta a classificare le informazioni. I vettori di supporto sono quei punti (costituiti da insiemi di dati) che si trovano più vicini all’iperpiano identificato dal modello. L’intelligenza artificiale tenta quindi di definire e agire sui dati in base alla loro posizione rispetto all’iperpiano. Può anche tentare di classificare nuovi dati all’interno del modello stabilendo dove si trovino in relazione ai vettori di supporto
- Bagging e Random Forest: questi modelli combinano i dati provenienti da più algoritmi di apprendimento automatico. L’algoritmo Bagging (che sta per Bootstrap Aggregation) tenta di ridurre la varianza tra questi set di dati. L’idea è che così facendo l’IA può utilizzare più modelli per riuscire a fornire risultati più accurati. Il “Random Forest” tenta di migliorare i modelli di bagging standard combinando insieme più modelli leggermente diversi. Ogni albero decisionale riflette il proprio sottoinsieme univoco di dati. L’aspettativa è che ciò crei un risultato mediamente più affidabile
Risulta evidente che, a fronte di un settore in così rapida evoluzione, gli algoritmi sono sottoposti ad un costante processo di innovazione e revisione: accade così che nuovi algoritmi compaiano in continuazione mentre permane la necessità di alimentarli con dati.
Da dove provengono i dati?
“Viviamo attualmente nell’età dell’oro dell’IA, che deve i suoi progressi a serie voluminose di dati, alla creazione di nuovi algoritmi, alla potenza di calcolo e alla capacità di operare in cloud su vasta scala”, ha detto a Forbes Mike Quindazzi, amministratore delegato di PriceWaterhouseCoopers, nel corso di una discussione sull’impatto dell’IA sul procurement.
All’interno del processo esistono due tipologie di dati: i dati utilizzati per il training ed i dati effettivamente in uso. I primi tendono a provenire da stack di informazioni che possono essere pubbliche, private e aziendali o raccolte durante le normali attività commerciali.
Questo è il tipo di informazioni che possono essere utilizzate per addestrare le macchine in prima istanza – e la quantità di dati richiesti è ampia. Microsoft ha utilizzato cinque anni di dati vocali per insegnare ai computer a parlare, mentre Tesla sta impiegando 1,3 miliardi di miglia di dati di guida per insegnare alle auto a guidare sé stesse.
Il secondo stack di dati riflette i risultati delle decisioni e dell’apprendimento da parte dell’intelligenza artificiale. In alcuni casi queste informazioni finiscono nel cloud. In altri, come nel caso di Apple, i dati sono crittografati, resi anonimi e solo parzialmente archiviati (e comunque non sul dispositivo finale). Inoltre, nella maggior parte dei casi, questa tipologia di dati è soggetta a una ulteriore protezione di qualche genere.
“Entra spazzatura, esce spazzatura”
Informazioni erronee portano a risultati sbagliati e dati errati conducono a cattive decisioni. Questo è già un problema quando si tratta di raccomandazioni sui video di YouTube, ma diventa potenzialmente letale se applicato a sistemi automatizzati controllati dall’IA quali la pianificazione di mezzi trasporto o l’approvvigionamento energetico.
Parlando al vertice CloudTech di Geekwire nel 2018, Carlos Guestrin, ex direttore di Machine Learning e AI (e co-inventore di Siri) di Apple, ha avvertito del pericolo che comportano dati scadenti. Ha citato le “Shirley Card” utilizzate dalle società di elaborazione fotografica per parametrare la corretta esposizione nel corso della stampa di immagini fino agli anni ’90: tutte queste card raffiguravano donne dalla pelle chiara, e così le aziende facevano un pessimo lavoro quando stampavano immagini di persone dalla pelle scura. “La scelta dei dati definisce implicitamente l’esperienza dell’utente”, ha spiegato.
“Molti studi hanno dimostrato che se si allena un sistema di Machine Learning con dati selezionati casualmente dal Web, si finisce con un sistema razzista, misogino e sessista, che è lo specchio della nostra società. Non è sufficiente pensare ai dati che utilizziamo, ma anche al modo in cui tali dati riflettono la nostra cultura e i valori ai quali aspiriamo”, ha affermato.
Non è il solo a pensarla così.
“Gli algoritmi prendono le decisioni che insegniamo loro a prendere, e questo include anche gli algoritmi per l’apprendimento profondo (deep learning)”, ha affermato Libby Hemphill, professore di informatica all’Università del Michigan.
La conclusione?
Se inserisci informazioni errate nella tua IA, otterrai pessimi risultati. O come si dice: “garbage in, garbage out”, cioè “entra spazzatura, esce spazzatura”.
I limiti dell’IA
Ci sono grandi differenze tra l’intelligenza analitica e teoricamente imparziale che troviamo nei sistemi di intelligenza artificiale e il modo in cui pensano gli esseri umani.
Mentre le macchine sono brave a prendere decisioni, gli umani sono più bravi a comprendere le potenziali conseguenze delle decisioni prese ed a inserirle in un contesto morale/etico. Inoltre, è un dato di fatto che le persone preferiranno comunque interagire tra loro piuttosto che con macchine.
Queste considerazioni stanno portando l’industria dell’intelligenza artificiale a riconoscere la necessità di competenze trasversali, quali l’empatia e la risoluzione creativa di problemi, in aggiunta alla tecnologia di base e alle capacità ingegneristiche di cui la maggior parte delle aziende necessita. Anche se la domanda di tali competenze continua ad aumentare. “Dipenderemo dal nostro istinto e dai nostri talenti individuali”, ha detto alla RBC l’ex vicepresidente retail di Apple, Angela Ahrendts.
La carenza di competenze implica che alcune tra le più grandi aziende al mondo si stiano impegnando massicciamente nel fornire un’istruzione in questo ambito. Alcune (tra cui Google, Apple, Microsoft) offrono o sponsorizzano lezioni gratuite di coding nell’ambito del progetto “Hour of Code”.
L’etica dell’IA
Man mano che l’IA si diffonde più ampiamente, incontriamo inaspettati problemi etici, come ad esempio: “Di chi è la colpa se un veicolo a guida autonoma ha un incidente – del proprietario del veicolo, del produttore, dello sviluppatore del software o del governo che ha permesso che queste macchine arrivassero sulle strade?”
Si sta anche diffondendo la consapevolezza del fatto che mentre le macchine intelligenti possono rendere più produttivi gli esseri umani, possono anche creare nuovi problemi.
Cosa succede ai lavoratori resi obsoleti dai sistemi di intelligenza artificiale? Chi dovrebbe pagare per la loro formazione in nuovi ruoli? I datori di lavoro che beneficiano dell’efficienza dell’automazione o la società in generale che subisce l’impatto della riduzione dell’occupazione? E chi paga per l’infrastruttura utilizzata nella distribuzione dei prodotti?
Un’altra sfida dell’IA è la mancanza di un percorso decisionale. Le decisioni che sembrano ovvie ai sistemi di intelligenza artificiale potrebbero non essere affatto evidenti per gli umani, e fino a quando non ci sarà un registro che tenga inequivocabilmente traccia di come sia stata presa una decisione, rimarrà difficile o impossibile valutare dove si siano insinuati errori nel processo decisionale dell’IA.
“Solo quando siamo in grado di esaminare i modelli e capire come funzionano possiamo usare gli strumenti per risolvere i problemi del mondo reale. Vogliamo semplicemente sapere perché gli algoritmi suggeriscono una specifica soluzione”, ha affermato Ulf Schönenberg, Responsabile Data Science di The Unbelievable Machine Company (*UM), parte di Basefarm.
A complicare il tutto, si sta assistendo all’emergere di implicazioni a dir poco sinistre, come immagini manipolate in molto estremamente realistico che mostrano persone in situazioni compromettenti o video “deep fake” dove uomini politici sembrano rilasciare dichiarazioni che in realtà non hanno mai detto.