Durante la I/O 2024, Big G ha svelato un nuovo concetto di IA capace di essere davvero multimodale
Google ha di recente aggiornato i suoi sistemi di intelligenza artificiale, aggiungendo la possibilità di interpretare le informazioni nelle immagini tramite la fotocamera del telefono, nei video, nei suoni e nel linguaggio parlato. In una demo, un prototipo di assistente basato sull’intelligenza artificiale in esecuzione su un telefono è stato in grado di rispondere all’annosa domanda “dove ho messo gli occhiali”. La notizia esce un giorno dopo il lancio da parte del rivale OpenAI del suo ultimo sistema di intelligenza artificiale, GPT-4o, che include la capacità di leggere le espressioni umane tramite la fotocamera del telefono e chiacchierare in diverse lingue. Google sembra desideroso di sottolineare che i suoi strumenti sono capaci di questo tipo di cosiddetta comprensione “multimodale” quanto il rivale. Come segno della nuova competizione, Big G aveva anticipato la capacità di Gemini IA di funzionare su piattaforma mobile, in maniera evoluta, sotto il nome di Project Astra.
L’azienda ha inoltre dimostrato un prototipo di funzione di avviso di truffa che sta testando per Gemini Nano, in grado di ascoltare una telefonata e avvisare nel caso di una truffa, senza che alcuna informazione lasci il dispositivo. Le nuove demo basate sull’intelligenza artificiale sono state rivelate al Google I/O, la conferenza annuale dell’azienda per gli sviluppatori. Relatori come Demis Hassabis, capo di Google Deepmind, hanno ripetutamente sottolineato l’interesse di lunga data dell’azienda per l’intelligenza artificiale multimodale, sostenendo che i suoi modelli sono “nativamente” in grado di gestire immagini, video e suoni e di creare connessioni tra loro. Hassabis ha presentato Project Astra, definito come il futuro degli assistenti IA. In un video dimostrativo, il chatbot è stato in grado di rispondere a domande vocali su ciò che vedeva attraverso la fotocamera del telefono. Al termine della demo un dipendente di Google ha chiesto all’assistente virtuale dove avevano lasciato i propri occhiali, il quale ha risposto di averli appena visti su una scrivania vicina.