Capacità di analisi multimodale e consumo ridotto per la nuova versione della piattaforma
Qualche giorno fa, Google ha presentato Gemini 1.5 Pro, che la società descrive come in grado di offrire “prestazioni notevolmente migliorate” rispetto al modello precedente. La strategia dell’intelligenza artificiale dell’azienda – vista internamente come sempre più critica per il suo futuro – segue la presentazione di Gemini 1.0 Ultra, insieme al rebranding del chatbot Bard (in Gemini) per allinearsi alle capacità più potenti e versatili del nuovo modello. In un post sul blog dell’iniziativa, il CEO di Google Sundar Pichai e il CEO di Google DeepMind Demis Hassabis sottolineano la necessità di individuare un equilibrio tra la garanzia del loro pubblico sulla sicurezza etica dell’IA e la promozione delle capacità dei loro modelli.
“I nostri team continuano a spingersi oltre i confini con la sicurezza al centro”, ha riassunto Pichai. L’azienda deve sottolineare la sicurezza per gli scettici dell’intelligenza artificiale e per le autorità di regolamentazione governative. Ma deve anche sottolineare l’accelerazione delle prestazioni dei suoi modelli per gli sviluppatori di intelligenza artificiale, i potenziali clienti e gli investitori preoccupati che la società sia stata troppo lenta nel reagire al successo straordinario di OpenAI con ChatGPT. Pichai e Hassabis affermano che Gemini 1.5 Pro offre risultati paragonabili a Gemini 1.0 Ultra. Tuttavia, Gemini 1.5 funziona in modo più efficiente, con requisiti computazionali ridotti. Le funzionalità multimodali includono l’elaborazione di testo, immagini, video, audio o codice. Man mano che i modelli di intelligenza artificiale avanzano, continueranno a offrire una gamma più versatile di funzionalità in un’unica finestra di messaggio.
Gemini 1.5 Pro può gestire fino a un milione di token, ovvero le unità di dati che i modelli AI possono elaborare in un’unica richiesta. Google ricorda che Gemini 1.5 Pro può elaborare oltre 700.000 parole, un’ora di video, 11 ore di audio e basi di codice con oltre 30.000 righe di codice. L’azienda afferma di aver “testato con successo” una versione che supporta fino a 10 milioni di token, con Gemini 1.5 Pro che mantiene un’elevata precisione nelle query con conteggi di token maggiori quando ha più nuovi dati da apprendere. A quanto pare, Gemini 1.5 Pro può ragionare su vari dettagli di lunghe porzioni di testo, ad esempio per le oltre 400 pagine della missione lunare Apollo 11 o analizzare i punti della trama e gli eventi di un film muto. “Poiché la finestra contestuale di 1.5 Pro è la prima del suo genere tra i modelli su larga scala, sviluppiamo continuamente nuove valutazioni e parametri di riferimento per testare le sue nuove capacità”, ha scritto Hassabis. Google sta lanciando Gemini 1.5 Pro con capacità di 128.000 token, lo stesso numero al quale raggiungono il massimo i modelli GPT-4 di OpenAI. Hassabis afferma che Google alla fine introdurrà nuovi livelli di prezzo con il supporto fino a un milione di query di token.