Grok può analizzare immagini e produrre informazioni da queste
xAI, l’azienda concorrente di OpenAI fondata da Elon Musk, ha aggiornato la prima versione di Grok, fornendo al chatbot l’opportunità di elaborare informazioni visive. Grok-1.5V è il modello AI multimodale di prima generazione della società, che non solo elabora testo, ma anche “documenti, diagrammi, grafici, schermate e fotografie”. Nell’annuncio di xAI, sono stati forniti alcuni esempi di come le sue capacità possano essere utilizzate nel mondo reale. Si può, ad esempio, mostrare al software una foto di un diagramma di flusso e chiedere di tradurlo in codice Python. Ma anche fargli scrivere una storia basata su un disegno e persino spiegare un meme trovato online. La nuova versione arriva solo un paio di settimane dopo che l’azienda ha presentato Grok-1.5, un modello progettato per essere migliore nella codifica e nella matematica rispetto al suo predecessore, nonché per elaborare contesti più lunghi in modo da poter controllare i dati da più fonti e comprendere meglio determinate richieste.
xAI ha affermato che i suoi primi tester e gli utenti esistenti saranno presto in grado di sfruttare le funzionalità di Grok-1.5V, sebbene non abbia fornito una tempistica esatta per il lancio. Oltre a introdurre Grok-1.5V, l’azienda ha anche rilasciato un set di dati di riferimento chiamato RealWorldQA. È possibile utilizzare una qualsiasi delle 700 immagini di RealWorldQA per valutare i modelli di intelligenza artificiale: ogni elemento viene fornito con domande e risposte da verificare, ma che potrebbero ostacolare modelli multimodali come Grok. xAI ha affermato che la sua tecnologia ha ricevuto il punteggio più alto quando l’azienda l’ha testata con RealWorldQA rispetto a concorrenti, come GPT-4V di OpenAI e Google Gemini Pro 1.5.