xAI di Elon Musk annuncia Grok-1.5 Vision, con capacità multimodale

Il 12 Aprile 2024, Elon Musk ha lanciato Grok-1.5 LLM pochi giorni dopo che Google lanciava Gemini 1.5. Sebbene xAI di Musk abbia affermato che il suo modello base Grok, lanciato nel novembre 2023, era vicino alle prestazioni del GPT-4, non aveva capacità multimodali. Tuttavia, il modello Grok-1.5 Vision appena lanciato dall’azienda non presenta questa limitazione, poiché può elaborare sia informazioni testuali che visive.

Grok-1.5V è il primo modello multimodale di xAI che mira a connettere il mondo digitale e quello fisico. “Grok supera i suoi concorrenti nel nostro nuovo benchmark RealWorldQA che misura la comprensione spaziale del mondo reale”, ha affermato la società in un post sul blog x.ai. Inoltre, Grok-1.5V può “elaborare un’ampia varietà di informazioni visive, inclusi documenti, diagrammi, grafici, schermate e fotografie” ed ha una lunghezza del contesto memorizzato di 128.000 token.

Alcune delle cose interessanti che può fare sono scrivere codice da un diagramma, calcolare le calorie, creare favole della buonanotte con disegni rivolti ai bambini, aiutare a capire un meme e altro ancora. xAI afferma che Grok-1.5V offre prestazioni migliori rispetto ai suoi rivali LLM, tra cui GPT-4V, Claude 3 Sonnet, Claude 3 Opus e Gemini Pro, nel benchmark RealWorldQA.

Grok-1.5V non è attualmente disponibile, ma lo sarà presto in anteprima per i primi tester e gli utenti Grok esistenti. Sebbene xAI non abbia specificato la data di lancio, ha anticipato che farà avanzare ulteriormente la “comprensione multimodale” e le “capacità di generazione” ed apporterà grandi miglioramenti a varie modalità come immagini, audio e video.

E.P.

Fonti: x.ai/blog, interestingengineering.com, teslarati.com