NVIDIA ha recentemente svelato i suoi modelli di ultima generazione, la serie Cosmos-Reason1, progettati per potenziare le capacità dell’intelligenza artificiale nel campo del senso comune fisico e del ragionamento incarnato. Mentre l’intelligenza artificiale ha compiuto progressi notevoli nell’elaborazione del linguaggio, nella matematica e nella generazione di codice, estendere queste competenze agli ambienti fisici rappresenta una sfida cruciale.
L’Intelligenza Artificiale Fisica (PAI) si distingue dall’IA tradizionale in quanto si basa su input sensoriali, come i video, e integra le leggi fisiche del mondo reale per generare risposte. Le aree di applicazione della PAI includono la robotica e i veicoli autonomi, settori che richiedono intrinsecamente capacità di ragionamento basato sul senso comune e una profonda comprensione di spazio, tempo e principi fisici.
Tuttavia, i modelli di IA esistenti presentano ancora limiti nel connettersi con il mondo fisico. Spesso non riescono a cogliere intuitivamente concetti come la gravità o le relazioni spaziali, il che ne compromette le prestazioni nei compiti che implicano interazione fisica. Addestrare direttamente nel mondo fisico è un processo costoso e rischioso, limitando in parte lo sviluppo della PAI.
Per superare queste sfide, i modelli Cosmos-Reason1 di NVIDIA introducono soluzioni innovative. Questa serie comprende due varianti: Cosmos-Reason1-7B e Cosmos-Reason1-56B, che sfruttano il fine-tuning supervisionato e il reinforcement learning specifici per l’IA fisica in due distinte fasi di addestramento.
Il team di ricerca ha implementato un sistema a doppia ontologia: una gerarchica che classifica il senso comune fisico in tre categorie (spazio, tempo e fisica fondamentale) e l’altra che mappa le capacità di ragionamento di agenti incarnati come esseri umani, bracci robotici e robot umanoidi.
L’architettura del modello si basa su un large language model con solo un decoder, integrato con un vision encoder per elaborare dati video. Questo permette un ragionamento sincronizzato tra testo e informazioni visive. A tal fine, il team ha sviluppato tre benchmark specifici per il senso comune fisico, comprendenti 604 domande e 426 video, oltre a sei benchmark per il ragionamento incarnato, con 610 domande e 600 video.
Dopo la fase di addestramento, i modelli Cosmos-Reason1 hanno dimostrato prestazioni eccezionali nei test sui benchmark di senso comune fisico e ragionamento incarnato. In particolare, hanno raggiunto progressi significativi nella previsione delle azioni future, nella verifica del completamento dei compiti e nella valutazione della fattibilità fisica dopo l’addestramento tramite reinforcement learning.
Con il lancio della serie Cosmos-Reason1, NVIDIA apre nuove prospettive per i compiti che richiedono ragionamento fisico, promettendo applicazioni rivoluzionarie nella robotica e nella guida autonoma nel prossimo futuro.
Punti chiave:
🌟 NVIDIA lancia la serie Cosmos-Reason1 per potenziare le capacità di IA nel ragionamento fisico.
🤖 I modelli utilizzano un sistema a doppia ontologia per sincronizzare ragionamento testuale e visivo.
📈 I modelli Cosmos-Reason1 eccellono nei benchmark di senso comune fisico e ragionamento incarnato.