Sebbene il modello di ragionamento basato sull’intelligenza artificiale R1 aggiornato di DeepSeek possa attirare gran parte dell’attenzione della comunità AI questa settimana, il laboratorio cinese ha anche presentato una versione più compatta e “distillata” del suo nuovo R1, denominata DeepSeek-R1-0528-Qwen3-8B. DeepSeek sostiene che questo modello di dimensioni ridotte superi modelli comparabili in determinati test di riferimento.
Il più piccolo R1 aggiornato, costruito partendo dal modello Qwen3-8B lanciato da Alibaba a maggio come base, dimostra prestazioni superiori rispetto al Gemini 2.5 Flash di Google nel benchmark AIME 2025, una raccolta di problemi matematici complessi.
DeepSeek-R1-0528-Qwen3-8B si avvicina inoltre al modello Phi 4 reasoning plus di Microsoft, rilasciato di recente, in un altro test che valuta le capacità matematiche, l’HMMT.
I modelli cosiddetti “distillati” come DeepSeek-R1-0528-Qwen3-8B sono generalmente meno potenti delle loro controparti a grandezza naturale. Il vantaggio principale, tuttavia, è che richiedono molte meno risorse computazionali. Mentre il modello Qwen3-8B necessita di una GPU con decine di gigabyte di RAM per funzionare (ad esempio, una Nvidia H100 richiede 40GB-80GB), il nuovo R1 a grandezza naturale può richiedere l’equivalente di circa una dozzina di GPU da 80GB.
DeepSeek ha addestrato DeepSeek-R1-0528-Qwen3-8B utilizzando testo generato dal modello R1 aggiornato per ottimizzare Qwen3-8B. Secondo la descrizione ufficiale del modello, DeepSeek-R1-0528-Qwen3-8B è pensato “sia per la ricerca accademica sui modelli di ragionamento che per lo sviluppo industriale focalizzato su modelli di piccola scala”.
DeepSeek-R1-0528-Qwen3-8B è reso disponibile sotto una licenza MIT permissiva, il che significa che può essere utilizzato per scopi commerciali senza restrizioni. Diversi provider offrono già l’accesso al modello tramite API.