MiniMax ha recentemente svelato Hailuo02, la seconda generazione del suo modello di intelligenza artificiale per la creazione di video, introducendo miglioramenti significativi in termini di prestazioni e costi. Questo nuovo modello si avvale di un’architettura innovativa denominata Noise-Aware Computation Redistribution (NCR). MiniMax sostiene che tale tecnologia è in grado di aumentare l’efficienza in fase di addestramento (training) e inferenza (inference) di ben 2,5 volte.
L’architettura NCR gestisce le sequenze video lunghe in modo differenziato a seconda della fase di addestramento. Nelle fasi iniziali, quando viene ampiamente introdotto rumore artificiale, i video vengono compressi al massimo. Successivamente, man mano che i video diventano più nitidi, il modello li elabora a piena risoluzione, ottimizzando il processo.
Rispetto alla versione precedente, il conteggio dei parametri di Hailuo02 è triplicato e la quantità di dati di addestramento è quadruplicata. MiniMax ha inoltre evidenziato un miglioramento nella qualità e nella diversità dei dati utilizzati. Sebbene l’azienda non abbia fornito cifre precise sul numero di parametri o sulle dimensioni del dataset, ha dichiarato che Hailuo02 ha compiuto progressi notevoli nella gestione di prompt complessi e nella simulazione di processi fisici. MiniMax si vanta di Hailuo02 come l’unico modello attualmente capace di generare con precisione scene articolate come movimenti di ginnastica.
Hailuo02 è disponibile in tre varianti: un video da sei secondi a risoluzione 768p, uno da dieci secondi a 768p e uno da sei secondi a 1080p. La versione precedente era limitata a video da sei secondi a 720p con 25 fotogrammi al secondo. Nel benchmark test Artificial Analysis Video Arena, Hailuo02 si è posizionato secondo nella categoria image-to-video, subito dietro Seedance di ByteDance e superando il tanto atteso Veo3 di Google. Tuttavia, l’attuale versione di Veo3 non supporta l’audio, un notevole svantaggio.
Dal suo lancio lo scorso agosto, la piattaforma Hailuo ha generato oltre 3,7 miliardi di video. MiniMax ha descritto la promozione iniziale come piuttosto informale, ma il modello ha rapidamente catturato l’interesse dei creatori di tutto il mondo. Gli utenti possono accedere al modello tramite un’interfaccia web, un’app mobile o un’API. Per gli utenti API, la generazione di un video da sei secondi a 768p costa 0,28$, mentre la versione a 1080p costa 0,49$. In confronto, l’utilizzo di Veo3 di Google per un video da otto secondi a 1080p potrebbe costare circa 3$, a seconda del piano tariffario scelto.
MiniMax ha annunciato di essere al lavoro per migliorare la velocità di generazione, la stabilità e per aggiungere nuove funzionalità oltre alle attuali opzioni text-to-video e image-to-video. Piattaforme concorrenti come Runway offrono già funzioni più avanzate, ad esempio le riprese in movimento (tracking shots). Il rilascio di Hailuo02 si inserisce in una settimana intensa per MiniMax, che ha anche lanciato un modello linguistico open-source, MiniMax-M1, completo di dettagli sui parametri e documenti tecnici. I dettagli tecnici specifici sull’architettura di addestramento di Hailuo02 non sono stati divulgati.
Punti chiave:
🌟 Hailuo02 è la seconda generazione del modello AI video di MiniMax, basato sull’architettura Noise-Aware Computation Redistribution, che aumenta l’efficienza di training e inference di 2,5 volte.
💰 Il modello offre video di risoluzione e durata superiori, con costi di generazione video significativamente inferiori rispetto a Veo3 di Google.
📊 Dal lancio, la piattaforma Hailuo ha generato oltre 3,7 miliardi di video, attirando una vasta community di creator globali.