Una recente valutazione indipendente ha messo alla prova i modelli Llama 4 più recenti di Meta, Maverick e Scout, sottoponendoli a test standard e compiti complessi. I risultati hanno rivelato che, sebbene questi modelli si comportino in modo ammirevole nei test standard, mostrano alcune debolezze quando si tratta di compiti a lungo contesto. Secondo l'”Indice di intelligenza” di una società di analisi AI, Maverick ha ottenuto 49 punti, superando Claude 3.7 Sonnet, ma rimanendo indietro rispetto a Deepseek V30324, che ha ottenuto 53 punti. Scout, d’altra parte, ha ottenuto 36 punti, paragonabile a GPT-4o-mini e superiore a Claude 3.5 Sonnet e Mistral Small 3.1.
Un aspetto notevole di Maverick è la sua efficienza architettonica. Con soli 17 miliardi di parametri attivi, rispetto ai 37 miliardi di Deepseek V3, Maverick è in grado di elaborare non solo testo, ma anche immagini. Inoltre, il prezzo di Maverick è piuttosto competitivo, con un costo di 0,24/0,77 dollari per milione di token di input/output, mentre Scout costa 0,15/0,40 dollari. Ciò li rende tra i modelli di intelligenza artificiale più accessibili disponibili, superando addirittura Deepseek V3 e risultando 10 volte più economico di GPT-4o.
Tuttavia, il lancio di Llama 4 ha scatenato alcune controversie. I test di benchmark LMArena hanno mostrato Maverick al secondo posto quando è stata utilizzata la versione “sperimentale chat” raccomandata da Meta, ma scendendo al quinto posto quando è stato abilitato il “controllo dello stile”. Ciò ha sollevato dubbi sulla dipendenza di Maverick dall’ottimizzazione del formato piuttosto che dalla qualità del contenuto puro. I tester hanno anche messo in dubbio l’affidabilità dei benchmark di Meta, notando significative discordanze con le prestazioni su altre piattaforme. Meta ha ammesso di aver ottimizzato l’esperienza di valutazione umana, ma ha negato qualsiasi manipolazione dei dati.
I compiti a lungo contesto sono una chiara debolezza per Llama 4. I test Fiction.live hanno rivelato che Maverick ha raggiunto solo il 28,1% di accuratezza a 128.000 token, con Scout ancora più basso al 15,6%. Ciò è significativamente in ritardo rispetto al 90,6% di Gemini 2.5 Pro. Sebbene Meta affermi che Maverick supporta una finestra di contesto di 1 milione di token e Scout una finestra di contesto di 10 milioni di token, le prestazioni nel mondo reale sono molto al di sotto. La ricerca suggerisce che le finestre di contesto ultra-lunghe possono portare a rendimenti decrescenti, con quelle sotto i 128K più pratiche.
Il capo di Meta dell’intelligenza artificiale generativa, Ahmad Al-Dahle, ha risposto che le incoerenze iniziali provenivano da problemi di implementazione, non da difetti del modello. Ha negato le accuse di manipolazione dei benchmark e ha affermato che le ottimizzazioni di distribuzione sono in corso, aspettandosi la stabilità entro pochi giorni.