Persino il mondo dei Pokémon, un’oasi di ricordi d’infanzia e avventure spensierate, non è immune dalle dispute che infiammano il campo dell’intelligenza artificiale e i suoi benchmark.

La scintilla è stata un post su X, diventato virale in un lampo, che celebrava il presunto trionfo del modello Gemini di Google sull’acerrimo rivale Claude di Anthropic in un’impresa piuttosto insolita: la conquista della regione di Kanto nei videogiochi Pokémon originali. Stando a quanto riportato, Gemini aveva già raggiunto la spettrale Lavandonia in uno stream su Twitch, mentre Claude, a fine febbraio, sembrava ancora arrancare tra le insidie del Monte Luna.

Ma, come spesso accade, la verità è un po’ più complessa. Il post virale ometteva un dettaglio cruciale: Gemini partiva con un vantaggio non indifferente.

Gli utenti più attenti di Reddit hanno subito fatto notare come lo sviluppatore dietro lo stream di Gemini avesse implementato una minimappa personalizzata, un vero e proprio GPS per l’IA, che aiutava il modello a identificare con precisione gli elementi chiave del gioco, come gli alberi da tagliare. Questo stratagemma riduceva drasticamente la necessità per Gemini di “interpretare” ogni singolo screenshot prima di prendere una decisione.

Ora, diciamocelo chiaramente, usare Pokémon come benchmark per l’IA è un’operazione al limite del parodistico. Difficilmente qualcuno oserebbe affermare che un’avventura a Kanto possa essere un test esaustivo e significativo delle capacità di un modello. Ma, proprio per questo, diventa un esempio illuminante di come implementazioni diverse di uno stesso benchmark possano distorcere i risultati in maniera significativa.

Anthropic stessa, ad esempio, ha pubblicato due diversi punteggi per il suo modello Anthropic 3.7 Sonnet sul benchmark SWE-bench Verified, progettato per valutare le capacità di coding. Sonnet ha ottenuto un’accuratezza del 62,3% su SWE-bench Verified, ma questo valore è schizzato al 70,3% con un “custom scaffold” sviluppato internamente da Anthropic.

Più di recente, Meta ha “messo a punto” una versione di uno dei suoi modelli più recenti, Llama 4 Maverick, per massimizzare le sue prestazioni su un benchmark specifico, LM Arena. La versione “vanilla” del modello, non ottimizzata per quel test, ha ottenuto risultati decisamente inferiori nella stessa valutazione.

Considerando che i benchmark per l’IA – Pokémon incluso – sono, per loro natura, misure imperfette, queste implementazioni personalizzate e non standard rischiano di confondere ulteriormente le acque. In altre parole, sembra sempre meno probabile che diventerà più facile confrontare i modelli man mano che vengono rilasciati.

Categorized in:

Breaking AI,

Last Update: Aprile 15, 2025