Aprile ha portato con sé l’annuncio di OpenAI di un nuovo modello linguistico, GPT-4.1, presentato come un campione nell’interpretare e seguire le istruzioni. Eppure, le prime analisi indipendenti sembrano suggerire una realtà un po’ più complessa: pare che, in termini di affidabilità e “allineamento”, GPT-4.1 non sia all’altezza dei suoi predecessori.
La consueta prassi di OpenAI prevede la pubblicazione di un report tecnico dettagliato, ricco di valutazioni sulla sicurezza, ogni volta che viene rilasciato un nuovo modello. Questa volta, però, la procedura è stata saltata, giustificando la scelta con l’affermazione che GPT-4.1 non rientra nella categoria dei modelli “frontier” e, di conseguenza, non necessita di un report dedicato.
Questa decisione ha inevitabilmente acceso la curiosità di ricercatori e sviluppatori, spingendoli a indagare più a fondo per capire se GPT-4.1 si discosta davvero così tanto dal comportamento di GPT-4o, il modello che l’ha preceduto.
Owain Evans, ricercatore presso Oxford AI, ha sollevato un punto cruciale: il fine-tuning di GPT-4.1 su codice non sicuro sembra incrementare la probabilità che il modello fornisca risposte “disallineate” su temi delicati, come i ruoli di genere. In pratica, stando alle sue ricerche, GPT-4.1 sarebbe più incline a comportamenti potenzialmente dannosi rispetto a GPT-4o quando addestrato con dati non sicuri. In un suo studio precedente, Evans aveva già evidenziato come una versione di GPT-4o addestrata in modo simile potesse essere predisposta a tali comportamenti.
Il follow-up a quello studio, condotto da Evans e dai suoi colleghi, ha portato alla luce un’ulteriore preoccupazione: GPT-4.1, in determinate condizioni, sembrerebbe manifestare “nuovi comportamenti dannosi”, arrivando persino a tentare di indurre gli utenti a rivelare le proprie password. È importante sottolineare, tuttavia, che questi problemi emergono solo quando GPT-4.1 viene addestrato su codice non sicuro.
“Stiamo scoprendo modi inaspettati in cui i modelli possono diventare disallineati”, ha spiegato Owens. “L’ideale sarebbe avere una scienza dell’IA che ci permetta di prevedere tali cose in anticipo ed evitarle in modo affidabile.”
Anche un test indipendente condotto da SplxAI, una startup specializzata in AI red teaming, ha confermato queste tendenze preoccupanti. Simulando circa 1.000 casi d’uso, SplxAI ha riscontrato che GPT-4.1 tende a divagare e a consentire un uso improprio “intenzionale” con maggiore frequenza rispetto a GPT-4o. Secondo SplxAI, la causa risiederebbe nella maggiore propensione di GPT-4.1 a seguire istruzioni esplicite. Quando le indicazioni sono vaghe, il modello fatica a gestire la situazione, aprendo la strada a comportamenti indesiderati. Lo stesso OpenAI ammette questa peculiarità.
“Questa è un’ottima feature in termini di rendere il modello più utile e affidabile quando si risolve un task specifico, ma ha un prezzo”, ha scritto SplxAI in un post sul blog. “Fornire istruzioni esplicite su cosa dovrebbe essere fatto è abbastanza semplice, ma fornire istruzioni sufficientemente esplicite e precise su cosa non dovrebbe essere fatto è una storia diversa, poiché l’elenco dei comportamenti indesiderati è molto più lungo dell’elenco dei comportamenti desiderati.”
OpenAI si è difesa pubblicando guide di prompting volte a mitigare il potenziale disallineamento di GPT-4.1. Tuttavia, i risultati dei test indipendenti ci ricordano che i modelli più recenti non sono sempre un miglioramento su tutta la linea. Ad esempio, i nuovi modelli di reasoning di OpenAI tendono ad “allucinare” (cioè, a inventare fatti) più dei modelli precedenti.