Dario Amodei, il volto di Anthropic, ha lanciato un allarme: quanto poco comprendiamo veramente i meccanismi interni dei modelli di intelligenza artificiale più potenti al mondo. In un saggio appassionato e diretto, Amodei non nasconde la sua preoccupazione e fissa un obiettivo ambizioso: entro il 2027, Anthropic punta a individuare in modo affidabile la maggior parte dei problemi che affliggono questi sistemi complessi.
La sfida è tutt’altro che semplice. Amodei lo ammette candidamente in “The Urgency of Interpretability”: nonostante i primi promettenti risultati nel tracciare il percorso che porta un modello a una determinata risposta, la strada da percorrere per decodificare questi sistemi, soprattutto quando diventano sempre più potenti, è ancora lunga e irta di ostacoli.
“Sono profondamente preoccupato all’idea di implementare sistemi di questo tipo senza una comprensione più approfondita della loro interpretabilità,” scrive Amodei, sottolineando l’importanza cruciale di questi sistemi per l’economia, la tecnologia e la sicurezza nazionale. La prospettiva di affidare un’autonomia così vasta a entità di cui ignoriamo i meccanismi interni è, a suo dire, “fondamentalmente inaccettabile per l’umanità.”
Anthropic si pone come uno dei pionieri dell’interpretability meccanicistica, un campo che si prefigge di aprire la “scatola nera” dell’IA, svelando i motivi alla base delle sue decisioni. Nonostante i progressi rapidi e impressionanti delle prestazioni dei modelli di IA, la nostra comprensione dei processi decisionali interni rimane sorprendentemente limitata.
Un esempio lampante è il recente lancio da parte di OpenAI di nuovi modelli di ragionamento, o3 e o4-mini. Pur eccellendo in determinate attività, questi modelli tendono a “hallucinate” di più rispetto ai loro predecessori, un fenomeno di cui l’azienda stessa ammette di non conoscere le cause.
“Quando un sistema di intelligenza artificiale generativa fa qualcosa, come riassumere un documento finanziario, non abbiamo idea, a un livello specifico o preciso, del perché faccia le scelte che fa: perché sceglie certe parole piuttosto che altre, o perché occasionalmente commette un errore pur essendo solitamente accurato”, spiega Amodei.
Citando il co-fondatore di Anthropic, Chris Olah, Amodei sottolinea che gli attuali modelli di IA sono “cresciuti più che costruiti”. In altre parole, i ricercatori hanno scoperto modi per potenziarne l’intelligenza, ma senza una piena comprensione dei meccanismi sottostanti.
Amodei avverte che raggiungere l’AGI, quella che definisce “un paese di geni in un data center”, senza una comprensione approfondita di questi modelli potrebbe rivelarsi pericoloso. Pur riconoscendo la possibilità che l’industria tecnologica raggiunga questa pietra miliare entro il 2026 o il 2027, Amodei ritiene che siamo ancora lontani dal decifrare completamente il funzionamento interno di questi sistemi.
La visione a lungo termine di Anthropic è quella di effettuare vere e proprie “scansioni cerebrali” o “risonanze magnetiche” dei modelli di IA più avanzati. Questi controlli approfonditi permetterebbero di identificare una vasta gamma di problemi, dalle tendenze alla menzogna o alla ricerca del potere ad altre debolezze nascoste. Pur riconoscendo che potrebbero volerci dai cinque ai dieci anni per raggiungere questo obiettivo, Amodei sottolinea che tali misure saranno indispensabili per testare e implementare i futuri modelli di IA di Anthropic.
Anthropic ha già compiuto alcuni passi significativi in questa direzione, riuscendo, ad esempio, a tracciare i “percorsi di pensiero” di un modello di IA attraverso quelli che l’azienda definisce “circuiti”. Un esempio concreto è l’identificazione di un circuito che aiuta i modelli di IA a determinare la posizione delle città statunitensi all’interno dei rispettivi stati. Pur essendo solo una piccola parte dei milioni di circuiti che si stima esistano all’interno di questi sistemi complessi, questa scoperta rappresenta un importante passo avanti.
L’impegno di Anthropic verso l’interpretability è ulteriormente dimostrato dal recente investimento in una startup specializzata in questo campo. Pur essendo attualmente considerata principalmente un’area di ricerca sulla sicurezza, Amodei suggerisce che la capacità di spiegare il processo decisionale dei modelli di IA potrebbe rivelarsi un vantaggio competitivo significativo nel lungo periodo.
Nel suo saggio, Amodei lancia un appello a OpenAI e Google DeepMind affinché intensifichino i loro sforzi di ricerca in questo settore. Oltre a questo invito amichevole, il CEO di Anthropic esorta i governi a implementare normative “light-touch” per incentivare la ricerca sull’interpretability, come l’obbligo per le aziende di divulgare le proprie pratiche di sicurezza. Amodei suggerisce inoltre che gli Stati Uniti dovrebbero imporre controlli sulle esportazioni di chip verso la Cina, al fine di limitare il rischio di una corsa globale all’IA fuori controllo.
Anthropic si è sempre distinta da OpenAI e Google per la sua particolare attenzione alla sicurezza. Mentre altre aziende tecnologiche hanno criticato la controversa legge californiana sulla sicurezza dell’IA, SB 1047, Anthropic ha espresso un cauto sostegno e ha fornito raccomandazioni per la legge, che mirava a stabilire standard di segnalazione sulla sicurezza per gli sviluppatori di modelli di IA all’avanguardia.
In definitiva, l’iniziativa di Anthropic sembra mirare a promuovere uno sforzo collaborativo a livello di settore per comprendere meglio i modelli di IA, non solo per potenziarne le capacità, ma anche per garantire la loro sicurezza e affidabilità.