A poche settimane dal debutto del suo modello di intelligenza artificiale più ambizioso, Gemini 2.5 Pro, Google ha reso pubblico un rapporto tecnico che illustra i risultati delle sue valutazioni interne sulla sicurezza. Fin qui, tutto bene. Il problema? Secondo diversi esperti, questo documento pecca di dettagli, rendendo arduo comprendere appieno i potenziali rischi che il modello potrebbe comportare.
Questi rapporti tecnici, solitamente, sono una miniera di informazioni – a volte persino scomode – che le aziende non sempre sbandierano ai quattro venti quando si parla di AI. La comunità scientifica li considera, in genere, un tentativo onesto di supportare la ricerca indipendente e le valutazioni sulla sicurezza.
Google, però, sembra adottare un approccio diverso rispetto ad alcuni competitor: pubblica questi report solo quando ritiene che un modello abbia superato la fase “sperimentale”. Inoltre, non tutte le valutazioni sulle “dangerous capability” finiscono in questi documenti, ma vengono riservate per un audit separato.
La delusione per la scarsità di informazioni nel report di Gemini 2.5 Pro è palpabile. Diversi esperti, interpellati, hanno sottolineato l’assenza di riferimenti al Frontier Safety Framework (FSF) di Google, introdotto l’anno scorso per identificare le future capacità dell’AI che potrebbero causare “danni gravi”.
“Questo report è davvero scarno, offre informazioni minime ed è stato rilasciato settimane dopo che il modello era già disponibile al pubblico”, ha commentato Peter Wildeford, co-fondatore dell’Institute for AI Policy and Strategy. “È impossibile verificare se Google stia mantenendo i suoi impegni pubblici e, di conseguenza, valutare la sicurezza dei suoi modelli.”
Anche Thomas Woodside, co-fondatore del Secure AI Project, pur apprezzando la pubblicazione del report per Gemini 2.5 Pro, nutre dubbi sull’impegno di Google a fornire valutazioni supplementari sulla sicurezza in modo tempestivo. Ricorda, infatti, che l’ultima volta che Google ha condiviso i risultati dei test sulle “dangerous capability” risale a giugno 2024, per un modello annunciato a febbraio dello stesso anno.
A peggiorare le cose, non è stato rilasciato alcun report per Gemini 2.5 Flash, un modello più piccolo ed efficiente presentato di recente. Un portavoce ha assicurato che un documento è “in arrivo”.
“Spero che questo sia un segnale che Google inizierà a pubblicare aggiornamenti più frequenti”, ha auspicato Woodside, sottolineando che “questi aggiornamenti dovrebbero includere i risultati delle valutazioni per i modelli che non sono ancora stati implementati pubblicamente, poiché anche questi potrebbero comportare seri rischi.”
Google, pur essendo stata tra le prime a proporre report standardizzati per i modelli AI, non è l’unica ad essere finita nel mirino per promesse di trasparenza non mantenute. Anche Meta ha rilasciato una valutazione sulla sicurezza piuttosto superficiale per i suoi nuovi modelli Llama 4 open source, mentre OpenAI ha optato per il silenzio sulla sua serie GPT-4.1.
Tutto questo avviene mentre Google deve fare i conti con le rassicurazioni fornite alle autorità di regolamentazione, promettendo standard elevati di AI safety testing e reporting. Due anni fa, l’azienda aveva dichiarato al governo statunitense che avrebbe pubblicato safety report per tutti i modelli AI pubblici “significativi” “rientranti nell’ambito”, promessa poi ribadita con impegni simili verso altri paesi, con l’obiettivo di “fornire trasparenza pubblica” sui prodotti AI.
Kevin Bankston, senior adviser sulla AI governance presso il Center for Democracy and Technology, definisce questa tendenza a report sporadici e vaghi una vera e propria “corsa al ribasso” sulla AI safety.
“Insieme alle notizie secondo cui laboratori concorrenti come OpenAI hanno ridotto il loro safety testing time prima del rilascio da mesi a giorni, questa magra documentazione per il top AI model di Google racconta una storia preoccupante di una corsa al ribasso sulla AI safety e sulla trasparenza, mentre le aziende si affrettano a immettere i loro modelli sul mercato”, ha concluso Bankston.
Google, dal canto suo, ribadisce di condurre safety testing e “adversarial red teaming” per i modelli prima del rilascio, anche se questi dettagli non sono inclusi nei suoi technical report.