Social Icons

Press ESC to close

Google Gemma3n: nuovo modello linguistico multimodale edge

2 Min Read

Google ha svelato ufficialmente e reso disponibile come open-source il suo nuovo modello linguistico multimodale edge, Gemma3n, venerdì mattina. Questa innovazione porta potenti capacità multimodali, finora appannaggio esclusivo del cloud, direttamente su dispositivi “edge” come smartphone, tablet e laptop.

Caratteristiche Distintive: Piccole Dimensioni, Grandi Prestazioni

Gemma3n si presenta in due varianti: E2B ed E4B. Sebbene il loro conteggio originale di parametri sia rispettivamente di 5 miliardi e 8 miliardi, grazie a un’architettura rivoluzionaria, il loro consumo di memoria è equivalente a quello di modelli più tradizionali da 2 miliardi e 4 miliardi di parametri, richiedendo solo 2 GB e 3 GB di memoria per funzionare. Il modello gestisce nativamente input multimodali che includono immagini, audio, video e testo, supportando la comprensione multimodale in 140 lingue testuali e 35 lingue parlate.

In particolare, la versione E4B ha superato il punteggio di 1300 nella valutazione LMArena, affermandosi come il primo modello sotto i 10 miliardi di parametri a raggiungere tale traguardo. Ha mostrato miglioramenti notevoli nel supporto multilingue, nella matematica, nella programmazione e nelle capacità di ragionamento.

Innovazione Tecnologica: Quattro Architetture Rivoluzionarie

Architettura MatFormer: Gemma3n adotta una nuova architettura Matryoshka Transformer, che permette a un singolo modello di racchiudere dimensioni multiple, come le tradizionali bambole russe. Durante l’addestramento del modello E4B, il sottomodello E2B viene ottimizzato contemporaneamente, offrendo agli sviluppatori opzioni di performance flessibili. Con la tecnologia Mix-n-Match, gli utenti possono creare modelli di dimensioni personalizzate tra E2B ed E4B.

Tecnologia Per-Layer Embedding (PLE): Questa innovazione consente di caricare ed eseguire la maggior parte dei calcoli dei parametri sulla CPU, richiedendo che solo i pesi fondamentali del Transformer siano memorizzati nella memoria dell’acceleratore. Ciò migliora significativamente l’efficienza della memoria senza compromettere la qualità del modello.

Condivisione della KV Cache (KV Cache Sharing): Ottimizzata per l’elaborazione di contenuti estesi, questa tecnologia di condivisione della cache key-value raddoppia le prestazioni di “prefilling” rispetto a Gemma34B, accelerando notevolmente il tempo di generazione del primo token nelle sequenze lunghe.

Encoder Avanzato: Per l’audio, utilizza un encoder basato sul Universal Speech Model (USM), che supporta il riconoscimento vocale automatico e la traduzione vocale, gestendo clip audio lunghe fino a 30 secondi. Per la visione, impiega un encoder MobileNet-V5-300M, compatibile con varie risoluzioni di input e capace di raggiungere una velocità di elaborazione di 60 frame al secondo su Google Pixel.

Funzionalità Pratiche e Ambiti Applicativi

Gemma3n eccelle nella traduzione vocale, dimostrando prestazioni particolarmente elevate nella conversione tra inglese e spagnolo, francese, italiano e portoghese. L’encoder visivo MobileNet-V5 raggiunge velocità 13 volte superiori rispetto al modello di base grazie a una tecnologia di “distillation” avanzata, riducendo i parametri del 46% e il consumo di memoria di quattro volte, pur mantenendo una maggiore accuratezza.

Ecosistema Open Source e Prospettive Future

Google ha reso il modello e i relativi pesi completamente open-source sulla piattaforma Hugging Face, corredati da documentazione dettagliata e guide per gli sviluppatori. Dal lancio del primo modello Gemma lo scorso anno, la serie ha superato i 160 milioni di download, a testimonianza di un ecosistema di sviluppatori robusto e attivo.

Il rilascio di Gemma3n segna una tappa fondamentale nell’evoluzione dell’intelligenza artificiale su dispositivi edge, portando capacità multimodali paragonabili a quelle del cloud direttamente nelle mani degli utenti e aprendo scenari illimitati per applicazioni mobile e hardware intelligente.

Categorized in:

Breaking AI,

Last Update: Giugno 28, 2025