Moonshot AI ha rilasciato oggi la versione definitiva di Kimi K2.6. E i numeri sono secchi: su SWE-Bench Pro, il benchmark che misura la capacità di risolvere bug reali su repository GitHub, K2.6 segna 58.6. GPT-5.4 si ferma a 57.7. Claude Opus 4.6 a 53.4. È la prima volta che un modello open source cinese supera i competitor americani su quello che è considerato il test più onesto per il software engineering.
Su Humanity’s Last Exam con strumenti, il test che valuta quanto un sistema AI sa destreggiarsi in autonomia con fonti esterne, il distacco è analogo: 54.0 per K2.6, 53.0 per Claude Opus 4.6, 52.1 per GPT-5.4, 51.4 per Gemini 3.1 Pro. E su DeepSearchQA la differenza si allarga: 92.5 contro 78.6 di GPT-5.4.
I punteggi sui benchmark raccontano solo metà della storia. Quello che distingue K2.6 da ogni altro modello open source sul mercato è l’infrastruttura di esecuzione: è il primo pensato per lavorare fino a 12 ore consecutive, con 300 sub-agenti paralleli che coordinano 4.000 step in una singola sessione. La versione precedente, K2.5, gestiva 100 agenti e 1.500 step. Moonshot ha triplicato la capacità operativa in una generazione.
L’architettura e il layer di esecuzione
L’ossatura del modello non è cambiata da luglio 2025: un Mixture of Experts da un trilione di parametri totali, 32 miliardi attivati per token, 384 esperti di cui 8 selezionati per ogni token più uno condiviso sempre attivo. Contesto fino a 262.144 token. L’architettura è la stessa di K2.5, il che significa che chi aveva già configurato pipeline sulla versione precedente può riutilizzare pesi e configurazioni senza modifiche.
Quello che Moonshot ha rifatto è il sistema di esecuzione. Tre componenti fanno la differenza. La compressione automatica del contesto: dopo ore di lavoro continuo, il modello riassume e pota il proprio storico per evitare il collasso cognitivo. Le primitive native per l’orchestrazione di sciami di agenti, che gestiscono spawn, scheduling e riconciliazione senza bisogno di framework esterni. E il meccanismo di autonomia proattiva: quando il modello rileva di essere in un vicolo cieco, rielabora il piano o chiede chiarimenti invece di produrre output inventati. È il problema numero uno nei modelli per coding, e Moonshot lo ha affrontato in modo strutturale.
I casi reali: dodici ore di coding autonomo
Moonshot ha pubblicato due casi di studio che mostrano il modello al lavoro su problemi non banali. Nel primo, K2.6 ha scaricato un modello di linguaggio (Qwen3.5-0.8B) e ne ha implementato l’inference in Zig, un linguaggio di programmazione di nicchia con pochissimi dati di training disponibili. Dodici ore di esecuzione continua, oltre 4.000 tool call, 14 iterazioni. Risultato: un throughput di circa 193 token per secondo, il 20% più veloce di LM Studio sulla stessa macchina. La scelta di Zig è significativa: un modello addestrato soprattutto su Python e JavaScript non dovrebbe sapere ottimizzare codice in un linguaggio con una community così piccola. E invece ha funzionato.
Nel secondo caso, K2.6 ha riscritto exchange-core, un engine finanziario open source con 8 anni di storia. Tredici ore, 1.000 tool call, 4.000 righe di codice modificate. Il modello ha analizzato flame graph di CPU e allocazione, ha riconfigurato la topologia dei thread da 4ME+2RE a 2ME+1RE, e ha ottenuto un aumento del 185% nel throughput medio e del 133% in quello di picco. Senza rompere gli invarianti di matching. È il tipo di intervento che normalmente richiede un senior engineer con settimane di familiarità con il codebase.
Il contesto competitivo
Lo swarm di agenti è dove K2.6 prende più distanza dalla concorrenza.
Moonshot ha dimostrato casi come la generazione di 100 CV personalizzati partendo da un profilo e 100 annunci di lavoro in California, o la creazione di landing page per 30 negozi a Los Angeles senza sito web, identificati direttamente da Google Maps. Su BrowseComp con agent swarm, K2.6 arriva a 86.3 contro il 78.4 della versione precedente.
I dati di validazione esterna arrivano da aziende che usano il modello in produzione. Vercel segnala un miglioramento superiore al 50% sul suo benchmark interno Next.js. Factory.ai riporta +15% su entrambi i benchmark valutati. CodeBuddy parla di +12% sulla accuratezza di generazione del codice, +18% sulla stabilità in contesti lunghi, e un tasso di successo nelle chiamate agli strumenti al 96.6%. Baseten lo definisce comparabile ai modelli closed source leader.
Per gli sviluppatori che usano Claude, un dettaglio pratico: l’API di K2.6 è compatibile con il formato Anthropic. Basta cambiare l’endpoint base per un primo test, senza riscrivere i prompt.
Non è tutto perfetto. Sui benchmark di puro ragionamento, GPT-5.4 e Gemini 3.1 Pro mantengono un vantaggio chiaro: AIME 2026 vede GPT-5.4 al 99.2% contro il 96.4% di K2.6, e GPQA-Diamond è dominato da Gemini 3.1 Pro al 94.3%. K2.6 gioca le sue carte migliori sul territorio pratico e commerciale, non su quello della matematica competitiva.
La traiettoria della famiglia K2 è regolare: una major release ogni 2-3 mesi da luglio 2025, con K2.6 passato da preview a GA in soli 8 giorni. I pesi sono disponibili su Hugging Face sotto licenza Modified MIT. Secondo i dati di OpenRouter, i modelli cinesi open source hanno già superato quelli americani nell’adozione effettiva da parte degli sviluppatori, con picchi di uso sostenuti che indicano adozione in produzione reale.
K2.6 non è l’arrivo. È l’infrastruttura che Moonshot prepara per quando K3 atterrerà.