Caricamento...
Quando esplori i modelli su Hugging Face (il principale repository dove i modelli open vengono pubblicati e condivisi), vedrai nomi come "Qwen 3.5-27B" accanto a "Qwen 3.5-35B-A3B." Qual è la differenza? Perché il secondo ha due numeri? E perché dovrebbe importarti?
Questo si riduce alla singola scelta architetturale più grande nell'IA moderna: dense versus Mixture of Experts (MoE). Capirla cambia il modo in cui valuti ogni modello che considererai di eseguire.
---
Immagina un'azienda dove ogni decisione — dal colore del logo all'architettura dei server — richiede che ogni singolo dipendente intervenga. Tutte e 27 le persone si siedono in una stanza, tutte e 27 ci pensano, tutte e 27 contribuiscono. Questo è un modello dense. Ogni parametro lavora per ogni singolo input.
Ora immagina un'azienda diversa. C'è un receptionist alla reception. Quando arriva una domanda, il receptionist la guarda e dice: "Questa sembra una domanda di finanza — la passo all'Esperto 2 e all'Esperto 5." Quei due si mettono al lavoro. Gli altri dipendenti restano inattivi, risparmiando energia e tempo. Questo è un modello Mixture of Experts.
Il receptionist si chiama router. I dipendenti si chiamano esperti. E solo una piccola frazione di loro si attiva per ogni input.
---
Prendi Qwen 3.5-35B-A3B:
Confronta con un modello dense come Qwen 3.5-27B: tutti i 27 miliardi di parametri si attivano per ogni singolo token. Nessun router. Nessun esperto inattivo. Tutti lavorano su tutto.
---
Le implicazioni pratiche sono dirette:
---
Potresti pensare che il router invii le domande di matematica all'"esperto di matematica" e le domande in spagnolo all'"esperto di spagnolo." Non funziona così chiaramente.
In pratica, non è così netto. Non puoi semplicemente dire "questo è solo un esperto per la matematica e questo per lo spagnolo." È più sfumato di così.
Gli esperti sviluppano specializzazioni sovrapposte e difficili da categorizzare durante l'addestramento. Il router impara quali esperti risultano utili per quali pattern, e quei pattern non si mappano ordinatamente sulle categorie umane. È meno "capi reparto con responsabilità chiare" e più "membri del team che hanno sviluppato intuizioni che l'azienda non riesce a spiegare del tutto."
---
I modelli MoE non sono un upgrade gratuito. Ci sono compromessi reali:
---
Per la maggior parte del 2025, il pattern era chiaro: i laboratori cinesi (DeepSeek, Qwen, Kimi) rilasciavano grandi modelli MoE, mentre i laboratori occidentali tendevano a rilasciare modelli dense più piccoli.
Questo sta cambiando. All'inizio del 2026, i laboratori USA ed europei stanno rilasciando modelli MoE da 400B+ parametri. Mistral, NVIDIA (Nemotron) e Reka AI si stanno tutti spingendo in questo spazio. Aspettati più e più grandi modelli MoE durante l'anno. Come sempre, questi dettagli cambiano velocemente — chiedi alla tua IA di cercare sul web le ultime novità prima di prendere decisioni.
---
Quando vedi un nome di modello come "35B-A3B":
---
C'è un'altra cosa da capire, ed è importante: un modello sparse della stessa dimensione totale di un modello dense generalmente produce output meno capace per query.
Pensaci: il modello 35B-A3B usa solo ~3B parametri per rispondere a qualsiasi domanda. Il modello dense 27B usa tutti i 27B. Più parametri attivi significa più "potenza di pensiero" per risposta. In pratica, la community generalmente trova che un modello dense da 27B produce risposte più intelligenti e complete di un modello MoE da 35B.
Quanto più intelligente? È genuinamente difficile da dire. Alcune persone provano a stimarlo dividendo i parametri totali per i parametri attivi — il che renderebbe il 35B-A3B approssimativamente equivalente a un modello dense da 11B. Ma quella matematica è troppo semplicistica. Il vero divario di prestazioni dipende molto dal modello specifico, da come è stato addestrato e da quale compito gli stai chiedendo. Diversi benchmark raccontano storie diverse.
Ciò che puoi dire con sicurezza: il modello dense 27B sarà più intelligente per query, ma il modello MoE 35B può essere 5-10 volte più veloce sullo stesso hardware (a seconda della tua configurazione). Questo è il compromesso fondamentale. Per compiti dove la velocità conta più dell'intelligenza di picco — riassunti rapidi, Q&A semplice, chat — il modello MoE vince. Per compiti dove hai bisogno di ogni briciolo di potenza di ragionamento — analisi complessa, scrittura sfumata, problemi di coding difficili — il modello dense è la scommessa più sicura.
---
Nessuna architettura è universalmente migliore. La scelta giusta dipende dal tuo hardware, dal tuo caso d'uso e dal modello specifico. Ora sai come leggere l'etichetta — e quale compromesso stai facendo.