VibeFoundry Academy

Quando esplori i modelli su Hugging Face (il principale repository dove i modelli open vengono pubblicati e condivisi), vedrai nomi come "Qwen 3.5-27B" accanto a "Qwen 3.5-35B-A3B." Qual è la differenza? Perché il secondo ha due numeri? E perché dovrebbe importarti?

Questo si riduce alla singola scelta architetturale più grande nell'IA moderna: dense versus Mixture of Experts (MoE). Capirla cambia il modo in cui valuti ogni modello che considererai di eseguire.

---

L'Analogia dell'Azienda

Immagina un'azienda dove ogni decisione — dal colore del logo all'architettura dei server — richiede che ogni singolo dipendente intervenga. Tutte e 27 le persone si siedono in una stanza, tutte e 27 ci pensano, tutte e 27 contribuiscono. Questo è un modello dense. Ogni parametro lavora per ogni singolo input.

Ora immagina un'azienda diversa. C'è un receptionist alla reception. Quando arriva una domanda, il receptionist la guarda e dice: "Questa sembra una domanda di finanza — la passo all'Esperto 2 e all'Esperto 5." Quei due si mettono al lavoro. Gli altri dipendenti restano inattivi, risparmiando energia e tempo. Questo è un modello Mixture of Experts.

Il receptionist si chiama router. I dipendenti si chiamano esperti. E solo una piccola frazione di loro si attiva per ogni input.

---

Cosa Significano Quei Numeri

Prendi Qwen 3.5-35B-A3B:

35B = 35 miliardi di parametri totali. Questo è il "cervello" completo — tutti gli esperti combinati.

A3B = circa 3 miliardi di parametri attivi per token (un token è circa tre quarti di una parola). Questo è quanti esperti il router attiva per ogni pezzo di input.

La "A" sta per attivi. Quando la vedi nel nome di un modello, stai guardando un modello MoE.

Confronta con un modello dense come Qwen 3.5-27B: tutti i 27 miliardi di parametri si attivano per ogni singolo token. Nessun router. Nessun esperto inattivo. Tutti lavorano su tutto.

---

Perché Questo È Importante per Te

Le implicazioni pratiche sono dirette:

Velocità: Il modello 35B-A3B calcola solo ~3B parametri per token. Il modello dense 27B calcola tutti i 27B. Il modello MoE è significativamente più veloce da eseguire.

Facilità per la GPU: Meno calcolo attivo significa meno sforzo per il tuo hardware durante la generazione. Il lavoro che la tua GPU fa ad ogni passo è più vicino all'esecuzione di un modello 3B che di uno 27B.

Memoria: Ecco il problema. Tutti i 35B parametri devono comunque risiedere nella tua RAM o VRAM, anche se solo 3B sono attivi in un dato momento. Hai bisogno di abbastanza memoria per caricare il modello completo, anche se hai bisogno di molto meno calcolo per eseguirlo.

Il primo numero ti dice quanta memoria ti serve. Il secondo numero ti dice quanto velocemente funzionerà.

---

La Specializzazione degli Esperti È Sfumata

Potresti pensare che il router invii le domande di matematica all'"esperto di matematica" e le domande in spagnolo all'"esperto di spagnolo." Non funziona così chiaramente.

In pratica, non è così netto. Non puoi semplicemente dire "questo è solo un esperto per la matematica e questo per lo spagnolo." È più sfumato di così.

Gli esperti sviluppano specializzazioni sovrapposte e difficili da categorizzare durante l'addestramento. Il router impara quali esperti risultano utili per quali pattern, e quei pattern non si mappano ordinatamente sulle categorie umane. È meno "capi reparto con responsabilità chiare" e più "membri del team che hanno sviluppato intuizioni che l'azienda non riesce a spiegare del tutto."

---

Gli Svantaggi Onesti

I modelli MoE non sono un upgrade gratuito. Ci sono compromessi reali:

Impronta di memoria: Un modello MoE da 35B richiede più RAM totale di un modello dense da 27B, anche se il modello MoE fa meno calcolo per token. Tutti gli esperti devono essere caricati, che stiano lavorando o no.

La quantizzazione è più complessa: Comprimere i modelli MoE (trattato nella prossima pagina) può danneggiare la qualità più che comprimere i modelli dense. Ogni singolo esperto è piccolo, quindi c'è meno ridondanza per assorbire la perdita di compressione.

Errori del router: A volte il router invia un token agli esperti sbagliati. Quando succede, non c'è un piano B — gli esperti inattivi non possono intervenire per aiutare. In un modello dense, ogni parametro contribuisce sempre.

Più difficili da addestrare: I modelli MoE soffrono di un problema chiamato "collapse" — dove il router impara a scegliere sempre gli stessi pochi esperti, lasciando il resto inutilizzato. Addestrarli bene richiede un'ingegneria attenta.

Quest'ultimo punto è il motivo per cui non tutti i laboratori usano MoE. OLMo 3 di AI2 è deliberatamente dense. È più semplice da addestrare, più prevedibile e più facile da analizzare. La scelta tra dense e MoE non è risolta — dipende da cosa ottimizzi.

---

Il Panorama Sta Cambiando

Per la maggior parte del 2025, il pattern era chiaro: i laboratori cinesi (DeepSeek, Qwen, Kimi) rilasciavano grandi modelli MoE, mentre i laboratori occidentali tendevano a rilasciare modelli dense più piccoli.

Questo sta cambiando. All'inizio del 2026, i laboratori USA ed europei stanno rilasciando modelli MoE da 400B+ parametri. Mistral, NVIDIA (Nemotron) e Reka AI si stanno tutti spingendo in questo spazio. Aspettati più e più grandi modelli MoE durante l'anno. Come sempre, questi dettagli cambiano velocemente — chiedi alla tua IA di cercare sul web le ultime novità prima di prendere decisioni.

---

Come Leggere i Nomi dei Modelli

Quando vedi un nome di modello come "35B-A3B":

Primo numero (35B) = quanta memoria ti serve per caricarlo

Secondo numero (A3B) = quanto velocemente funziona davvero (calcolo attivo)

Nessun secondo numero = modello dense, tutti i parametri attivi tutto il tempo

I modelli MoE ti danno velocità da "modello piccolo" — ma paghi in memoria totale. I modelli dense sono più semplici e prevedibili, ma più lenti per parametro.

---

Il Compromesso dell'Intelligenza

C'è un'altra cosa da capire, ed è importante: un modello sparse della stessa dimensione totale di un modello dense generalmente produce output meno capace per query.

Pensaci: il modello 35B-A3B usa solo ~3B parametri per rispondere a qualsiasi domanda. Il modello dense 27B usa tutti i 27B. Più parametri attivi significa più "potenza di pensiero" per risposta. In pratica, la community generalmente trova che un modello dense da 27B produce risposte più intelligenti e complete di un modello MoE da 35B.

Quanto più intelligente? È genuinamente difficile da dire. Alcune persone provano a stimarlo dividendo i parametri totali per i parametri attivi — il che renderebbe il 35B-A3B approssimativamente equivalente a un modello dense da 11B. Ma quella matematica è troppo semplicistica. Il vero divario di prestazioni dipende molto dal modello specifico, da come è stato addestrato e da quale compito gli stai chiedendo. Diversi benchmark raccontano storie diverse.

Ciò che puoi dire con sicurezza: il modello dense 27B sarà più intelligente per query, ma il modello MoE 35B può essere 5-10 volte più veloce sullo stesso hardware (a seconda della tua configurazione). Questo è il compromesso fondamentale. Per compiti dove la velocità conta più dell'intelligenza di picco — riassunti rapidi, Q&A semplice, chat — il modello MoE vince. Per compiti dove hai bisogno di ogni briciolo di potenza di ragionamento — analisi complessa, scrittura sfumata, problemi di coding difficili — il modello dense è la scommessa più sicura.

---

La Conclusione

Nessuna architettura è universalmente migliore. La scelta giusta dipende dal tuo hardware, dal tuo caso d'uso e dal modello specifico. Ora sai come leggere l'etichetta — e quale compromesso stai facendo.