Caricamento...
Quando qualcuno dice di aver "addestrato un modello," sembra una cosa singola. Non lo è. I modelli IA moderni passano attraverso tre fasi distinte, e ognuna si basa sulla precedente. Capirle cambia il modo in cui valuti quale modello scaricare ed eseguire.
La migliore analogia: scuola, università e primo lavoro.
---
Questa è la fase in cui il modello legge tutto. Trilioni di token di testo — libri, siti web, articoli, codice, conversazioni. L'obiettivo è semplice: predire la parola successiva. Più e più volte, miliardi di volte.
È come passare dodici anni a scuola. Assorbi una quantità enorme di conoscenza in ogni materia. Non sei ancora specializzato. Non potresti fare un lavoro particolare. Ma hai una base ampia su cui tutto il resto si costruirà.
La scala qui è difficile da sovrastimare. Le sessioni di pre-training possono costare milioni di dollari in calcolo e richiedere settimane o mesi su migliaia di GPU. Ma il risultato è un modello che "sa" una quantità enorme sul mondo — semplicemente non sa ancora come usare bene quella conoscenza.
Una cosa che conta più di quanto la gente realizzi: la qualità dei dati. Non è solo questione di quanto il modello legge, ma di quanto è buono quel materiale. Se entri in un laboratorio di frontiera e vuoi avere impatto, il modo migliore per farlo è trovare nuovi dati migliori.
Una nota sui dati sintetici — non sono dati falsi. Di solito significa prendere contenuto reale e riformularlo per un apprendimento migliore. Pensala come trasformare un libro di testo denso in piani di lezione ben strutturati. L'informazione è reale; il formato è ottimizzato.
---
Stesso approccio di apprendimento di base del pre-training, ma ora i dati sono curati e specializzati. Il modello passa dal "leggi tutto" al "concentrati su ciò che conta."
Questa fase è relativamente nuova — era scomodo avere "pre-training" e "post-training" senza nulla nel mezzo, quindi il campo ha dato un nome a ciò che stava già succedendo. Il mid-training tipicamente include documenti a contesto lungo (non ce ne sono abbastanza per includerli nel pre-training generale, quindi hanno una fase propria) e materiale pesante di ragionamento per preparare il modello alla fase successiva.
Pensala come l'università. Hai finito la tua formazione ampia. Ora ti concentri sulle materie che contano per la tua carriera. L'ultima cosa che il modello vede prima di andare avanti è il materiale di qualità.
---
Il modello ha la conoscenza. Ora impara a usarla effettivamente.
Il post-training ha tre componenti principali:
Supervised Fine-Tuning (SFT) — Il fine-tuning significa prendere un modello addestrato e insegnargli qualcosa di più specifico — come la formazione sul lavoro dopo la scuola. Nel SFT, mostri al modello migliaia di esempi: "Quando un utente chiede X, una buona risposta assomiglia a Y." Questo è ciò che trasforma un motore grezzo di predizione in qualcosa che sembra un assistente.
RLHF (Reinforcement Learning from Human Feedback) — Gli umani valutano le risposte del modello. Il modello impara cosa preferiscono le persone in termini di stile, tono, formattazione e utilità. È per questo che i modelli moderni sembrano più curati rispetto ai modelli base grezzi. Ma RLHF ha dei limiti — si satura rapidamente. Le preferenze umane convergono verso una media, e c'è solo un certo segnale da estrarre.
RLVR (Reinforcement Learning with Verifiable Rewards) — Questa è la svolta del 2025 che ha cambiato tutto.
---
L'idea è elegante. Dai al modello problemi dove puoi verificare se la risposta è giusta — problemi matematici, sfide di coding, puzzle logici. Lasci che il modello provi molti approcci. Rinforzi quelli che funzionano.
Ciò che succede è notevole. Il modello sviluppa spontaneamente il ragionamento passo dopo passo. Inizia a trovare i propri errori: "Aspetta, questo non torna — riproviamo." Questi comportamenti non sono stati insegnati esplicitamente. Il modello li ha imparati perché lo aiutavano a ottenere più risposte giuste.
Un esperimento impressionante dimostra la potenza di RLVR. I ricercatori hanno preso il modello base Qwen 3 — prima di qualsiasi post-training — e otteneva il 15% in un benchmark di matematica. Dopo soli 50 passi RLVR (pochi minuti di addestramento), è saltato al 50% di accuratezza.
La conoscenza era già lì dal pre-training. RLVR l'ha semplicemente sbloccata.
Questa è l'intuizione chiave: il post-training RL è lo sblocco delle competenze, dove il pre-training è l'assorbimento della conoscenza. È come uno studente che ha studiato il libro di testo ma non ha mai fatto pratica con gli esami. Dagli qualche prova pratica con le risposte corrette, e le sue prestazioni saltano — non perché ha imparato nuovo materiale, ma perché ha imparato come applicare ciò che già sapeva.
A differenza di RLHF, che si satura rapidamente, RLVR può continuare a scalare. Problemi più difficili continuano a fornire segnale. C'è una relazione prevedibile tra il calcolo speso per RLVR e i guadagni di prestazione. È per questo che i laboratori ci investono sempre più risorse.
---
Quando scarichi un modello, stai ottenendo il risultato di tutte e tre le fasi. Ma non tutti i modelli le attraversano ugualmente bene.
Un modello con eccellente pre-training ma post-training pigro "saprà" cose ma farà fatica ad aiutarti. Un modello con RLVR approfondito sembrerà più acuto, più attento, migliore nei compiti complessi — anche se il modello base è della stessa dimensione.
Questo è uno dei motivi per cui i modelli più piccoli continuano a migliorare senza crescere. I guadagni non vengono più solo dalla scala. Vengono da dati di addestramento migliori, mid-training più intelligente e post-training più sofisticato. Un modello da 7B ben post-addestrato nel 2026 è drasticamente migliore di un modello da 7B del 2024 — stessa dimensione, educazione diversa.
Quando sceglierai tra modelli nei moduli successivi, ricorda: la dimensione ti dice la capacità. La qualità dell'addestramento ti dice quanta di quella capacità è effettivamente utilizzabile.