Caricamento...
Ecco la scomoda verità su questo corso: la maggior parte delle raccomandazioni specifiche di modelli nei Moduli 2-6 sarà obsoleta entro mesi.
Non è un difetto. È la natura di questo campo. Il panorama dell'IA open source si muove così velocemente che qualsiasi istantanea diventa vecchia rapidamente. I concetti che hai imparato non invecchiano. MoE, quantizzazione, benchmark, leggi di scala, la pipeline di addestramento, come leggere una model card — quelli restano rilevanti per anni. I modelli specifici cambiano. Il framework per valutarli no.
Questa pagina ti dà le fonti e le abitudini per restare aggiornato da solo.
---
Non tutte le fonti sono uguali. Ecco l'ordine in cui dovresti controllarle, dalla più affidabile alla più rumorosa.
1. Artificial Analysis (artificialanalysis.ai) — la tua prima fermata
Benchmark indipendenti, confronti di prezzo, misurazioni di velocità, punteggi di qualità — tutto in un posto. Quando esce un nuovo modello e vuoi sapere se è davvero buono, inizia qui. Testano i modelli loro stessi piuttosto che affidarsi a numeri auto-dichiarati. Aggiungilo ai preferiti oggi.
2. Hugging Face Trending — cosa c'è di nuovo
La pagina trending su Hugging Face ti mostra quali modelli la community sta scaricando e di cui sta parlando adesso. Non è un segnale di qualità (popolare non significa buono), ma ti dice cosa esiste. Quando vedi un modello di tendenza, porta il nome su Artificial Analysis e guarda come performa effettivamente.
3. r/LocalLLaMA su Reddit — il segnale della community
È qui che i professionisti condividono esperienze reali. Quando un grande gruppo di persone è entusiasta di un modello su molteplici thread, quel segnale è significativo. Quando una persona afferma che un modello 4B "supera Opus," quello è rumore. Segui il sentimento della folla, non le affermazioni degli individui. Scorri i titoli anche se non leggi ogni post — noterai subito quando qualcosa di genuinamente importante esce.
4. Chatbot Arena (lmarena.ai) — confronto qualità affidabile
Utenti reali confrontano modelli testa a testa in test alla cieca. Il modello che preferiscono riceve un punto. Su migliaia di confronti, questo produce un ranking ELO che è difficile da manipolare. È la cosa più vicina che abbiamo a un confronto onesto e su larga scala della qualità. Controllalo quando vuoi sapere come un modello si sente effettivamente a usare, non solo come punteggia nei benchmark.
---
Se prendi una sola cosa dall'intero corso, che sia questa: quando chiedi a un'IA informazioni sui modelli IA, falle sempre cercare prima sul web.
Questo campo si muove così velocemente che i modelli IA — inclusi i migliori — basano le loro risposte su dati di addestramento che possono essere vecchi di mesi. Un modello rilasciato la settimana scorsa potrebbe già essere la scelta consensuale della community, ma Claude non lo saprà a meno che non cerchi online.
Digli di cercare. Ogni volta. "Cerca sul web il miglior modello open source per il coding in questo momento" ti darà una risposta fondamentalmente diversa da chiedere senza ricerca. La risposta senza ricerca sarà sicura e sbagliata. La risposta con ricerca sarà attuale e utile.
Questo si applica a ogni domanda su modelli specifici, prezzi, benchmark e hardware. I concetti sono stabili. I dettagli no.
---
Esce un nuovo modello. I thread su Reddit ribollono. Prima di entusiasmarti, passa attraverso queste domande:
Chi l'ha rilasciato? Laboratori con un forte track record (DeepSeek, Qwen, Meta, Mistral, AI2) tendono a produrre modelli che mantengono le promesse. Laboratori sconosciuti occasionalmente producono qualcosa di buono, ma il tasso di successo è più basso. Non si tratta di gatekeeping — si tratta del tuo tempo.
Ci sono benchmark indipendenti? I numeri auto-dichiarati dal laboratorio che rilascia sono materiale di marketing. Aspetta che Artificial Analysis, Chatbot Arena o la community eseguano i propri test. Se gli unici benchmark disponibili sono dal laboratorio stesso, aspetta.
Cosa dice la community dopo una o due settimane? Il ciclo di hype del primo giorno è inaffidabile. Le persone testano sui loro prompt preferiti selezionati e dichiarano vittoria o sconfitta. Dai una o due settimane. I professionisti che integrano effettivamente i modelli nei loro flussi di lavoro faranno emergere punti di forza e debolezza reali.
Risolve un problema che hai effettivamente? Questa è la domanda che ti fa risparmiare più tempo. Un nuovo modello che è il 5% migliore in matematica ma tu non fai mai compiti di matematica — non vale la tua attenzione. Un modello che è leggermente migliore nella cosa specifica che fai ogni giorno — vale la pena investigare immediatamente.
Puoi provarlo tramite API prima? Prima di scaricare un file modello da 20GB e configurare il tuo setup locale, provalo tramite OpenRouter o un altro provider. Cinque minuti e pochi centesimi ti diranno più di qualsiasi tabella di benchmark.
---
Non devi monitorare queste fonti quotidianamente. Una volta al mese è sufficiente per la maggior parte delle persone. Il panorama non cambia così velocemente quando fai zoom out dal rumore quotidiano.
Un ritmo ragionevole:
Ora hai quel framework.