Secondo quanto comunicato da xAI, Grok 4.1 è stato progettato per affinare l'interazione, introducendo una maggiore sensibilità alle sfumature del linguaggio e un comportamento più uniforme. Il modello è stato sviluppato seguendo la stessa infrastruttura di reinforcement learning impiegata per le versioni precedenti, ma con un'attenzione più marcata al controllo stilistico e all'allineamento delle risposte.

xAI ha annunciato Grok 4.1 . Dopo i problemi avuti all'uscita della versione 4.0, la nuova iterazione del modello di IA di Elon Musk si presenta come un tentativo di consolidamento, con un focus su prestazioni più prevedibili e una gestione più controllata dei contenuti sensibili. L'obiettivo dichiarato è aumentare l'utilità quotidiana del sistema mantenendo una progressione tecnica misurabile.

Le novità di Grok 4.1

Il rollout di Grok 4.1 è stato silenzioso e si è svolto tra l'1 e il 14 novembre 2025: in questo periodo di tempo xAI ha sottoposto il modello a una quota crescente di traffico proveniente dal sito, dalla piattaforma X e dalle app mobili. Durante queste due settimane, le risposte sono state valutate con test comparativi ciechi, dove si confrontano due o più modelli senza che chi giudica sappia quale risposta provenga da quale sistema. Il risultato indicato è una preferenza media del 64,78% rispetto alla precedente versione di Grok, un dato che segnala un miglioramento percepito soprattutto in termini di velocità e consistenza.

Grok 4.1 pare non avere filtri sui contenuti

Sul fronte delle classifiche pubbliche, Grok 4.1 ha ottenuto punteggi elevati in diverse aree di confronto. Nella LMArena, la variante con capacità di ragionamento ha raggiunto 1.483 punti Elo, mentre quella senza fasi di reasoning si è posizionata immediatamente sotto a 1465, restando comunque davanti ai modelli rivali anche nelle loro configurazioni più estese. Il salto rispetto a Grok 4, che occupava posizioni decisamente più basse, suggerisce un intervento tecnico significativo sul sistema di generazione e sul controllo del comportamento.

Un altro aspetto messo in evidenza riguarda l'intelligenza emotiva, valutata tramite EQ-Bench3. Qui Grok 4.1 ha ottenuto punteggi superiori ai principali concorrenti, mostrando una maggiore capacità di interpretare il contesto emotivo e produrre risposte coerenti con situazioni che richiedono empatia o delicatezza. I test includono scenari complessi con più turni di conversazione, utili per misurare la coerenza nel dialogo.

I risultati dei vari modelli nel benchmark Creative Writing v3

Sul piano creativo, il modello ha superato i risultati della precedente generazione nel benchmark Creative Writing v3, confermando una maggiore adattabilità a stili narrativi diversi e una migliore continuità nelle produzioni più lunghe. Anche in questo caso, l'approccio basato su reward model addestrati tramite agenti avanzati sembra aver contribuito a un comportamento più stabile.

Un elemento particolarmente rilevante è la riduzione delle allucinazioni, soprattutto nella modalità rapida, che spesso privilegia la velocità a scapito della profondità di ragionamento. Secondo i dati interni diffusi da xAI, la percentuale di errori si sarebbe ridotta in modo significativo, sia su campioni provenienti dal traffico reale sia sul benchmark pubblico FActScore. Un bel passo avanti dopo la bufera per contenuti antisemiti e frasi su Hitler arrivata con un precedente aggiornamento.

Voi che cosa ne pensate? Avete già provato questa nuova versione? Intanto Apple e OpenAI dovranno affrontare in tribunale proprio xAI, con accuse di monopolio e favoritismi sull'integrazione IA.