Nonostante i progressi, le allucinazioni restano un tallone d'Achille per i modelli linguistici come GPT-5. Lo ammette la stessa OpenAI in un nuovo lavoro di ricerca, dove le definisce come "affermazioni plausibili ma false" prodotte dai chatbot. Il problema, spiegano i ricercatori, non potrà mai essere completamente eliminato: i modelli imparano a prevedere la parola successiva, ma senza alcuna etichetta che distingua vero e falso.
Perché i modelli inventano risposte
L'effetto si nota soprattutto su fatti rari o arbitrari, come la data di nascita di una persona poco nota. In questi casi non esistono pattern statistici forti e l'algoritmo tende a generare risposte sbagliate ma convincenti. Per OpenAI, però, il nodo cruciale non è solo nel pretraining: gli attuali sistemi di valutazione creano incentivi errati.
Gli studiosi paragonano la situazione a un test a scelta multipla in cui vale la pena tirare a indovinare: se si lascia la risposta vuota si prende zero, mentre provando si può avere fortuna. Allo stesso modo, quando le metriche premiano solo la percentuale di risposte esatte, il modello impara a "sparare" sempre una risposta, anche a rischio di sbagliare clamorosamente.
Una proposta per cambiare le regole
La proposta è ribaltare l'approccio: introdurre schemi di valutazione che penalizzino di più gli errori pronunciati con sicurezza, concedendo invece credito parziale a risposte incerte o dichiarazioni come "non lo so". Così come avviene in alcuni test standardizzati (ad esempio il SAT), in cui lasciare in bianco conviene più che tentare a caso.
Secondo i ricercatori, non basta aggiungere qualche nuovo benchmark che tenga conto dell'incertezza: serve aggiornare le valutazioni più diffuse, quelle che fanno da "classifica" per i modelli. Finché i punteggi premieranno le risposte fortunate, concludono, i sistemi continueranno a comportarsi come studenti che indovinano per caso. A questo link trovate la ricerca.