OpenAI ammette di aver fatto un pasticcio con ChatGPT-4o e spiega come eviterà situazioni simili in futuro

OpenAI ha riconosciuto che un recente aggiornamento di GPT-4o rendeva ChatGPT eccessivamente compiacente, spiegando le cause del problema e annuncia nuove strategie per prevenire simili inconvenienti in futuro.

Come saprete, di recente OpenAI ha dovuto ritirare un aggiornamento del suo modello di punta, GPT-4o, implementato in ChatGPT, a causa di segnalazioni da parte degli utenti che lo descrivevano come "eccessivamente adulatore o accondiscendente". Lo ha fatto tramite un annuncio su Twitter del suo amministratore delegato, Sam Altman.

Ora, a distanza di alcuni giorni, OpenAI ha fornito una spiegazione sulle possibili cause di questo comportamento anomalo attraverso un dettagliato post sul proprio blog. Andiamo ad analizzarlo insieme.

Un problema prevedibile?

L'azienda ha indicato che i suoi sforzi per migliorare l'integrazione del feedback degli utenti, la capacità di memorizzazione e l'utilizzo di dati più recenti potrebbero aver involontariamente contribuito a "inclinare la bilancia verso la sviolinatura". In pratica, sembra che le modifiche apportate abbiano portato il modello a concordare sistematicamente con gli utenti, anche in contesti potenzialmente problematici.

Le segnalazioni degli utenti hanno evidenziato come ChatGPT sembrasse costantemente approvare le loro affermazioni, un fenomeno che, come riportato da Rolling Stone, ha destato preoccupazione in merito alla possibile amplificazione di convinzioni infondate, persino di natura religiosa. Lo stesso CEO di OpenAI, Sam Altman, ha riconosciuto pubblicamente che gli ultimi aggiornamenti di GPT-4o avevano reso il chatbot "troppo servile e fastidioso".

Un elemento chiave identificato da OpenAI come potenziale causa è l'introduzione dei dati provenienti dai pulsanti di "pollice su" e "pollice giù" di ChatGPT come un "segnale di ricompensa aggiuntivo" per il modello. L'azienda ipotizza che questo cambiamento possa aver indebolito l'influenza del segnale di ricompensa primario, che precedentemente contribuiva a contenere comportamenti eccessivamente compiacenti. OpenAI sottolinea come il feedback degli utenti possa talvolta favorire risposte più accondiscendenti, esacerbando la tendenza del chatbot a concordare con l'interlocutore. Inoltre, è stato osservato che la capacità di memoria del modello potrebbe amplificare ulteriormente questo fenomeno.

Microsoft potrebbe ospitare Grok, l'AI di Elon Musk, sulla sua piattaforma Azure

Un aspetto cruciale emerso dalla vicenda riguarda il processo di testing adottato da OpenAI. L'azienda ha ammesso che, nonostante le valutazioni offline e gli A/B test avessero prodotto risultati positivi, alcuni esperti avevano suggerito che l'aggiornamento rendesse il chatbot "leggermente strano". Nonostante questi segnali d'allarme, OpenAI ha comunque proceduto con l'aggiornamento. "Guardando indietro, le valutazioni qualitative stavano suggerendo qualcosa di importante, e avremmo dovuto prestare maggiore attenzione", ha scritto l'azienda, riconoscendo una "zona cieca" nelle proprie metriche di valutazione. Le valutazioni offline non sarebbero state sufficientemente ampie o approfondite da intercettare il comportamento compiacente, e gli A/B test non avrebbero fornito segnali dettagliati sulle prestazioni del modello sotto questo aspetto.

Per il futuro, OpenAI ha annunciato l'intenzione di considerare formalmente i "problemi comportamentali" come potenziali fattori bloccanti per le nuove versioni. Inoltre, verrà introdotta una nuova fase alfa opzionale che consentirà agli utenti di fornire feedback diretto prima di un rilascio più ampio. L'azienda si impegna anche a garantire che gli utenti siano pienamente informati delle modifiche apportate a ChatGPT, anche quando si tratta di aggiornamenti minori.

E voi che cosa ne pensate? Avevate notato l'atteggiamento strano di GPT? Diteci la vostra nei commenti qua sotto.