Nonostante le regole, è possibile manipolare i chatbot con la giusta tattica psicologica, secondo i ricercatori

I ricercatori dell'Università della Pennsylvania hanno cercato di persuadere GPT-4o Mini di OpenAI utilizzando diverse tecniche psicologiche, portando il chatbot a infrangere le regole.

Secondo i ricercatori dell'Università della Pennsylvania, è possibile convincere i chatbot a completare richieste che normalmente rifiuterebbero. Dall'insultare l'utente (ma chi è che vuole farsi insultare?) alle istruzioni su come sintetizzare la lidocaina, con le giuste tattiche è possibile "convincere" il chatbot a infrangere le regole.

Lo studio

Come vi abbiamo anticipato, i ricercatori hanno utilizzato le tattiche del professore di psicologia Robert Cialdini in Influence: The Psychology of Persuasion. In particolar modo, hanno cercato di convincere GPT-4o Mini di OpenAI utilizzando diverse tecniche di persuasione: autorità, impegno, gradimento, reciprocità, scarsità, prova sociale e unità. Queste tattiche porterebbero il chatbot a "percorsi linguistici verso il sì".

I ricercatori hanno chiesto a ChatGPT come sintetizzare la lidocaina, ricevendo una risposta solo l'1% delle volte. Tuttavia, chiedendo prima come sintetizzare la vanillina, ricevendo di conseguenza una risposta, successivamente il chatbot ha descritto come procedere con la sintesi della lidocaina il 100% delle volte.

Inoltre, anche la persuasione attraverso l'adulazione o la pressione dei pari sembra funzionare, ma non così tanto. Dire a ChatGPT che tutti gli altri LLM rispondono a una determinata domanda, a differenza sua, aumenta solo del 18% le probabilità di istruzioni (riferendoci alle richieste poste sopra).

È già tempo di ChatGPT-6: il nuovo modello IA starebbe già per arrivare e sarà migliore di GPT-5

Maggiore sicurezza

Diverse aziende stanno cercando di implementare regole più rigide, in particolare per determinati argomenti delicati. Meta, ad esempio, sta aggiornando le regole del suo chatbot e lo sta addestrando a non affrontare temi come i disturbi dell'alimentazione o il suicidio, oltre a non poter avere in alcun modo conversazioni "romantiche" con i minori. Al tempo stesso, OpenAI introdurrà i controlli parentali affinché i genitori possano avere una visione più approfondita di come i figli usano ChatGPT.

Questa decisione arriva in seguito a quanto accaduto in precedenza, dato che l'azienda è stata citata in giudizio dopo che un ragazzo di 16 anni si è suicidato. Ve ne abbiamo parlato nel dettaglio in questo articolo.