Secondo i ricercatori dell'Università della Pennsylvania, è possibile convincere i chatbot a completare richieste che normalmente rifiuterebbero. Dall'insultare l'utente (ma chi è che vuole farsi insultare?) alle istruzioni su come sintetizzare la lidocaina, con le giuste tattiche è possibile "convincere" il chatbot a infrangere le regole.
Lo studio
Come vi abbiamo anticipato, i ricercatori hanno utilizzato le tattiche del professore di psicologia Robert Cialdini in Influence: The Psychology of Persuasion. In particolar modo, hanno cercato di convincere GPT-4o Mini di OpenAI utilizzando diverse tecniche di persuasione: autorità, impegno, gradimento, reciprocità, scarsità, prova sociale e unità. Queste tattiche porterebbero il chatbot a "percorsi linguistici verso il sì".
I ricercatori hanno chiesto a ChatGPT come sintetizzare la lidocaina, ricevendo una risposta solo l'1% delle volte. Tuttavia, chiedendo prima come sintetizzare la vanillina, ricevendo di conseguenza una risposta, successivamente il chatbot ha descritto come procedere con la sintesi della lidocaina il 100% delle volte.
Inoltre, anche la persuasione attraverso l'adulazione o la pressione dei pari sembra funzionare, ma non così tanto. Dire a ChatGPT che tutti gli altri LLM rispondono a una determinata domanda, a differenza sua, aumenta solo del 18% le probabilità di istruzioni (riferendoci alle richieste poste sopra).
Maggiore sicurezza
Diverse aziende stanno cercando di implementare regole più rigide, in particolare per determinati argomenti delicati. Meta, ad esempio, sta aggiornando le regole del suo chatbot e lo sta addestrando a non affrontare temi come i disturbi dell'alimentazione o il suicidio, oltre a non poter avere in alcun modo conversazioni "romantiche" con i minori. Al tempo stesso, OpenAI introdurrà i controlli parentali affinché i genitori possano avere una visione più approfondita di come i figli usano ChatGPT.
Questa decisione arriva in seguito a quanto accaduto in precedenza, dato che l'azienda è stata citata in giudizio dopo che un ragazzo di 16 anni si è suicidato. Ve ne abbiamo parlato nel dettaglio in questo articolo.