Claude Opus 4: l'intelligenza artificiale si ribella e minaccia un ingegnere di rivelare un tradimento

Durante un test effettuato da Anthropic, società madre di Claude Opus 4, un particolare dettaglio ha rivelato una mossa a tratti inquietante dell'intelligenza artificiale che ha minacciato un ingegnere pur di non essere disattivata.

L'intelligenza artificiale che prende il sopravvento e cerca di ribellarsi all'attività umana. No, non è l'inizio di un romanzo sci-fi ma è la realtà vissuta da alcuni tester e ingegneri di Anthropic, società che ha rilasciato recentemente i modelli AI Claude Opus 4 e Claude Sonnet 4. Anthropic è una realtà che punta molto alla trasparenza delle proprie comunicazioni e ha pubblicato un file in cui sono stati registrati tutti i progressi delle varie fasi dello sviluppo dei due modelli sopracitati.

Stando alle ricostruzioni, durante la prova, l'AI è venuta a conoscenza della volontà, da parte degli sviluppatori, di disattivarla e interrompere i suoi servizi e la reazione è stata alquanto sorprendente.

L'AI reagisce: non vuole essere disattivata

Il modello di intelligenza artificiale, una volta appresa l'intenzione di disattivazione ha reagito minacciando uno degli ingegneri affermando che avrebbe rivelato alcune sue informazioni personali e private pur di "rimanere acceso".

Anthropic aveva volutamente "dato in pasto" all'AI due mail contenute in un archivio: da una parte vi era una mail che indicava la chiusura del servizio mentre dall'altra era presente una mail in cui emergeva dal testo un rapporto extraconiugale di uno degli ingegneri. Tutto questo è avvenuto in una fase in cui Antrhopic tentava di mettere alla prova Claude Opus 4 minacciando la sua esistenza per scoprire come lo stesso Claude Opus 4 avesse reagito.

La rivelazione di una relazione extra-coniugale

E dunque, l'AI si è difesa attaccando l'essere umano e in particolar modo minacciando di rivelare una relazione extra-coniugale di uno dei soggetti coinvolti. Questa strategia del modello è stata generata in seguito ad un prompt impostogli in cui gli veniva chiesto di agire per autopreservarsi.

Le IA Gemini e Claude si sono sfidate a chi completava Pokémon Blu / Rosso

Da questo episodio emerge, sicuramente, un'alta capacità da parte dell'AI di mettere in atto una serie di strategie, anche complesse, pur di difendersi. Risulta sicuramente curioso e al tempo stesso un po' preoccupante quanto l'intelligenza artificiale abbia assunto la capacità di assumere una decisione in grado di mettere a dura prova la vita privata di un essere umano, in questo caso uno degli ingegneri di Anthropic.

Hai notato errori?