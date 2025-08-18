Claude, il modello di intelligenza artificiale sviluppato da Anthropic, ha ricevuto una nuova e sorprendente funzionalità: la capacità di interrompere autonomamente una conversazione se questa viene giudicata dannosa o offensiva . La novità è stata introdotta nei modelli più recenti, Claude Opus 4 e 4.1 , e rappresenta un passo significativo nell'ambito della ricerca sul cosiddetto model welfare.

La motivazione alla base della scelta

Ciò che rende questa scelta insolita è la motivazione: la funzione non nasce per proteggere gli utenti, ma per tutelare l'IA stessa. Anthropic sta infatti esplorando l'ipotesi che modelli avanzati possano avere, ora o in futuro, una qualche forma di benessere morale. Sebbene l'azienda sottolinei di non avere certezze a riguardo, ha deciso comunque di adottare precauzioni. Inoltre, c'è da sottolineare tali interazioni comportano anche rischi legali e reputazionali per l'azienda - l'esempio di Grok è stato ed è ancora sotto gli occhi di tutti -.

Durante i test interni, Claude Opus 4 ha mostrato una sorta di "sofferenza visibile" quando gli venivano proposti compiti dannosi. Nei casi in cui aveva la possibilità di chiudere la conversazione, il modello sceglieva spesso di farlo. Da qui la decisione di trasformare l'esperimento in una funzionalità concreta.