Claude 3.7 Sonnet debutta con "extended thinking": il nuovo standard per l'AI avanzata?

Anthropic ha presentato il suo nuovo modello di intelligenza artificiale, Claude 3.7 Sonnet, con capacità di "simulated reasoning" e una nuova funzione denominata "extended thinking".

Anthropic continua la sua corsa nel settore dell'intelligenza artificiale con il lancio di Claude 3.7 Sonnet, il primo modello della compagnia a implementare un approccio ibrido al ragionamento simulato. La caratteristica principale è il "extended thinking", un meccanismo che consente all'AI di lavorare passo dopo passo su problemi complessi, regolando la quantità di elaborazione impiegata per trovare una soluzione. Questa tecnologia è stata sviluppata in risposta alle esigenze di utenti e sviluppatori che cercano maggiore controllo e affidabilità nei processi decisionali dell'AI. Oltre al modello aggiornato, Anthropic ha svelato Claude Code, un assistente AI dedicato alla programmazione e alla gestione del codice, attualmente in fase di anteprima limitata.

Più controllo sul ragionamento dell’AI

Una delle innovazioni chiave di Claude 3.7 Sonnet è la possibilità di scegliere tra risposte rapide o un'elaborazione più approfondita con una catena di pensiero visibile. Questo avvicina il modello ad alternative come gli o1 e o3 di OpenAI, il Gemini 2.0 Flash Thinking di Google e DeepSeek R1. Attraverso l'API, gli sviluppatori possono specificare il numero esatto di token che il modello deve utilizzare per il ragionamento, con un limite massimo di 128.000 token in output.

L'accesso a Claude 3.7 è incluso in tutti i piani di abbonamento, con l'opzione "extended thinking" disponibile per tutti tranne la versione gratuita. I costi rimangono invariati rispetto ai modelli precedenti: $3 per milione di token in input e $15 per milione di token in output, con i token di ragionamento inclusi nella tariffa dell'output.

Un altro miglioramento significativo è la riduzione delle risposte eccessivamente prudenziali: Claude 3.7 Sonnet rifiuta il 45% in meno di richieste rispetto al suo predecessore, rendendolo più efficace e meno incline a interpretazioni errate di richieste innocue.

Prestazioni superiori nel coding e nelle attività complesse

Il punto di forza di Claude 3.7 Sonnet sembra essere la programmazione. Il nuovo modello ha ottenuto i migliori risultati nei test SWE-bench Verified, che misurano la capacità dell'AI di risolvere problemi reali di sviluppo software. Anche nei test TAU-bench, progettati per valutare l'interazione dell'AI con strumenti e utenti in contesti complessi, il modello ha raggiunto punteggi elevati.

Anthropic ha inoltre ampliato l'integrazione con GitHub, consentendo a tutti gli utenti di collegare i propri repository a Claude per ricevere supporto in debugging, sviluppo di funzionalità e documentazione.

Esperienze passate con il modello precedente, Claude 3.5 Sonnet, hanno dimostrato che era già un valido strumento per la prototipazione rapida, seppur con alcuni limiti di utilizzo. Con Claude 3.7 Sonnet, la necessità di un piano di abbonamento più esteso diventa evidente, soprattutto per gli sviluppatori professionisti.

Hai notato errori?