Questa capacità, disponibile tramite API, apre nuove possibilità per gli sviluppatori, che potranno utilizzare Claude per automatizzare compiti e interagire con applicazioni in modo più naturale. Anthropic sottolinea che la funzionalità è ancora in fase sperimentale e può essere soggetta a errori, ma si aspetta un rapido miglioramento nel tempo. Vediamo più nel dettaglio come funziona.

Claude 3.5 Sonnet , l'ultimo modello di intelligenza artificiale di Anthropic , è ora in grado di controllare un computer. La nuova funzionalità, chiamata "computer use", permette a Claude di vedere lo schermo, muovere il cursore, cliccare sui pulsanti e digitare testo, proprio come farebbe un utente umano.

Le novità di Claude 3.5 Sonnet

"Computer use" si differenzia da altre soluzioni simili, come Copilot Vision di Microsoft e l'app desktop di OpenAI per ChatGPT, per la sua capacità di interagire attivamente con il computer, anziché limitarsi a "vedere" lo schermo. Google offre funzionalità simili nell'app Gemini per Android, ma non ha ancora pubblicato strumenti di questo tipo su larga scala.

Anthropic ha inoltre implementato misure di sicurezza per impedire a Claude di svolgere attività potenzialmente dannose, come l'interazione con i social media, le attività legate alle elezioni, la registrazione di domini web e l'interazione con siti governativi.

Oltre a "computer use", Claude 3.5 Sonnet introduce miglioramenti significativi in diversi benchmark, in particolare nella codifica e nell'utilizzo di strumenti. Le prestazioni su SWE-bench Verified sono aumentate dal 33,4% al 49,0%, superando tutti i modelli pubblicamente disponibili, inclusi OpenAI o1-preview e sistemi specializzati per la codifica. Anche le prestazioni su TAU-bench, un test di utilizzo degli strumenti, sono migliorate notevolmente.

La valutazione di Claude 3.5 Sonnet nel confronto con altri LLM IA

E voi che cosa ne pensate di questi miglioramenti? Fateci sapere la vostra opinione sull'LLM Anthropic nei commenti qua sotto.