Anthropic presenta Claude Opus 4.5, il modello IA con benchmark da primato e prezzo accessibile

Anthropic annunciato Opus 4.5, l'ultimo modello della serie Claude 4.5 che ha mostrato progressi su coding, memoria e strumenti operativi.

Anthropic ha presentato Claude Opus 4.5, versione più avanzata della propria serie di modelli 4.5, chiudendo un percorso iniziato con Sonnet 4.5 a settembre e proseguito con Haiku 4.5 a ottobre. L'azienda descrive Opus come l'evoluzione naturale del suo modello di punta, concepita per migliorare capacità di ragionamento, gestione degli strumenti e utilizzo in scenari complessi.

L'interesse verso questa nuova uscita è legato soprattutto ai benchmark, un campo in cui Anthropic punta a consolidare la propria posizione tra i principali attori della corsa ai modelli IA. L'attenzione dell'azienda si concentra inoltre su funzionalità pratiche, come l'uso del PCe dei fogli di calcolo, che rappresentano una componente crescente nelle applicazioni professionali dell'intelligenza artificiale.

Le novità di Anthropic Claude Opus 4.5

Secondo Anthropic , Opus 4.5 raggiunge risultati di livello molto elevato in una serie di prove tecniche, dalle valutazioni sul coding come SWE-Bench e Terminal-bench fino ai test dedicati all'uso degli strumenti, tra cui tau2-bench e MCP Atlas. Anthropic segnala inoltre prestazioni elevate nel problem solving generale, con risultati rilevanti su ARC-AGI 2 e GPQA Diamond.

Il dato più citato riguarda SWE-Bench verified, su cui Opus 4.5 supera per la prima volta la soglia dell'80%, un valore che l'azienda considera indicativo della capacità del modello di affrontare problemi di programmazione complessi in maniera affidabile. A questi progressi si affiancano miglioramenti legati all'utilizzo pratico del computer, delle applicazioni da ufficio e delle interfacce operative.

Lenovo Legion Pro 5, la recensione: un laptop da gaming con GeForce RTX 5070 Ti e display OLED

Per mostrare queste capacità, Anthropic ha ampliato la disponibilità di alcuni strumenti complementari. L'estensione Claude per Chrome diventa accessibile a tutti gli utenti Max, mentre la versione dedicata ai fogli Excel sarà utilizzabile da Max, Team ed Enterprise. L'obiettivo dichiarato è consentire al modello di operare in contesti quotidiani, come navigazione web, analisi dati e manipolazione di documenti.

Uno degli aspetti più rilevanti riguarda la gestione della memoria. L'azienda afferma che Opus 4.5 include un nuovo sistema di memorizzazione pensato per operazioni su contesti estesi. Dianne Na Penn, responsabile prodotto per la ricerca, spiega che "avere solo una finestra più ampia non basta" e che diventa essenziale "riconoscere quali informazioni mantenere". Secondo Anthropic, questa revisione tecnica consente al modello di trattare documenti molto lunghi con maggiore continuità.

Le modifiche introdotte rendono possibile anche la funzione detta endless chat, molto richiesta dagli utenti paganti. In pratica, quando si raggiunge il limite del contesto, il modello comprime autonomamente la memoria conversazionale e prosegue senza notificare l'interruzione. È una soluzione pensata per rendere più lineare l'interazione nelle attività complesse e nelle sessioni prolungate.

Anthropic collega gran parte di questi miglioramenti agli scenari agentici, in cui Opus assume il ruolo di agente principale, coordinando sottoprocessi basati su Haiku. Penn osserva che per gestire esplorazione di codice, documenti voluminosi e fasi di revisione è necessaria una memoria di lavoro più affidabile. Da qui la scelta di intervenire in modo significativo sulle basi architetturali del modello.

Mentre migliorano le prestazioni, si assassano invece i prezzi: Opus 4.5 è offerto nelle API a 5 dollari in input e 25 dollari in output per milione di token, contro rispettivamente i 15 e 75 dollari del precedente modello.

Nonostante le novità e il prezzo ridotto, Opus 4.5 dovrà comunque confrontarsi con rivali di primo piano. Negli ultimi giorni sono arrivati sul mercato GPT 5.1 e Gemini 3. Chissà chi riuscirà a dominare questa tornata di chatbot. Voi, per esempio, quale preferite? Diteci la vostra nei commenti qua sotto.