OpenAI ha presentato un'anteprima del suo prossimo modello di "ragionamento" denominato o3 e una versione più compatta, o3-mini , durante l'ultimo giorno del suo evento di lancio "ship-mas". Sebbene i modelli non siano ancora disponibili al pubblico, OpenAI ha aperto le candidature per la comunità di ricerca per testarli prima del rilascio definitivo, la cui data non è stata ancora annunciata. Questo nuovo approccio rappresenta un ulteriore passo avanti rispetto al modello o1 , noto come Strawberry, introdotto a settembre.

Prestazioni eccezionali nei test di codifica e matematica

OpenAI ha dichiarato che o3 supera di gran lunga i record di prestazioni precedenti. Nei test di codifica SWE-Bench Verified, o3 ha ottenuto un miglioramento del 22,8% rispetto al suo predecessore e ha persino superato il Chief Scientist di OpenAI in gare di programmazione competitiva. Il modello ha quasi ottenuto un punteggio perfetto in AIME 2024, una delle competizioni matematiche più difficili, mancando solo una domanda. Inoltre, o3 ha raggiunto un impressionante 87,7% in GPQA Diamond, un benchmark per problemi scientifici di livello esperto, e ha risolto il 25,2% delle sfide matematiche e di ragionamento più complesse, un risultato che nessun altro modello ha mai raggiunto.

I modelli a paragone.

Il termine "ragionamento" si riferisce alla capacità del modello di scomporre le istruzioni in compiti più piccoli, producendo risultati migliori e spiegando i passaggi del processo. Questo approccio è particolarmente utile per attività complesse, come la risoluzione di problemi matematici avanzati o la scrittura di codice, dove è importante comprendere il percorso logico dietro una risposta, anziché limitarsi a un risultato finale.