OpenAI ha annunciato l'integrazione della generazione di immagini direttamente all'interno di ChatGPT, una nuova funzione chiamata "Crea immagine". Basata sul modello multimodale GPT-4o, questa tecnologia permette di creare immagini accurate e dettagliate semplicemente scrivendo un prompt testuale, senza la necessità di passare da strumenti esterni come DALL-E. La funzione è già in fase di rollout per tutti i livelli di abbonamento, inclusi gli utenti gratuiti, anche se con limiti di utilizzo simili a quelli di DALL-E (circa tre immagini al giorno).
Qualità superiore nella coerenza visiva
Secondo Gabriel Goh, responsabile della ricerca in OpenAI, GPT-4o segna un importante salto di qualità grazie a una nuova capacità chiamata binding, ovvero la corretta associazione tra attributi e oggetti. Se in passato i modelli AI confondevano spesso colori e forme - ad esempio, creando una stella rossa invece di una blu - ora è possibile ottenere immagini con 15-20 oggetti ben distinti e coerenti tra loro. Questo rappresenta un significativo passo avanti in termini di precisione e affidabilità visiva.
Un altro aspetto chiave è la resa del testo nelle immagini: le scritte generate sono molto più leggibili e prive di errori rispetto agli standard precedenti. "È stato un lavoro lungo e fatto di piccoli miglioramenti costanti," ha spiegato Goh. Il sistema sfrutta un approccio autoregressivo, che costruisce l'immagine riga per riga, simile a come si scrive un testo, invece del tradizionale modello di diffusione usato da DALL-E, che genera tutto in un colpo solo. Questo potrebbe essere uno dei segreti della maggiore accuratezza nei dettagli testuali.
Applicazioni pratiche e dimostrazioni sorprendenti
Durante la presentazione della nuova funzione, il team ha mostrato esempi di uso reale: fumetti multipagina con personaggi coerenti, diagrammi scientifici, poster informativi e loghi con sfondi trasparenti. In uno dei test, ChatGPT ha generato un'immagine dell'esperimento del prisma di Newton, completa di componenti etichettati in modo corretto. Tutto ciò senza dover spiegare cosa fosse l'esperimento, grazie alla conoscenza del mondo integrata nel modello.
La generazione delle immagini richiede qualche secondo in più rispetto a prima, ma OpenAI sottolinea che la qualità giustifica l'attesa. "Preferiamo impiegare qualche secondo in più se questo ci permette di offrire un risultato davvero utile," ha dichiarato Jackie Shannon, product lead del team multimodale.