OpenAI ha annunciato l'integrazione della generazione di immagini direttamente all'interno di ChatGPT, una nuova funzione chiamata "Crea immagine". Basata sul modello multimodale GPT-4o , questa tecnologia permette di creare immagini accurate e dettagliate semplicemente scrivendo un prompt testuale, senza la necessità di passare da strumenti esterni come DALL-E. La funzione è già in fase di rollout per tutti i livelli di abbonamento, inclusi gli utenti gratuiti, anche se con limiti di utilizzo simili a quelli di DALL-E (circa tre immagini al giorno).

Qualità superiore nella coerenza visiva

Secondo Gabriel Goh, responsabile della ricerca in OpenAI, GPT-4o segna un importante salto di qualità grazie a una nuova capacità chiamata binding, ovvero la corretta associazione tra attributi e oggetti. Se in passato i modelli AI confondevano spesso colori e forme - ad esempio, creando una stella rossa invece di una blu - ora è possibile ottenere immagini con 15-20 oggetti ben distinti e coerenti tra loro. Questo rappresenta un significativo passo avanti in termini di precisione e affidabilità visiva.

Dei loghi creati con ChatGPT

Un altro aspetto chiave è la resa del testo nelle immagini: le scritte generate sono molto più leggibili e prive di errori rispetto agli standard precedenti. "È stato un lavoro lungo e fatto di piccoli miglioramenti costanti," ha spiegato Goh. Il sistema sfrutta un approccio autoregressivo, che costruisce l'immagine riga per riga, simile a come si scrive un testo, invece del tradizionale modello di diffusione usato da DALL-E, che genera tutto in un colpo solo. Questo potrebbe essere uno dei segreti della maggiore accuratezza nei dettagli testuali.