Google lancia Gemini 2.5 Flash Image: l’editor AI che punta a superare ChatGPT

Il nuovo modello di Google per la generazione di immagini offre un controllo più preciso, preserva i dettagli dei volti e introduce editing multi-turn, cercando di colmare il divario con OpenAI.

Google ha annunciato Gemini 2.5 Flash Image, l'ultimo aggiornamento del suo chatbot Gemini che integra un potente modello di editing visivo. Disponibile da oggi per tutti gli utenti nell'app Gemini e per sviluppatori tramite API, AI Studio e Vertex AI, il nuovo strumento è stato progettato per migliorare drasticamente la qualità delle modifiche a immagini e fotografie. L'obiettivo è chiaro: recuperare terreno rispetto a OpenAI, che con GPT-4o e il suo editor nativo aveva catalizzato l'attenzione globale.

Editing più preciso e naturale

Una delle criticità storiche degli editor AI è la difficoltà nel preservare la coerenza dei dettagli. Cambiare un colore o inserire un oggetto rischiava di alterare il volto di una persona o distorcere lo sfondo. Gemini 2.5 Flash Image affronta il problema con un approccio più avanzato, in grado di mantenere l'integrità visiva di volti, animali e oggetti anche dopo interventi complessi. Gli utenti possono quindi, ad esempio, cambiare il colore di una maglietta senza compromettere l'immagine complessiva.

Apple potrebbe affidarsi a Gemini per la nuova Siri, secondo alcune indiscrezioni

Il nuovo modello era già comparso nelle scorse settimane sulla piattaforma di valutazione LMArena, dove si era fatto notare con lo pseudonimo "nano-banana". I risultati avevano stupito la community, con performance considerate di livello superiore rispetto a molti concorrenti. Ora Google ha confermato ufficialmente che si trattava proprio del cuore visivo di Gemini 2.5 Flash, dichiarando che il modello è "state-of-the-art" nei principali benchmark di editing.

Concorrenza e casi d’uso

Il campo della generazione visiva è oggi uno dei più competitivi: OpenAI ha incrementato gli utenti di ChatGPT grazie all'ondata di meme in stile Studio Ghibli, mentre Meta ha scelto di collaborare con Midjourney e startup come Black Forest Labs continuano a dominare i test con modelli come FLUX. Per distinguersi, Google ha puntato su casi d'uso concreti: progettare un salotto, ridipingere virtualmente una stanza o combinare più riferimenti (foto, palette di colori, oggetti) in un'unica immagine coerente.

Dopo le critiche del passato, Gemini torna con misure più rigide. L'azienda ha introdotto watermark visivi e metadati identificativi per segnalare le immagini generate, e vieta esplicitamente contenuti intimi non consensuali o manipolazioni offensive. "Vogliamo dare agli utenti pieno controllo creativo, ma non è un 'tutto è permesso'," ha chiarito Nicole Brichtova, product lead di DeepMind. Una linea di equilibrio che potrebbe rafforzare la fiducia verso l'editor, distinguendolo da concorrenti meno restrittivi come Grok.

Hai notato errori?