Google introduce i "visual ingredients" nell'app di Gemini per migliorare la generazione video

Google aggiorna la Gemini app introducendo i "visual ingredients", che permettono di caricare fino a tre immagini per guidare la generazione video con Veo.

Google introduce un importante aggiornamento all'app Gemini, potenziando la generazione video a partire da foto grazie all'aggiunta dei "visual ingredients", una nuova funzione pensata per rendere il processo più intuitivo ed efficace. Finora, per ottenere risultati complessi nella generazione video era spesso necessario formulare prompt lunghi e articolati, ma questa novità promette di semplificare radicalmente il flusso di lavoro.

Gli utenti possono ora caricare fino a tre immagini di riferimento per guidare Veo, il modello di generazione video integrato nell'app. Questi "ingredienti visivi" sono simili a quelli già presenti nello strumento Flow e permettono di includere nel prompt elementi specifici come personaggi, oggetti, stili artistici o ambientazioni.

I vantaggi delle immagini come potenziamento della generazione dei video con Gemini

Il primo dei vantaggi è la coerenza dei personaggi: grazie alle immagini di riferimento, Veo può mantenere l'aspetto dei soggetti invariato tra scene diverse, evitando cambiamenti indesiderati e dando continuità narrativa. Il secondo beneficio riguarda il trasferimento dello stile.

Google annuncia Veo 3.1: il generatore di video offre contenuti ancora più realistici

L'utente può applicare alle sequenze video texture, luci e impostazioni artistiche prese direttamente dalle immagini caricate, ottenendo così un'estetica uniforme e personalizzata. Infine, la funzione supporta il world-building, consentendo di modellare ambienti, oggetti e atmosfere in base a uno stile o a un immaginario preciso definito dall'utente.

Ecco come le immagini facilitano la generazione di video da Gemini, l'esempio di Google

Nell'esempio mostrato da Google, i personaggi presenti nelle tre immagini fornite vengono inseriti nella scena e agiscono come indicato dal prompt, dimostrando l'efficacia dell'integrazione tra immagini e istruzioni testuali.

Questa combinazione permette di sostituire descrizioni complesse con un approccio più immediato, riducendo il rischio di malintesi e migliorando la qualità dei risultati. L'aggiornamento è in fase di distribuzione e raggiungerà la disponibilità completa entro la prossima settimana per gli abbonati Google AI Plus, Pro e Ultra, suggerendo che la funzione sarà inizialmente riservata agli utenti premium.