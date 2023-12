Google ha debuttato con Gemini il 6 dicembre 2023, proponendolo in tre dimensioni: Ultra , più potente, e che per ora viene trattenuto da un uso commerciale ampio, Pro e Nano , quest'ultimo dedicato all'implementazione nei dispositivi mobile.

Tra miti e falsi dei

Logo di Google Gemini

Fino ad oggi, i modelli di Large Language Models o LLM, funzionavano analizzando i mezzi di input per espandere un certo tipo di discorso in un dato formato media.

Ad esempio, il modello Generative Pre-trained Transformer di OpenAI o GPT gestisce scambi di testo a testo, mentre DALL-E traduce prompt di testo in immagini.

Ogni LLM sarebbe regolato per un tipo di input e un tipo di output.

Ecco dove entra in gioco il discorso sulla multimodalità: Gemini può ricevere testo (incluso il codice), immagini, video e audio e, con una certa indicazione, restituire qualcosa di nuovo in uno qualsiasi di questi formati.

In altre parole, un LLM multimodale teoricamente può svolgere i compiti di diversi LLM monodisciplinari dedicati.

Questa presentazione dà una sfumatura di idea di quanto possano essere raffinate le interazioni con un modello di questo tipo, decentemente addestrato.

Tuttavia, è bene mettere in guardia poiché il video in questione, e soprattutto il suo elegante montaggio, possono trarre facilmente in inganno.

Nella realtà, nessuna di queste interazioni avviene tanto rapidamente come si vede eseguita a schermo.

Come Google anche ha ammesso, la dimostrazione video non è stata eseguita in tempo reale con suggerimenti vocali; al contrario, sono stati impiegati fotogrammi di immagini fisse dal girato grezzo e successivamente sono stati inseriti suggerimenti di testo ai quali Gemini ha risposto.

Il suo intento era di mostrare mostrate le capacità multimodali di Gemini, inclusa la sua innata abilità nell'elaborare suggerimenti conversazionali vocali basandosi sul riconoscimento delle immagini.

Questo costituirebbe un punto di divergenza sostanziale della proposta di Google in confronto ad altri chatbot.

La particolarità consiste nella prospettiva futura che offre: la capacità per un individuo di intrattenere una conversazione vocale fluida con Gemini, osservando e ottenendo risposte in tempo reale riguardo a ciò che accade nell'ambiente circostante.