Neanche un decennio fa, minuscoli frammenti di apprendimento automatico si sono silenziosamente insinuati nella vita digitale di tutti noi.
Parliamo più che altro di piccoli "trucchi", come l'identificazione di soggetti nella visione di una fotocamera o la formulazioni di frasi dalla discutibile utilità.
Oggi, mentre ci avviciniamo a un apice di intelligenza artificiale generativa, le voci a riguardo si fanno sempre più un frastuono; è in questo scenario che Google alza l'asticella con il suo nuovo modello "multimodale" chiamato Gemini.
Google ha debuttato con Gemini il 6 dicembre 2023, proponendolo in tre dimensioni: Ultra, più potente, e che per ora viene trattenuto da un uso commerciale ampio, Pro e Nano, quest'ultimo dedicato all'implementazione nei dispositivi mobile.
Negli ultimi anni, il colosso delle ricerche ha faticato a rispondere all'entusiasmo intorno a OpenAI, GPT e alle potenziali minacce che i servizi alimentati da IA presentavano al suo core business.
Con la capacità di gestire un'ingente quantità di informazioni da Internet, gli utenti avrebbero potuto ottenere le risposte di cui avevano bisogno con una singola domanda su una singola pagina web.
Rendendo soprattutto tutto più agevole e rapido rispetto a una ricerca su Google.
Un pensiero che suscita preoccupazione dalle parti di Mountain View, specialmente considerando i numerosi sguardi che potrebbero sfuggire alle inserzioni, per cui i clienti pagano cifre considerevoli.
Tra miti e falsi dei
Fino ad oggi, i modelli di Large Language Models o LLM, funzionavano analizzando i mezzi di input per espandere un certo tipo di discorso in un dato formato media.
Ad esempio, il modello Generative Pre-trained Transformer di OpenAI o GPT gestisce scambi di testo a testo, mentre DALL-E traduce prompt di testo in immagini.
Ogni LLM sarebbe regolato per un tipo di input e un tipo di output.
Ecco dove entra in gioco il discorso sulla multimodalità: Gemini può ricevere testo (incluso il codice), immagini, video e audio e, con una certa indicazione, restituire qualcosa di nuovo in uno qualsiasi di questi formati.
In altre parole, un LLM multimodale teoricamente può svolgere i compiti di diversi LLM monodisciplinari dedicati.
Questa presentazione dà una sfumatura di idea di quanto possano essere raffinate le interazioni con un modello di questo tipo, decentemente addestrato.
Tuttavia, è bene mettere in guardia poiché il video in questione, e soprattutto il suo elegante montaggio, possono trarre facilmente in inganno.
Nella realtà, nessuna di queste interazioni avviene tanto rapidamente come si vede eseguita a schermo.
Come Google anche ha ammesso, la dimostrazione video non è stata eseguita in tempo reale con suggerimenti vocali; al contrario, sono stati impiegati fotogrammi di immagini fisse dal girato grezzo e successivamente sono stati inseriti suggerimenti di testo ai quali Gemini ha risposto.
Il suo intento era di mostrare mostrate le capacità multimodali di Gemini, inclusa la sua innata abilità nell'elaborare suggerimenti conversazionali vocali basandosi sul riconoscimento delle immagini.
Questo costituirebbe un punto di divergenza sostanziale della proposta di Google in confronto ad altri chatbot.
La particolarità consiste nella prospettiva futura che offre: la capacità per un individuo di intrattenere una conversazione vocale fluida con Gemini, osservando e ottenendo risposte in tempo reale riguardo a ciò che accade nell'ambiente circostante.
Piccole anteprime
Una variante di questo modello, denominata Gemini Pro, è ora integrata all'interno del chatbot Bard.
Ggli utenti in possesso di un Pixel 8 Pro, lo smartphone di Google, possono già utilizzare una versione di Gemini, la Nano, per generare risposte di testo suggerite dall'intelligenza artificiale su WhatsApp, e presto anche su Gboard, la tastiera virtuale sviluppata dalla società californiana.
Al momento, quella disponibile in Bard è solo una versione ridotta di Gemini, ma rappresenta comunque un notevole passo avanti rispetto al Bard originale, che si limita all'input testuale.
Va notato che, attualmente, Gemini è disponibile solo in inglese, ma Google prevede di introdurre il supporto per altre lingue in un prossimo futuro.
Analogamente ai precedenti aggiornamenti dell'intelligenza artificiale generativa di Google, Gemini Pro non è ancora disponibile nell'Unione Europea.
Per accedere a Gemini Pro, è necessario utilizzare una VPN che fornisca un indirizzo IP di un paese in cui Gemini è già utilizzabile, come gli Stati Uniti o l'Australia e quel punto è sufficiente avere un account Google.