Le principali innovazioni riguardano tre aspetti fondamentali della robotica avanzata : generalità, interattività e destrezza. Gemini Robotics permette ai robot di comprendere nuove situazioni senza essere stati specificamente addestrati su di esse, migliorando anche la loro capacità di interagire con gli esseri umani e con l'ambiente circostante. Inoltre, li rende più precisi nei movimenti, permettendo loro di svolgere compiti che richiedono una notevole finezza, come piegare un foglio di carta o svitare un tappo di bottiglia.

Il primo dei nuovi modelli, Gemini Robotics, è basato sulla tecnologia Gemini 2.0, la più recente versione dell'IA sviluppata da Google. Secondo Carolina Parada, responsabile della divisione robotica di DeepMind, questo modello combina la comprensione multimodale del mondo con la capacità di eseguire azioni fisiche , migliorando così l'autonomia e l'adattabilità dei robot in ambienti non strutturati.

Gemini Robotics-ER: il modello per il ragionamento fisico avanzato

Accanto a Gemini Robotics, Google DeepMind ha svelato Gemini Robotics-ER (Embodied Reasoning), un modello visivo-linguistico avanzato in grado di interpretare scenari complessi e dinamici.

Un modello Gemini Robotics

Parada ha fornito un esempio pratico per spiegare il funzionamento di questa tecnologia: immaginando di dover preparare un pranzo al sacco, il robot deve essere in grado di riconoscere dove si trovano gli oggetti sulla tavola, capire come aprire la scatola del pranzo, afferrare gli alimenti e posizionarli nel contenitore. Questo tipo di ragionamento spaziale e procedurale è ciò che Gemini Robotics-ER introduce nei sistemi robotici, consentendo loro di gestire compiti più articolati e naturali.