Google ha appena compiuto un passo fondamentale nel rendere la robotica intelligente davvero autonoma. Dopo l'annuncio iniziale di Gemini Robotics a marzo, oggi l'azienda presenta Gemini Robotics On-Device, una nuova versione del proprio modello AI che funziona completamente in locale, direttamente sul robot, senza necessità di connessione dati. È una novità che potrebbe cambiare radicalmente il modo in cui i robot apprendono, reagiscono e si adattano al mondo reale.
Si tratta di un modello VLA (Vision-Language-Action) ottimizzato per funzionare con efficienza su dispositivi a bordo, offrendo prestazioni di alto livello anche in ambienti con connettività intermittente o assente. Nonostante l'elaborazione completamente locale, Gemini Robotics On-Device è in grado di seguire istruzioni in linguaggio naturale, generalizzare su oggetti mai visti prima e completare compiti complessi come aprire zip, versare salse o piegare capi d'abbigliamento.
Adattabilità rapida e destrezza generale: l’IA si adatta con 50 esempi
Uno dei punti di forza del nuovo modello è l'elevata capacità di adattamento. Google ha mostrato come l'IA sia in grado di imparare nuovi compiti con appena 50 o 100 dimostrazioni, mantenendo ottime prestazioni su attività ad alta precisione. A differenza delle versioni precedenti, questa è anche la prima disponibile per il fine-tuning, permettendo agli sviluppatori di personalizzarla secondo le proprie necessità grazie all'SDK ufficiale.
Test effettuati su sette compiti diversi - tra cui la chiusura di una borsa, il disegno di carte e l'assemblaggio industriale - hanno mostrato che Gemini On-Device supera le performance dei precedenti modelli AI embedded, anche su task fuori distribuzione o a più passaggi. E tutto questo senza passaggi al cloud, ma con inferenza rapida ed esecuzione locale.
Sicurezza integrata e approccio responsabile allo sviluppo
Una delle preoccupazioni principali quando si parla di IA che agisce nel mondo fisico è la sicurezza. Per questo motivo Google ha previsto un sistema a più livelli di protezione. Nella versione completa di Gemini Robotics, il modello centrale valuta la correttezza semantica dell'azione, mentre l'esecuzione fisica passa per controlli a basso livello con limiti precisi su forza e velocità.
Nel caso del nuovo modello On-Device, Google raccomanda agli sviluppatori di replicare questo approccio, collegando l'IA a un controllore di sicurezza fisica e - se possibile - alla Live API con livello di sicurezza semantica integrato. Il tutto è stato supervisionato dal team Responsible Development & Innovation e dal Responsibility & Safety Council, per garantire impatti positivi e rischio ridotto. In parallelo, è stato rilasciato un benchmark di sicurezza semantica e viene incoraggiato il red teaming a più livelli, per testare la robustezza del sistema in scenari reali e simulati.