DeepMind želi da roboti čitaju mjerače, ali tvornica je teži test od benchmarka
An inspection robot faces an analog pressure gauge while precise crop and point markers show the ER 1.6 instrument-reading task.📷 AI-generated / Tech&Space, manual prompt only
- ★DeepMind opisuje Gemini Robotics-ER 1.6 kao visokorazinski model za robotsko rasuđivanje, s poboljšanjima u prostornom razumijevanju, planiranju zadataka, detekciji uspjeha i očitanju instrumenata.
- ★U DeepMindovu instrument-reading benchmarku ER 1.6 postiže 86 posto uspješnosti, odnosno 93 posto s agentic visionom; ER 1.5 je prikazan na 23 posto, a Gemini 3.0 Flash na 67 posto.
- ★Model je dostupan kroz Gemini API i Google AI Studio, ali dokumentacija ga označava kao preview i izričito navodi rizike latencije, halucinacija, troška i ovisnosti o kvaliteti prompta.
ŠTO ER 1.6 DOISTA RADI
Gemini Robotics-ER 1.6 nije robotska ruka, hodajući stroj ni gotov autonomni radnik. To je visokorazinski model za embodied reasoning: sloj koji iz slika, videa, zvuka i teksta pokušava zaključiti gdje su predmeti, što znače u zadatku i koji je sljedeći korak. U robotici je to manje glamurozno od skoka preko kutija, ali često korisnije. Stroj koji ne zna je li mjerač izvan raspona samo je skupa kamera s nogama.
DeepMind tvrdi da je ER 1.6 značajno bolji od Gemini Robotics-ER 1.5 i Gemini 3.0 Flasha u zadacima koji robotima obično stvaraju probleme: pokazivanje na precizne točke, brojanje, prostorno rasuđivanje i detekcija je li zadatak uspješno završen. Važna razlika je u tome što model nije samo opisivač scene. Može vratiti strukturirane točke i okvire, planirati korake te pozivati alate, VLA modele ili korisničke funkcije koje stvarni robot mora izvršiti.
Najkonkretniji dokaz u objavi nije opća tvrdnja o "inteligentnim fizičkim agentima", nego očitanje instrumenata. Industrijska postrojenja puna su analognih tlakomjera, termometara, sight glass cijevi i digitalnih prikaza koji ne izgledaju uredno kao benchmark slika. DeepMind navodi da ER 1.6 čita kružne tlakomjere, vertikalne indikatore razine i digitalne zaslone, uz posebnu važnost suradnje s Boston Dynamicsom. U prikazanom instrument-reading benchmarku ER 1.5 stoji na 23 posto, Gemini 3.0 Flash na 67 posto, ER 1.6 na 86 posto, a ER 1.6 s agentic visionom na 93 posto.
To je ozbiljan skok, ali treba čitati što se zapravo mjeri. Agentic vision nije magični vid. To je metoda u kojoj model može zumirati, izrezati dio slike, koristiti kod za izračun i zatim ponovno pogledati rezultat. Kod sight glassa, primjerice, treba naći gornji i donji rub prozora, razinu tekućine i izračunati postotak punjenja. Takav postupak je bliži inspekcijskom radu nego običnom prepoznavanju objekta.
Benchmark od 93 posto za očitanje instrumenata izgleda ozbiljno, ali preview status, latencija i integracija s realnim robotima određuju koliko je demo daleko od smjene.
Camera-view printouts, a sight-glass photo and a review checklist show the operational handoff between model output and trusted inspection report.📷 AI-generated / Tech&Space, manual prompt only
GDJE DEMO POSTAJE OPERATIVNI PROBLEM
Boston Dynamics daje ovoj priči praktičniji okvir. Tvrtka je objavila da je Gemini Robotics ER 1.6 integriran u Orbit AIVI-Learning, sustav koji Spotu i Orbitu pomaže u vizualnim inspekcijama. Primjeri su dosadni na dobar način: 5S provjere, opasne mrlje ili prolivena tekućina, oštećenja transportnih traka, palete, sight glass razine i analogni mjerači. To je robotika nakon što demo završi: ne aplauz, nego redovita ruta kroz pogon i izvještaj koji netko mora potpisati.
Ipak, ER 1.6 ne treba gurati dalje od dokaza. Googleova dokumentacija za Gemini Robotics-ER 1.6 model označava kao gemini-robotics-er-1.6-preview, s ulazima za tekst, slike, video i zvuk, ali tekstualnim izlazom. Dokumentacija izričito navodi da se API-ji i sposobnosti mogu mijenjati, da složeni upiti i veći thinking budget povećavaju latenciju, da model može halucinirati i da rezultat snažno ovisi o jasnom promptu. To nije sitni tisak. U pogonu je latencija razlika između pravodobne reakcije i zakašnjelog izvještaja.
Sigurnosni dio također traži hladnu glavu. DeepMind kaže da je ovo njihov najsigurniji robotics model do sada i navodi poboljšanja u pridržavanju fizičkih ograničenja, uključujući upute poput zabrane rukovanja tekućinama ili podizanja predmeta težih od 20 kilograma. Modeli su testirani i kroz ASIMOV benchmark, koji ispituje mogu li AI sustavi u fizičkom svijetu prepoznati rizik i intervenirati. No model-level zaštite nisu isto što i sigurnosni slučaj za robota u smjeni. Još trebaju ograničenja sile, nadzor, emergency stop, validacija senzora i odgovornost kada je očitanje pogrešno.
Korisna interpretacija ER-a 1.6 zato je uska, ali važna. On pomiče robotics AI od "što je na slici" prema "što ova slika znači za zadatak". Ako robot može pouzdanije pročitati mjerač, procijeniti je li plava olovka doista u držaču ili odlučiti koji predmet treba maknuti da bi se napravilo mjesta, automatizacija postaje manje krhka. Ali deployment barijera ostaje ona stara: prljave leće, loše osvjetljenje, vibracije, mreža, cijena API poziva, audit logovi i čovjek koji mora vjerovati izvještaju. DeepMind je pokazao bolji reasoning sloj. Tvornica će tek pokazati koliko dobro podnosi ponedjeljak ujutro.

