Oppoov Android agent pokušava naučiti telefon istim prečacima kojima ga koristimo
A real Android phone as the control surface for an AI agent, with tap paths turning into reusable skill routes over live app screens📷 AI-generated image / TECH&SPACE
- ★X-OmniClaw koristi lokalni zaslon, kameru i glas umjesto da osnovni rad seli na cloud telefon.
- ★Sustav može klonirati tap-putanje kao ponovno upotrebljive vještine za duboko zakopane stranice aplikacija.
- ★Otvoreni kod daje developerima bolji test od demo videa, ali stabilnost kroz stvarne aplikacije još ostaje glavno pitanje.
Oppo ovdje ne prodaje još jedan chatbot s ikonom mikrofona. Prema izvještaju The Decodera, Multi-X tim objavio je X-OmniClaw, open-source AI agenta za Android koji koristi kameru, zaslon i glas izravno na uređaju.
Stvarna razlika nije u tome što agent “vidi” aplikacije — to već dugo čujemo u demo prezentacijama. Razlika leži u arhitekturi: X-OmniClaw ne oslanja se na kopiju telefona u oblaku za osnovni rad, nego lokalno koristi podatke i senzore uređaja, dok cloud compute ulazi samo za složenije zaključivanje.
Cloud telefoni poput RedFingera, Alibaba Wuyinga ili Tencent Cloud Phonea mogu biti praktični za daljinski pristup, ali nisu isto što i agent koji sjedi na stvarnom uređaju. On gleda stvarni ekran, koristi lokalni kontekst i ne zahtijeva stalno premještanje korisničkog života u tuđu infrastrukturu. Upravo ta lokalnost čini X-OmniClaw zanimljivim u usporedbi s rješenjima koja ovise o udaljenim serverima.
X-OmniClaw sprema tap-putanje kao vještine i pokušava izbjeći ovisnost o cloud telefonu
Close operational view of XML UI nodes, OCR boxes and deeplink routes being extracted from an Android app screen📷 AI-generated image / TECH&SPACE
X-OmniClaw zvuči obećavajuće upravo ondje gdje većina AI agenata gubi na uvjerljivosti: u ponavljanju stvarnih radnji. Sustav može klonirati sekvence dodira kao ponovno upotrebljive vještine, pa se sljedeći put može vratiti na duboko zakopane stranice aplikacija preko deeplinkova, umjesto da svaki put ponovno pogađa isti niz interakcija. Tehnički sloj jednako je važan kao i marketinška priča.
Agent kombinira XML strukturu sučelja, model za uzemljenje i OCR kako bi prepoznao interaktivne elemente, dok galerijske fotografije lokalno pretvara u tekstualnu memoriju spremljenu u Markdown datoteku. “Pamćenje” ovdje nije samo poetski naziv za chat povijest, već stvarna sposobnost pohrane i obrade podataka na uređaju.
Ipak, hype filter mora ostati uključen. Open-source objava i lokalna obrada pružaju developerima konkretnije rješenje od glatkih demo videozapisa. No to još ne dokazuje da će agent jednako dobro raditi kroz bankarske aplikacije, agresivne dijaloge za dozvole, promjene UI-ja ili proizvođačke varijante Androida. Ako X-OmniClaw pokaže stabilnost u takvom okruženju, prednost neće imati samo Oppo, nego i svi koji žele agente koji rade bliže korisniku, a dalje od podatkovnih usisavača.

