Microsoftov kompaktni AI cilja posao koji još rade ljudi: klikanje kroz softver
Phi-4-Reasoning-Vision: Microsoft's 15B Parameter Bid to Own the GUI Layer📷 AI-generated / Tech&Space editorial visual
- ★Model kombinira tekst, viziju i plansko rasuđivanje u jedinstvenu arhitekturu za GUI agente
- ★S 15 milijardi parametara ostvaruje značajnu učinkovitost u usporedbi s većim konkurentima poput GPT-4o
- ★Otvorene težine omogućuju tvrtkama prilagodbu modela specifičnim poslovnim aplikacijama i internim sustavima
Microsoft je na Product Huntu stavio novog igrača koji zaslužuje pažnju. Phi-4-reasoning-vision donosi 15 milijardi parametara i otvorene težine, ali ključna je promjena paradigme: od pasivnog opisivanja slika prema aktivnom upravljanju grafičkim sučeljima. Naziv nije marketinški trik — "reasoning-vision" doslovno znači da model ne vidi zaslon kao statičnu fotografiju, već kao dinamičko okruženje u kojem treba planirati i izvršavati radnje.
Dok se industrija natječe tko će izgraditi veći jezični model, Microsoft ide suprotnim smjerom. Phi-4-reasoning-vision je namjerno kompaktan. Petnaest milijardi parametara zvuči skromno uz GPT-4o, ali upravo tu leži poanta. Lagana arhitektura omogućuje lokalno izvođenje bez ovisnosti o cloud instancama i mrežnim latencijama. Za poduzeća koja rade s osjetljivim podacima ili potrebuju real-time odziv, to nije manje pogodnost — to je preduvjet.
Otvorene težine otvaraju vrata prilagodbama. Tvrtke mogu fine-tunati model za specifične interne sustave, od ERP-ova do industrijskih SCADA sučelja. No upitno je koliko će ta otvorenost trajati kad model uđe u širu komercijalnu upotrebu. Microsoftova povijest s Phi serijom daje povoda za optimizam, ali i za zdrav skepticizam.
Od pasivnog opisivanja do aktivnog upravljanja sučeljima
Phi-4-Reasoning-Vision: Microsoft's 15B Parameter Bid to Own the GUI Layer📷 © Tech&Space
Kako navodi izvorni izvještaj, dosadašnji vizualni modeli bili su pasivni promatrači. Prepoznali bi gumb na zaslonu, ali nisu znali što s njim. Phi-4-reasoning-vision prelazi tu granicu: ne identificira elemente sučelja, već izračunava slijed koraka za obavljanje zadatka unutar njega. Razlika je fundamentalna — to je skok od alata koji opisuje prema agentu koji djeluje.
Praktičke primjene su široke i konkretne. Automatizacija testiranja softvera dobiva model koji samostalno navigira aplikacijom i prijavljuje greške. Pristupačnost raste: korisnici s motoričkim poteškoćama mogu opisivati zadatke koje model izvršava umjesto njih. U industrijskom okruženju, održavanje složenih sustava više ne zahtijeva eksperta koji ručno klikće kroz desetke zaslona.
Tehnički izazovi ostaju. Plansko rasuđivanje u vizualnom prostoru zahtijeva robusnost protiv nepredvidljivih promjena sučelja — ažuriranja aplikacija, različite teme, skaliranje zaslona. Model mora generalizirati bez da se previše veže uz specifičan izgled. Microsoftova arhitektura to pokušava riješiti kroz multimodalnu fuziju teksta, vizije i lanca razmišljanja u jedinstvenom embedingu.
Konkurencija ne spava. OpenAI razvija vlastite agente, Google DeepMind eksperimentira s GUI kontrolom kroz Gemini. No Microsoftova prednost je u efikasnosti: manji model znači niže troškove, brže inferencije i manju energetsku potrošnju. U eri gdje se cijena AI operacija računa u milijardama, to nije zanemariv faktor.
Phi-4-reasoning-vision signalizira zrelu fazu multimodalnog AI-ja. Više ne pita što vidimo — pita što možemo učiniti s onim što vidimo.

