Alibaba s Qwen3.7-Maxom testira AI inženjera koji radi satima
Qwen3.7-Max je predstavljen kroz dugotrajni agentski rad na kodu za prilagođeni čip.📷 AI-generated image / TECH&SPACE
- ★Qwen3.7-Max cilja dugotrajne autonomne agentske zadatke, a ne samo kratke chatbot odgovore.
- ★Alibaba navodi 35-satni autonomni rad na optimizaciji koda za vlastiti prilagođeni čip.
- ★Model je uspoređen s Claude Opus 4.6, DeepSeek V4 Pro i Kimi K2.6 te prikazan u robotici.
Alibaba je preko svog Qwen tima predstavila Qwen3.7-Max, vlasnički AI model postavljen za jedan od najvažnijih testova sadašnje generacije agentskih sustava: može li model ostati koristan nakon desetaka sati rada, bez stalnog ljudskog gurkanja natrag na zadatak. Prema izvještaju The Decodera, model je autonomno radio 35 sati na optimizaciji koda za Alibabin prilagođeni čip.
To je važniji detalj od samog naziva modela. Većina javne rasprave o velikim modelima još se vrti oko kratkih promptova, usporednih tablica i dojmljivih demo snimki. Ovdje je naglasak drukčiji: dugotrajna izvedba, održavanje konteksta i sposobnost da se složen tehnički zadatak ne raspadne nakon prvih nekoliko koraka. Ako je izvještaj točan u navedenom opsegu, Qwen3.7-Max se pozicionira bliže AI radnom procesu nego klasičnom asistentu za jednokratne odgovore.
Alibaba pritom ne ulazi u prazno polje. Qwen je već poznata obitelj modela, a javni materijali oko Qwen ekosustava pokazuju koliko kineski AI laboratoriji agresivno grade infrastrukturu oko modela, alata i primjena. No Qwen3.7-Max je u ovom slučaju opisan kao vlasnički model, što znači da se javno ne može provjeriti sve ono što bi se moglo kod potpuno otvorenog izdanja: točna arhitektura, trening podaci, evaluacijski protokol i stvarni uvjeti 35-satnog agentskog pokusa.
Qwen tim tvrdi da je novi vlasnički model 35 sati samostalno optimizirao kod za Alibabin prilagođeni čip, uz benchmarke na razini Claude Opus 4.6 i demo s četveronožnim robotom.
Robotički demo širi priču s optimizacije koda na fizičko upravljanje.📷 AI-generated image / TECH&SPACE
Benchmark dio priče također treba čitati hladne glave. The Decoder navodi da se Qwen3.7-Max izjednačuje s Claude Opus 4.6 na benchmarkovima te nadmašuje kineske konkurente DeepSeek V4 Pro i Kimi K2.6. Takva usporedba ima tržišnu težinu jer Anthropicov Claude ostaje jedna od glavnih referenci za napredno rezoniranje i kodiranje, dok se DeepSeek i Kimi nameću kao domaći kineski pritisak na Alibabu.
Ali benchmark nije isto što i proizvodni posao. Ono što ovu objavu čini zanimljivom jest kombinacija benchmark tvrdnje i konkretnog agentskog scenarija: optimizacija koda za prilagođeni čip. Takav zadatak traži više od generiranja urednog isječka koda. Model mora pratiti cilj, procjenjivati promjene, držati se ograničenja hardvera i ne skrenuti u samouvjerenu improvizaciju. Iz supplied konteksta ne znamo koliko je ljudi nadziralo proces, koji su alati bili spojeni na model ni kako je mjerena kvaliteta konačne optimizacije, pa te rupe ostaju ključne.
Dodatni signal je demo u kojem model upravlja četveronožnim robotom. To ne dokazuje spremnost za industrijsku autonomiju, ali pokazuje ambiciju: Qwen3.7-Max nije zamišljen samo kao tekstualni alat, nego kao agentska jezgra koja može dodirnuti softver, hardver i fizičku akciju. Upravo tu će se lomiti sljedeća faza AI utrke. Modeli koji pišu dobar odgovor više nisu dovoljni; bit će važni oni koji satima rade provjerljivo, popravljivo i bez dramatičnog pada kvalitete.

