TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#1881

AutoKernel: Kada LLM postane GPU tuner — i zašto to nije magija

(2w ago)
Global
marktechpost.com

AutoKernel: Kada LLM postane GPU tuner — i zašto to nije magija📷 © Tech&Space

  • 909 redaka upute za autonomno optimiziranje jezgre
  • 40 eksperimenata na sat, noću do 400 iteracija
  • Manje od 20% slučajeva gdje LLM-i nadmašuju PyTorch

Tim RightNow AI objavio je AutoKernel — open-source okvir koji pretvara autonomne LLM agente u GPU tuneere za proizvoljne PyTorch modele. Ključna razlika od prethodnih alata leži u činjenici da se ne radi o još jednom compileru, već o petlji eksperimenata koja automatski generira, testira i odbacuje Triton jezgre sve dok ne pronađe bolje rješenje od PyTorchove bazne linije. Svaka iteracija traje točno 90 sekundi (30 za provjeru ispravnosti, 30 za benchmark, 30 za modifikaciju), što omogućava 40 eksperimenata na sat — ili čitavu noć s 300–400 testova.

Problem koji AutoKernel pokušava riješiti nije mali: pisanje optimiziranog GPU koda za ML modele jedna je od najzahtjevnijih vještina u industriji, koja zahtijeva duboko poznavanje CUDA-a/Tritona, upravljanja memorijom i paralelnog računarstva. Čak i napredni LLM-i, kao što pokazuje KernelBench benchmark, u manje od 20 % slučajeva uspijevaju izjednačiti performanse s PyTorchovim osnovnim rješenjima. AutoKernel tu dinamiku pretvara u prednost: umjesto da se oslanja na jednoraznu generaciju, koristi fiksni benchmarking okvir koji mjeri propusnost i točnost svake kandidatske jezgre.

Ali ovdje počinje i prva siva zona. RightNow AI tvrdi da njihov pristup ’demokratizira’ pristup high-performance kernelima, ali realni jaz između benchmarka i production okruženja ostaje neadresiran. Što ako optimizirana jezgra radi savršeno na sintetičkim testovima, a u praksi — recimo, na dinamičkim ulazima ili heterogenim GPU klasterima — propadne? To je pitanje koje dokumentacija od 909 redaka (ih program.md) ne odgovara.

Demokratizacija performansi ili samo pametniji benchmarking?📷 © Tech&Space

Demokratizacija performansi ili samo pametniji benchmarking?

AutoKernel nije prvi pokušaj automatizacije GPU optimizacije, ali je prvi koji kombinira autonomne agente s strukturiranom petljom eksperimenata. Ključna inovacija leži u ’optimizacijskom priručniku’ — kodiranom u 909 redaka — koji agentu daje smjernice za iterativno poboljšavanje. Na primjer, za matmul operaciju (gdje ručno pisana jezgra ima 200+ redaka CUDA/Triton koda), AutoKernel pokušava pronaći balans između memorijske lokalnosti, paralelizma i registarskog pritiska, sve bez ljudske intervencije.

Među prvim signalima iz zajednice, GitHub diskusije pokazuju podijeljene reakcije: dio developera hvali brzu automatizaciju agenta za ’dosadne’ optimizacije, dok drugi upozoravaju na ’benchmarking iluziju’ — situaciju gdje alati sjajno izgledaju na kontroliranim testovima, ali se raspadnu u realnim uvjetima. Posebno je zanimljivo usporediti AutoKernel s PyTorchovim postojećim Triton compilerom: dok PyTorch nudi ’dobru dovoljnu’ performansu za 90 % slučajeva, RightNow AI cilja preostalih 10 % — ali po cijeni višestruko većeg broja eksperimenata.

Najveće pitanje ostaje ekonomija pažnje: tko će zapravo koristiti ovaj alat? Za startupe s ograničenim GPU resursima, 10-satna noćna optimizacija možda je luksuz. Ali za velika istraživačka tima — recimo, onih koji rade na difuzijskim modelima ili LLM-ovima — AutoKernel bi mogao postati ’tihi multiplier’ performansi, bez potrebe za angažiranjem skupe GPU ekspertize. Pravi test dolazi kada netko pokrene alat na nečem što nije ’benchmark-friendly’, recimo, na modelu s dinamičnom arhitekturom ili neobičnim tenzorima.

Pitanje nije hoće li AutoKernel revolucionirati GPU optimizaciju, već koliko će brzo zajednica prihvatiti njegovu metodologiju. Dok neki vide alat kao spas od kompleksnosti, drugi ga smatraju još jednom kompliciranom varijantom koja ne donosi pravu vrijednost.

AutoKernelKada LLMGPU

//Comments