Intel Optane dobio je drugu AI šansu u lokalnom modelu od bilijun parametara
Radna stanica s Optane memorijom pokazuje koliko je lokalni AI još uvijek memorijska igra.📷 AI-generated image / TECH&SPACE
- ★Sustav je koristio 768 GB Intel Optane PMem DIMM memorije i jednu grafičku karticu za lokalni Kimi K2.5.
- ★Tom's Hardware navodi da je instalacija postigla približno četiri tokena u sekundi.
- ★Eksperiment pokazuje jeftiniji put za AI testiranje, ali ne briše ograničenja brzine, propusnosti i potrošnje.
Lokalni AI obično se lomi na istom mjestu: memoriji. Modeli mogu biti otvoreni, alati mogu biti dostupni, ali ako težine ne stanu u dostupni VRAM ili sistemski RAM, priča vrlo brzo prestaje biti kućni projekt. Zato je eksperiment koji je opisao Tom's Hardware zanimljiv i bez ikakvog pretvaranja da je riječ o novom standardu performansi.
Prema izvještaju, Reddit korisnik uspio je pokrenuti lokalni Kimi K2.5, model klase bilijun parametara, na radnoj stanici s jednom grafičkom karticom. Ključ nije bio egzotični GPU klaster, nego 768 GB rabljenih Intel Optane persistent memory DIMM modula korištenih kao veliki memorijski bazen. Takva konfiguracija ne pretvara radnu stanicu u podatkovni centar, ali mijenja računicu: umjesto da je ulaznica za eksperimentiranje odmah više-GPU server, dio tereta može završiti na jeftinijoj, sporijoj, ali velikoj memoriji.
Broj koji prizemljuje cijelu priču je oko četiri tokena u sekundi. To je dovoljno da se pokaže da sustav radi, ali nije dovoljno da se zaboravi razlika između demonstracije i produkcijske uporabe. Kod velikih jezičnih modela brzina nije samo stvar sirove količine memorije. Važni su propusnost, latencija, način učitavanja težina, komunikacija između CPU-a, RAM-a i GPU-a te softverski sloj koji odlučuje gdje se što izvršava.
Entuzijast je s 768 GB Intel Optane PMem DIMM modula pokrenuo lokalni Kimi K2.5 na sustavu s jednom grafičkom karticom, uz oko četiri tokena u sekundi.
Optane PMem moduli u ovoj priči nisu akcelerator, nego veliki memorijski bazen.📷 AI-generated image / TECH&SPACE
Optane PMem je u ovoj priči zanimljiv upravo zato što je danas pomalo tehnološki ostatak jedne druge strategije. Intel ga je zamišljao kao sloj između klasičnog DRAM-a i pohrane: gušći od DRAM-a, postojan, ali sporiji. Nakon što je Optane linija ugašena, rabljeni moduli postali su nišni hardver za ljude koji znaju točno zašto ga žele. AI entuzijasti sada u njemu vide nešto drugo: prostor u koji se mogu smjestiti vrlo velike težine modela, čak i kada GPU memorija nije dovoljna.
Kimi K2.5 dolazi iz ekosustava Moonshot AI, a sama činjenica da se model te klase može lokalno pokrenuti na ovakvoj konfiguraciji važnija je od same brzine. To ne znači da je lokalni bilijunski LLM odjednom postao pristupačan svima. Znači da se rub eksperimentiranja pomiče prema ljudima koji mogu složiti neobične memorijske konfiguracije, pratiti ograničenja i prihvatiti kompromis između cijene i čekanja.
Ovdje treba biti precizan: ovo nije dokaz da će se veliki modeli uskoro masovno vrtjeti na običnim kućnim računalima. Jedna grafička kartica i 768 GB Optanea i dalje su specifična radna stanica, a četiri tokena u sekundi nisu ugodno interaktivno iskustvo za većinu zadataka. Ali eksperiment ruši jednu korisnu psihološku barijeru. Pokazuje da lokalno izvođenje modela ekstremne veličine ne mora uvijek početi i završiti cijenom najnovijeg GPU klastera.
Zato je najvažnija poruka arhitektonska. AI dostupnost neće se širiti samo novim modelima, nego i boljim iskorištavanjem čudnog, otpisanog ili podcijenjenog hardvera. U ovom slučaju, stari Optane nije čarobni akcelerator. On je velika, jeftina memorijska površina na kojoj se može testirati granica između teorijski mogućeg i stvarno korisnog.

