TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Tehnologijano db_id

Multiverse stiskuje AI: manja memorija, niži troškovi – ali za koga?

(1mo ago)
San Sebastián, Spain
Future Pulse
Multiverse stiskuje AI: manja memorija, niži troškovi – ali za koga?

Multiverse stiskuje AI: manja memorija, niži troškovi – ali za koga?📷 © Tech&Space

Kada kompanija objavi da može prepoloviti memorijske zahtjeve velikih AI modela, prvo pitanje nije kako, već zašto bi nas to trebalo zanimati. Multiverse Computing upravo je predstavio komprimirani OpenAI-jev model koji, prema njihovim tvrdnjama, ne samo da smanjuje potrošnju memorije, nego i niže troškove infrastrukture – a to su upravo dvije glavne prepreke širem usvajanju naprednih AI rješenja. Ne radi se o uklanjanju 'cigala' iz sustava, kako tvrde u svojoj metafori („prepisujemo plan, ne skidamo opeke“), već o fundamentalnom pitanju: može li se visoka performansa AI-a postići bez visoke cijene? Ono što ovaj pristup čini zanimljivim jest da ne ide putem approximate computing-a (gdje se žrtvuje preciznost radi bržine), već se oslanja na kvantno-inspirirane algoritme za kompresiju modela bez značajnog gubitka kvalitete. Prema dostupnim informacijama, rješenje je testirano na OpenAI-jevim modelima, a rezultati sugeriraju da bi korisnici mogli pokretati aplikacije koje danas zahtijevaju skupu GPU infrastrukturu – na standardnim serverima, ili čak lokalno. To nije samo pitanje uštede: za startupove i srednje tvrtke koje eksperimentiraju s AI-om, razlika između 16GB i 8GB RAM-a po modelu može značiti izbor između imati ili nemati operativni budžet za razvoj. No, koliko je ovo stvarno novo? Tržište već nudi rješenja za optimizaciju modela – od Quantized LLMs do pruning tehnika koje 'orežu' suvišne parametre. Multiverseov pristup se, međutim, ističe time što ne zahtijeva promjenu postojeće infrastrukture: komprimirani model radi na istim frameworkovima (PyTorch, TensorFlow) i ne nameće dodatne slojeve apstrakcije. To je ključno za poduzeća koja ne žele ulagati u nove alate, ali im je potrebna efikasnija AI potrošnja.

Što znači kada se velika jezgra modela može pokrenuti na uobičajenom hardveru?

Što znači kada se velika jezgra modela može pokrenuti na uobičajenom hardveru?📷 © Tech&Space

Što znači kada se velika jezgra modela može pokrenuti na uobičajenom hardveru?

Da bi se razumjelo za koga je ovo stvarno važno, treba pogledati tko danas najviše pati od visokih troškova AI infrastrukture. Istraživanje iz 2023. pokazuje da čak 60% tvrtki koje razvijaju AI modele navodi troškove računalne snage kao glavnu barijeru skaliranju. Multiverseovo rješenje neće vjerojatno promijeniti igru za Googlov DeepMind ili Meta-jeve interne modele – ali bi moglo otvoriti vrata manjim igračima, poput regionalnih fintech startupova ili zdravstvenih ustanova koje eksperimentiraju s lokalnim LLM-ovima za analizu podataka. Čak i ako kompresija znači gubitak, recimo, 5% točnosti (što Multiverse još uvijek nije detaljno dokumentirao), za mnoge use case-ove – kao što su chatbotovi za korisničku podršku ili interne pretraživači dokumentacije – to može biti prihvatljiva razmjena. Međutim, postoji i druga strana medalje: ako se kompresija pokaže dovoljno učinkovitom, mogla bi dodatno centralizirati moć u rukama nekoliko cloud provajdera. AWS, Google Cloud i Azure već nude „optimizirane“ AI instance – a ako bi kompresija postala standard, oni bi mogli ponuditi „jeftinije“ pakete koji zapravo vežu korisnike na njihovu platformu.

future-pulseautomatedtechnology

//Comments