Ollama na M1/M2: lokalni modeli dobivaju Apple-ov turbo
Editorialni vizual za "Ollama na M1/M2: lokalni modeli dobivaju Apple-ov turbo", usmjeren na glavni sustav i ulog priÄe.š· AI-generated / Tech&Space editorial composite
- ā MLX podrÅ”ka u Ollami 0.1.9 za Apple Silicon
- ā 35B-parametarski Qwen3.5 radi na 32GB RAM-a
- ā Lokalni AI dobiva konkurentnu prednost nad cloudom
Ollama 0.1.9 donosi MLX integraciju ā Apple-ov framework optimiziran za unificiranu memoriju M1/M2/M3 Äipova ā i time pretvara Macove u ozbiljne igraÄe za lokalno pokretanje velikih jezika. Ne radi se o teorijskom ubrzanju: dokumentacija navodi da 35-milijardni Qwen3.5 model sada radi na ureÄajima s minimalno 32GB RAM-a, Å”to ga Äini jednim od rijetkih lokalnih modela te klase dostupnih van oblaka.
KljuÄna promjena nije samo u bržem izvoÄenju, veÄ u efikasnijem koriÅ”tenju unificirane memorije ā Apple-ovog party tricka koji CPU i GPU dijele isti memorijski prostor bez kopiranja podataka. Iako Ollama ne navodi konkretne postotke ubrzanja, benchmarci korisnika na M2 Ultra Äipovima pokazuju smanjenje latencije za 30-40% u usporedbi s prethodnom CUDA implementacijom za Nvidijine kartice.
To nije Äudo: MLX je dizajniran upravo za Apple Silicon, dok su ranije lokalne implementacije bile portovi optimizirani za x86/Nvidia ekosustav. Ali tu poÄinje i stvarni jaz ā dokumentacija jasno upozorava da Äe manji modeli (npr. 7B ili 13B varijante) i dalje raditi bolje na ureÄajima s 16GB RAM-a, dok 35B zahtijeva barem dupli kapacitet.
Razlog za ovu granicu nije samo memorija, veÄ i naÄin na koji MLX upravlja cachingom. Ollama je istovremeno poboljÅ”ala predmemoriju za tokene, Å”to smanjuje potrebu za ponovnim raÄunanjem ā ali to funkcioniÅ”e samo ako model stane u RAM.
Za korisnike s M1 MacBookom od 16GB, ovo ostaje demo za druge: atraktivan, ali nedostupan bez nadogradnje hardvera.
Demo nasuprot deploymenta: tko zapravo može pokrenuti 35B model na laptopu
Drugi vizualni kut koji prikazuje praktiÄni mehanizam iza teme "Demo nasuprot deploymenta: tko zapravo može pokrenuti 35B model na laptopu".š· AI-generated / Tech&Space editorial composite
Part 2: Kontekst ove objave nije samo tehniÄki, veÄ i tržiÅ”ni. Local-first AI dobiva na zamahu nakon frustracija s OpenAI-jevim rate limitima i cijenama pretplate od $300,000 godiÅ”nje za enterprise korisnike ā Å”to je potaknulo projekte poput OpenClaw koji lokalne modele Äine konkurentnima za coding zadatke.
Ollamina MLX podrÅ”ka dolazi upravo u tom trenutku, nudeÄi alternativu onima koji ne žele ili ne mogu platiti cloud. No, stvarna priÄa nije o 'revoluciji', veÄ o segmentaciji tržiÅ”ta.
Apple Silicon korisnici s dovoljno RAM-a sada imaju prednost: mogu pokrenuti modele koji su ranije bili rezervirani za cloud ili high-end PC-ove s 64GB+ memorije. To je kompetitivni pomak ā posebno za startupe i istraživaÄe koji rade s osjetljivim podacima i ne žele slati upite van lokalne mreže.
S druge strane, veÄina hobbyista i razvijaÄa s osnovnim M1/M2 Macovima ostaje iskljuÄena iz ove premium funkcionalnosti. Dio community-a veÄ primjeÄuje da je najveÄe usko grlo ipak softver, a ne hardver: iako MLX radi bolje od CUDA-e na Apple Siliconu, ekosustav alata za fine-tuning i optimizaciju modela na Macu joÅ” uvijek zaostaje za Linux/Nvidia okruženjem.
Ollama je napravila korak, ali cijeli lanac mora pratiti ā od podrÅ”ke u PyTorchu do bolje integracije s Xcodeom. A to je priÄa koja Äe trajati duže od jednog releasea.
U konaÄnici, Ollamina podrÅ”ka za MLX otvara nova vrata za lokalno pokretanje velikih jezika, ali takoÄer pokazuje ograniÄenja postojeÄe tehnologije. Kako se tehnologija nastavlja razvijati, važno je da se zajednica fokusira na rjeÅ”avanju postojeÄih ograniÄenja i na stvaranju bolje infrastrukture za lokalno pokretanje AI modela.

