DSN LINK STABLECARRIER WAVE LOCKORBITAL INDEX HOTSIGNAL CLOCK SYNCLOW NOISE FLOORFRAME BUFFER ONLINE
Loading
11 članaka
EMO pokušava pretvoriti MoE modularnost iz teorijske računarske prednosti u praktičan alat za manje, domenski usmjerene modele.
DeepSeek V4 stiže u Flash i Pro verziji s 1M-token context windowom, MoE arhitekturom i tvrdnjom da se približava vodećim zatvorenim modelima.
Transformeri troše **33,634 Wh po upitu** — dovoljno da pokrenete tri pametna telefona svaki put kada chatbot razmisli.
LiME koristi jedan dijeljeni PEFT modul i lake vektore eksperata kako bi smanjio MoE-PEFT parametre do četiri puta.
400 milijardi parametara u MoE arhitekturi s 4-of-256 rutiranjem čini Trinity Large Thinking najvećim otvorenim modelom za razmišljanje—ali aktivira samo 13 milijardi po koraku.
Googleov novi Gemma 4 nudi četiri multimodalna modela s vizualnim sposobnostima, ali pravi test bit će kako će PLE tehnologija funkcionirati izvan laboratorija.
MoE-ov model s 1 bilijunom parametara sada radi na MacBook Pro-u s 96GB.
Mistral je tiho isporučio Small 4, 119-milijardni MoE model koji objedinjuje Magistral, Pixtral i Devstral u jedan binarni s 6 milijardi aktivnih težina — i prvi put to zaista funkcionira u produkciji.
4.04x ubrzanje MoE modela na edge uređajima bez novog hardvera zvuči kao čarobnjakovo rješenje — sve dok ne pročitate da su benchmarkovi rađeni na *simuliranom* heterogenom okruženju.
Nemotron 3 Super spaja 120B parametara, Mambu i MoE za novu rundu otvorenih agenata.
YuanLabov model stavlja naglasak na MoE pruning i expert rearrangement, što ga čini pričom o računalnoj ekonomiji, ne samo veličini.