Semiconductor Engineering: AI čipovi gube brzinu kad podaci kasne
AI performanse sve više ovise o tome koliko brzo podaci stižu do akceleratora.📷 AI-generated image / TECH&SPACE
- ★AI sustavi sve češće zapinju na memoriji, interkonekcijama i prijenosu podataka, ne samo na računalnoj snazi.
- ★Dodavanje akceleratora ne rješava problem ako arhitektura ne može hraniti čipove dovoljno brzim i učinkovitim podacima.
- ★Rješenja se traže u bržoj memoriji, naprednom pakiranju, bližem smještaju računanja i podataka te boljem sustavnom dizajnu.
AI infrastruktura se često prodaje kroz jednu veliku brojku: koliko operacija akcelerator može izvesti. No članak Semiconductor Engineeringa vraća raspravu na manje glamurozan, ali presudan sloj problema. U velikim AI sustavima sve veći dio ograničenja nije u tome može li čip računati, nego može li do potrebnih podataka doći dovoljno brzo, dovoljno blizu i uz prihvatljivu potrošnju energije.
To je neugodan pomak za industriju jer ruši jednostavnu logiku “dodaj još GPU-ova”. Modeli i radna opterećenja mogu tražiti masivne količine memorijskog prometa, komunikacije između akceleratora i stalno prebacivanje podataka kroz više razina sustava. Ako podaci stoje u pogrešnom sloju memorijske hijerarhije, ako interkonekcija kasni ili ako se čipovi međusobno ne mogu hraniti punom brzinom, nominalna računalna snaga ostaje djelomično zaključana.
Zato se rasprava o AI hardveru sve više širi s pojedinačnog procesora na cijelu podatkovnu putanju. Memorija visoke propusnosti, uključujući tehnologije opisane kroz JEDEC-ove HBM standarde, postala je kritična jer smanjuje udaljenost i povećava širinu kanala između računanja i podataka. Ali ni HBM nije čarobni dodatak. Ako softver, mreža, raspored modela i pakiranje čipova nisu usklađeni, sustav i dalje može izgubiti vrijeme i energiju na premještanje podataka.
Semiconductor Engineering upozorava da se stvarni pritisak u AI sustavima sve češće seli na memoriju, interkonekcije i protok podataka između čipova.
Memorija, pakiranje i interkonekcije postaju stvarna granica mnogih AI sustava.📷 AI-generated image / TECH&SPACE
Drugi dio problema nalazi se između čipova i poslužitelja. AI klasteri ovise o interkonekcijama koje moraju prenositi podatke između akceleratora, memorijskih domena i mrežnih čvorova uz minimalno kašnjenje. Tehnologije poput NVIDIA NVLinka pokazuju koliko je industrija fokusirana na komunikaciju unutar akceleratorskih sustava, dok se širi ekosustav okreće standardima kao što je Compute Express Link za koherentnije povezivanje procesora, memorije i uređaja. Poanta nije u jednom pobjedničkom kablu ili protokolu, nego u činjenici da se AI performanse sve više mjere kvalitetom cijele topologije.
To mijenja i način na koji treba čitati najave novih čipova. Sama brojka o performansama nije dovoljna bez pitanja: koliko memorije sustav ima, kolika je stvarna propusnost, kako se akceleratori povezuju, gdje nastaju kopiranja podataka i koliko energije troši sama logistika podataka. U praksi, usko grlo može biti memorijski kontroler, interposer, mrežni fabric, softverski raspored ili način na koji model razbija rad preko više uređaja.
Za operatere podatkovnih centara to znači da optimizacija AI sustava više nije samo kupnja jačeg silicija. Treba projektirati sustav u kojem se podaci kreću kraćim putem, rjeđe se dupliciraju i stižu u pravo vrijeme. Za proizvođače čipova to znači veći pritisak na napredno pakiranje, chiplet dizajn, koherentne interkonekcije i arhitekture koje smanjuju energetski trošak prijenosa. Za kupce AI infrastrukture to znači trezvenije pitanje: ne “koliko brzo čip računa”, nego “koliko često čip čeka podatke”.

