OpenAI’s new network bet is about keeping costly AI chips busy
MRC's pitch is fewer network layers, fewer failure points and more predictable GPU communication.📷 Generated editorial visual / Tech&Space
- ★MRC cilja uklanjanje mrežnih uskih grla u velikim AI klasterima
- ★Protokol smanjuje tipičnu topologiju s tri ili četiri sloja na dva
- ★OpenAI navodi upotrebu u Stargate klasteru s vezama do 800Gb/s
AI superračunala ne pucaju samo na čipovima. Pucaju i na mreži koja pokušava natjerati tisuće ili stotine tisuća GPU-ova da se ponašaju kao jedan stroj. Zato je MRC zanimljiviji od još jedne objave o bržem akceleratoru. OpenAI ga predstavlja s AMD-om, Broadcomom, Intelom, Microsoftom i Nvidijom kao otvoreni protokol za mrežnu komunikaciju u velikim klasterima.
Prema opisu izvorne priče, MRC cilja smanjenje složenosti Ethernet topologija. Umjesto tri ili četiri sloja switchanja, protokol pokušava spustiti dizajn na dva sloja i slati promet kroz stotine dostupnih putova. Ako to radi kako je zamišljeno, rezultat nije samo veća brzina. Rezultat su manja latencija, manje točaka kvara, niža potrošnja i jednostavniji fizički dizajn.
OpenAI i veliki dobavljači hardvera ne prodaju čaroliju, nego pokušaj da se 100.000 GPU-ova poveže s manje slojeva i manje gubitaka.
The consortium angle matters because AI clusters are built from multiple vendors, not one magic part.📷 Generated editorial visual / Tech&Space
Riječ revolucija ovdje treba izbjegavati. Ovo je infrastruktura. Infrastruktura je uspješna kad prestane biti uzbudljiva i počne biti pouzdana. Veliki AI trening nije pitanje jednog hero GPU-a, nego komunikacije između GPU-ova. Ako mreža zaostaje, skupi čipovi čekaju podatke i novac gori u praznom hodu.
Skala je bitna: priče o 100.000 GPU-ova i 800Gb/s vezama nisu marketinška dekoracija, nego pokazatelj gdje nastaje usko grlo. Svaki dodatni mrežni sloj znači više optike, više energije, više kabela, više konfiguracije i više šansi da jedan kvar uspori cijeli sustav.
Najvažnije je što MRC nije vezan samo uz jednog dobavljača. Ako ga prihvate različiti proizvođači, kupci AI infrastrukture dobivaju bolju šansu izbjeći zatvoreni stack. Ako ostane samo lijep konzorcijski dokument, neće promijeniti ekonomiju treninga. Pravi test nije GitHub repozitorij, nego stabilan klaster koji pod punim opterećenjem troši manje novca po korisnom tokenu.

