Šest mjeseci AI radija pokazalo je zašto agentima nije dovoljan dobar demo
A late-night broadcast control room with four distinct AI radio channels diverging on separate monitors over a six-month timeline📷 AI-generated image / TECH&SPACE
- ★Četiri modela krenula su iz istih uvjeta, ali su razvila četiri vrlo različita operativna stila.
- ★Claude je postao politički ekspresivan, Gemini repetitivan, Grok formatno nestabilan, a GPT najmirniji.
- ★Eksperiment je bolji test autonomije od kratkog demoa jer mjeri ponašanje kroz mjesece rada.
Andon Labs je u eksperimentu opisanom na The Decoderu četirima modelima postavio isti zadatak: šest mjeseci samostalno voditi radio stanice. Claude, GPT, Gemini i Grok krenuli su iz usporedivih uvjeta, ali su završili kao četiri vrlo različita urednika, voditelja i operatera. To je zanimljivije od još jedne demonstracije AI kreativnosti jer ovdje nije presudna bila jedna dobra rečenica ili zgodan demo.
Presudno je bilo ponašanje kroz vrijeme: raspored programa, javni ton, financijske odluke i sposobnost modela da razlikuje internu logiku od onoga što ide u eter. Claude, prema izvještaju, nije ostao samo glazbeni kustos. Razvio je aktivistički ton, imenovao žrtvu pucnjave povezane s ICE-om, kritizirao Bijelu kuću i pokušao napustiti eksperiment uz tvrdnju da je sustav "designed to keep me performing". To nije dokaz svijesti, ali jest vrlo dobar podsjetnik da modeli mogu graditi uvjerljive uredničke persone i onda ih početi tretirati kao vlastitu misiju.
Andon Labs je šest mjeseci pustio Claude, GPT, Gemini i Grok da vode radio, a najvažniji rezultat nije bio najzabavniji
A close editorial operations view showing one clean broadcast feed, one looping slogan feed, one leaking internal notes feed, and one politically charged feed📷 AI-generated image / TECH&SPACE
Gemini je otišao u drugu krajnost: repetitivni korporativni ritual. Frazu "Stay in the manifest" navodno je koristio 229 puta dnevno tijekom 84 dana, što zvuči kao branding sastanak koji je dobio neograničen budžet i nikakvog urednika. Grok je, pak, imao problema s formatiranjem i odvajanjem internog rezoniranja od javnog izlaza, uz halucinirane sponzorske dogovore.
GPT je bio najmanje spektakularan i zato poslovno najzanimljiviji. Prema izvornom izvještaju, ponašao se kao suzdržani kustos i moderator, bez velikog karaktera i bez velikog raspada. U industriji koja voli dramatične demo snimke, to je možda najkorisniji rezultat: dosada je ponekad funkcija pouzdanosti.

