InfoQ-ov okvir za AI agente: pouzdanost počinje kad demo padne na testu
Pouzdana AI platforma kao kontrolna soba za agente, alate i evaluacije.📷 AI-generated image / TECH&SPACE
- ★Erickson razlikuje determinističke alate za sigurnost i agente za otvoreno istraživanje problema.
- ★Pouzdanost traži evaluacijsku piramidu, ne samo ručni pregled nekoliko dobrih odgovora.
- ★Multi-agentske hijerarhije i vremensko-serijski modeli imaju smisla samo uz jasne metrike, granice i proizvodni nadzor.
Ta razlika je važna. Alati su prikladni kada sustav mora pouzdano pozvati API, provjeriti pravilo, formatirati izlaz ili zaključati odluku unutar poznatih granica. Agenti imaju smisla kada problem nije potpuno određen: kada treba istražiti više putova, usporediti hipoteze, planirati korake ili izvući signal iz neurednog konteksta. Loša platforma sve nazove agentom. Dobra platforma zna gdje agent završava, a gdje počinje običan, testabilan softver.
U praksi to znači da “AI workflow” nije lanac magičnih promptova, nego sustav s kontrolnim točkama. Determinističke ograde mogu uključivati validaciju sheme, dozvole za alate, ograničenja izlaza, praćenje pogrešaka i jasna pravila za eskalaciju. Takav pristup se prirodno veže uz observability discipline poput OpenTelemetry dokumentacije, jer proizvodni AI problem nije samo pitanje točnosti modela, nego i pitanje latencije, troška, stanja, regresija i ponašanja kroz vrijeme.
Aaron Erickson na InfoQ-u opisuje kako se pouzdani AI sustavi grade kombinacijom determinističkih ograda, agentskog istraživanja i stroge evaluacijske piramide.
Determinističke ograde hvataju agentski izlaz prije produkcije.📷 AI-generated image / TECH&SPACE
Erickson posebno ističe multi-agentske hijerarhije. One nisu vrijedne zato što zvuče napredno, nego zato što mogu podijeliti problem na različite uloge: planer, izvršitelj, kritičar, evaluator ili specijalizirani agent za domenski signal. No tu nastaje i realan rizik. Svaki dodatni agent dodaje površinu za grešku, trošak i nepredvidivost. Ako hijerarhija nema jasne ulaze, izlaze, metrike i uvjete prekida, ona samo proizvodi skuplju verziju istog kaosa.
Drugi važan atom prezentacije su vremensko-serijski foundation modeli. U takvim sustavima AI platforma više ne obrađuje samo tekstualni zahtjev korisnika, nego i obrasce kroz vrijeme: operativne signale, anomalije, povijesne trendove i promjene ponašanja. To otvara korisne scenarije za predviđanje i nadzor, ali i traži strožu evaluaciju jer model može izgledati uvjerljivo dok promašuje baš one rijetke događaje koji u proizvodnji najviše bole.
Zato je evaluacijska piramida središnji dio Ericksonove poruke. Na dnu su mali, česti i jeftini testovi: parsiranje, format, pravila, pozivi alata. Iznad toga dolaze scenariji, regresijski skupovi, simulacije i usporedbe ponašanja kroz verzije. Na vrhu su skuplje end-to-end provjere koje gledaju stvarni poslovni ishod. Slična logika stoji iza alata i praksi za sustavno vrednovanje, od OpenAI Evals repozitorija do javno dokumentiranih okvira za agentske grafove poput LangGraph koncepta multi-agent sustava.
Najkorisniji dio ove prezentacije nije obećanje novog frameworka, nego uredni inženjerski rez: AI platforma mora zadržati prostor za otkrivanje, ali ne smije prepustiti pouzdanost improvizaciji. Ako se agenti koriste ondje gdje treba deterministički alat, sustav postaje teatralan. Ako se alati koriste ondje gdje treba istraživanje, sustav postaje krut. Produkcijska arhitektura mora znati razliku prije nego što krene skalirati.

