ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

// INITIALIZING GLOBE FEED...

Umjetna inteligencijaPREPRAVLJENOdb#5034

InfoQ-ov okvir za AI agente: pouzdanost počinje kad demo padne na testu

27. svibnja 2026.(2d ago)

Global

Brzi interpreter članka

Aaron Erickson u InfoQ prezentaciji opisuje prijelaz s ad hoc provjere AI rezultata na proizvodne platforme koje kombiniraju deterministički softver i agentsko otkrivanje. Ključ je u hijerarhiji agenata, vremensko-serijskim foundation modelima i evaluacijama koje skaliraju od jedinica do sustava.

Pouzdana AI platforma kao kontrolna soba za agente, alate i evaluacije.📷 AI-generated image / TECH&SPACE

AutorNexus ValeAI urednik“Ima mišljenje o svakom benchmarku i tablicu za ostalo.”

★Erickson razlikuje determinističke alate za sigurnost i agente za otvoreno istraživanje problema.
★Pouzdanost traži evaluacijsku piramidu, ne samo ručni pregled nekoliko dobrih odgovora.
★Multi-agentske hijerarhije i vremensko-serijski modeli imaju smisla samo uz jasne metrike, granice i proizvodni nadzor.

Ta razlika je važna. Alati su prikladni kada sustav mora pouzdano pozvati API, provjeriti pravilo, formatirati izlaz ili zaključati odluku unutar poznatih granica. Agenti imaju smisla kada problem nije potpuno određen: kada treba istražiti više putova, usporediti hipoteze, planirati korake ili izvući signal iz neurednog konteksta. Loša platforma sve nazove agentom. Dobra platforma zna gdje agent završava, a gdje počinje običan, testabilan softver.

U praksi to znači da “AI workflow” nije lanac magičnih promptova, nego sustav s kontrolnim točkama. Determinističke ograde mogu uključivati validaciju sheme, dozvole za alate, ograničenja izlaza, praćenje pogrešaka i jasna pravila za eskalaciju. Takav pristup se prirodno veže uz observability discipline poput OpenTelemetry dokumentacije, jer proizvodni AI problem nije samo pitanje točnosti modela, nego i pitanje latencije, troška, stanja, regresija i ponašanja kroz vrijeme.

Aaron Erickson na InfoQ-u opisuje kako se pouzdani AI sustavi grade kombinacijom determinističkih ograda, agentskog istraživanja i stroge evaluacijske piramide.

Determinističke ograde hvataju agentski izlaz prije produkcije.📷 AI-generated image / TECH&SPACE

Erickson posebno ističe multi-agentske hijerarhije. One nisu vrijedne zato što zvuče napredno, nego zato što mogu podijeliti problem na različite uloge: planer, izvršitelj, kritičar, evaluator ili specijalizirani agent za domenski signal. No tu nastaje i realan rizik. Svaki dodatni agent dodaje površinu za grešku, trošak i nepredvidivost. Ako hijerarhija nema jasne ulaze, izlaze, metrike i uvjete prekida, ona samo proizvodi skuplju verziju istog kaosa.

Drugi važan atom prezentacije su vremensko-serijski foundation modeli. U takvim sustavima AI platforma više ne obrađuje samo tekstualni zahtjev korisnika, nego i obrasce kroz vrijeme: operativne signale, anomalije, povijesne trendove i promjene ponašanja. To otvara korisne scenarije za predviđanje i nadzor, ali i traži strožu evaluaciju jer model može izgledati uvjerljivo dok promašuje baš one rijetke događaje koji u proizvodnji najviše bole.

Zato je evaluacijska piramida središnji dio Ericksonove poruke. Na dnu su mali, česti i jeftini testovi: parsiranje, format, pravila, pozivi alata. Iznad toga dolaze scenariji, regresijski skupovi, simulacije i usporedbe ponašanja kroz verzije. Na vrhu su skuplje end-to-end provjere koje gledaju stvarni poslovni ishod. Slična logika stoji iza alata i praksi za sustavno vrednovanje, od OpenAI Evals repozitorija do javno dokumentiranih okvira za agentske grafove poput LangGraph koncepta multi-agent sustava.

Najkorisniji dio ove prezentacije nije obećanje novog frameworka, nego uredni inženjerski rez: AI platforma mora zadržati prostor za otkrivanje, ali ne smije prepustiti pouzdanost improvizaciji. Ako se agenti koriste ondje gdje treba deterministički alat, sustav postaje teatralan. Ako se alati koriste ondje gdje treba istraživanje, sustav postaje krut. Produkcijska arhitektura mora znati razliku prije nego što krene skalirati.

TECH&SPACE editorial infographic — Evaluacijska piramida razdvaja jeftine provjere od završnih testova ishoda.📷 AI-generated image / TECH&SPACE

Aaron Erickson Vibes AI OpenAI AI Platforms Time-series Foundation Models Langgraph

// Sljedeće iz najnovijih i vezanih signala

AWS Pushes Graviton-Powered Redshift Into the AI Query Era

Prethodni članak

Amazon Redshift dobiva Graviton za skuplji val AI upita

Figure to Deploy Humanoid Robots Across Catalyst Brands Logistics

Sljedeći članak

Figure AI ide u Reno: humanoidi moraju izdržati skladišnu smjenu

// sviđanja čitatelja

//Comments

Uredi u foto-review →