Microsoft želi da Copilot sam uhvati svoje pogreške prije nego što ih vi platite
Microsoft and OpenAI Build Self-Auditing AI for Copilot📷 AI-generated / Tech&Space editorial visual
- ★Funkcija 'Critique' u M365 Copilot Researcher agentu koristi sekundarni model za provjeru odgovora primarnog modela
- ★Dvozorni pristup poboljšao je rezultate na DRACO benchmarku za 13,8%
- ★Mehanizam će se integrirati u širi Copilot sustav unutar nadolazećeg 'Wave 3' ažuriranja usmjerenog na kontekst rada
Microsoft više ne pušta AI u rad bez nadzora — sada mu postavlja drugog AI-a za inspektora. Nova funkcija Critique u M365 Copilot Researcher agentu koristi sekundarni model za provjeru odgovora primarnog modela, najvjerojatnije Clauda. Dvozorni pristup rezultirao je povećanjem točnosti na DRACO benchmarku za 13,8 posto — razlika koja u istraživačkim zadacima znači pouzdanije navode, potpunije izvore i manje haluciniranih tvrdnji. Rani signali sugeriraju da će se ovaj mehanizam integrirati u širi Copilot sustav unutar nadolazećeg Wave 3 ažuriranja, posebno usmjerenog na razumijevanje konteksta rada.
OpenAI, kao partner u inicijativi, pruža GPT modele koji čine temelj Researcher agenta. Kolaboracija dviju tvrtki naglašava pomak iz faze eksperimenta u fazu alata na koji se može osloniti u svakodnevnom poslu. Microsoft time ne samo da unapređuje vlastitu AI alatku već postavlja temelje za pouzdaniju interakciju u profesionalnom okruženju.
Drugi model provjerava prvi: rezultat je 13,8% bolja točnost na istraživačkim zadacima
Self-checking AI isn’t magic — it’s a scramble for trust in enterprise workflows📷 © Tech&Space
Cilj je omogućiti korisnicima delegiranje sve kompleksnijih zadataka AI agentima, što potvrđuje i uvođenje Copilot Cowork funkcije unutar Frontier programa. Taj model dopušta korisnicima da prepuste AI-ju cijeli tijek posla — od prikupljanja podataka do izrade dokumentacije. Copilot platforma tako postaje sve manje asistent, a sve više kolega s vlastitim radnim ciklusom.
Industrijski promatrači primjećuju kako Microsoft direktno odgovara na ključni izazov pouzdanosti AI alata, koji je dosad kočio njihovu masovniju upotrebu. Izjave korisnika sugeriraju da će ovaj korak utjecati na cijeli ekosustav poslovnih aplikacija. Važno je napomenuti kako ovaj razvoj nije tek tehnički trik — to je promjena arhitekture povjerenja. Kad jedan model kritizira drugog, sustav postaje samoregulatoran, a korisnik dobiva transparentnost koja je dosad bila rijetkost.

