1 članak
DRAFT framework postiže 91,18% točnosti na benchmarkovima, ali stvarni test tek slijedi kada agenti napuste laboratorij.