Dokumentni AI više ne smije samo čitati tekst, nego čuvati redove i formule
FireRed-OCR-2B is aimed at structural hallucinations in tables and LaTeX.📷 Generated editorial visual / Tech&Space
- ★Model postiže 92,94% na OmniDocBench v1.5
- ★GRPO metoda rješava sintaksne greške u dokumentima
- ★Namijenjen programerima, nadmašuje Gemini-3.0 Pro
Dokumenti prepuni tablica i LaTeX formula odavno su noćna mora za sustave za optičko prepoznavanje teksta. FireRedTeam sada tvrdi da je pronašao rješenje: FireRed-OCR-2B, model koji tretira parsiranje dokumenata kao strukturirani inženjerski problem. Umjesto tradicionalnog pristupa u tri koraka – detekcija rasporeda, ekstrakcija teksta i rekonstrukcija strukture – novi model koristi Format-Constrained Group Relative Policy Optimization (GRPO) kako bi izravno generirao sintaksno ispravne izlaze.
Rezultati na OmniDocBench v1.5 benchmarku govore sami za sebe: 92,94 % točnosti, što je gotovo tri postotna boda više od najbližeg konkurenta, DeepSeek-OCR2. Model je izgrađen na temelju Qwen3-VL-2B-Instruct arhitekture, ali s ključnim poboljšanjima u obradi gusto strukturiranih dokumenata. Istraživači ističu da je GRPO metoda ključna za sprječavanje 'halucinacija' poput izmišljenih formula ili nepovezanih redaka u tablicama.
GRPO i formatna ograničenja ciljaju jednu od najtvrdoglavijih grešaka u dokumentnom AI-u.
The model's promise is not just reading text, but preserving document structure.📷 Generated editorial visual / Tech&Space
Ipak, benchmark rezultati često ne odražavaju stvarne uvjete. Dok model postiže izvanredne rezultate na kontroliranim testovima, ostaje nejasno kako će se nositi s neurednim PDF-ovima, rukopisnim bilješkama ili dokumentima s nestandardnim formatima. Tehničke pojedinosti GRPO metode također ostaju donekle nejasne, što otvara prostor za skepticizam o dugoročnoj robusnosti pristupa.
Za programere koji se svakodnevno bore s tehničkom dokumentacijom, FireRed-OCR-2B mogao bi biti pravo olakšanje. Umjesto ručnog ispravljanja grešaka u generiranim LaTeX izrazima ili tablicama, model obećava izravno generiranje upotrebljivog koda. To bi moglo ubrzati procese poput konverzije PDF priručnika u strojno čitljive formate ili automatizacije obrade znanstvenih radova.
Međutim, kao i kod mnogih AI inovacija, postoji jaz između laboratorijskih rezultata i stvarne primjene. Iako model nadmašuje konkurente na standardiziranim testovima, još nema neovisnih provjera u produkcijskim okruženjima. Tehnički detalji GRPO metode također ostaju donekle nejasni, što dodatno pojačava sumnje u njegovu dugoročnu učinkovitost.

