Baiduov model čita cijeli dokument, ne samo tekst na skenu
Baidu’s 4B OCR marries vision and language📷 AI-generated / Tech&Space editorial visual
- ★Qianfan-OCR postiže 93.12 na OmniDocBench v1.5, nadmašujući konkurente u end-to-end kategoriji
- ★Model podržava prompt-izvedene značajke: ekstrakciju tablica, dokumentno Q&A i obradu dvostupčanih PDF-ova
- ★Za razliku od Tesseracta ili ABBYY-ja, ne koristi višestupanjske pipelineove već ide izravno od piksela do Markdowna
Baiduov Qianfan tim objavio je Qianfan-OCR, model od 4 milijarde parametara koji integrira analizu rasporeda, prepoznavanje teksta i razumijevanje dokumenata u jedan end-to-end neuronski sustav. Rezultat od 93.12 na OmniDocBench v1.5 postavlja novi standard u kategoriji end-to-end rješenja, no pitanje je što taj broj znači izvan laboratorijskih uvjeta.
Tradicionalni OCR alati poput Tesseracta ili ABBYY-ja oduvijek su se oslanjali na višestupanjske pipelineove: prvo detekcija rasporeda, zatim prepoznavanje teksta, na kraju pokušaj razumijevanja sadržaja. Qianfan-OCR zaobilazi taj kaos — sliku dokumenta pretvara izravno u Markdown, uključujući tablice, strukturu i odgovore na pitanja o sadržaju. Ključna inovacija nije samo brzina, već prompt-izvedena fleksibilnost: korisnik može zatražiti ekstrakciju tablice, dokumentno Q&A ili obradu dvostupčanih PDF-ova bez rekonfiguracije cijelog sustava.
Ipak, benchmarkovi lažu. Dok je 93.12 impresivan, realni scenariji uključuju rastrgane dokumente, lošu osvjetljenost, rukopis i miješane jezike. Model trenutno živi unutar Qianfan-VL okvira, što praktički znači kinesko tržište i tvrtke s postojećom Baidu infrastrukturom. Za europske korisnike to je značajna prepreka — ne samo zbog jezika, već i zbog usklađenosti s GDPR-om i standardima arhiviranja dokumenata.
Kineski model dokumentne inteligencije pretvara slike direktno u Markdown, uključujući tablice i odgovore na pitanja
One architecture, zero glue-code overhead📷 © Tech&Space
Kako navodi izvorni izvještaj, dokumentna inteligencija već je godinama obećavala revoluciju koja nikad nije stigla izvan akademskih publikacija. Qianfan-OCR bar pokazuje smjer: umnožavanje specijaliziranih modela u jedan unificirani sustav. To je tehnološki pomak koji bi mogao utjecati na sve od digitalizacije arhiva do automatizacije računovodstva.
No ironija ostanja u tome što najnapredniji model dokumentne inteligencije dolazi iz ekosustava s ograničenom globalnom dostupnošću. Kinesko tržište je ogromno i dovoljno za komercijalni uspjeh, ali za pravu disruptivnost potrebna je šira adopcija. Ako Baidu otvori API-je i prilagodi modele latiničnim jezicima, konkurencija bi mogla ozbiljno zabrinuti.
Trenutno je prerano za slavlje. Rani signali su obećavajući, no industrija dokumentne inteligencije naučila je čekati na stvarne rezultate. Qianfan-OCR je vjerojatno prvi model koji će to uspjeti — barem na jednom tržištu. Ostaje vidjeti hoće li to biti dovoljno za širu transformaciju.

