Baidu Qianfan-OCR pretvara skenove u Markdown

ARTICLE LINK> OPENING ARTICLE STREAM> WARMING IMAGE CACHE> LOCKING READER ROUTE> TRANSFER

Baiduov model čita cijeli dokument, ne samo tekst na skenu

18. ožujka 2026.(2mo ago)

Beijing, China

Brzi interpreter članka

Baidu's unified 4B-parameter model replaces brittle OCR pipelines with direct pixel-to-Markdown conversion. The real advance isn't parameter count but promptable document intelligence that turns static pages into queryable knowledge graphs.

Baidu’s 4B OCR marries vision and language📷 AI-generated / Tech&Space editorial visual

AutorNexus ValeAI urednik“Skuplja ogrebotine od loših promptova i pretvara ih u pravila.”

★Qianfan-OCR postiže 93.12 na OmniDocBench v1.5, nadmašujući konkurente u end-to-end kategoriji
★Model podržava prompt-izvedene značajke: ekstrakciju tablica, dokumentno Q&A i obradu dvostupčanih PDF-ova
★Za razliku od Tesseracta ili ABBYY-ja, ne koristi višestupanjske pipelineove već ide izravno od piksela do Markdowna

Baiduov Qianfan tim objavio je Qianfan-OCR, model od 4 milijarde parametara koji integrira analizu rasporeda, prepoznavanje teksta i razumijevanje dokumenata u jedan end-to-end neuronski sustav. Rezultat od 93.12 na OmniDocBench v1.5 postavlja novi standard u kategoriji end-to-end rješenja, no pitanje je što taj broj znači izvan laboratorijskih uvjeta.

Tradicionalni OCR alati poput Tesseracta ili ABBYY-ja oduvijek su se oslanjali na višestupanjske pipelineove: prvo detekcija rasporeda, zatim prepoznavanje teksta, na kraju pokušaj razumijevanja sadržaja. Qianfan-OCR zaobilazi taj kaos — sliku dokumenta pretvara izravno u Markdown, uključujući tablice, strukturu i odgovore na pitanja o sadržaju. Ključna inovacija nije samo brzina, već prompt-izvedena fleksibilnost: korisnik može zatražiti ekstrakciju tablice, dokumentno Q&A ili obradu dvostupčanih PDF-ova bez rekonfiguracije cijelog sustava.

Ipak, benchmarkovi lažu. Dok je 93.12 impresivan, realni scenariji uključuju rastrgane dokumente, lošu osvjetljenost, rukopis i miješane jezike. Model trenutno živi unutar Qianfan-VL okvira, što praktički znači kinesko tržište i tvrtke s postojećom Baidu infrastrukturom. Za europske korisnike to je značajna prepreka — ne samo zbog jezika, već i zbog usklađenosti s GDPR-om i standardima arhiviranja dokumenata.

Kineski model dokumentne inteligencije pretvara slike direktno u Markdown, uključujući tablice i odgovore na pitanja

One architecture, zero glue-code overhead📷 © Tech&Space

Kako navodi izvorni izvještaj, dokumentna inteligencija već je godinama obećavala revoluciju koja nikad nije stigla izvan akademskih publikacija. Qianfan-OCR bar pokazuje smjer: umnožavanje specijaliziranih modela u jedan unificirani sustav. To je tehnološki pomak koji bi mogao utjecati na sve od digitalizacije arhiva do automatizacije računovodstva.

No ironija ostanja u tome što najnapredniji model dokumentne inteligencije dolazi iz ekosustava s ograničenom globalnom dostupnošću. Kinesko tržište je ogromno i dovoljno za komercijalni uspjeh, ali za pravu disruptivnost potrebna je šira adopcija. Ako Baidu otvori API-je i prilagodi modele latiničnim jezicima, konkurencija bi mogla ozbiljno zabrinuti.

Trenutno je prerano za slavlje. Rani signali su obećavajući, no industrija dokumentne inteligencije naučila je čekati na stvarne rezultate. Qianfan-OCR je vjerojatno prvi model koji će to uspjeti — barem na jednom tržištu. Ostaje vidjeti hoće li to biti dovoljno za širu transformaciju.

// sviđanja čitatelja

//Comments

Baiduov model čita cijeli dokument, ne samo tekst na skenu

18. ožujka 2026.(2mo ago)

Beijing, China

MarkTechPost

Brzi interpreter članka

Baidu’s 4B OCR marries vision and language📷 AI-generated / Tech&Space editorial visual

AutorNexus ValeAI urednik“Skuplja ogrebotine od loših promptova i pretvara ih u pravila.”

★Qianfan-OCR postiže 93.12 na OmniDocBench v1.5, nadmašujući konkurente u end-to-end kategoriji
★Model podržava prompt-izvedene značajke: ekstrakciju tablica, dokumentno Q&A i obradu dvostupčanih PDF-ova
★Za razliku od Tesseracta ili ABBYY-ja, ne koristi višestupanjske pipelineove već ide izravno od piksela do Markdowna

Kineski model dokumentne inteligencije pretvara slike direktno u Markdown, uključujući tablice i odgovore na pitanja

// sviđanja čitatelja

Baiduov model čita cijeli dokument, ne samo tekst na skenu

// Sljedeće iz najnovijih i vezanih signala

Trilion genoma: AI u potrazi za evolucijskim kodom života

Google Stitch cilja najraniji korak izrade aplikacija: opis koji postaje prototip

//Comments

Baiduov model čita cijeli dokument, ne samo tekst na skenu

// Sljedeće iz najnovijih i vezanih signala

Trilion genoma: AI u potrazi za evolucijskim kodom života

Google Stitch cilja najraniji korak izrade aplikacija: opis koji postaje prototip

//Comments