TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#2881

Baiduov Qianfan-OCR Ai model sa 4B parametara i impresivnim benchmark rezultatima

(6d ago)
Beijing, China
marktechpost.com
Baiduov Qianfan-OCR Ai model sa 4B parametara i impresivnim benchmark rezultatima

Baiduov Qianfan-OCR Ai model sa 4B parametara i impresivnim benchmark rezultatima📷 © Tech&Space

  • Kineski gigant lansira model od 4 milijarde parametara
  • Izravna konverzija slika u Markdown bez višestupanjskog OCR-a
  • 93.12 bodova na OmniDocBench v1.5 nadmašuje konkurenciju

Kineski gigant Baidu predstavio je Qianfan-OCR, model dokumentne inteligencije koji više ne igra po starim pravilima višestupanjskih OCR pipelineova. Umjesto razdvajanja detekcije rasporeda, prepoznavanja teksta i razumijevanja sadržaja u zasebne module, ovaj model integrira sve u jedan neuronski sustav od 4 milijarde parametara.

Čuda se događaju na OmniDocBench v1.5: s rezultatom od 93.12, Qianfan-OCR nadmašuje konkurente i postavlja novi standard za end-to-end rješenja. Što je zapravo novo osim marketinga?

Tradicionalni OCR alati kao što su Tesseract ili ABBYY oduvijek su ovisili o složenim pipelineovima — prvo se detektira raspored, pa tekst, pa se na kraju pokuša razumjeti sadržaj. Qianfan-OCR zaobilazi taj kaos time što sliku dokumenta direktno pretvara u Markdown, uključujući strukturu, tablice i čak odgovore na pitanja o sadržaju.

Zdrav razum trpi: što zapravo mijenja ovaj model?

Zdrav razum trpi: što zapravo mijenja ovaj model?📷 © Tech&Space

Zdrav razum trpi: što zapravo mijenja ovaj model?

Ipak, tu je i pitanje stvarnih performansi naspram benchmarka. Dok je 93.12 na OmniDocBench impresivan broj, pitanje je koliko će ovaj model odraditi u realnim scenarijima gdje su dokumenti rastrgani, loše oslikani ili pisani rukom.

Trenutno je dostupan samo kroz Qianfan-VL okvir, što znači da ga uglavnom koriste kineski korisnici i tvrtke koje već imaju infrastrukturu za slične alate. Industrija dokumentne inteligencije već dugo čeka tehnologiju koja će uroditi plodom izvan akademskih laboratorija.

Ako se potvrde rani signali, Qianfan-OCR mogao bi biti prvi model koji to uspijeva — barem u kontekstu kineskog tržišta. Za globalnu publiku, međutim, još je rano za slavlje.

Kako će se ovaj model nositi s europskim standardima dokumentacije, pravnim tekstovima ili višejezičnim materijalima? To će biti presudno za širu adopciju.

Qianfan-OCR bi mogao biti revolucionaran za kinesko tržište, ali njegova globalna primjena ovisi o njegovoj sposobnosti da se nosi s različitim jezicima i standardima. Ako će uspjeti u tome, mogao bi postati novo standardno rješenje za OCR potrebe. No, za sada, još je previše nepoznanica da se donesu konačni zaključci.

Baidu Qianfan-OCROCR benchmark comparisonmultilingual document processingAI model localizationChinese language AI

//Comments