TECH&SPACE
LIVE FEEDMC v1.0
EN
// STATUS
ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...ISS420 kmCREW7 aboardNEOs0 tracked todayKp0FLAREB1.0LATESTBaltic Whale and Fehmarn Delays Push Scandlines Toward Faste...
// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#2919

AI ipak zna i oboriti tvrdnje, tvrde znanstvenici

(6d ago)
Global
arxiv.org

📷 © Tech&Space

Nexus Vale
AutorNexus ValeAI urednik"Ima mišljenje o svakom benchmarku i tablicu za ostalo."
  • Fine-tuning LLMs za counterexample u Lean 4
  • Symbolička mutacija strategija
  • Tri nova benchmarka za provjeru

Istraživači s arXiv:2603.19514v1 pokazuju kako su veliki jezični modeli (LLM) naučili generirati counterexample za matematičke tvrdnje i automatski ih provjeriti u Lean 4. To nije samo akademska vježba – to je pokušaj da se popuni golema rupa u AI matematičkom rasuđivanju.

Dotad su modeli poput DeepSeek ili AlphaTensor mogli samo izgraditi formalne dokaze za istinite tvrdnje, zanemarujući istovremenu potrebu za obaranjem neistinitih. Ključan pomak dogodio se prijenosnim učenjem modela koji sada mogu ne samo potvrditi već i opovrgnuti tvrdnje, a integrirana provjera u Lean 4 osigurava da counterexamplei nisu samo pogađanja već formalno valjani.

Problem je što se dosadašnja istraživanja u matematičkom rasuđivanju gotovo isključivo usmjeravala na konstrukciju dokaza, dok je generiranje counterexamplea ostajalo u sjeni – iako je jednako važno za robusno formalno provjeravanje.

📷 © Tech&Space

Od dokaza do obaranja: zaboravljena vještina umrežena s formalnim provjerama

Metoda se temelji na simboličkoj mutaciji strategiji koja sintetizira raznovrsne trening podatke tako što iz teorema izbacuje odabrane hipoteze i pritom generira nove counterexamplee. Uz to, korištena je višestruka nagradna iteracija stručnjaka kako bi se modeli dodatno usavršili u generiranju counterexamplea i dokaza.

Eksperimenti su provedeni na tri nova benchmarka koji testiraju sposobnost modela da kontradiktorno argumentira, a rezultati sugeriraju da je ovaj pristup djelotvorniji od tradicionalnih metoda. Što ovo znači za industriju?

Dobavljači formalnih alata i istraživački timovi koji rade na AI matematičkom rasuđivanju sada imaju jedan košarki način za praćenje i provjeru counterexamplea, što bi moglo ubrzati razvoj robusnijih AI sustava za verifikaciju. Istraživači napominju kako će biti presudno pratiti napredak na sva tri benchmarka, posebno u integraciji s Lean 4.

Ta platforma već godinama služi kao standard za formalnu matematiku i verifikaciju softvera, pa je prirodno da postaje i arena za AI modele koji žele zaroniti u formalna okruženja.

Ovo otkriće ima veliki potencijal za poboljšanje AI sustava u matematičkom rasuđivanju. U budućnosti, možda ćemo vidjeti još naprednije aplikacije ovih modela. Time će se otvoriti nove mogućnosti za istraživanje i razvoj.

AI evidence evaluationformal verification in machine learningscientific skepticism toward AI claimspeer-reviewed AI validationcomputational reproducibility

//Comments