AlphaProof Nexus pomiče AI matematiku s lijepih tvrdnji na provjerljive dokaze
Formalni dokaz kao strojni kokpit: AlphaProof Nexus traži, Lean provjerava.📷 AI-generated image / TECH&SPACE
- ★AlphaProof Nexus riješio je devet otvorenih Erdősovih problema, uključujući dva stara 56 godina.
- ★Za razliku od pristupa temeljenih na prirodnom jeziku, dokazi se provjeravaju kroz Lean compiler.
- ★Inference trošak iznosi nekoliko stotina dolara po problemu, ali ukupna uspješnost ostaje 2,5 posto.
Google DeepMindov AlphaProof Nexus pomaknuo je raspravu o AI-ju u matematici s pitanja “može li model zvučati uvjerljivo” na puno strože pitanje: može li proizvesti dokaz koji compiler prihvaća. Prema izvještaju The Decodera, sustav je autonomno riješio devet otvorenih Erdősovih problema, uključujući dva problema koja su ostala otvorena 56 godina.
To je važno zato što matematički dokaz nije isto što i dobar esej. U prirodnom jeziku model može preskočiti rubni slučaj, sakriti slab lematski prijelaz ili proizvesti argument koji izgleda glatko dok se ne počne provjeravati. AlphaProof Nexus zato se oslanja na Lean, formalni sustav u kojem se dokaz zapisuje tako da ga računalo može provjeriti korak po korak. Ako korak ne vrijedi, nema stilske magle koja ga može spasiti.
Erdősovi problemi dodatno pojačavaju težinu rezultata. Paul Erdős ostavio je golem trag u kombinatorici, teoriji brojeva i diskretnoj matematici, a mnogi njegovi problemi žive upravo zato što su kratki za izreći, ali neugodno duboki za zatvoriti. Dobar pregled tog matematičkog nasljeđa daje MacTutorova biografija Paula Erdősa, dok je aktualni kontekst formalnog dokazivanja najbolje pratiti kroz zajednicu i dokumentaciju oko Lean prover ekosustava.
Google DeepMindov sustav autonomno je riješio devet otvorenih matematičkih problema, ali 2,5 posto uspješnosti pokazuje koliko je formalno dokazivanje i dalje tvrda disciplina za AI.
Vrijednost proboja leži u provjerljivim koracima, ne u uvjerljivom tekstu.📷 AI-generated image / TECH&SPACE
Najzanimljiviji dio nije samo broj riješenih zadataka, nego cijena pokušaja. Izvor navodi da je inference trošak bio tek nekoliko stotina dolara po problemu. Ako se taj podatak održi kroz širu reprodukciju, formalna matematika dobiva novu vrstu eksperimentalnog instrumenta: ne zamjenu za matematičare, nego sustav koji može jeftino pretraživati dokazne prostore koje ljudi ne žele ili ne mogu ručno iscrpljivati.
No 2,5 posto ukupne uspješnosti hladi svaku preranu priču o autonomnom matematičaru. To znači da je sustav u većini pokušaja i dalje promašio. U matematici takav postotak nije trivijalan ako se radi o otvorenim problemima, ali nije ni generalna inteligencija koja rutinski zatvara teoreme. Pravi signal je uži: kad se AI spoji s formalnom verifikacijom, rezultat više nije samo tekstualna pretpostavka nego provjerljiv artefakt.
Tu se AlphaProof Nexus razlikuje od pristupa koji prvenstveno rade u prirodnom jeziku, uključujući smjer kojim se često opisuju sustavi poput OpenAI-jevih modela. Natural-language dokaz može biti koristan za intuiciju, ali Lean provjera uvodi binarnu disciplinu. Ili dokaz prolazi, ili ne prolazi. Za znanost je to dragocjena razlika, jer smanjuje prostor za uvjerljive halucinacije i prebacuje teret na formalno provjerene korake.
Ostaje pitanje skaliranja. Devet riješenih problema zvuči impresivno, ali matematička vrijednost ovisit će o neovisnoj provjeri, razumljivosti formalnih dokaza i tome mogu li ljudi iz njih izvući nove metode, a ne samo gotove certifikate. Ako se pokaže da AlphaProof Nexus pronalazi obrasce koje zajednica može razumjeti, ovo nije samo demonstracija AI računa. To je početak drukčije infrastrukture za istraživanje matematike.

