ESMFold2 pomiče savijanje proteina prema pisanju biologije
ESMFold2 kao prijelaz od ručnih pretpostavki prema učenju iz razmjera podataka.📷 AI-generated image / TECH&SPACE
- ★ESMFold2 je predstavljen kroz raspravu o proteinima, datasetima i smanjenju oslanjanja na ručno ugrađenu induktivnu pristranost.
- ★Tema nije samo predikcija strukture, nego put prema modelima koji mogu služiti kao biološki svjetski modeli.
- ★Za TECH&SPACE je važan signal: protein-folding se pomiče iz alata za analizu prema infrastrukturi za programabilnu biologiju.
Latent Space je objavio razgovor “ESMFold2: The Bitter Lesson is Coming for Proteins” s Alexom Rivesom iz BioHuba, a naslov precizno pogađa nerv priče. Ovo nije još jedna epizoda u utrci tko će brže nacrtati 3D oblik proteina. Tema je dublja: hoće li se biologija, poput jezika i vida u modernom AI-ju, sve više oslanjati na velike skupove podataka i modele koji sami uče zakonitosti, umjesto na sustave kojima čovjek unaprijed ugrađuje što bi “trebalo” biti važno.
U tom smislu ESMFold2 stoji na istom prijelazu na kojem su se nalazili veliki jezični modeli prije nego što je postalo jasno da razmjer nije samo tehnički detalj, nego metoda. Protein-folding je dugo bio prostor u kojem su strukturna biologija, evolucijski signali i fizičke pretpostavke bili ključni oslonci. Sustavi poput AlphaFold Protein Structure Database pokazali su koliko daleko takav pristup može otići kada se dobro spoje modeli, podaci i biološko znanje. Rivesova teza, barem kako je postavljena u razgovoru, ide prema sljedećem pitanju: što se događa kada modeli proteina počnu učiti širu biološku regularnost iz samih podataka?
Tu ulazi “bitter lesson”, stara AI pouka da metode koje koriste računalni razmjer i učenje iz podataka dugoročno često nadmašuju elegantne ručne prečace. U proteinima je to osjetljivije nego u tekstu, jer greška nije samo loš odgovor u chatu. Protein je fizički objekt, s oblikom, interakcijama i posljedicama u stanici. Zato je rasprava o induktivnoj pristranosti važna: manje ručnog dizajna može dati fleksibilnije modele, ali samo ako dataset, evaluacija i biološka provjera nose dovoljnu težinu.
Alex Rives u razgovoru za Latent Space postavlja ESMFold2 kao pomak od ručno ugrađenih bioloških pretpostavki prema modelima koji uče iz razmjera podataka.
Sekvenca, embedding i struktura proteina u istom tehničkom toku.📷 AI-generated image / TECH&SPACE
ESM linija modela već je poznata po tretiranju proteinskih sekvenci kao jezika evolucije, a otvoreni trag tog rada može se pratiti kroz facebookresearch/esm. ESMFold2 se u ovom kontekstu ne čita samo kao nasljednik alata, nego kao dio šire ambicije: izgraditi modele koji ne predviđaju samo oblik, nego hvataju obrasce korisne za dizajn, funkciju i manipulaciju biološkim sustavima. Zato se u istom dahu pojavljuju pojmovi world models i programmable biology.
“Svjetski model” u biologiji ne znači čarobnu kutiju koja razumije život. Znači model koji iz dovoljne količine bioloških podataka može predviđati posljedice promjena: što se dogodi ako se sekvenca promijeni, ako se domena zamijeni, ako cilj nije samo stabilna struktura nego funkcija. To je mnogo stroži zadatak od lijepog rendera proteina. Ako takvi modeli postanu dovoljno pouzdani, pomiču granicu između čitanja biologije i pisanja biologije.
Zato je ESMFold2 signal koji vrijedi pratiti i izvan uskog kruga strukturne biologije. Nije poanta u tome da jedan model “pobijedi” drugi. Poanta je u smjeru industrije i istraživanja: od izoliranih prediktora prema temeljnim modelima za molekularni dizajn. Usporedba s radom oko AlphaFolda ostaje korisna, ali nova fronta je drukčija. Pitanje više nije samo koliko dobro model vidi protein. Pitanje je koliko dobro može predvidjeti što se s proteinom može napraviti.

