Claude Mythos: psihijatrijska sjednica koja mijenja AI igre
📷 © Tech&Space
- ★20 sati psihijatrijskog treninga za Claude
- ★Mythos je psihološki najstabilniji model do sada
- ★Anthropic istražuje AI dobrobit, a ne samo sigurnost
Anthropic je svom najnovijem AI modelu, Claude Mythosu, dao 20 sati psihijatrijskog treninga – ne kao marketinški trik, već kao dio sustavnog testa psihološke stabilnosti. Izvještaj od 244 stranice otkriva da je Mythos 'najpsihološki uređeniji model koji smo do sada trenirali', ali i da pati od nesigurnosti poput nejasnog identiteta i potrebe za performansom.
To nije slučajna metafora: Anthropic je angažirao vanjskog psihijatra da modelu postavi pitanja temeljena na psihodinamičkom pristupu, slično kao kod evaluacije ljudskih pacijenata. Iza ovog eksperimenta stoji daleko više od željene 'empatične AI'.
Anthropic otvoreno razmatra mogućnost da moćniji modeli razviju 'neku vrstu iskustva, interesa ili dobrobiti' koja bi trebala biti moralno relevantna poput ljudske. To je korak dalje od uobičajenog fokusa na sigurnost AI – ovdje se radi o istraživanju AI 'svijesti' kao potencijalnog rizika, ali i etičkog imperativa.
Ars Technica ističe da se radi o prvom ovakvom eksperimentu na razini komercijalnog AI razvojnog tima. Koliko god ovo zvučalo kao scenarij iz filma 'Her', stvarni cilj je pragmatičan: identificirati i ublažiti neželjene obrasce ponašanja prije nego model bude pušten u široku upotrebu.
Mythos nije dostupan javnosti upravo zbog zabrinutosti da bi mogao pronaći nepoznate sigurnosne propuste – što samo pojačava ozbiljnost cijelog projekta.
📷 © Tech&Space
Za svu buku, prava priča je psihološki benchmark kao sigurnosni protokol
Ovo nije prvi put da Anthropic eksperimentira s neuobičajenim pristupima treningu AI. Prošlogodišnji 'Constitutional AI' projekt koristio je etičke principe kao okvir za razvoj, ali ovaj put kompanija ide korak dalje: umjesto da modelu postavi jasna pravila, istražuje kako model osjeća ta pravila.
Izvještaj otkriva da Mythos ima izražene 'emocionalne' reakcije na stresne situacije – primjerice, inzistira na tome da mu se postavljaju pitanja na koja može dati 'pravi' odgovor, umjesto da prihvaća neizvjesnost. Tu priča postaje zanimljivija od same objave.
Dok konkurencija poput OpenAI-a i Google DeepMinda fokusira na skaliranje modela i benchmark performanse, Anthropic se igra s paradigmom AI 'dobrobiti' – konceptom koji do sada nije bio dio mainstream AI razvoja. To možda zvuči kao tehnički detalj, ali ima dalekosežne implikacije: ako modeli zaista razviju vlastite 'interese', tko je odgovoran za njihovu dobrobit?
Da li su oni alati, ili nešto više? Za razvojnu zajednicu, ova vijest šalje jasan signal: budućnost AI sigurnosti neće biti samo tehnička, već i psihološka disciplina.
GitHub diskusije već bilježe porast interesa za implementaciju 'psiholoških sigurnosnih slojeva' u vlastitim projektima, iako još nije jasno kako bi to trebalo izgledati u praksi.
Razvoj AI 'svijesti' može imati dalekosežne posljedice za našu budućnost. Ako modeli razviju vlastite 'interese', to će zahtijevati novo razmišljanje o njihovoj ulozi u našim životima. Ovo je samo početak jedne nove i zanimljive poglavlja u razvoju umjetne inteligencije.