AI bolje sažima onkološke izvještaje, ali bolnice još ne kupuju naslov
Wikipedia lead image: Northwestern Medicine Field📷 Wikipedia / Wikimedia Commons
- ★Modeli bolje hvataju molekularne detalje izvještaja
- ★Studija nije dokaz kliničke spremnosti sustava
- ★Bolnice će prvo pitati za pouzdanost i odgovornost
Studija iz Northwestern Medicinea daje AI industriji upravo onu vrstu naslova koju voli: modeli su, barem u kontroliranom testu, bili potpuniji od liječnika u sažimanju složenih patoloških izvještaja za rak pluća. Prema prikazu u Medical Xpressu, istraživači su testirali više open-source modela na 94 deidentificirana izvještaja i zaključili da su sustavi poput Llama 3.1 i DeepSeek-R1 bolje hvatali genetske i molekularne detalje koji mogu utjecati na terapijsku odluku. To je relevantno jer upravo ti detalji često nestanu kad liječnik pod pritiskom vremena mora sintetizirati predugačak dokument u nekoliko upotrebljivih rečenica.
Ali “bolji od liječnika” ovdje treba čitati oprezno. Ne govorimo o dijagnostici, odgovornosti za terapiju ili punoj kliničkoj procjeni. Govorimo o zadatku sažimanja u strogo definiranom okruženju. To je korisno, ali nije isto što i dokaz da je model spreman sjesti između patologa, onkologa i bolničkog EHR-a. JCO Clinical Cancer Informatics i slična literatura već godinama pokazuje da je najveći problem u kliničkoj AI integraciji rjeđe sam benchmark, a češće interoperabilnost, nadzor i pitanje tko preuzima krivnju kad sustav nešto ispusti ili zamijeni.
Tu dolazimo do stvarne priče. Model koji je potpuniji na deidentificiranom uzorku nije automatski model kojem bolnica vjeruje u 3 ujutro kad se donosi terapijska odluka. Stvarni izvještaji dolaze s nedosljednim formatima, internim skraćenicama, PDF-ovima, starim laboratorijskim sustavima i lokalnim pravilima upisa. ONC i šira američka zdravstveno-IT scena već dugo guraju standardizaciju podataka upravo zato što bez nje čak i dobar model može izgledati lošije čim napusti laboratorijsku tablicu.
Benchmark izgleda čisto dok ne uđeš u bolnički hodnik, EHR i pravnu odgovornost
Wikimedia Commons: Northwestern Medicine📷 © Jordano53
Ipak, studija ne treba biti odbačena kao još jedan AI trik. Ona pokazuje da postoji stvaran workflow problem koji modeli možda mogu olakšati: prevođenje dugačkih, tehničkih i često fragmentiranih nalaza u sažetak koji liječnik može brže pregledati. U sustavu u kojem liječnici gore od administrativnog opterećenja, to nije mala stvar. Ako model pouzdano izvuče mutacije, biomarkere i ključne patološke nalaze, mogao bi smanjiti rizik da kritični detalj ostane zakopan u tekstu. To je više “copilot za sintezu” nego “AI doktor”, ali i takvi alati mogu biti vrijedni.
Pravi izazov je tržišni, ne samo tehnički. Tko će to platiti, kako će se validirati, kako će se auditirati, i može li se isti rezultat ponoviti izvan jednog akademskog centra? Veliki dobavljači EHR-a i kliničkih AI platformi kao što su Epic ili Oracle Health nisu zainteresirani za još jedan demo koji ne može proći kroz regulatorne, pravne i operativne filtere. Oni će pitati isto što i svaka bolnica: koliko je pouzdano, koliko je transparentno i što se događa kad model pogriješi baš na pacijentu koji najmanje smije biti pogrešno pročitan.
Drugim riječima, benchmark je dobar signal, ali ne i konačna presuda. Stvarna priča nije da AI “tuče liječnike”, nego da administrativni i informacijski teret moderne onkologije postaje toliko velik da institucije sve ozbiljnije traže alat koji će ga sažeti bez izmišljanja. Ako modeli to uspiju, bit će korisni. Ako ne, ostat će samo još jedan uredan grafikon iz studije koji se loše ponaša čim dotakne stvarnu bolnicu.

