Ugrás a tartalomra

Az LLM alkalmazása a patológiában

A nagy nyelvi modellek (LLM-ek) az elmúlt évek során a mesterséges intelligencia területén mindennapos eszközökké váltak, melyek segítségével a digitális egészségügy egyre inkább elősegíti az orvosi diagnosztikai folyamatok fejlődését. Mostani cikkünk arra fókuszál, hogyan támogatják ezek a modellek az onkohematológiai diagnosztikában dolgozó kutatók munkáját, hozzájárulva a hatékonyság növeléséhez és a klinikai eredmények javításához.

Az LLM alkalmazása a patológiában

A patológián belüli alkalmazások megértéséhez elengedhetetlen, hogy betekintést nyerjünk a mindennapos diagnosztikai munkafolyamatokba. A molekuláris diagnosztika kutatói, biológusai és patológusai elsősorban az emberi szervezet genetikai jellegzetességeinek vizsgálatával foglalkoznak, különféle betegségekkel összefüggésben. Ezen jellemzők, például a génmutációk, kulcsfontosságú információkat nyújtanak a beteg állapotáról és a terápiás lehetőségekről, lehetővé téve célzottabb kezelési stratégiák alkalmazását. 

A munkafolyamat során a beteg mintájából genetikai információkat nyernek ki (például újgenerációs génszekvenálással, citogenetikával). Ezen információk segítségével beazonosítják az egyes genetikai eltéréseket (referencia genom felhasználásával), majd ezeket az eltéréseket interpretálják (pl. gyakoriságuk, hatásuk tekintetében) és klasszifikálják. Az eredmények alapos tanulmányozása során a szakértőknek rengeteg szakcikket kell átolvasniuk, hogy a diagnózis szempontjából releváns információkat kinyerjék. Ez az időigényes folyamat sok energiát igényel, és a feldolgozott adatoknak csupán egy része bizonyul közvetlenül hasznosnak. 

LLM a patológiában - Ábra

Erre a kihívásra kínálunk megoldást egy okos asszisztens fejlesztésével, amely a szakirodalom feldolgozásában segíti a Patológiai és Kísérleti Rákkutató Intézet munkatársait. Az asszisztens kivonatolja a releváns információkat a tudományos anyagokból, így jelentős munkaórákat takaríthat meg, gyorsítva és költséghatékonyabbá téve a diagnosztikai folyamatot. Ezáltal a szakemberek az idő nagy részét már nem az irreleváns információk kiszűrésére, hanem a lényegi adatok elemzésére fordíthatják. Mivel ez egy döntéstámogató rendszer, így a használata emberi felügyeletet igényel, de jelentős hozzáadott értéket képvisel, hiszen olyan részleteket is képes feltárni, amelyekre pusztán emberi feldolgozással nehéz lenne fényt deríteni. 

A Semmelweis Egyetem Patológiai és Kísérleti Rákkutató Intézetének munkatársa az alábbiakat mondta a fejlesztésről:

"A nagy nyelvi modellek kiemelt szerepet játszhatnak a különböző megbetegedések diagnosztikájában. A komplex klinikai adatokat, specifikus tüneteket és laboratóriumi eredményeket integratív módon elemzik, és ezáltal diagnózis-javaslatokat tudnak tenni. A szerteágazó információk alapján konkrét diagnosztikai eljárásokat javasolhatnak a páciensek vizsgálata során, kiegészítve a klinikus orvosok munkáját. Az LLM képes feldolgozni és értelmezni a patológiai leleteket, kiemelve az olyan kritikus információkat, mint például a molekuláris genetikai eltérések (pl. pontmutációk, kópiaszám eltérések, génátrendeződések), amelyek befolyásolhatják a betegek prognózisát, valamint a kezelési döntéseket. Mindemellett az LLM javíthatja a betegkommunikációt azáltal, hogy virtuális asszisztensként közérthető módon prezentálja a diagnosztikai vizsgálatok és kezelési lehetőség menetét, valamint következményeit, elősegítve ezáltal a betegeket állapotuk jobb megértéséhez.  Mindezek fényében, úgy gondolom, hogy a nagy nyelvi modellek kiemelt helyet érdemelnek az egészségügy jövőjében."

Fejlesztői Áttekintés (Technikai) 

Az ismertetett probléma a természetes nyelvfeldolgozás (NLP) területére esik, amelynek során egy adott szövegösszefoglaló algoritmus kidolgozása a cél. Az ilyen típusú feladatok megoldása általában nehezen definiálható, és nincs rá egyértelmű algoritmus vagy túl költséges lenne azt előállítani. Ezért ilyen esetekben fix algoritmus helyett a mesterséges intelligencia alkalmazása a célszerű. Az NLP modellek futtatása és betanítása jelentős erőforrásokat igényel, így költségesek, különösen a finomhangolás és a kiértékelés esetében. A vizsgált modellek között szerepelnek a legnépszerűbb nyelvi modellek: T5, GPT és BART

  1. GPT (Generative Pre-training Transformer): Az OpenAI által 2018-ban bemutatott modell egy autoregresszív transzformert alkalmaz, amely az előző kontextusból vezeti le a következő lépést. Nem használ enkóder-dekóder architektúrát, és csak előre vizsgálja a szöveg időbeli dimenzióját, így egylépcsős predikciót végez. 
  2. BART (Bidirectional Autoregressive Transformer): A BART modell a BERT-tel való rokonsága révén kétirányú enkódert alkalmaz, míg a dekóderben egy autoregresszív megoldást használ. Ezáltal képes természetesnek ható szöveg generálására, és különösen alkalmas hibajavításra, valamint hiányos bemenetek kezelésére. 
  3. T5 (Text-to-Text Transfer Transformer): A Google 2018-ban fejlesztett T5 modellje minden feladatot szöveggenerálási problémaként kezel. Egyirányú enkóder-dekóder architektúrát használ, és generatív modellként működik. A T5 modell robosztusabb, több paraméterrel rendelkezik, mint a BART, de a betanítás költségei mindkettő esetében döntően a tokenek számától függnek, így költségbeli különbségeik elhanyagolhatóak. 

A GPT modell költségbecslése nem szükséges, mivel az API-alapú felhasználás során PaaS jellegű szolgáltatásként működik, és a díjazás tokenek alapján történik. A modellek betanításához tanítóadatbázisra van szükség, amit a Semmelweis Egyetem Patológiai és Kísérleti Rákkutató Intézete szolgáltatott. Az adatokat előfeldolgoztuk és zajtalanítottuk, majd ezeket a megtisztított adatokat használtuk a modellek betanításához. 

Az alábbi példán keresztül szemléltetjük az eredményeinket: 

A rendszerbe bekerülnek a DDX41 (egy gén), Myeloid Neoplasms (egy rendellenesség neve) kulcsszavak, majd ez alapján a releváns kutatási anyagok lehívásra kerülnek. Például a PMID :36672294 -vel azonosítható publikáció, ami EZEN a linken érhető el.

A szövegfeldolgozás lépései az ábrán láthatóak: 

LLM Patológia

A cikk lehívása után, a már finomhangolt modellekkel készített összefoglalóink: 

BART: 

DDX41 is one of the most frequently identified mutations in myeloid neoplasms with germline predispositions. The survival impact of the mutation remains unclear, although recent larger studies suggest a better treatment response and survival in higher risk MDS/AML. Early identification of stem-cell transplant donors in the family for patients with DDX41 mutations is crucial to avoid donor-derived leukemia from germline carriers. 

T5: 

DDX41 mutations are frequent in myeloid neoplasms with germline predispositions. the p.ser315sr mutation affects the DDx41 gene, which encodes the protein encoding the tyrosine hydroxylase domain. a few studies have shown that patients with DD X41 pser1 mutations have a better prognosis. 

GPT: 

DDX41 mutations, present in 2% of MDS/AML cases, affect RNA splicing and immune function, often leading to biallelic mutations. These cases can involve higher-grade disease, though some respond well to treatments like lenalidomide. Early identification of stem cell donors in germline DDX41 carriers is crucial to prevent donor-derived leukemia. Family screening and regular monitoring aid in early detection, though guidelines are still evolving. 

Összefoglaló 

A patológia, és különösen a molekuláris diagnosztika, igen komplex munkafolyamatokat jelentenek a területen dolgozók számára. Azonban a digitális technológiák eljutottak arra szintre, hogy a komoly szakértelmet igénylő feladatok eddig soha nem látott mértékben válnak részben, vagy akár teljesen automatizálhatóvá. Az okos asszisztens fejlesztésünk ígéretes lehetőségeket jelent egy strukturálatlan és időigényes probléma megoldására, ezzel támogatva a diagnosztikai és kutatómunkát és végső soron a gyógyítást.   

Ha a cikkünkben bemutatott fejlesztésünk felkeltette az érdeklődéseteket vagy hasonló megoldásokkal szeretnétek optimalizálni a folyamataitokat, akkor keressetek minket az info@ibtconsulting.hu címen ! 

Legújabb blogbejegyzések