【編者按】
解放軍總醫(yī)院醫(yī)療大數(shù)據(jù)中心主任薛萬國應(yīng)邀撰文,剖析了當(dāng)前醫(yī)學(xué)人工智能的應(yīng)用現(xiàn)狀和面臨的主要挑戰(zhàn),并提出了相關(guān)建設(shè)性思考。
來源:HIT專家網(wǎng) 作者:薛萬國
過去一段時期內(nèi),業(yè)內(nèi)在醫(yī)學(xué)人工智能領(lǐng)域展開了很多應(yīng)用實踐,包括我院也做了一些探索和嘗試,顯示了人工智能在醫(yī)學(xué)領(lǐng)域具有很大的潛力。但是總體來看,醫(yī)學(xué)人工智能并不能替代醫(yī)生,而且現(xiàn)階段的落地范圍還是呈散點式、單一式的應(yīng)用。
醫(yī)學(xué)人工智能應(yīng)用現(xiàn)狀
我們先來看一些當(dāng)前醫(yī)學(xué)人工智能應(yīng)用的典型例子:
一是目前已經(jīng)實現(xiàn)的CDSS(臨床輔助決策系統(tǒng))的落地應(yīng)用,主要基于醫(yī)學(xué)知識圖譜和臨床規(guī)則,具有較大的適用疾病譜系。比如,在門診就醫(yī)時輸入肥胖、多尿、貪食等患者主訴,根據(jù)這些癥狀描述,系統(tǒng)就可以疑似診斷為二型糖尿病。由于醫(yī)學(xué)知識圖譜和臨床規(guī)則在底層支撐了癥狀和疾病的關(guān)聯(lián),在確定為糖尿病后,系統(tǒng)還能推薦下一步檢查項目、用藥等診治選擇。
二是基于大數(shù)據(jù)建模型做鑒別診斷,這與醫(yī)學(xué)知識圖譜和臨床規(guī)則不同。比如,我院急診科提出一個需求:在急診胸痛患者里,有三類疾病的死亡率非常高,分別是急性冠脈綜合征、肺栓塞和主動脈夾層。其中,急性冠脈綜合征和主動脈夾層在臨床上的癥狀表現(xiàn)很相似,但兩種疾病的治療方法完全不同。如果僅根據(jù)癥狀描述很難做出鑒別診斷,所以通常的傳統(tǒng)方法是進(jìn)行造影檢查,但造影時間比較長而且還有創(chuàng)傷,可否僅根據(jù)容易快速獲得的化驗結(jié)果進(jìn)行鑒別診斷。根據(jù)此需求,我們做了一個嘗試。就是根據(jù)既往兩類病例的化驗結(jié)果數(shù)據(jù)建立一個機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)可以有較好的分類表現(xiàn)。將這一模型嵌入到醫(yī)生工作站,就可以使得醫(yī)生工作站具備人工智能的輔助診斷能力。
三是疾病風(fēng)險預(yù)測。比如一部分糖尿病患者可能會發(fā)生視網(wǎng)膜病變。那么,是否能根據(jù)某些檢查指標(biāo)或生命體征數(shù)據(jù)來預(yù)測患者發(fā)生視網(wǎng)膜病變的可能性呢?我院基于2萬多例糖尿病患者的數(shù)據(jù)建立了一個模型,找到了預(yù)測視網(wǎng)膜病變的主要風(fēng)險因素,包括某些化驗結(jié)果、年齡、生命體征等指標(biāo)。
四是在醫(yī)學(xué)影像方面。比如,我院展開了針對肝臟腫瘤的影像識別研究。首先基于CT影像采用深度學(xué)習(xí)方法進(jìn)行肝臟分割,進(jìn)一步將肝臟自動模擬人工方法分成八段,在此基礎(chǔ)上進(jìn)行腫瘤識別和部位標(biāo)注,最后用于輔助診斷和手術(shù)方案的評估。
五是皮膚病理圖像的識別研究。我院開展的研究是針對皮膚的黑色素瘤,主要通過人工標(biāo)注后訓(xùn)練機(jī)器自動識別病理切片是否包含皮膚黑色素瘤的細(xì)胞。經(jīng)過測試,我們發(fā)現(xiàn)目前機(jī)器標(biāo)注和人工標(biāo)注的重合度已經(jīng)非常高,已經(jīng)可以超過普通醫(yī)生對黑色素瘤的診斷水平。
六是臨床智能輸血決策系統(tǒng)。我院基于8萬多例輸血病例建立紅細(xì)胞輸注量個性化預(yù)測評估模型,并將該模型嵌入醫(yī)生工作站。在手術(shù)輸血的申請模塊增加一個功能鍵,實現(xiàn)醫(yī)生輸血申請的智能化管控,以防止過量或不必要的輸血。
從以上的應(yīng)用可以看出,當(dāng)前的醫(yī)學(xué)人工智能應(yīng)用呈現(xiàn)出幾個特點:
一是,目前每個應(yīng)用都只是針對臨床上的單一問題或針對單一疾病。一個訓(xùn)練好的模型只能應(yīng)用于一個問題。比如,針對肺結(jié)節(jié)所訓(xùn)練的模型只能識別肺結(jié)節(jié),如果要識別肺結(jié)核或者肺炎則需要再去訓(xùn)練新模型。因此,目前醫(yī)學(xué)人工智能的應(yīng)用主要還是針對特定的疾病或特定的問題。
二是,當(dāng)前應(yīng)用的熱點是醫(yī)學(xué)影像識別和自然語言處理。其中,醫(yī)學(xué)影像識別主要集中在肺結(jié)節(jié)、眼底影像、消化內(nèi)鏡、乳腺影像、病理影像等方面。而在自然語言處理方面,主要通過醫(yī)學(xué)知識圖譜和臨床知識庫,來實現(xiàn)醫(yī)生診療路徑選擇和病案質(zhì)控等方面的智能化應(yīng)用。
三是,在技術(shù)方面,目前使用比較多的技術(shù)有兩種:一是深度學(xué)習(xí);二是醫(yī)學(xué)知識圖譜。但目前人工智能所使用的特征信息相對單一和局限,還缺乏多模態(tài)、多來源數(shù)據(jù)的綜合應(yīng)用。比如,上面提到的鑒別診斷就是根據(jù)化驗結(jié)果,而目前應(yīng)用較多的肺結(jié)節(jié)影像診斷也只是針對局部影像。
從以上應(yīng)用也可看出,人工智能確實已經(jīng)在醫(yī)療領(lǐng)域有了很多實踐,也顯示出了很大潛力。但另一方面,這些進(jìn)展并不能說明人工智能在醫(yī)學(xué)影像、疾病輔助診斷、疾病風(fēng)險預(yù)測等方面就可以代替醫(yī)生。而且,正是因為這些案例才使我們更清醒地認(rèn)識到,醫(yī)學(xué)人工智能的應(yīng)用還有非常大的挑戰(zhàn)。
醫(yī)學(xué)人工智能面臨的四點挑戰(zhàn)
從醫(yī)學(xué)人工智能的應(yīng)用成熟度上看,目前有很多研究成果或論文都已經(jīng)發(fā)表,同時也有很多測試和比賽。但總體而言,真正落地應(yīng)用的案例還比較少,極少有項目最終轉(zhuǎn)化為臨床應(yīng)用。比如,在前文所述的幾個實踐中,目前在我院真正實現(xiàn)臨床落地的應(yīng)用也只有智能輸血決策系統(tǒng),其他模型暫時還沒有經(jīng)過臨床落地考驗。
目前,醫(yī)學(xué)人工智能面臨四個方面的挑戰(zhàn)。
首先在技術(shù)方面,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法本身具有很大局限性。
(1)基于學(xué)習(xí)的方法需要大量人工標(biāo)注。采用規(guī)則的方法是醫(yī)生把臨床知識經(jīng)過總結(jié)后表達(dá)給機(jī)器,機(jī)器采取演繹推理的方法實現(xiàn)人工智能應(yīng)用;而基于學(xué)習(xí)的方法需要機(jī)器自動總結(jié)歸納,是在事實中學(xué)習(xí)的模式和規(guī)律,所以需要投入大量的人工標(biāo)注來反復(fù)測試和改進(jìn),工作量很大。
(2)學(xué)習(xí)方法的功能還較為單一。每種疾病的圖像模式都不一樣,不同類型的問題都需要重新學(xué)習(xí)。
(3)機(jī)器學(xué)習(xí)與醫(yī)生相比,缺乏很多生理、病理等方面的理論知識,完全基于文字表達(dá)和事實總結(jié)進(jìn)行推導(dǎo)。
(4)機(jī)器缺乏對不同來源信息的綜合利用,目前還遠(yuǎn)遠(yuǎn)達(dá)不到醫(yī)生的綜合判斷能力。舉個肺癌診斷的例子,現(xiàn)在醫(yī)院對于肺癌患者的診斷首先是基于影像學(xué)診斷,一般早期的肺結(jié)節(jié)或陰影都會被發(fā)現(xiàn)。如果要進(jìn)一步確診,還需進(jìn)行穿刺檢查。但醫(yī)生考慮穿刺的創(chuàng)傷和難度也會建議患者消炎半個月后再做一次CT影像檢查作對照,如果陰影縮小就是炎癥,如果沒變化則是腫瘤,無論惡性、良性都需要手術(shù)切除。諸如此類的醫(yī)生綜合判斷規(guī)則,目前機(jī)器并不能學(xué)習(xí)和掌握。換言之,醫(yī)生可以從多方面和多角度出發(fā)去參考和判斷,但今天的人工智能還不具備這種能力。
(5)醫(yī)學(xué)知識圖譜也有很大局限性。首先,醫(yī)學(xué)知識圖譜表達(dá)的是字面上的關(guān)聯(lián),是一種通過圖譜的形式表達(dá)出來的實體與實體之間的相互關(guān)系。由于醫(yī)療知識的復(fù)雜性以及更新變化較多,導(dǎo)致很難將所有疾病形成綜合的醫(yī)學(xué)知識圖譜。所以,基于知識圖譜來模擬醫(yī)生診斷過程將非常困難。
其次是數(shù)據(jù)方面的挑戰(zhàn)。由于機(jī)器學(xué)習(xí)依賴大量數(shù)據(jù),但高質(zhì)量的數(shù)據(jù)非常缺乏,這嚴(yán)重影響了模型的訓(xùn)練。比如,現(xiàn)在大量的病例沒有隨訪結(jié)果作對照,往往都無法判斷診療方法是否最佳、診斷是否準(zhǔn)確,而且院外數(shù)據(jù)的缺失也導(dǎo)致不足以支撐訓(xùn)練模型。
第三是應(yīng)用方面的挑戰(zhàn)。為什么很多研究成果都沒能實現(xiàn)落地應(yīng)用?主要存在以下幾點問題。
(1)很多研究成果很難融入到實際工作流程中。散點式的功能很難形成統(tǒng)一的工作流程。比如,現(xiàn)在已經(jīng)有了針對急診胸痛患者的鑒別診斷模型,但急診科每天面對的是很多不同類型的疾病。
(2)系統(tǒng)集成不到位,大量模型還游離在業(yè)務(wù)之外。不同疾病模型的使用環(huán)境都不同,為了避免把醫(yī)生工作站改造得“支離破碎”,需要建立統(tǒng)一的集成規(guī)范解決問題。
(3)測試環(huán)境和實際環(huán)境還有較大差距。比如,某類疾病模型的診斷識別率在測試或比賽時能達(dá)到95%,但應(yīng)用到臨床時,馬上會下降至70%甚至更低。這是由于實際環(huán)境遠(yuǎn)比測試、比賽環(huán)境復(fù)雜,臨床圍繞的是完全未知的數(shù)據(jù)集,兩者不能相比。
(4)低水平的智能化應(yīng)用增加了人工打擾,反而造成了很多應(yīng)用不被臨床所接受。比如,前文提到的基于知識圖譜的CDSS臨床輔助系統(tǒng),大部分提示對于大醫(yī)院的醫(yī)生而言并不需要。而且從目前反饋來看,在中小醫(yī)院里的應(yīng)用效果也并不太好。
第四是在法規(guī)方面也面臨很大挑戰(zhàn)。原來醫(yī)生一直把臨床指南作為診斷的“金標(biāo)準(zhǔn)”,即使出現(xiàn)意外或風(fēng)險也無需承擔(dān)太多責(zé)任,畢竟個體有差異。但是,比如針對急診胸痛患者鑒別的人工智能應(yīng)用,即使其診斷識別率能達(dá)到98%。但是臨床指南的“金標(biāo)準(zhǔn)”要求患者進(jìn)行造影檢查。如果不做造影檢查而恰恰出現(xiàn)了2%的差錯,那么此時醫(yī)生就要擔(dān)責(zé)。此外,醫(yī)學(xué)人工智能應(yīng)用產(chǎn)品目前大多還缺乏認(rèn)證機(jī)制,產(chǎn)品良莠不齊,要保證產(chǎn)品本身的質(zhì)量,需要進(jìn)行相關(guān)的第三方的測試和第三方驗證。
如何看待當(dāng)前醫(yī)學(xué)人工智能的發(fā)展
首先,目前醫(yī)學(xué)人工智能仍處于初步發(fā)展階段,距離廣泛應(yīng)用還有很大距離。對醫(yī)學(xué)人工智能應(yīng)用應(yīng)該抱有一個合理期待,要選擇能夠落地的項目去實施。
其次,要在技術(shù)成果的工程化和轉(zhuǎn)化應(yīng)用上面“下功夫”。要加強系統(tǒng)集成和流程改造,把現(xiàn)有業(yè)務(wù)系統(tǒng)進(jìn)行升級,探索更多能將研究成果落地應(yīng)用的方法。
再次,要在研發(fā)中注重結(jié)合多模態(tài)、多源數(shù)據(jù)的融合和綜合分析。單一數(shù)據(jù)特征的價值十分有限,醫(yī)生最擅長的也是綜合判斷能力。
最后,在一些單點問題上要突出醫(yī)學(xué)人工智能產(chǎn)品和應(yīng)用的獨特價值。不能單純地追求在較寬的面上具備“模仿”醫(yī)生的功能,而是要在具體某一點上達(dá)到或超過醫(yī)生的能力。
我們要時刻思考醫(yī)學(xué)人工智能的實用價值到底在哪里?不能僅僅為“智能”而智能,要避免醫(yī)學(xué)人工智能應(yīng)用淪為“玩具”或“雞肋”。因為很多“玩具類”功能非但起不到任何實際價值,還對醫(yī)生形成很多干擾。這也是今天醫(yī)學(xué)人工智能應(yīng)用面臨的最大問題之一。
想加入HIT專家網(wǎng)專業(yè)交流群嗎?請?zhí)砑印癏IT專家網(wǎng)”小助手微信好友
(請務(wù)必注明姓名、單位名稱、職務(wù)、主管技術(shù)或產(chǎn)品領(lǐng)域等實名信息)
【責(zé)任編輯:孫鵬】