倍可親

新研究顯示AI臨床診斷的準確率超過了醫生

作者:yunmu  於 2020-8-24 18:22 發表於 最熱鬧的華人社交網路--貝殼村

通用分類:健康生活

在醫學領域, 特別是在非手術科室, 診斷疾病佔據了醫生工作的很大部分.  本月,《自然通訊》期刊上發表了來自倫敦大學和英國數字醫療公司Babylon Health的合作研究。他們把因果關係診斷疾病的方法引進AI系統,並發現由此AI的診斷準確率超過了專業醫師。

具體而言,常規AI系統診斷方法,包括基於貝葉斯模型和深度學習的方法,主要是依賴於所使用數據內部的關聯推理associative inference)。但是,人類在數百年的醫學科學的研究中,已經發現和確定了不少疾病的因果關。例如HIV感染可引起愛滋病,流感病毒感染可引起流行性感冒等等。如果把這些人類積累的寶貴醫學財富引進AI計算,或許可以增進AI的診斷水平。

研究人員使用了1671個臨床病例作為該研究的基本數據,安排44名合格的專業醫師,基於關聯推理演算法常規AI系統,以及引進因果關係的AI系統來對這些臨床案例作出診斷。然後對這三者進行對比。結果醫生的準確率平均為71.4%常規AI演算法的為72.5%,這兩者之間並沒有統計學上的差別。但是,引進因果關係AI系統診斷的準確率平均為77.3%在統計學上明顯優於前兩者

在論文中,作者提到,因果AI系統打破了常規AI的根據癥狀診斷疾病的診斷方式,而是結合模仿醫師使用專業知識的診斷思維,通過因果關係縮小患者可能出現狀況的範圍。顯然,因果AI系統更加接近專業醫師的診斷思維,從而提高了診斷的準確率。

例如, 如果一個有些煙齡的煙民人出現胸骨體上中段之後部位突發壓榨性,悶脹性或窒息性疼痛,並且感到噁心和疲勞,同時他又患有肺氣腫。按照常規AI系統的診斷方法,胸痛和和肺氣腫有著很強的相關性。但是,按照已知的因果關係,該患者很可能患了心絞痛。它和肺氣腫的關連是因為抽煙。經常吸煙不但可以引起心絞痛,而且可以導致肺氣腫。而肺氣腫和心絞痛之間沒有明顯的因果關係。

又如,按照常規AI系統的診斷方法,愛滋病和B型肝炎是相關的。但是,按照已知的因果關係,HIV感染引起愛滋病,HBV感染導致B型肝炎, 這是兩種完全不同的病毒引起的不同疾病。之所以愛滋病和B型肝炎在統計學上是相關的,是因為HIVHBV的傳播都是因為被感染者的體液接觸到了含有活的HIVHBV病毒的物質(通常是液體)。也就是相同的傳播途徑把它們關連起來。

其實,通常的AI診斷更像一個觀察性的臨床流行病學研究,只不過收集的樣本更大, 變數更多, 運算更快和分析得更為複雜. 如果首次觀察到一些相關, 這些相關性有些是有因果關係的,但是,更多的是一種表面聯繫或假相,需要去粗取精,去偽存真,深入細緻的工作才能接近真相。

不過, 如果這些首次觀察得不到爾後的其它獨立研究的一致支持. 無論是基於多高明的分析或多大的樣本,最後只有一少部分被臨床試驗所證實。因此,如果有大樣本多中心隨機雙盲臨床試驗得出的因果關係,確實應當比AI診斷關聯推理更應置於優先考慮的順序。

近年來, 醫學AI研究進展最快的是醫療影像輔助診斷。比如, AI眼底篩查技術能夠在30秒內識別出糖尿病視網膜病變, 高血壓眼底病變, 老年性黃斑, 青光眼等一系列眼底疾病, 遠遠高於放射科醫生的水平。又如一個成熟的影像醫師需要5分鐘以上對CT影像的肺結節做出診斷,人工智慧只需要幾秒鐘就能夠作出診斷. 但是, 醫療影像是比較小眾的科室,不如臨床診斷那麼廣泛.

如果該研究能夠被爾後其它獨立研究和多中心大樣本研究所證實, 這或許會成為解決美國醫生短缺的新辦法.   研究預計即使是到了2025年,美國仍然短缺4萬到9萬名醫生.  近年來, 美國醫療體系已經逐漸擴大美國醫學生的數量,以及通過增加培養醫生助理的途經等來改善醫生的短缺。

如果這個結果被證實,假以時日, 將來會給臨床醫學帶來革命性的變化. 到了那時, 越來越多的醫生可能把精力轉入臨床研究, 而把更多的日常診斷事務交給AI. 從臨床研究中得出的因果關係又轉過來充實到AI使用的資料庫中, 從而指導AI作出更為精準的診斷.  

AI之所以比專家診斷的正確率高, 很可能是因為AI能夠更為一致地應用知識. 其實, 除了像新冠肺炎這種突發情況, 現在的疾病以常見病和慢性病為主. 醫療實踐和醫學研究是兩套思路, 實踐主要是運用已知的知識, 醫學指南越是一致,診斷和治療的正確率就會越高.

醫學研究剛好相反,因為歷史條件, 臨床試驗的成本和倫理等的限制, 很多醫學結論並沒有經過大樣本多中心的臨床試驗的檢驗。因此, 現有的醫學知識里會有不少錯誤. 醫學研究的目的是發現現有知識中的問題或發明比現有療法更為有效的治療手段,也就是突破現在的醫學指南.  因此, 這種因果關係AI並不比常規AI對醫學研究更有幫助. 無論那種AI,僅僅是一種輔助工具,都要更多的人力才能在研究中找到新的因果關係。

那使用醫學研究的方法來進行醫療實踐行不行呢?那也不行。 儘管FDA批准的臨床試驗通常已經得到觀察性研究和/或動物實驗的有力證據,但是也只有大約10%的成功率。平均而言,這種研究對參與試驗者來說是弊大於利的。所以, 即使是現有知識存在某些錯誤, 從統計學來說, 只有遵從醫學指南才能給病人提供最好的幫助. 當然,按照程序對一小部分人進行臨床研究,對於其它類似的患者和整個人類肯定是利大於弊的,  沒有這些臨床試驗就沒有現代醫學的發展和進步.

參考資料

Richens JG, et al. Improving the accuracy of medical diagnosis with causal machine learning. Nature Communication 2020. https://doi.org/10.1038/s41467-020-17419-7


高興

感動

同情

搞笑

難過

拍磚

支持
1

鮮花

剛表態過的朋友 (1 人)

評論 (0 個評論)

facelist doodle 塗鴉板

您需要登錄后才可以評論 登錄 | 註冊

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2024-4-23 07:11

返回頂部