近日,Nature上發(fā)表了一篇文章,探討關于醫(yī)療領域AI應用的測試問題。
文章認為,AI模型的應用有望顯著提高醫(yī)療效率,但當前AI醫(yī)療應用的審批標準往往不如藥物嚴格,許多應用在未經(jīng)充分臨床驗證的情況下就已投入使用。監(jiān)管機構(gòu)如美國FDA已批準數(shù)百種AI驅(qū)動的醫(yī)療設備和應用,但臨床驗證數(shù)據(jù)往往不足,引發(fā)了對其安全性和有效性的擔憂。
AI系統(tǒng)的實際應用效果受多種因素影響,包括醫(yī)療人員與算法的互動、不同人群和環(huán)境中的表現(xiàn)差異等。AI應用中要考慮哪些問題,如何進行測試,有哪些解決方案?文章進行了詳細探討,全文如下:
當?shù)挛摹ば粮瘢ǎ模澹觯椋睢。樱椋睿纾瑁┻€是一名兒科住院醫(yī)師時,他曾照顧過一名在急診室長時間等待就診后心臟驟停的小孩。“我記得當時在為這個孩子進行心肺復蘇,感受到他慢慢離去”,他說。孩子的死亡讓他深受打擊,同時他也在思考,如果等待時間能縮短,是否能夠避免這種悲劇。
這件事促使他將自己的兒科專長與另一領域——計算機科學結(jié)合起來,探索人工智能(AI)是否能夠幫助縮短等待時間。辛格目前在加拿大多倫多的兒童醫(yī)院(SickKids)工作,他和同事們利用該醫(yī)院急診科的分診數(shù)據(jù),構(gòu)建了一系列AI模型,這些模型可以提供潛在的診斷建議,并指出可能需要進行的檢查。“例如,如果我們可以預測一名患者很可能患有闌尾炎,并需要進行腹部超聲檢查,我們可以在患者到達后幾乎立即自動安排這項檢查,而不是讓他們等待6到10個小時才能見到醫(yī)生”,他說。
一項利用SickKids醫(yī)院超過77,000次急診就診數(shù)據(jù)的回顧性研究表明,這些模型可以加速22.3%的就診進程,為每位需要進行檢查的患者節(jié)省近3小時的時間。然而,AI算法在研究中取得成功,僅僅是驗證這種技術(shù)干預措施能否在現(xiàn)實中真正為人們提供幫助的第一步。
在醫(yī)療環(huán)境中正確測試AI系統(tǒng)是一個復雜的多階段過程,但只有相對較少的開發(fā)者發(fā)布了此類分析的結(jié)果。數(shù)據(jù)顯示,2020年至2022年間,僅有65項AI干預措施的隨機對照試驗被發(fā)表。與此同時,美國食品藥品監(jiān)督管理局(FDA)等監(jiān)管機構(gòu)已經(jīng)批準了數(shù)百種AI驅(qū)動的醫(yī)療設備在醫(yī)院和診所使用。
“醫(yī)療機構(gòu)發(fā)現(xiàn)許多獲批的設備沒有經(jīng)過臨床驗證”,洛杉磯加州西奈山醫(yī)學中心的心臟病專家大衛(wèi)·歐陽(David Ouyang)說道。一些醫(yī)院選擇自行測試這些設備。
盡管研究人員知道理想的AI干預臨床試驗應該是什么樣子,但在實踐中,測試這些技術(shù)充滿挑戰(zhàn)。實施效果取決于醫(yī)療專業(yè)人員與算法的互動情況,如果醫(yī)療專業(yè)人員忽視AI的建議,那么再好的工具也會失效。AI程序?qū)τ谟柧氈惺褂玫臄?shù)據(jù)集,與實際應用目標人群之間的差異特別敏感。此外,如何以最好的方式向患者及其家屬釋明這些技術(shù),并征得他們的同意使用其數(shù)據(jù)進行測試,目前尚不明確。
一些醫(yī)院和醫(yī)療系統(tǒng)正在嘗試在醫(yī)學領域中使用和評估AI系統(tǒng)。隨著越來越多的AI工具和公司進入市場,相關各方正在共同努力,尋求最佳評估方式,確定最嚴格的測試標準。
誰在測試醫(yī)療AI系統(tǒng)?
由辛格(Singh)等人開發(fā)的基于AI的醫(yī)療應用,通常被監(jiān)管機構(gòu)(包括美國FDA和英國藥品與保健產(chǎn)品管理局)視為醫(yī)療設備。因此,審查和批準它們的標準往往不如藥物嚴格。只有一小部分可能對患者構(gòu)成高風險的設備,才需要臨床試驗數(shù)據(jù)才能獲得批準。
許多人認為門檻太低了。費城賓夕法尼亞大學的重癥醫(yī)學專家加里·魏斯曼(Gary Weissman)在審查FDA批準的AI設備時發(fā)現(xiàn),在他審查10種設備中,只有3種在其授權(quán)文件中引用了已發(fā)表的數(shù)據(jù)。只有4種提到了安全性評估,沒有一種包括偏見評估。“令人擔憂的是,這些設備確實能夠并且正在影響臨床護理”,他說,“患者的生命可能就取決于這些決策。”
數(shù)據(jù)的缺乏使得醫(yī)院和醫(yī)療系統(tǒng)難以決定是否要使用這些技術(shù)。在某些情況下,經(jīng)濟激勵措施也會產(chǎn)生影響。例如,在美國,健康保險計劃已經(jīng)為使用某些醫(yī)療AI設備的醫(yī)院進行報銷,這使得這些設備從經(jīng)濟角度具有吸引力。這些機構(gòu)可能也傾向于采用那些承諾可以節(jié)省成本的AI工具,即使它們不一定能改善患者護理。
歐陽(Ouyang)表示,這些激勵措施可能會讓AI公司不愿投資于臨床試驗。對于許多商業(yè)企業(yè)來說,他們可能更傾向于確保他們的AI工具可以獲得報銷,并具有良好的財務回報,因為他們看到,這些激勵措施已經(jīng)推動了AI工具的采用。
根據(jù)市場的不同,情況可能會有所不同。例如,在英國,政府資助的全國性健康計劃可能會在醫(yī)療機構(gòu)采用某種產(chǎn)品之前,設置更高的證據(jù)標準,英國伯明翰大學研究負責任創(chuàng)新的臨床研究員劉曉軒(Xiaoxuan Liu)表示。“這樣一來,企業(yè)就有動力進行臨床試驗了。”
一旦醫(yī)院購買了某款AI產(chǎn)品,他們不需要進行進一步測試,就可以像使用其他軟件一樣立即使用它。然而,一些機構(gòu)認識到,監(jiān)管批準也不保證該設備真正有益。因此,它們選擇自行測試這些設備。歐陽表示,目前許多這類工作是由學術(shù)醫(yī)療中心開展和資助的。
2017年,阿姆斯特丹大學醫(yī)學中心的重癥醫(yī)學主任亞歷山大·弗拉爾(Alexander Vlaar)和該機構(gòu)的麻醉師丹尼斯·維洛(Denise Veelo)發(fā)起了這樣一個項目。他們的目標是測試一種旨在預測術(shù)中低血壓的算法。術(shù)中低血壓可能導致危及生命的并發(fā)癥,如心肌損傷、心臟病發(fā)作和急性腎衰竭,甚至死亡。
該算法由加利福尼亞州爾灣市的愛德華生命科學公司(Edwards Lifesciences)開發(fā),使用動脈波形數(shù)據(jù)——即在急診室或重癥監(jiān)護室的監(jiān)視器上看到的紅色波峰和波谷線。它可以在低血壓發(fā)生前幾分鐘進行預測,進而實現(xiàn)早期干預。
弗拉爾、維洛及其同事們進行了一項隨機臨床試驗,在60名接受非心臟手術(shù)的患者中測試了這個工具。那些在手術(shù)過程中使用該設備的患者,其低血壓持續(xù)時間的中位數(shù)為8分鐘,而對照組患者的低血壓持續(xù)時間接近33分鐘。
該團隊進行了第二次臨床試驗,確認該設備與明確的治療方案相結(jié)合,在更復雜的環(huán)境中也有效,包括在心臟手術(shù)期間和重癥監(jiān)護室內(nèi)。這些結(jié)果尚未發(fā)表。
成功不僅僅是因為算法的精確性,麻醉師對警報的響應也至關重要。因此,研究人員確保醫(yī)生們進行充分的準備:“我們提供了一份診斷流程圖,詳細說明了當警報響起時的步驟”,維洛說道。同一算法在另一家機構(gòu)進行的臨床試驗中就未能顯示出益處,弗拉爾表示,在那個試驗中,“床邊醫(yī)生在警報響起時沒有按照規(guī)定采取行動”。
人機協(xié)作
一個非常好的算法可能會因為人類行為的偏差而導致失敗,這包括醫(yī)療專業(yè)人員和接受治療的患者的行為差異。
明尼蘇達州羅切斯特的梅奧診所測試了一個其內(nèi)部開發(fā)的算法,該算法用于檢測一種名為低射血分數(shù)的心臟病狀況。測試時,該中心的人機交互研究員芭芭拉·巴里(Barbara Barry)負責彌合開發(fā)人員和使用該技術(shù)的初級保健提供者之間的差距。
該工具旨在標記可能處于這種病癥的高風險個體,這種狀況可能是心力衰竭的征兆,雖然可以治療,但往往未被診斷出來。臨床試驗表明,該算法確實提高了診斷率。然而,在交流中發(fā)現(xiàn),醫(yī)療服務提供者希望得到更多指導,尤其是在如何向患者解釋算法結(jié)果方面。這引出了一項建議,即如果廣泛實施該應用,應包含一些要點,列出與患者溝通的重要信息,這樣醫(yī)療提供者就不必每次都考慮如何進行那樣的對話。“這是我們?nèi)绾螐膶嵱眯栽囼炦^渡到實施策略的一個例子,”巴里說。
另一個可能限制某些醫(yī)療AI設備成功的問題是“警報疲勞”——當臨床醫(yī)生接收到大量AI生成的警報時,他們可能會對其變得麻木。梅奧診所家庭醫(yī)學部主任大衛(wèi)·拉什洛(David Rushlow)表示,這一點應該在測試過程中加以考慮。
他說:“我們已經(jīng)每天多次收到關于患者可能面臨的風險狀況的警報,對于忙碌的一線臨床醫(yī)生來說,這實際上是一項非常艱難的任務。我認為這些工具確實能夠幫助我們,但是,如果它們沒有被準確地引入,默認的情況下,大家就會繼續(xù)按照原來的方式做事,因為我們沒有精力去學習新的東西。”
考慮偏見
測試醫(yī)療AI的另一個挑戰(zhàn)是臨床試驗結(jié)果很難推廣到不同的人群中。“眾所周知,當AI算法在用于與其訓練數(shù)據(jù)不同的數(shù)據(jù)時,它們非常脆弱”,劉曉軒指出,只有當臨床試驗的參與者能夠代表該工具將要應用的人群時,才能安全地推廣。
此外,基于資源豐富的醫(yī)院中收集到的數(shù)據(jù)訓練出的算法,在資源較少的環(huán)境中應用時可能表現(xiàn)不佳。例如,谷歌健康(Google Health)在加州帕洛阿爾托開發(fā)的用于檢測糖尿病視網(wǎng)膜病變的算法在理論上非常準確。然而,當該工具在泰國的診所中使用時,其性能顯著下降。一項觀察性研究揭示,泰國診所的照明條件導致眼部圖像質(zhì)量低,降低了該工具的有效性。
患者同意
目前,大多數(shù)醫(yī)療AI工具幫助醫(yī)療專業(yè)人員進行篩查、診斷或制定治療計劃。患者可能不知道這些技術(shù)正在他們的護理中進行測試或常規(guī)使用,并且目前在任何國家都沒有要求醫(yī)療提供者披露這一點。
關于應將哪些AI技術(shù)的內(nèi)容告知患者,仍在持續(xù)討論中。其中一些應用正在將患者同意的問題推到開發(fā)者關注的前沿。辛格(Singh)和他的同事正在開發(fā)的AI設備就是這種情況,該設備旨在優(yōu)化SickKids兒童醫(yī)院急診科的兒童護理流程,這項技術(shù)的不同之處在于,它將臨床醫(yī)生排除在外,使孩子或者他們的父母、監(jiān)護人成為最終用戶。
辛格說:“這個工具的作用是獲取急診分診數(shù)據(jù),做出預測,并讓家長直接決定是否可以對孩子進行檢測。”這減輕了臨床醫(yī)生的負擔,并加快了整個過程。但它也帶來了許多前所未有的問題。如果患者出現(xiàn)問題,誰應承擔責任?如果進行了不必要的檢查,誰將為此買單?“我們需要以自動化的方式獲得家庭的知情同意”,辛格說,并且這種同意必須是可靠和真實的,“它不能像你注冊社交媒體時那樣,給你20頁小字,你不仔細看只點擊‘接受’ ”。
在辛格和他的同事等待資金以啟動患者試驗的同時,該團隊正在與法律專家合作,并讓加拿大衛(wèi)生部(Health Canada)審查其提案并考慮其監(jiān)管影響。
尋找解決方案
各機構(gòu)正在合作討論如何應對這些挑戰(zhàn)。一些專家表示,最好的方法是每個醫(yī)療機構(gòu)在采用醫(yī)療AI工具之前進行自己的測試。其他人則指出,由于涉及的成本,這是不可行的,因此研究人員和醫(yī)療機構(gòu)正在探索其他方案。
“對于大型機構(gòu)來說,已經(jīng)很困難了,而對于小型機構(gòu)來說將更加艱難”,梅奧診所的醫(yī)療AI專家肖娜·歐弗加德(Shauna Overgaard)說。她參與領導了梅奧診所的AI驗證和管理研究項目,該項目旨在以標準化和集中的方式測試醫(yī)療AI工具,以便它們可以在梅奧診所健康系統(tǒng)相關的社區(qū)醫(yī)療機構(gòu)中使用。
歐弗加德也是健康AI聯(lián)盟(Coalition for Health AI)的成員,該聯(lián)盟包括來自行業(yè)、學術(shù)界和患者倡導組織的代表。該聯(lián)盟由谷歌、亞馬遜、微軟和CVS Health等公司資助,提議創(chuàng)建一個健康AI保障實驗室網(wǎng)絡,該網(wǎng)絡將使用一套商定的原則,以集中的方式評估模型。
北卡羅來納州達勒姆市杜克健康創(chuàng)新研究所的臨床數(shù)據(jù)科學家馬克·森達克(Mark Sendak)表示,這種集中式方法并不理想。“每個環(huán)境都需要擁有自己的內(nèi)部能力和基礎設施來進行測試”,他說。
他是健康AI伙伴關系(Health AI Partnership)的成員,這是一個由學者和醫(yī)療組織組成的團體。該合作組織獲得了位于加利福尼亞州帕洛阿爾托的戈登和貝蒂·摩爾基金會的初始資金支持,旨在建立能力,并為任何組織提供技術(shù)支持,使其能夠在本地測試AI模型。
美國大型醫(yī)學影像實踐集團放射學合作伙伴(Radiology Partners)的放射科醫(yī)師和臨床AI副首席醫(yī)療官尼娜·科特勒(Nina Kottler)也認為,本地驗證至關重要。她希望這些研究的見解可以用來教育那些將要操作這些工具的專業(yè)人員。她表示,這一人類因素將是最重要的。“幾乎沒有在醫(yī)療中完全自主的AI”,她說,“我們必須開始考慮,不僅要測量AI的準確性,還要測量AI與最終用戶的結(jié)合效果。”
注:文章來源于網(wǎng)絡,如有侵權(quán),請聯(lián)系刪除