蛋殼研究院曾在2018年的報告中提到,隨著我國人口總量峰值達到15億,僅醫療大數據總量就將達到ZB以上。前些年也有機構預測,到2020年全球醫療數據量預計將達到35ZB,而中國的數據量將占全球的20%。
雖然如今尚沒有確切的數據,但我國醫療數據資源豐富,應用場景涉及到醫療服務、醫院管理、醫學科研、公共衛生、醫療保障、以及產業發展的各個環節和領域,健康醫療大數據行業市場規模也在逐年增長。數據不僅是AI模型訓練的基礎,還關系到AI技術在醫療中的應用效果和可信度。然而,醫療AI的發展過程中,面臨的最大挑戰之一也是數據的獲取與利用。
一、醫療AI大模型為何需要數據
醫療AI技術的核心在于通過海量數據的學習與分析,來構建和優化模型,以達到診斷、治療、預測疾病等目標。只有擁有足夠多且高質量的數據,AI才能夠“學習”到足夠多的知識,從而做出準確的判斷。
例如,將患者的病歷、影像、基因信息等數據用于訓練AI大模型,使其能夠識別復雜的疾病模式和預測患者的健康風險,高質量的數據直接決定了AI大模型的性能。數據不僅用于模型的訓練,還用于模型的驗證和優化,通過不斷地驗證和調整,AI大模型可以變得更加精準和可靠。醫療AI大模型還需要通過持續地接收新數據來進行更新,以適應不斷變化的醫學知識和臨床實踐。
醫療AI大模型的訓練、驗證與優化、應用與更新,均高度依賴于大規模、高質量的數據。這些數據不僅是模型學習的基礎,也是它們在實際應用中提供精準預測和決策支持的關鍵。
二、醫療數據使用現狀
盡管醫療AI大模型的應用在不斷擴展,但在數據使用方面存在較大限制,真正能夠用于AI開發和應用的數據仍然有限。
首先,數據孤島問題嚴重。醫療數據分散在各個醫院、實驗室和機構中,缺乏統一的數據標準和共享機制,難以整合利用,AI大模型無法獲得足夠多樣化和全面的數據來進行有效的訓練。
其次,數據標準化不足。醫療數據的質量直接影響AI模型的表現,然而由于醫療數據來源多樣,且數據格式和結構各異,不完整、不準確或不一致的問題使得數據清洗和預處理工作變得異常復雜和耗時,數據的整合和應用難度大大增加。低質量的數據不僅影響AI大模型的訓練效果,甚至可能導致錯誤的診斷或治療建議。
此外,隱私與安全問題突出。醫療數據非常敏感,涉及個人隱私和倫理安全。隱私保護技術不足,嚴格的法律法規限制了數據的自由流動,進一步加劇了數據獲取和利用的難度。
多重困難之下,獲取醫療數據的成本較高,尤其是對于小型醫療機構和初創企業來說,數據的獲取和處理成本可能成為主要障礙。
三、醫療AI大模型訓練的數據來源
醫療AI大模型所需的數據來源廣泛,包括但不限于電子病歷數據、醫學影像數據、基因組數據、臨床試驗數據、檢驗數據、費用數據、醫院運營管理數據、醫藥研發數據、藥品流通數據、智能穿戴數據、體檢數據等等。
這些數據中,一部分是來自政府的公共數據,例如常規人口統計和重大疾病監測數據、醫療保險數據等,這些數據具有較高的權威性和可靠性,當前我國有序推進公共數據開放,推動公共數據資源開發利用,充分釋放公共數據價值。
另一部分是企業自有數據,例如有些企業擁有自己的研究數據,還有軟硬件產品進行自主采集獲取的數據,再進行結構化處理,形成人工智能的訓練基礎。
此外,還有一些數據產業合作數據,通過與醫療機構的合作項目獲取高質量的醫療數據,并將其用于模型訓練。
除以上主要數據來源之外,互聯網上的公開數據、知識文獻以及行業開源的數據集,也是AI大模型訓練的重要數據來源。
四、產業各方正在探索 破解數據難題
在推進醫療AI大模型應用過程中,產業各方正在積極探索多種解決方案,以期破解數據難題。
政府層面,通過發布一系列政策文件,支持健康醫療大數據的應用發展,并推動人工智能技術的研發和應用。這些措施涵蓋了從頂層規劃到技術創新、標準制定、市場培育以及應用推廣等多個方面。例如積極加快醫療信息化建設,推進數據互聯互通,推動醫療數據的開放與共享,同時加強數據使用的監管等。特別是“數據二十條”創新提出了建立數據資源持有權、數據加工使用權、數據產品經營權等分置的產權運行機制,以盤活數據資源要素的活力,推進了我國的建立。業內專家曾表示,在這個數據基礎制度的基礎上,有望破解醫療健康數據開放與信息保護的“兩難困境”、合法合規開展醫療健康數據流通和交易活動、激活數據提供者和開發者的動力、建立安全可控和彈性包容的數據要素治理制度。
在數據標準化方面,各國和地區正在努力推動醫療數據的標準化,制定統一的數據格式和協議,確保不同來源的數據能夠無縫整合。包括推廣HL7、FHIR等標準,以實現數據的互操作性。中國信通院自2020年開始,聯合業界陸續起草《醫療健康大數據平臺》系列標準解決醫療數據質量參差不齊、管理欠規范、應用不足等問題,對數據質量管理、數據資產管理、智能化處理等關鍵環節提出標準化技術規范,相關成果已于日前發布。此外,2023年,中國信通院還牽頭,聯合20余家相關產學研用單位共同研究起草《醫療健康行業大模型應用技術要求》系列標準發布,醫療健康領域也有了大模型應用技術標準規范。
數據交易所、數據平臺的建立,為醫療AI大模型的發展提供了助力。各地數據交易所不斷有醫療健康數據產品上架交易,例如國家健康醫療大數據中心(北方)推進數據產品場內交易,在惠醫領域,打造了腫瘤高風險人群全生命周期健康管理數據隊列產品。北數所近日專門推出AI大模型訓練數據集,包含170余個數據集產品,其中數十個涉及醫療健康領域,助力AI大模型訓練。數據平臺方面,例如2024年6月在北京智源大會上發布的北京人工智能數據運營平臺,匯聚了超過700萬億字節的通用數據集,包含醫療、教育、法律、新聞等18類行業數據,未來將進一步擴展到30類左右。此外,市場上也有不少企業乘著風口建立了AI數據平臺,提供AI數據采集標注等服務,成為AI大模型訓練的數據供應方。
技術層面,隱私計算、聯邦學習等技術不斷發展,期望通過在不直接共享數據的情況下,利用分布式計算模型來實現數據的聯合分析,為AI在保護隱私的同時實現數據共享提供新的解決方案。
產業合作層面,醫療大模型的應用勢不可擋,許多醫療機構也開始積極擁抱AI大模型。AI企業率先抱緊頭部公立醫院,與醫院開展合作共研,有效利用脫敏后的院內數據進行大模型訓練,再通過AI大模型能力,幫助醫院提升醫療服務和運營效率。除醫療機構外,AI企業與藥企、與醫療服務企業、科研院所的合作不勝枚舉,多方協同是產業發展的必經之路。
五、結語
醫療AI的未來發展離不開數據的支持,但數據的獲取和使用卻面臨諸多挑戰。盡管如此,隨著技術的進步和產業各方的共同努力,未來這些挑戰有望被逐步克服。
接下來還需要進一步發揮產業協同效應,共同推動醫療AI大模型真正發揮潛力,為醫療健康事業帶來更多可能性。我們誠邀醫療健康領域的企業和機構積極參與到“AI大模型應用場景”產學研融通創新活動中來,提出創新性的解決方案,推動醫療行業的智能化變革。
注:文章來源于網絡,如有侵權,請聯系刪除