只需一個AI,9808名癌癥患者對藥物的臨床反應,全能預測。
而且結果和臨床觀察表現一致。
這就是由紐約市立大學Lei Xie團隊帶來的最新成果CODE-AE(context-aware deconfounding autoencoder)。
它提出一種新型的上下文自編碼模型,可以預測不同患者對藥物的特異性反應。
這將對新藥開發和臨床試驗產生重大影響。
要知道,傳統模式下一種新藥開發、試驗、完全上市,中間需要近10年的時間,消耗的資金也空前龐大,動輒就是10億美元。
周期會如此之長,是因為新藥在人體內的反應難以預測,往往需要反復試驗進行測試。
而如果AI能夠利用數據進行預測,將大幅縮短新藥上市時間,降低成本。
目前,該研究登上Nature子刊《Nature Machine Intelligence》。
不再高度依賴臨床數據
簡單來說,CODE-AE是利用新藥在體外細胞驗證上的數據,來預測藥物在人體身上會產生的反應。
這樣就避免了AI模型訓練對患者臨床數據的依賴。
過去AI在臨床反應預測上效果一直不算好的最大原因,便是想要收集海量、連續臨床反應數據實在是太難了。
從機制上來看,研究人員將藥物生物標志物分為了源域(source domain)和目標域(target domain)。
源域表示和測試樣本不同的領域,但是有豐富的監督信息,在這里可以理解為體外細胞驗證的數據。
目標域是測試樣本所在的領域,無標簽或只有少量標簽,也就是患者數據。
將不同領域的數據特征映射到同一個特征空間,使其在該空間中的距離盡可能近。
于是在特征空間中對源域訓練的目標函數,就可以遷移到目標域,提高目標域上的準確率。
放在該研究背景下,源域和目標域都是藥物生物標志物的數據特征,即藥物靶標的數據特征。
具體來看模型框架,主要分為三個部分:預訓練、微調和推理。
預訓練主要用了自監督學習,構建一個特征編碼模塊,將體外細胞數據和患者數據的未標記基因表達譜,映射到嵌入空間中。這樣一來可以把一些混雜因素排除掉,讓兩種數據的潛入分布一致,以消除系統偏差。
微調階段,是在預訓練的基礎上再加一個監督模型,并利用已經標記的體外細胞數據來進行訓練。
最后在推理階段,先從預訓練中獲得的患者去歧對其嵌入,然后再利用調優后的模型,來預測患者對藥物的反應。
在這種模式下,CODE-AE具備兩個特點。
第一,它可以提取不連貫樣本中的常見生物信號和私有表示,從而排除掉由于數據模式不同帶來的干擾。
第二,將藥物響應信號和混雜因素分離后,還可以實現局部對齊。
總結來看,CODE-AE可以理解為在標記和無標記數據的非相干數據模式嵌入空間中,選擇唯一特征的過程。
為了論證模型的有效性,研究人員對9808位癌癥患者的藥物適用情況進行預測。
如果模型對患者情況預測出的位點結果,和他使用的藥物靶點有關,就證明預測是正確的。
然后,研究人員將患者分為100個聚類,將59種藥物也分為30個聚類。
通過這種分析方法,可以讓具有相似藥物反應譜的患者被分在一起。
在此,我們以肺鱗狀細胞癌患者(LSCC)和非小細胞肺癌患者(NSCLC)的聚類為例。
在59種藥物中,LSCC最敏感的藥物為吉非替尼、AICAR和吉西他濱。
其中吉非替尼、AICAR的作用靶點都是一種表皮生長因子受體(EGFR),吉西他濱常被用于沒有EGFR突變的非小細胞肺癌治療。
論文表示,和這些藥物作用模式一致,CODE-AE發現使用吉非替尼、AICAR的患者,藥物反應圖譜相似。
也就是說,CODE-AE發現了患者治療的正確靶點,即可以預測適用藥物。
通訊作者為Lei Xie,他本科畢業于中國科學技術大學高分子物理專業。
碩士畢業于羅格斯大學計算機科學專業;博士同在羅格斯大學,但拿的是化學系學位。
據了解,該研究團隊下一步將開發CODE-AE對新藥臨床反應在濃度、代謝方面的預測功能。
研究人員表示,該AI模型還有可能被調整為用于預測藥物對人體的副作用影響。
值得一提的是,Nature子刊《Nature Machine Intelligence》專門關注人工智能和生命科學跨學科應用研究,每年收錄論文平均數量在60篇左右。