人工智能技術(shù):臨床試驗(yàn)領(lǐng)域高級(jí)分析的未來(lái)
在過(guò)去幾十年里,生命科學(xué)企業(yè)能夠獲得的數(shù)據(jù)已經(jīng)從涓涓細(xì)流匯成滔滔江海?,這些數(shù)據(jù)來(lái)源包括但不限于患者個(gè)人的基因和基因組畫像、代謝組學(xué)與蛋白質(zhì)組學(xué)概況、從可穿戴設(shè)備獲取的真實(shí)世界數(shù)據(jù)(如心率、血糖等),以及電子醫(yī)療記錄中包含的詳細(xì)臨床病史。?今天,全世界大約30%數(shù)據(jù)量是由醫(yī)療企業(yè)生成的。到 2025 年,醫(yī)療健康數(shù)據(jù)的復(fù)合年增長(zhǎng)率將達(dá)到 36%。這一數(shù)值比制造業(yè)高 6%,比金融服務(wù)業(yè)高 10%,比娛樂(lè)傳媒業(yè)則高 11%。此外,從 2016 年到 2020 年,臨床系統(tǒng)中的患者數(shù)據(jù)量增長(zhǎng)了近 500%。
數(shù)據(jù)分析也應(yīng)運(yùn)而生并且蓬勃發(fā)展。目前,在傳統(tǒng)的統(tǒng)計(jì)方式外,強(qiáng)大的人工智能 (AI) 技術(shù)已經(jīng)可以處理大批量數(shù)據(jù),也可以管理以非標(biāo)準(zhǔn)格式存儲(chǔ)的數(shù)據(jù)。人工智能有一個(gè)分支名為機(jī)器學(xué)習(xí),它可以在沒(méi)有任何起始假設(shè)的情況下識(shí)別數(shù)據(jù)的模式,這也就意味著人類不必再對(duì)數(shù)據(jù)中隱藏的信息進(jìn)行事先假設(shè)。
新的人工智能工具,加上醫(yī)療數(shù)據(jù)的暴漲,將改變臨床試驗(yàn)和藥品研發(fā)的方式。據(jù)摩根士丹利分析,人工智能與機(jī)器學(xué)習(xí)的應(yīng)用會(huì)在未來(lái) 10 年時(shí)間里帶來(lái)超過(guò) 50 種全新療法,并且這些療法將轉(zhuǎn)化為超過(guò) 500 億美元的市場(chǎng)收入。通過(guò)運(yùn)用機(jī)器學(xué)習(xí)工具結(jié)合統(tǒng)計(jì)分析,研究人員已經(jīng)可以在海量真實(shí)世界數(shù)據(jù)與臨床歷史庫(kù)中獲得新的見(jiàn)解。
以Medidata 為例,利用大數(shù)據(jù)建模技術(shù),Medidata已經(jīng)找到了能夠預(yù)測(cè)嵌合抗原受體 T 細(xì)胞療法 (CAR-T) 患者發(fā)生嚴(yán)重細(xì)胞因子釋放綜合征 (CRS) 幾率的實(shí)驗(yàn)室標(biāo)志物。從前,關(guān)于嚴(yán)重 CRS 臨床風(fēng)險(xiǎn)因素的研究?jī)H依賴于規(guī)模很小的患者群體,通常取自單個(gè) CAR-T 研究中的患者群體。一般說(shuō)來(lái),一項(xiàng) CAR-T 研究平均只有?11 名患者參與。而 Medidata 反其道而行之,從多項(xiàng) CAR-T 臨床試驗(yàn)中匯集了超過(guò) 540 名患者的臨床試驗(yàn)數(shù)據(jù)集,將?CRS 風(fēng)險(xiǎn)與常見(jiàn)生物標(biāo)志物聯(lián)系起來(lái)。
生命科學(xué)企業(yè)也開(kāi)始使用人工智能技術(shù)來(lái)確保臨床試驗(yàn)產(chǎn)生合規(guī)的數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)輸入中的錯(cuò)誤、異常值、前后不一致和錯(cuò)誤報(bào)告中的不良事件進(jìn)行排序和分類,以加快藥品審批流程。
然而,大多數(shù)生命科學(xué)企業(yè)在進(jìn)行臨床數(shù)據(jù)分析時(shí),仍然沒(méi)有充分利用人工智能工具和機(jī)器學(xué)習(xí)技術(shù)。一部分原因是人工智能尚屬新鮮事物,另一部分原因是除了技術(shù)的優(yōu)勢(shì)外,在技術(shù)或監(jiān)管上獲得成功的概率仍然很低。不過(guò),這也反映了人們對(duì)人工智能技術(shù)仍然缺乏了解,不清楚它與傳統(tǒng)統(tǒng)計(jì)學(xué)的具體區(qū)別。
簡(jiǎn)單解釋下這兩者之間的區(qū)別:統(tǒng)計(jì)學(xué)能做到對(duì)人類困難而對(duì)計(jì)算機(jī)容易的事情,而人工智能正相反,能做到對(duì)人類容易而對(duì)計(jì)算機(jī)困難的事情。前者需要預(yù)先確定假定值P值,后者則著重處理語(yǔ)言識(shí)別和圖像識(shí)別等內(nèi)容,有一個(gè)研究領(lǐng)域可以將人工智能與統(tǒng)計(jì)學(xué)相結(jié)合,處理人類和計(jì)算機(jī)都難以解決的問(wèn)題,這就是機(jī)器學(xué)習(xí)。
統(tǒng)計(jì)學(xué)是什么?
經(jīng)典的統(tǒng)計(jì)建模技術(shù)是在 18 世紀(jì)到 20 世紀(jì)早期發(fā)展起來(lái)的,用于研究、量化和描述人口、經(jīng)濟(jì)和道德行為。但這種研究方式只適用于較小的數(shù)據(jù)集,比如今可用的小得多的數(shù)據(jù)集。隨著貝葉斯模型的出現(xiàn),這一學(xué)科在 20 世紀(jì) 80 年代流行起來(lái)。統(tǒng)計(jì)學(xué)家可以通過(guò)貝葉斯模型對(duì)概率進(jìn)行估算。
1962 年Kefauver-Harris藥品修正案生效,肯定“以科學(xué)為基礎(chǔ)決策藥物上市的黃金標(biāo)準(zhǔn)”。修正案要求藥品在批準(zhǔn)上市之前都必須證明其功效,從而統(tǒng)計(jì)模型也成為藥品開(kāi)發(fā)的關(guān)鍵。如今,統(tǒng)計(jì)學(xué)通常被用來(lái)評(píng)估某項(xiàng)療法對(duì)患者群體來(lái)說(shuō)是否比安慰劑或標(biāo)準(zhǔn)護(hù)理方式更有效。
統(tǒng)計(jì)學(xué)旨在推斷變量之間的關(guān)系,確定輸入變量對(duì)輸出變量的影響。但這種方式并不適用于變量間關(guān)系未知且具有巨量輸入數(shù)據(jù)的大型數(shù)據(jù)集。從統(tǒng)計(jì)學(xué)角度評(píng)估每個(gè)輸入變量的意義,既繁瑣又困難。統(tǒng)計(jì)建模要求統(tǒng)計(jì)學(xué)家在運(yùn)行模型之前對(duì)所分析的問(wèn)題或議題,特別是數(shù)據(jù)分布,做出嚴(yán)密的假設(shè)。
人工智能是什么?
雖然在過(guò)去十年里,人工智能已經(jīng)成為了某種意義上的熱門詞匯,但它在分析建模領(lǐng)域可并不是什么新成員,可以追溯至現(xiàn)代計(jì)算機(jī)的發(fā)明。人工智能技術(shù)旨在理解人類的智能 - 特別是人類掌握的技能,如識(shí)別物體和聲音、說(shuō)話、翻譯、進(jìn)行社會(huì)交易或完成創(chuàng)造性工作 - 以便在機(jī)器中復(fù)制這種智能。
在生命科學(xué)領(lǐng)域,人工智能可以被訓(xùn)練在實(shí)驗(yàn)室中分辨癌細(xì)胞,在 X 射線等高質(zhì)量醫(yī)學(xué)圖像中識(shí)別出對(duì)應(yīng)模式,并分析復(fù)雜的基因組數(shù)據(jù)集。人工智能分析還能快速結(jié)合消費(fèi)數(shù)據(jù)、治療數(shù)據(jù)、診斷、實(shí)驗(yàn)室測(cè)試和其他以自然語(yǔ)言存儲(chǔ)的信息,識(shí)別預(yù)料之外和新出現(xiàn)的模式,并預(yù)測(cè)治療反應(yīng)和患者行為。
機(jī)器學(xué)習(xí)是什么?
機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)和人工智能的一個(gè)分支領(lǐng)域,旨在構(gòu)建一個(gè)能從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng),而不僅僅是遵從明確的編程指令。機(jī)器學(xué)習(xí)因便宜的算力和計(jì)算機(jī)可以 "學(xué)習(xí) "的海量數(shù)據(jù)的可用性而成為可能。
機(jī)器學(xué)習(xí)建立在統(tǒng)計(jì)推斷的基礎(chǔ)上,但它不需要做出預(yù)設(shè)假設(shè);這使得計(jì)算機(jī)能夠發(fā)現(xiàn)和完成人類分析師無(wú)法預(yù)測(cè)的見(jiàn)解和分類,并在預(yù)測(cè)準(zhǔn)確性上超過(guò)人類。
機(jī)器學(xué)習(xí)有幾種類型,包括監(jiān)督機(jī)器學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。在監(jiān)督機(jī)器學(xué)習(xí)中,人們將一些數(shù)據(jù)包含數(shù)據(jù)集所提出問(wèn)題的答案,輸入計(jì)算機(jī)。這種方式能訓(xùn)練計(jì)算機(jī)對(duì)未來(lái)的數(shù)據(jù)集做出預(yù)測(cè)。無(wú)監(jiān)督學(xué)習(xí)中一開(kāi)始不會(huì)使用到輸出或答案數(shù)據(jù),但算法會(huì)在數(shù)據(jù)中自行發(fā)現(xiàn)模式,并據(jù)此進(jìn)行決策。強(qiáng)化學(xué)習(xí)則受到了行為心理學(xué)的啟發(fā),通過(guò)激勵(lì)機(jī)制訓(xùn)練計(jì)算機(jī)實(shí)現(xiàn)特定的目標(biāo)。
無(wú)監(jiān)督學(xué)習(xí)可能以處理組學(xué)數(shù)據(jù)的形式進(jìn)行,以生成相關(guān)的群組或發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)。對(duì)于數(shù)據(jù)質(zhì)量應(yīng)用而言,它可以通過(guò)在無(wú)輔助的情況下查看整個(gè)數(shù)據(jù)庫(kù),并識(shí)別兩個(gè)數(shù)據(jù)點(diǎn)之間關(guān)系的方式,為關(guān)聯(lián)映射提供輔助。這樣可以識(shí)別數(shù)據(jù)集中未被發(fā)現(xiàn)的不一致,如不加以識(shí)別可能會(huì)導(dǎo)致合規(guī)問(wèn)題。
臨床試驗(yàn)數(shù)據(jù)量指數(shù)級(jí)增長(zhǎng),機(jī)器學(xué)習(xí)算法可以幫助生命科學(xué)企業(yè)分析數(shù)據(jù),決定其中哪些數(shù)據(jù)具有相關(guān)性,并從大規(guī)模數(shù)據(jù)中獲得洞察??梢云诖y(tǒng)計(jì)和機(jī)器學(xué)習(xí)的結(jié)合為未來(lái)的臨床試驗(yàn)提供動(dòng)力。
Medidata AI
Medidata AI?致力于為制藥、生物技術(shù)和醫(yī)療器械領(lǐng)導(dǎo)者提供無(wú)可比擬的臨床數(shù)據(jù)、高級(jí)分析與行業(yè)專業(yè)知識(shí),幫助他們發(fā)現(xiàn)更多可能性、揭示突破性的見(jiàn)解、自信地做出決策,并持續(xù)推動(dòng)各類創(chuàng)新。由科學(xué)家、醫(yī)生、技術(shù)專家和前監(jiān)管官員組成的專業(yè)團(tuán)隊(duì)利用他們深厚的行業(yè)知識(shí),努力幫助解決您最關(guān)心的問(wèn)題。
Medidata AI 依托于 Medidata 平臺(tái),包含超過(guò) 30,000 項(xiàng)試驗(yàn)與 900 萬(wàn)名患者。Medidata AI 數(shù)據(jù)的獨(dú)特之處在于患者層面的數(shù)據(jù)直接從試驗(yàn)中的所有病例報(bào)告提取。我們采集的基于個(gè)人層面的臨床領(lǐng)域超過(guò)100 個(gè),可操作協(xié)變量超過(guò) 35 項(xiàng)。