動脈網(wǎng)專訪?測序企業(yè)常臨算力困境?互聯(lián)科技打造基因測序的數(shù)字新基建
種瓜得瓜,種豆得豆,這是基因的力量。
基因測序技術(shù)的出現(xiàn),讓人類破譯基因成為可能。如今,從科研到臨床,從個性化慢病治療、易感基因篩查,到腫瘤個性化診療、罕見病診斷、腫瘤轉(zhuǎn)移復(fù)發(fā)風(fēng)險評估、腫瘤晚期個性化用藥,以及包括腫瘤、艾滋病等疾病的藥物/療法開發(fā),均能見到基因測序的身影。
在具體操作中,基因測序可謂一項浩大的工程,其中需要涉及到DNA提取、DNA片段化、文庫構(gòu)建、DNA擴增、上機測序、數(shù)據(jù)分析等不同步驟,把細胞中“不可見”的DNA轉(zhuǎn)化成可識別的ATGC堿基序列,再通過生物信息學(xué)等進行分析、解讀。
完成非可視化生物信息向可視化文本信息轉(zhuǎn)化后,需要依托計算、存儲和網(wǎng)絡(luò)等IT資源,利用基因測序算法對文本信息進行分析和研究,在生物科學(xué)與計算機科學(xué)的結(jié)合下,最終實現(xiàn)基因信息的轉(zhuǎn)化。
基因測序需要計算機科學(xué)的力量
技術(shù)與成本壁壘極高
據(jù)BCC Research數(shù)據(jù),2021年中國基因測序市場規(guī)模為15.90億美元,2026年將達到42.35億美元,復(fù)合年均增長率達21.6%,我國基因測序行業(yè)正在處于快速發(fā)展期。市場規(guī)模快速擴大的同時,基因測序大數(shù)據(jù)規(guī)模效應(yīng)凸顯,隨之對IT基礎(chǔ)設(shè)施的建設(shè)和運維帶來新的挑戰(zhàn)。
作為基因測序行業(yè)的入局者,互聯(lián)科技(世紀互聯(lián) [VNET.US] 集團子品牌),以“基因測序解決方案服務(wù)商”切入市場,對于現(xiàn)階段基因測序行業(yè)的痛點,該公司也有自己的察覺和洞見?;ヂ?lián)科技云解決方案負責(zé)人鄧世友表示,基因測序企業(yè)對于IT基礎(chǔ)設(shè)施的需求比較復(fù)雜,這是基因測序行業(yè)的特點所決定。
第一,基因測序數(shù)據(jù)量大。公開數(shù)據(jù)顯示,一個人的細胞大約有31億個DNA堿基對,相當于3GB數(shù)據(jù)量。為了保障基因數(shù)據(jù)的完整性,測序時還需要平行測序30次,最終將產(chǎn)生30*3G≈100G的數(shù)據(jù)量。再經(jīng)過分組、轉(zhuǎn)換、拼接、注釋等必要工作,數(shù)據(jù)量又將增加至600GB。也就是說,一個基因測序企業(yè)一個月的數(shù)據(jù)量就可達上百TB。隨著基因技術(shù)在醫(yī)療、農(nóng)業(yè)、食品等領(lǐng)域的普及,數(shù)據(jù)量還將呈現(xiàn)爆發(fā)式增長,而這些對于數(shù)據(jù)的存儲、計算和傳輸都提出了很高的要求。
第二,基因測序成本高。常見的基因轉(zhuǎn)換、拼接、對比、注釋全流程,運行一次就需耗時30多個小時。并且,對于測序企業(yè)來說,自建HPC測序計算集群,資金開銷也是非常高。更重要的是,測序業(yè)務(wù)本身存在淡旺季且業(yè)務(wù)量不可預(yù)測的特點,算力需求的波動、IT設(shè)施運維的成本、硬件設(shè)備的迭代、軟件算法的擴容、數(shù)據(jù)信息的存放等產(chǎn)生的人力、財力、時間成本,這是企業(yè)和科研機構(gòu)在實際檢測工作開展過程中繞不開的難題。
第三,基因測序技術(shù)門檻高。基因測序流程復(fù)雜,從測序儀上拿到數(shù)據(jù),再通過軟件測序,需要經(jīng)過映射、過濾、去重、排序、索引、比對等步驟,其中涉及到的環(huán)節(jié)多,與之匹配的軟件也多。在軟件的實際部署和測序中,怎樣通過調(diào)優(yōu)來匹配底層的算力基礎(chǔ)設(shè)施,是一件技術(shù)門檻極高的事
彈性算力+全域一站式服務(wù)
最大化優(yōu)化測序算力成本
有痛點也就有機會點,基因測序行業(yè)的需求正在被互聯(lián)科技所看見。鄧世友表示,互聯(lián)科技基因測序解決方案的出發(fā)點就是解決基因測序企業(yè)IT基礎(chǔ)設(shè)施建設(shè)和運維的后顧之憂,使其更加專注于基因組學(xué)研究本身。
一方面,互聯(lián)科技依托于自身的底盤資源優(yōu)勢,在遍布全國的數(shù)據(jù)中心里建立了彈性算力資源池,可以就近為測序企業(yè)提供彈性算力服務(wù)。同時,互聯(lián)科技也聯(lián)合商湯、阿里云等合作伙伴,提供合作算力補充。
另一方面,面對基因測序企業(yè)的海量數(shù)據(jù)傳輸,互聯(lián)科技提供數(shù)據(jù)同步服務(wù)。通過數(shù)據(jù)中心與基因測序企業(yè)生產(chǎn)中心、數(shù)據(jù)中心與公有云之間的網(wǎng)絡(luò)連接,實現(xiàn)了數(shù)據(jù)傳輸?shù)牡蜁r延性和高可靠性。
從互聯(lián)科技本身來看,除了遍布全國的數(shù)據(jù)中心和強大的互聯(lián)互通能力之外,還能夠與各大云服務(wù)商合作提供全域一站式服務(wù)。
基因測序是一個典型的多域多業(yè)務(wù)場景,通常情況下,用戶基于安全性考慮,將一部分業(yè)務(wù)放在自己的機房中,同時還有一部分業(yè)務(wù)放在公共和彈性的環(huán)境中,對外提供公共服務(wù)?;ヂ?lián)科技全域托管云服務(wù)涵蓋用戶的自有域、托管域、彈性域和公共域,并提供相應(yīng)的服務(wù)。
面向用戶的自有域,互聯(lián)科技可以提供運維和監(jiān)測服務(wù);在托管域中,用戶可以把服務(wù)器托管到互聯(lián)科技的數(shù)據(jù)中心里;在彈性域中,互聯(lián)科技通過自己的內(nèi)部算力資源池進行彈性補充;在公共域中,互聯(lián)科技與國內(nèi)主流云廠商合作面向用戶提供云服務(wù)。
鄧世友進一步表示,互聯(lián)科技基因測序解決方案的突出價值在于可以有效解決基因測序企業(yè)硬件投入成本高、業(yè)務(wù)淡季基礎(chǔ)設(shè)施利用率低、測序分析耗時長等問題,最終實現(xiàn)降本增效。
超互聯(lián)新算力
探索測序算力新可能
基因檢測行業(yè)正處于快速發(fā)展期,算力是決定其能走多遠的關(guān)鍵性因素。在互聯(lián)科技的另一個重點方向——“超互聯(lián)新算力”,為突破基因測序的算力瓶頸而探索新的可能。
“超互聯(lián)”立足城市范圍,以“城市就是一臺計算機”為理念,通過新市政基礎(chǔ)設(shè)施建設(shè),致力于提供無處不在的連接能力?!靶滤懔Α眲t通過建立一套經(jīng)濟激勵機制,將現(xiàn)有行業(yè)、機構(gòu)、區(qū)域乃至互聯(lián)網(wǎng)上閑置算力資源以松散方式整合起來,形成強大的算力供給。該項目任務(wù)類型不僅可以實現(xiàn)類似云計算的時長型算力供給,同時也提供任務(wù)級細顆粒度的使用模式,真正實現(xiàn)泛在算力服務(wù)。
基因測序?qū)儆诘湫偷挠嬎忝芗腿蝿?wù)??梢灶A(yù)見的是,這個面向大模型時代,通過人人參與、人人建設(shè)、人人經(jīng)營、人人擁有的方式構(gòu)建和運行的分布式算力網(wǎng)絡(luò),以普惠全民為目標,將為基因測序行業(yè)帶來無限可能。
從更大的視野來看,無論是全域托管服務(wù)還是超互聯(lián)新算力,都只是在基因測序行業(yè)的一個應(yīng)用縮影。互聯(lián)科技正在賦能實體經(jīng)濟的各行各業(yè),誠如其使命“成為企業(yè)數(shù)字化轉(zhuǎn)型全生命周期的合作人”一樣。