中國(guó)人該向全世界公布自己的基因信息嗎?

近日,饒毅連發(fā)兩篇文章,支持公開(kāi)和共享中國(guó)人基因序列,稱(chēng)這樣做有助于解決國(guó)內(nèi)疾病。看到評(píng)論區(qū)說(shuō)什么的都有,感覺(jué)有人在搞混水,今天我就來(lái)和大家聊聊有關(guān)我國(guó)目前基因信息公開(kāi)狀況,以正視聽(tīng)。

01,中國(guó)人是有公開(kāi)數(shù)據(jù)的

看到有人污蔑中國(guó)閉關(guān)鎖國(guó)沒(méi)公開(kāi)過(guò)數(shù)據(jù),大謬!
無(wú)論是NCBI、ENSEMBL還是1000GENOME這些大型公開(kāi)數(shù)據(jù)庫(kù),都有中國(guó)人的基因信息樣本的。事實(shí)上,作為一個(gè)參與了人類(lèi)基因組計(jì)劃的六個(gè)國(guó)家之一,中國(guó)怎么可能沒(méi)公開(kāi)過(guò)數(shù)據(jù)呢?
比如1000GENOME里,按照族群(population),大概有210個(gè)族群,中國(guó)人就貢獻(xiàn)了50個(gè)左右,相當(dāng)于數(shù)據(jù)庫(kù)里四分之一的族群種類(lèi)樣本是中國(guó)人。


02,各國(guó)對(duì)公開(kāi)數(shù)據(jù)是有限制的

我國(guó)事實(shí)上對(duì)基因數(shù)據(jù)管理是非常晚的,在這之前,那數(shù)據(jù)傳的,各種中外合作就是任君采擷,上世紀(jì)有過(guò)國(guó)外大量采集少數(shù)民族樣本的事情。甚至在我們出臺(tái)政策之后,依然有公司向國(guó)外傳遞中國(guó)人遺傳信息,甚至采用作假的辦法(比如說(shuō)是動(dòng)物樣本,其實(shí)是人樣本),why?
而國(guó)際上要規(guī)范很多,我曾經(jīng)想用一個(gè)美國(guó)特定人群數(shù)據(jù),但是無(wú)法獲取。事實(shí)上,很多國(guó)外的數(shù)據(jù)提供的也是處理過(guò)的數(shù)據(jù),這一點(diǎn)也惱火?。ㄟ@一點(diǎn),非生物信息學(xué)的人,哪怕是做生物醫(yī)學(xué)相關(guān)的,都不一定知道,他們以為看到變異就行了,其實(shí)更原始的數(shù)據(jù)才有意義,但是不好意思,很多時(shí)候你拿不到)。

03,我國(guó)是在建立自己的生物信息學(xué)數(shù)據(jù)庫(kù)

正是因?yàn)楦鲊?guó)都在各自為政,自己搞自己的數(shù)據(jù),導(dǎo)致想使用這些數(shù)據(jù)很多時(shí)候都沒(méi)辦法,所以我國(guó)也建立自己的數(shù)據(jù)庫(kù)。

比如前段時(shí)間我們申請(qǐng)了一個(gè)項(xiàng)目,里面的硬性要求就是數(shù)據(jù)必須上傳到國(guó)家這個(gè)數(shù)據(jù)庫(kù)里。
反正現(xiàn)在全世界都在朝著各自搞事情的方向努力,那大家就都別指責(zé)誰(shuí)了。

04,數(shù)據(jù)是要錢(qián)的

以現(xiàn)在的NGS價(jià)格,illumina大概40一個(gè)G,華大大概20多一個(gè)G,加上建庫(kù)之類(lèi)的費(fèi)用,一個(gè)人按照30x的話,基本上一個(gè)基因組大概是3000左右了。
這樣才能完成最基礎(chǔ)的數(shù)據(jù)生成,但是接下來(lái)數(shù)據(jù)處理還需要服務(wù)器運(yùn)行、人員處理以及管理。所以這東西,不是說(shuō)你動(dòng)動(dòng)嘴就行。
事實(shí)上,說(shuō)句不好聽(tīng)點(diǎn),很多課題組要不是國(guó)家要求上傳數(shù)據(jù),大家更愿意數(shù)據(jù)在自己手上。

05,饒毅的問(wèn)題,完全可以國(guó)內(nèi)自己解決,出錢(qián)就行

國(guó)內(nèi)并沒(méi)有禁止對(duì)基因進(jìn)行研究啊,事實(shí)上,饒毅要是對(duì)某個(gè)遺傳病有興趣,他完全可以去針對(duì)性的去采樣,然后自己花錢(qián)測(cè)序,最后完成對(duì)該遺傳病的解讀。
目前大家都這么干的。想白嫖別人課題組花了好多錢(qián)做的內(nèi)容,不現(xiàn)實(shí)?。ㄈ绻敢夂献鳎嘈拍阋臄?shù)據(jù)都有)。而且,由于不同人采樣標(biāo)準(zhǔn)、收集標(biāo)準(zhǔn)都不大相同,事實(shí)上用他人數(shù)據(jù)的時(shí)候都是個(gè)問(wèn)題。
不過(guò)隨著我國(guó)對(duì)遺傳資源的規(guī)范化,以后這些數(shù)據(jù)都會(huì)上傳到國(guó)家數(shù)據(jù)庫(kù)里。

06,說(shuō)點(diǎn)基因組的小常識(shí)

基因組序列,包含全部信息,這種數(shù)據(jù)其實(shí)在所有數(shù)據(jù)庫(kù)都比較少。
因?yàn)榛蚪M至少包括了CNV、SNV、SV這些數(shù)據(jù),更別提還有一些很特殊的存在,隨著大家對(duì)基因組的了解,過(guò)去很多沒(méi)發(fā)現(xiàn)的信息現(xiàn)在都成了新的寶貝。
目前很多數(shù)據(jù)庫(kù)提供的是在基因組數(shù)據(jù)中提取的一部分?jǐn)?shù)據(jù),比如所謂的猶太人基因組數(shù)據(jù),其實(shí)不是猶太人基因組全數(shù)據(jù)(基因全序列),而是采用array法獲取的一些位點(diǎn)。大概相當(dāng)于,一本字典 vs 3000常用字的差別。
下圖是一代測(cè)序的一個(gè)示例。最完整的數(shù)據(jù)是那18個(gè)堿基,但是很多數(shù)據(jù)庫(kù)只提供下面的那個(gè)紅色標(biāo)記的A。

當(dāng)然, 在基因組基礎(chǔ)上的轉(zhuǎn)錄組、蛋白組之類(lèi)的因?yàn)楹徒M織、細(xì)胞、環(huán)境、行為相關(guān),所以反而很多。

最后,機(jī)遇和風(fēng)險(xiǎn)同在。關(guān)于這件事,說(shuō)沒(méi)風(fēng)險(xiǎn)那是沒(méi)常識(shí),過(guò)度強(qiáng)調(diào)風(fēng)險(xiǎn)又謹(jǐn)慎過(guò)度了。
但是這東西,大家都意識(shí)到是非常寶貴的。當(dāng)年HGP完成,有人曾經(jīng)想把人類(lèi)基因組申請(qǐng)專(zhuān)利,然后被駁回了。