為什么很難對(duì)基因變異進(jìn)行分類? 如何解決?
盡管我們對(duì)基因組的知識(shí)與日俱增,而且是巨大的飛躍,我們有時(shí)也需要提醒自己,DNA在1869年首次被分離,但它的分子結(jié)構(gòu)直到1953年才被確定,直到1983年,PCR反應(yīng)才對(duì)科學(xué)界產(chǎn)生了影響。所以即時(shí)飛速發(fā)展,我們?nèi)匀皇腔蝾I(lǐng)域的嬰兒,當(dāng)你在分析整個(gè)基因組時(shí),你會(huì)強(qiáng)烈感覺到這個(gè)事實(shí)?;蜃儺惖姆诸愂腔蚪M學(xué)中一個(gè)特別具有挑戰(zhàn)性的領(lǐng)域?;蜃儺惥褪菍?duì)給定DNA序列的改變,基因變異可以是良性的,致病的,或者是未知的。
?
為什么研究和分類這些變異很重要? 雖然許多基因變異不會(huì)轉(zhuǎn)化為疾病或易感疾病,但也有一些與嚴(yán)重疾病有關(guān),如各種癌癥、血友病、神經(jīng)纖維瘤病和早衰癥(一種以加速老化為特征的疾病)。因此,對(duì)基因變異進(jìn)行分類是極其重要的,因?yàn)橹浪鼈兊纳碛绊懣赡苡兄趨^(qū)分健康個(gè)體和那些易患某些疾病的人,例如癌癥。這可能有助于篩查項(xiàng)目、先發(fā)制人的醫(yī)學(xué)和更好的患者預(yù)后。
?
為什么很難對(duì)基因變異進(jìn)行分類??--- 我們每個(gè)人DNA中都儲(chǔ)存著大量的信息。
?
人類有46條染色體,23對(duì),是二倍體生物。我們可以把它看作是23條遺傳自我們母親的染色體,23條染色體遺傳自我們的父親。
據(jù)估計(jì),人類大約有2萬個(gè)蛋白質(zhì)編碼基因(然而,隨著每天都有新的信息出現(xiàn),這個(gè)數(shù)字正在進(jìn)化)。
98%的基因組由不編碼蛋白質(zhì)的非編碼DNA組成。它不會(huì)轉(zhuǎn)化成氨基酸序列,但并不意味著它變得無關(guān)緊要,控制細(xì)胞基本細(xì)胞功能的調(diào)控序列位于非編碼DNA中。這些基因序列的變異可能會(huì)嚴(yán)重影響機(jī)體的穩(wěn)態(tài)。
我們的基因組大小是6,469.66萬堿基對(duì),這是儲(chǔ)存在我們DNA中的大量信息。
個(gè)體之間的差異很小,每個(gè)人的基因組略有不同。因此,你必須能夠區(qū)分低代表的多態(tài)性和可能導(dǎo)致疾病的基因變異。
?
科學(xué)家們一直致力于基因變異的研究,數(shù)以百計(jì)的人類基因組已經(jīng)被測(cè)序,有許多公共數(shù)據(jù)庫(kù)中有許多已知的與許多疾病有關(guān)的基因變異。還有一些功能研究試圖破譯某些基因變異對(duì)產(chǎn)生的蛋白質(zhì)的影響,那些不能正常運(yùn)作的蛋白質(zhì)可能會(huì)導(dǎo)致疾病。本文介紹一個(gè)研究基因變異的工具—Ensembl數(shù)據(jù)庫(kù)。
?

Ensembl是開始你的基因變異分析旅程的一個(gè)很好的方法,這個(gè)數(shù)據(jù)庫(kù)可以讓你接觸到來自許多物種的數(shù)千個(gè)基因。你可以在方框區(qū)域輸入基因的名字,表現(xiàn)型,或者其他任何術(shù)語(yǔ)。Ensembl會(huì)給你很多關(guān)于你的基因或表現(xiàn)型的信息,同時(shí)也提供一些其他資源的鏈接,比如UniProt和NCBI。
?

在搜索目的基因之后,將會(huì)得到一個(gè)如下的輸出頁(yè)面。在這里,你將找到基因的描述,別名(A),基因組的位置(B),以及其他重要的信息,包括相關(guān)的表型(C)。
?
你還將看到一個(gè)轉(zhuǎn)錄表(B),在其中可以找到目的基因的轉(zhuǎn)錄本。在這個(gè)表格中,你將發(fā)現(xiàn)蛋白質(zhì)編碼的轉(zhuǎn)錄本、非編碼轉(zhuǎn)錄本和拼接基因變異。在Biotype專欄中,您將找到一個(gè)顏色方案分類,金色和一致編碼序列(CCDS)的轉(zhuǎn)錄本都是經(jīng)過審查的高質(zhì)量的轉(zhuǎn)錄本,藍(lán)色的是非編碼轉(zhuǎn)錄本,而紅色的或者直接來自Ensembl的自動(dòng)標(biāo)注通道,或者Vega/Havana的人工管理。
?
更重要的是,它告訴你哪些轉(zhuǎn)錄本是蛋白質(zhì)編碼,并提供它們的NCBI參考序列。例如BRCA2 基因, 在RefSeq 欄有NCBI 參考序列,NM_000059和NP_000050. NM_ 代表mRNA, NP_ 代表蛋白, 打開超鏈接,你將被帶到NCBI核苷酸數(shù)據(jù)庫(kù)中,以獲得特定的mRNA/蛋白質(zhì)。在這里,你會(huì)發(fā)現(xiàn)FASTA序列,文獻(xiàn)提到的序列,外顯子和作者等信息。
?
在左邊的欄上(C),你將會(huì)有許多選擇引導(dǎo)你獲取寶貴的信息,例如序列、比較基因組學(xué)、相關(guān)的表型(包括已知的基因變體)。