最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

RNA測(cè)序數(shù)據(jù)回貼與組裝 (RNA-Seq Mapping& Assembling)

2022-11-24 20:37 作者:FLOWHUB  | 我要投稿

Reads mapping通常是深度測(cè)序數(shù)據(jù)分析的第一步?;谏疃葴y(cè)序技術(shù),RNA-Seq產(chǎn)生的reads在長(zhǎng)度、數(shù)量、質(zhì)量等方面與基因組重測(cè)序產(chǎn)生的DNA reads具有相似的特性。例如,它們都存在長(zhǎng)度短、數(shù)量多、質(zhì)量參差不齊、錯(cuò)誤率高等問(wèn)題。

?

然而,RNA-Seq測(cè)序數(shù)據(jù)也有其自身的特點(diǎn),因?yàn)樗鼇?lái)自RNA轉(zhuǎn)錄本。具體來(lái)說(shuō),在從DNA到mRNA的轉(zhuǎn)錄過(guò)程中,內(nèi)含子被切掉,外顯子在剪接位點(diǎn)連接在一起。對(duì)于跨剪接位點(diǎn)的reads,也稱為junction reads,如果你不從中間打斷它們,它們將無(wú)法準(zhǔn)確映射到基因組。

?

這些連接點(diǎn)讀數(shù)是確定剪接位點(diǎn)的直接證據(jù)。它們對(duì)于正確重建轉(zhuǎn)錄本結(jié)構(gòu)至關(guān)重要。例如,在下圖中,跨外顯子1和外顯子3的連接讀數(shù)直接支持外顯子1和外顯子3直接連接的轉(zhuǎn)錄本的存在,中間不包含外顯子2。同樣,在下圖中,

兩種junction reads分別支持外顯子1與外顯子3直接連接的轉(zhuǎn)錄本和外顯子3與外顯子5直接連接的轉(zhuǎn)錄本的存在。因此,我們的映射算法需要考慮連接位點(diǎn)和內(nèi)含子,以便正確處理這些連接讀取。

?

具體來(lái)說(shuō),目前針對(duì)這個(gè)問(wèn)題主要有兩種策略。一個(gè)是加入外顯子策略(join exon)。該策略的第一步是根據(jù)已知轉(zhuǎn)錄本中的所有外顯子構(gòu)建所有可能的連接。需要注意的是,這個(gè)庫(kù)中的結(jié)點(diǎn)可能是未知的,但包括了所有可能的組合。例如,4個(gè)外顯子對(duì)應(yīng)六種組合。之后,進(jìn)行通常的映射,其中非連接讀取以類似于那些DNA讀取的未拼接方式映射到基因組。對(duì)于那些不能直接映射的連接讀取,我們將它們與第一步中構(gòu)建的連接庫(kù)對(duì)齊。事實(shí)上,join exon策略可以作為之前DNA reads mapping算法的補(bǔ)丁。該策略可以通過(guò)構(gòu)建所有可能的連接庫(kù)來(lái)發(fā)現(xiàn)新的剪接異構(gòu)體。

?

然而,它對(duì)未知外顯子無(wú)能為力。我們可以轉(zhuǎn)向拆分讀?。╯plit reads)策略來(lái)處理這個(gè)問(wèn)題。與之前的DNA reads映射算法類似,split reads策略也將首先以未拼接的方式將非連接reads映射到基因組。對(duì)于那些不能直接映射的junction reads,它們將被切成多個(gè)長(zhǎng)度為k的種子來(lái)重試映射,這類似于BLAST方法。換句話說(shuō),此策略試圖以更細(xì)的粒度查找連接站點(diǎn)。最后,將彼此靠近的映射種子組合起來(lái)以獲得最終的整體讀取對(duì)齊。與之前的Join exon策略相比,split reads策略速度較慢,因?yàn)樗枰成浔萺eads更短的種子。然而,這種策略不依賴于先前的外顯子注釋,并且可以發(fā)現(xiàn)新的外顯子甚至新基因。

?

事實(shí)上,目前常見(jiàn)的RNA-Seq工具通常將這兩種策略結(jié)合在一起,以平衡靈敏度和速度。例如,約翰霍普金斯大學(xué)、伯克利大學(xué)和哈佛大學(xué)共同開(kāi)發(fā)的TopHat2工具試圖首先通過(guò)Join?exon策略快速識(shí)別已知的連接位點(diǎn),然后使用spilt reads策略發(fā)現(xiàn)新的連接點(diǎn)。TopHat2的一個(gè)值得注意的特點(diǎn)是它針對(duì)不同的策略使用不同的索引,這可以進(jìn)一步提高映射速度。

?

映射只是RNA-Seq數(shù)據(jù)分析的第一步。我們?nèi)匀恍枰獙⑦@些reads組裝成轉(zhuǎn)錄本,并估計(jì)它們的表達(dá)水平。在正確映射所有讀?。òㄟB接讀?。┖?,我們可以將轉(zhuǎn)錄本組裝問(wèn)題解釋為有向圖上的遍歷問(wèn)題。

?

我們可以使用圖論中的尋路算法在不同邊被分配不同權(quán)重的約束下找到一條或多條最優(yōu)路徑及其對(duì)應(yīng)的轉(zhuǎn)錄序列。我們將通過(guò)常用工具Cufflinks來(lái)說(shuō)明基本思想。

?

Cufflinks是一種基于RNA-Seq數(shù)據(jù)進(jìn)行轉(zhuǎn)錄本組裝和表達(dá)分析的工具。假設(shè)我們只觀察reads而不知道有這三種轉(zhuǎn)錄本結(jié)構(gòu)。首先,Cufflinks會(huì)嘗試找出不可能出現(xiàn)在同一筆錄中的片段。例如,此處的黃色和藍(lán)色片段不可能存在于同一個(gè)轉(zhuǎn)錄本中。原因是如果它們存在于同一個(gè)轉(zhuǎn)錄本中,黃色的會(huì)在藍(lán)色的這個(gè)位置中斷而不是跳過(guò)它。同樣,紅色、黃色和藍(lán)色片段都是相互排斥的,而兩個(gè)相同顏色的片段是相容的。我們可以將每個(gè)片段視為一個(gè)節(jié)點(diǎn),并將所有彼此相容的片段連接起來(lái),從而得到重疊圖。在簡(jiǎn)約原則的指導(dǎo)下,Cufflinks將嘗試找出“最小成本路徑覆蓋”作為最佳路徑,該路徑具有最少數(shù)量的路徑,可以覆蓋所有讀取并且沒(méi)有重疊。這樣就獲得了三個(gè)轉(zhuǎn)錄本的最終集合。

?

原則上,一旦轉(zhuǎn)錄本組裝正確完成并且這些外顯子的表達(dá)水平已正確歸一化,轉(zhuǎn)錄本的表達(dá)水平就可以直接從外顯子的表達(dá)水平推斷出來(lái),如上一單元所述。例如,假設(shè)我們可以從基因組上的三個(gè)外顯子推斷出兩個(gè)轉(zhuǎn)錄本t1和t2。同時(shí),假設(shè)可以確定每個(gè)外顯子的標(biāo)準(zhǔn)化表達(dá)水平:e1=20、e2=40和e3=60。然后我們可以直接從轉(zhuǎn)錄本結(jié)構(gòu)推斷出轉(zhuǎn)錄本表達(dá)水平和外顯子表達(dá)水平之間的關(guān)系。例如,外顯子1僅存在于轉(zhuǎn)錄本1中,因此其所有表達(dá)均由轉(zhuǎn)錄本1提供。類似地,外顯子3同時(shí)存在于轉(zhuǎn)錄本1和轉(zhuǎn)錄本2中,因此其表達(dá)由兩個(gè)轉(zhuǎn)錄本提供。因此,我們認(rèn)為外顯子1的表達(dá)水平就是轉(zhuǎn)錄本1的表達(dá)水平,而外顯子3的表達(dá)水平是轉(zhuǎn)錄本1和轉(zhuǎn)錄本2的表達(dá)水平之和。我們可以推斷出轉(zhuǎn)錄本1和轉(zhuǎn)錄本2的表達(dá)水平,分別是20和40。

?

當(dāng)然,這個(gè)問(wèn)題在實(shí)踐中變得更加復(fù)雜,因?yàn)槲覀兛紤]到轉(zhuǎn)錄本組裝算法決定了reads分布的性質(zhì)這一事實(shí)。例如,在Cufflinks中,reads的分布與其他因素有關(guān),例如長(zhǎng)度分布。事實(shí)上,轉(zhuǎn)錄本組裝和表達(dá)水平估計(jì)通常由EM和其他迭代算法完成,以進(jìn)一步準(zhǔn)確估計(jì)表達(dá)水平。


RNA測(cè)序數(shù)據(jù)回貼與組裝 (RNA-Seq Mapping& Assembling)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
行唐县| 玉林市| 永安市| 成武县| 绥德县| 南汇区| 济宁市| 双峰县| 砚山县| 西藏| 普兰店市| 武平县| 清丰县| 宾阳县| 峨眉山市| 盐津县| 岗巴县| 乳源| 阿拉尔市| 临沂市| 上犹县| 东乡县| 淄博市| 新安县| 韶山市| 兰考县| 瑞昌市| 吉安县| 彰武县| 苗栗市| 吴堡县| 柳州市| 昭平县| 全椒县| 哈尔滨市| 苏尼特右旗| 新平| 海口市| 亳州市| 白沙| 陆川县|