最新熱潮掀起科研界大風(fēng)浪,學(xué)以致用的生信知識點(diǎn)都在這里了!

細(xì)胞生物學(xué)的相關(guān)研究一直受限于數(shù)據(jù)的完整性和表型的完整性,對應(yīng)激狀態(tài)和穩(wěn)態(tài)下的細(xì)胞區(qū)別觀察不夠充分。過去五年中,計(jì)算機(jī)視覺和語音識別領(lǐng)域通過對大量的無標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí)、建模,很好的解決了數(shù)據(jù)不足的問題。同樣在最近的研究中,機(jī)器學(xué)習(xí)方法使用單細(xì)胞數(shù)據(jù)進(jìn)行擾動建模也推動了細(xì)胞生物領(lǐng)域前進(jìn)。對于生物學(xué)家來講,無論研究基因、轉(zhuǎn)錄本、修飾、蛋白功能,都要頻繁的進(jìn)行人為干預(yù),實(shí)現(xiàn)對感興趣變量的正向或者反向改變,觀察細(xì)胞表型的變化。整個(gè)過程需要對干預(yù)工具的構(gòu)建、導(dǎo)入、實(shí)驗(yàn)觀察,從而得出表型結(jié)論。擾動建模的目的就是想要通過數(shù)學(xué)模型的建立,通過對已有數(shù)據(jù)的分析、歸納和總結(jié),對一個(gè)分子的功能在沒有實(shí)驗(yàn)時(shí)做出預(yù)判,對于生物學(xué)家和藥物研發(fā)者來講,好的模型一定能夠幫助加深對生物機(jī)制的理解,推動藥物的研發(fā)進(jìn)程
“單細(xì)胞多組學(xué)技術(shù)”和“空間轉(zhuǎn)錄組技術(shù)”先后在2019年和2020年被Nature Methods評為年度技術(shù)方法。時(shí)間和空間維度多維研究技術(shù)結(jié)合,將以全新研究思路出發(fā),既能夠獲得單個(gè)細(xì)胞間異質(zhì)性,又能獲得細(xì)胞在組織空間上的結(jié)構(gòu)位置信息,發(fā)現(xiàn)更多未知且精細(xì)化結(jié)果。總而言之,單細(xì)胞測序+空間轉(zhuǎn)錄組測序:優(yōu)勢互補(bǔ),同時(shí)獲得細(xì)胞類型群體,以及基因表達(dá)和細(xì)胞的空間位置信息??臻g轉(zhuǎn)錄組能夠定位和區(qū)分功能基因在特定組織區(qū)域內(nèi)的活躍表達(dá),為研究和診斷提供寶貴見解。10x Visium 的推出使空間轉(zhuǎn)錄組成為了新的研究熱點(diǎn),受到廣大研究者的青睞,其不僅可以提供研究對象的轉(zhuǎn)錄組等數(shù)據(jù)信息,同時(shí)還能定位其在組織中的空間位置,這對于癌癥發(fā)病機(jī)制、神經(jīng)科學(xué)、發(fā)育生物學(xué)等眾多領(lǐng)域的研究都有重要意義。
深度學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于基因組學(xué)研究中,利用已知的訓(xùn)練集對數(shù)據(jù)的類型和應(yīng)答結(jié)果進(jìn)行預(yù)測,深度學(xué)習(xí),可以進(jìn)行預(yù)測和降維分析。深度學(xué)習(xí)模型的能力更強(qiáng)且更靈活,在適當(dāng)?shù)挠?xùn)練數(shù)據(jù)下,深度學(xué)習(xí)可以在較少人工參與的情況下自動學(xué)習(xí)特征和規(guī)律。調(diào)控基因組學(xué),變異檢測,致病性評分成功應(yīng)用。深度學(xué)習(xí)可以提高基因組數(shù)據(jù)的可解釋性,并將基因組數(shù)據(jù)轉(zhuǎn)化為可操作的臨床信息。深度學(xué)習(xí)通過強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)模型從高維大數(shù)據(jù)中自動挖掘數(shù)據(jù)潛在特征得以實(shí)現(xiàn),過去10年,深度學(xué)習(xí)在計(jì)算機(jī)視覺、語音識別、自然語言處理領(lǐng)域取得了巨大成功。基因組學(xué)大數(shù)據(jù)與疾病表型間的復(fù)雜關(guān)系難以解析,運(yùn)用深度學(xué)習(xí)挖掘多組學(xué)數(shù)據(jù)探索復(fù)雜疾病致病機(jī)制及藥物反應(yīng)機(jī)制將會極大的提升精準(zhǔn)醫(yī)學(xué)和轉(zhuǎn)化醫(yī)學(xué)的進(jìn)度。,近兩年國內(nèi)外頂尖課題組MIT、Harvard University、UPenn、清華大學(xué)、復(fù)旦大學(xué)等都在從事深度學(xué)習(xí)基因組學(xué)的研究,這一研究成果更是多次發(fā)表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology 等知名國際頂刊上,為我們發(fā)表頂刊鑒定了基礎(chǔ)。
1:深度學(xué)習(xí)在基因組學(xué)
第一天
深度學(xué)習(xí)算法介紹
理論內(nèi)容:
1.有監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法
1.1全連接深度神經(jīng)網(wǎng)絡(luò)DNN在基因組學(xué)中的應(yīng)用舉例
1.2卷積神經(jīng)網(wǎng)絡(luò)CNN在基因組學(xué)中的應(yīng)用舉例
1.3循環(huán)神經(jīng)網(wǎng)絡(luò)RNN在基因組學(xué)中的應(yīng)用舉例
1.4圖卷積神經(jīng)網(wǎng)絡(luò)GCN在基因組學(xué)中的應(yīng)用舉例
2.無監(jiān)督的神經(jīng)網(wǎng)絡(luò)算法
2.1自動編碼器AE在基因組學(xué)中的應(yīng)用舉例
2.2生成對抗網(wǎng)絡(luò)GAN在基因組學(xué)中的應(yīng)用舉例
實(shí)操內(nèi)容
1.Linux操作系統(tǒng)
1.1常用的Linux命令
1.2 Vim編輯器
1.3基因組數(shù)據(jù)文件管理, 修改文件權(quán)限
1.4查看探索基因組區(qū)域
2.Python語言基礎(chǔ)
2.1.Python包安裝和環(huán)境搭建
2.2.常見的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)類型
第二天
基因組學(xué)基礎(chǔ)
理論內(nèi)容
1.基因組數(shù)據(jù)庫
2.表觀基因組
3.轉(zhuǎn)錄基因組
4.蛋白質(zhì)組
5.功能基因組
實(shí)操內(nèi)容
基因組常用深度學(xué)習(xí)框架
1.安裝并介紹深度學(xué)習(xí)工具包tensorflow, keras,pytorch
2.在工具包中識別深度學(xué)習(xí)模型要素
2.1.數(shù)據(jù)表示
2.2.張量運(yùn)算
2.3.神經(jīng)網(wǎng)絡(luò)中的“層”
2.4.由層構(gòu)成的模型
.5.損失函數(shù)與優(yōu)化器
2.6.數(shù)據(jù)集分割
2.7.過擬合與欠擬合
3.基因組數(shù)據(jù)處理
3.1安裝并使用keras_dna處理各種基因序列數(shù)據(jù)如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等
3.2使用keras_dna設(shè)計(jì)深度學(xué)習(xí)模型
3.3使用keras_dna分割訓(xùn)練集、測試集
3.4使用keras_dna選取特定染色體的基因序列等
4.深度神經(jīng)網(wǎng)絡(luò)DNN在識別基序特征中應(yīng)用
4.1實(shí)現(xiàn)單層單過濾器DNN識別基序
4.2實(shí)現(xiàn)多層單過濾器DNN識別基序
4.3實(shí)現(xiàn)多層多過濾器DNN識別基序
第三天
卷積神經(jīng)網(wǎng)絡(luò)CNN在基因調(diào)控預(yù)測中的應(yīng)用
理論內(nèi)容
1.Chip-Seq中識別基序特征G4,如DeepG4
2.Chip-Seq中預(yù)測DNA甲基化,DeepSEA
3.Chip-Seq中預(yù)測轉(zhuǎn)錄調(diào)控因子結(jié)合,DeepSEA
4.DNase-seq中預(yù)測染色體親和性,Basset
5.DNase-seq中預(yù)測基因表達(dá)eQTL,Enformer
實(shí)操內(nèi)容
復(fù)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)CNN識別基序特征DeepG4、非編碼基因突變DeepSEA,預(yù)測染色體親和性Basset,基因表達(dá)eQTL
1.復(fù)現(xiàn)DeepG4從Chip-Seq中識別G4特征
2.安裝selene_sdk,復(fù)現(xiàn)DeepSEA從Chip-Seq中預(yù)測DNA甲基化,非編碼基因突變
3.復(fù)現(xiàn)Basset,從Chip-Seq中預(yù)測染色體親和性
復(fù)現(xiàn)Enformer,從Chip-Seq中預(yù)測基因表達(dá)eQT
第四天
深度學(xué)習(xí)在識別拷貝數(shù)變異DeepCNV、調(diào)控因子DeepFactor上的應(yīng)用
理論內(nèi)容
1.SNP微陣列中預(yù)測拷貝數(shù)變異CNV,DeepCNV
2.RNA-Seq中預(yù)測premiRNA,dnnMiRPre
3.從蛋白序列中預(yù)測調(diào)控因子蛋白質(zhì),DeepFactor
實(shí)操內(nèi)容
1.復(fù)現(xiàn)DeepCNV利用SNP微陣列聯(lián)合圖像分析識別拷貝數(shù)變異
2.復(fù)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN工具 dnnMiRPre,從RNA-Seq中預(yù)測premiRNA
復(fù)現(xiàn)DeepFactor,從蛋白序列中識別轉(zhuǎn)錄調(diào)控因子蛋白質(zhì)
第五天
深度學(xué)習(xí)在識別及疾病表型及生物標(biāo)志物上的應(yīng)用
理論內(nèi)容
1.從基因表達(dá)數(shù)據(jù)中識別乳腺癌分型的深度學(xué)習(xí)工具DeepType
2.從高維多組學(xué)數(shù)據(jù)中識別疾病表型,XOmiVAE
3.基因序列及蛋白質(zhì)相互作用網(wǎng)絡(luò)中識別關(guān)鍵基因的深度學(xué)習(xí)工具DeepHE
實(shí)操內(nèi)容
1.復(fù)現(xiàn)DeepType,從METABRIC乳腺癌數(shù)據(jù)中區(qū)分乳腺癌亞型
2.復(fù)現(xiàn)XOmiVAE,從TCGA多維數(shù)據(jù)庫中識別乳腺癌亞型
復(fù)現(xiàn)DeepHE利用基因序列及蛋白質(zhì)相互作用網(wǎng)絡(luò)識別關(guān)鍵基因
第六天深度學(xué)習(xí)在預(yù)測藥物反應(yīng)機(jī)制上的應(yīng)用
理論部分
聯(lián)合腫瘤基因標(biāo)記及藥物分子結(jié)構(gòu)預(yù)測藥物反應(yīng)機(jī)制的深度學(xué)習(xí)工具SWnet
實(shí)操內(nèi)容
預(yù)處理藥物分子結(jié)構(gòu)信息
計(jì)算藥物相似性
在不同數(shù)據(jù)集上構(gòu)建self-attention SWnet
評估self-attention SWnet
構(gòu)建多任務(wù)的SWnet
構(gòu)建單層SWnet
構(gòu)建帶權(quán)值層的SWnet
2:機(jī)器學(xué)習(xí)單細(xì)胞分析應(yīng)用
第一天理論內(nèi)容:1.單細(xì)胞測序原理2.單細(xì)胞測序基礎(chǔ)3.單細(xì)胞測序方法及數(shù)據(jù)4.單細(xì)胞數(shù)據(jù)分析流程實(shí)操內(nèi)容1.R語言基礎(chǔ)2.R(4.1.3)和Rstudio的安裝3.R包安裝和環(huán)境搭建4.數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)類型5.R語言基本函數(shù)6.數(shù)據(jù)下載7.數(shù)據(jù)讀入與輸出
第二天
理論內(nèi)容
1.機(jī)器學(xué)習(xí)概述
2.線性模型
3.決策樹
4.支持向量機(jī)
5.集成學(xué)習(xí)
6.模型選擇與性能優(yōu)化
實(shí)操內(nèi)容
1.決策樹算法實(shí)現(xiàn)
2.隨機(jī)森林算法實(shí)現(xiàn)
3.支持向量機(jī)(SVM)算法實(shí)現(xiàn)
4.樸素貝葉斯算法實(shí)現(xiàn)
5.Xgboost算法實(shí)現(xiàn)
6.主成分分析PCA算法實(shí)現(xiàn)
7.聚類算法實(shí)現(xiàn)
8.DBSCAN算法實(shí)現(xiàn)
9.層次聚類算法實(shí)現(xiàn)
第三天
理論內(nèi)容1.多組學(xué)基礎(chǔ)2.常用生物組學(xué)實(shí)驗(yàn)與分析方法3.常用組學(xué)數(shù)據(jù)庫介紹4.批量處理組學(xué)數(shù)據(jù)5.生物功能分析6.基于轉(zhuǎn)錄組學(xué)的差異基因篩選,疾病預(yù)測7.基于差異基因聯(lián)合多組學(xué)分析疾病發(fā)生機(jī)制8.組學(xué)數(shù)據(jù)可視化實(shí)操內(nèi)容1.多組學(xué)基礎(chǔ)2.常用生物組學(xué)實(shí)驗(yàn)與分析方法3.常用組學(xué)數(shù)據(jù)庫介紹4.批量處理組學(xué)數(shù)據(jù)5.生物功能分析6.基于轉(zhuǎn)錄組學(xué)的差異基因篩選,疾病預(yù)測7.基于差異基因聯(lián)合多組學(xué)分析疾病發(fā)生機(jī)制8.組學(xué)數(shù)據(jù)可視化第四天
理論內(nèi)容
1.單細(xì)胞分析中的常見機(jī)器學(xué)習(xí)方法2.降維聚類的機(jī)器學(xué)習(xí)算法3.分群注釋的機(jī)器學(xué)習(xí)算法4.單細(xì)胞分析中常見的深度學(xué)習(xí)方法5.降維聚類的深度學(xué)習(xí)算法6.分群注釋的深度學(xué)習(xí)算法實(shí)操內(nèi)容1.Python語言基礎(chǔ)2.python安裝與開發(fā)環(huán)境的搭建3.基本數(shù)據(jù)類型組合數(shù)據(jù)類型4.分析環(huán)境搭建5.Jupyter notebook的使用6.函數(shù)、列表、元組、字典、集合7.控制結(jié)構(gòu)、循環(huán)結(jié)構(gòu)8.Numpy模塊?——矩陣的科學(xué)計(jì)算9.Matplotlib模塊——數(shù)據(jù)處理與繪圖10.Pandas模塊——csv數(shù)據(jù)處理與分析11.Sklearn模塊——機(jī)器學(xué)習(xí)模型基礎(chǔ)軟件包調(diào)用第五天
理論部分
1.機(jī)器學(xué)習(xí)在單細(xì)胞分析中的應(yīng)用2.收集數(shù)據(jù)3.數(shù)據(jù)準(zhǔn)備4.選擇一個(gè)模型5. 模型訓(xùn)練6.模型評估7.參數(shù)調(diào)整8.模型預(yù)測實(shí)操內(nèi)容1.創(chuàng)建Seurat對象2.數(shù)據(jù)質(zhì)控3.測序深度差異及標(biāo)準(zhǔn)化4. 單細(xì)胞數(shù)據(jù)降維5.批次效應(yīng)去除6.數(shù)據(jù)整合7.亞群注釋8.GSVA通路活性分析9.單細(xì)胞富集分析
第六天
理論部分1.深度學(xué)習(xí)在單細(xì)胞分析中的應(yīng)用2.卷積神經(jīng)網(wǎng)絡(luò)基本構(gòu)成3.卷積核4.循環(huán)神經(jīng)網(wǎng)絡(luò)基本構(gòu)成5.循環(huán)核6.圖神經(jīng)網(wǎng)絡(luò)基本構(gòu)成實(shí)操內(nèi)容1.卷積神經(jīng)網(wǎng)絡(luò)在單細(xì)胞分析的算法實(shí)現(xiàn)2.循環(huán)神經(jīng)網(wǎng)絡(luò)在單細(xì)胞分析的算法實(shí)現(xiàn)3.圖神經(jīng)網(wǎng)絡(luò)在單細(xì)胞中分析的算法實(shí)現(xiàn)4.單細(xì)胞數(shù)據(jù)的自動注釋5.單細(xì)胞數(shù)據(jù)分析聚類與批量效應(yīng)6.單細(xì)胞測序數(shù)據(jù)進(jìn)行聚類7.加權(quán)圖神經(jīng)網(wǎng)絡(luò)的細(xì)胞類型注釋方法
8.單細(xì)胞表達(dá)數(shù)據(jù)中深度學(xué)習(xí)基因關(guān)系
3:單細(xì)胞空間轉(zhuǎn)錄組應(yīng)用
第一天
單細(xì)胞測序技術(shù)與應(yīng)用
理論內(nèi)容:
1.單細(xì)胞組學(xué)研究簡介
2.單細(xì)胞轉(zhuǎn)錄組測序技術(shù)進(jìn)展及其原理:1992\2009-至今
3.單細(xì)胞多組學(xué)和空間轉(zhuǎn)錄組技術(shù)簡要介紹;
4.單細(xì)胞轉(zhuǎn)錄組測序技術(shù)的常見應(yīng)用和重要的生物學(xué)問題的探索;
4.單細(xì)胞主要數(shù)據(jù)庫介紹。
實(shí)操內(nèi)容:
1. Linux命令入門講解及實(shí)操訓(xùn)練。
2. R語言簡介及安裝。
3. R語言簡單語法及常見命令。
4. 數(shù)據(jù)挖掘及其統(tǒng)計(jì)應(yīng)用的原理。
5. R語言實(shí)操畫圖ggplot2為主簡單實(shí)操。
第二天
單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析思路及流程以及數(shù)據(jù)分析實(shí)操
理論內(nèi)容:
1. 單細(xì)胞實(shí)驗(yàn)介紹,常見建庫結(jié)構(gòu)(以10*建庫為例)。
2. 單細(xì)胞轉(zhuǎn)錄組Pipeline軟件和代碼介紹。
3. 單細(xì)胞轉(zhuǎn)錄組轉(zhuǎn)錄因子及其細(xì)胞通訊介紹。
4. 單細(xì)胞組學(xué)在腫瘤、發(fā)育、免疫及其它等領(lǐng)域的研究思路介紹。
實(shí)操內(nèi)容:
1. 10X官方單細(xì)胞軟件Cellranger講解及實(shí)操;
2.質(zhì)控基因和細(xì)胞;
3.選取高可變基因;
4.降維與分群;
5.Biomarker定義細(xì)胞類型;
6.尋找差異基因;
6. 通過Seurat 合并多樣本及消除樣本異質(zhì)性;
7. 通過harmony合并多樣本及其消除樣本異質(zhì)性。
第三天
單細(xì)胞轉(zhuǎn)錄組軌跡、通路、轉(zhuǎn)錄因子、hdWGCNA等分析及繪圖實(shí)操
實(shí)操內(nèi)容:
1. 通過Monocle軟件對單細(xì)胞轉(zhuǎn)錄組進(jìn)行擬時(shí)序的分析。
2. 對單細(xì)胞各個(gè)簇進(jìn)行通路的功能富集分析。
3. 通過GSVA給細(xì)胞通路打分等。
4. 利用cellchart軟件對細(xì)胞互作進(jìn)行分析。
5. 講解單細(xì)胞WGCNA,利用關(guān)聯(lián)共表達(dá)找到某些細(xì)胞中有關(guān)聯(lián)作用的基因list(也就是模塊)。
6. 全面解析SCENIC軟件進(jìn)行轉(zhuǎn)錄因子預(yù)測分析。
理論內(nèi)容:
1. 空間轉(zhuǎn)錄組技術(shù)的介紹。
2. 空間轉(zhuǎn)錄組技術(shù)的應(yīng)用。
3. 空間轉(zhuǎn)錄組文章圖表的解讀。
5. 空間轉(zhuǎn)錄組技術(shù)在癌癥、發(fā)育、神經(jīng)科學(xué)等領(lǐng)域的研究思路。
第四天
1.空間轉(zhuǎn)錄組數(shù)據(jù)比對、降維以及聚類等分析
2.空間轉(zhuǎn)錄組多樣本及與但單細(xì)胞數(shù)據(jù)關(guān)聯(lián)分析
實(shí)操內(nèi)容:
1. 10x Visium 組織優(yōu)化及文庫制備。
2. 10x Visium官方分析軟件Space Ranger講解及實(shí)操。
3. Space Ranger輸出結(jié)果解讀。
4. Loupe Browser軟件安裝及使用。
5. 通過Seurat軟件進(jìn)行降維、聚類和可視化。
6. 通過Seurat進(jìn)行基因表達(dá)可視化。
理論+實(shí)操內(nèi)容
1. 通過Seurat進(jìn)行空間變量特征的識別。
2. 與單細(xì)胞數(shù)據(jù)關(guān)聯(lián)分析(空間細(xì)胞類型定義)
3. 通過Seurat處理多個(gè)切片。
4. 單細(xì)胞及空間轉(zhuǎn)錄組數(shù)據(jù)分析總結(jié)。