火熱的AI制藥技術(shù)+機(jī)器學(xué)習(xí)到底該怎樣應(yīng)用到實(shí)戰(zhàn)中

CADD計(jì)算機(jī)輔助藥物設(shè)計(jì)設(shè)計(jì)流程,讓學(xué)員能夠掌握包括PDB數(shù)據(jù)庫(kù)、靶點(diǎn)蛋白、蛋白質(zhì)-配體、蛋白-配體小分子、蛋白-配體結(jié)構(gòu)、notepad的介紹和使用、分子對(duì)接、蛋白-配體對(duì)接、虛擬篩選、蛋白-蛋白對(duì)接、蛋白-多糖分子對(duì)接、蛋白-水合對(duì)接、Linux安裝、gromacs分子動(dòng)力學(xué)全程實(shí)操、溶劑化分子動(dòng)力學(xué)模擬
? ? ?AIDD人工智能藥物發(fā)現(xiàn)與設(shè)計(jì)課程讓學(xué)員了解藥物發(fā)現(xiàn)的前沿背景,學(xué)習(xí)人工智能領(lǐng)域的各類常見算法,熟悉工具包的安裝與使用,掌握一定的算法編程能力,能夠運(yùn)用計(jì)算機(jī)方法研究藥物相關(guān)問題。通過大量的案例講解和實(shí)踐操作,具備一定的AIDD模型構(gòu)建和數(shù)據(jù)分析能力。
?人工智能與組學(xué)的研究到底有多熱,以及為何要舉辦培訓(xùn),下面的內(nèi)容給出了答案
近兩年國(guó)內(nèi)外頂尖課題組MIT、Harvard University、UPenn、清華大學(xué)、復(fù)旦大學(xué)、西湖大學(xué)等都在從事人工智能與組學(xué)的研究,這一研究成果更是多次發(fā)表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology等知名國(guó)際頂刊上,為我們發(fā)表頂刊鑒定了基礎(chǔ)
? ? ?能夠快速運(yùn)用到自己的科研項(xiàng)目和課題上,助力學(xué)員發(fā)表Nature、Science、Cell等正刊及子刊?。ㄔ谏欧治龅男录夹g(shù)加持下,發(fā)更高質(zhì)量的文章)
一:CADD計(jì)算機(jī)輔助藥物設(shè)計(jì)
第一天上
背景與理論知識(shí)以及工具準(zhǔn)備
1.PDB數(shù)據(jù)庫(kù)的介紹和使用
1.1數(shù)據(jù)庫(kù)簡(jiǎn)介
1.2靶點(diǎn)蛋白的結(jié)構(gòu)查詢與選取
1.3靶點(diǎn)蛋白的結(jié)構(gòu)序列下載
1.4靶點(diǎn)蛋白的下載與預(yù)處理
1.5批量下載蛋白晶體結(jié)構(gòu)
2.Pymol的介紹與使用
2.1軟件基本操作及基本知識(shí)介紹
2.2蛋白-配體相互作用圖解
2.3蛋白-配體小分子表面圖、靜電勢(shì)表示
2.4蛋白-配體結(jié)構(gòu)疊加與比對(duì)
2.5繪制相互作用力
3.notepad的介紹和使用
3.1 優(yōu)勢(shì)及主要功能介紹
3.2 界面和基本操作介紹
3.3插件安裝使用
下午
一般的蛋白-配體分子對(duì)接講解
1.對(duì)接的相關(guān)理論介紹
1.1分子對(duì)接的概念及基本原理
1.2分子對(duì)接的基本方法
1.3分子對(duì)接的常用軟件
1.4分子對(duì)接的一般流程
2.常規(guī)的蛋白-配體對(duì)接
2.1收集受體與配體分子
2.2復(fù)合體預(yù)構(gòu)象的處理
2.3準(zhǔn)備受體、配體分子
2.4蛋白-配體對(duì)接
2.5對(duì)接結(jié)果的分析
以新冠病毒蛋白主蛋白酶靶點(diǎn)及相關(guān)抑制劑為例
第二天
虛擬篩選
1.小分子數(shù)據(jù)庫(kù)的介紹與下載
2.相關(guān)程序的介紹
2.1 openbabel的介紹和使用
2.2 chemdraw的介紹與使用
3.虛擬篩選的前處理
4.虛擬篩選的流程及實(shí)戰(zhàn)演示
案例:篩選新冠病毒主蛋白酶抑制劑
5.結(jié)果分析與作圖
6.藥物ADME預(yù)測(cè)
6.1ADME概念介紹
6.2預(yù)測(cè)相關(guān)網(wǎng)站及軟件介紹
6.3預(yù)測(cè)結(jié)果的分析
第三天
拓展對(duì)接的使用方法
1.蛋白-蛋白對(duì)接
1.1蛋白-蛋白對(duì)接的應(yīng)用場(chǎng)景
1.2相關(guān)程序的介紹
1.3目標(biāo)蛋白的收集以及預(yù)處理
1.4使用算例進(jìn)行運(yùn)算
1.5關(guān)鍵殘基的預(yù)設(shè)
1.6結(jié)果的獲取與文件類型
1.7結(jié)果的分析
以目前火熱的靶點(diǎn)PD-1/PD-L1等為例。
2.涉及金屬酶蛋白的對(duì)接
2.1 金屬酶蛋白-配體的背景介紹
2.2蛋白與配體分子的收集與預(yù)處理
2.3金屬離子的處
2.4金屬輔酶蛋白-配體的對(duì)接
2.5結(jié)果分析
以人類法尼基轉(zhuǎn)移酶及其抑制劑為例
3.蛋白-多糖分子對(duì)接
4.1蛋白-多糖相互作用
4.2對(duì)接處理的要點(diǎn)
4.3蛋白-多糖分子對(duì)接的流程
4.4蛋白-多糖分子對(duì)接
4.5相關(guān)結(jié)果分析
以α-糖苷轉(zhuǎn)移酶和多糖分子對(duì)接為例
5.核酸-小分子對(duì)接
5.1核酸-小分子應(yīng)用現(xiàn)狀
5.2相關(guān)的程序介紹
5.3核酸-小分子的結(jié)合種類
5.4核酸-小分子對(duì)接
5.5相關(guān)結(jié)果的分析
以人端粒g -四鏈和配體分子對(duì)接為例。
操作流程介紹及實(shí)戰(zhàn)演示
第四天
拓展對(duì)接的使用方法
1.柔性對(duì)接
1.1柔性對(duì)接的使用場(chǎng)景介紹
1.2柔性對(duì)接的優(yōu)勢(shì)
1.3蛋白-配體的柔性對(duì)接
重點(diǎn):柔性殘基的設(shè)置方法
1.4相關(guān)結(jié)果的分析
以周期蛋白依賴性激酶2(CDK2)與配體1CK為例
2.共價(jià)對(duì)接
2.1兩種共價(jià)對(duì)接方法的介紹
2.1.1柔性側(cè)鏈法
2.1.2兩點(diǎn)吸引子法
2.2蛋白和配體的收集以及預(yù)處理
2.3共價(jià)藥物分子與靶蛋白的共價(jià)對(duì)接
2.4結(jié)果的對(duì)比
以目前火熱的新冠共價(jià)藥物為例。
3.蛋白-水合對(duì)接
3.1水合作用在蛋白-配體相互作用中的意義及方法介紹
3.2蛋白和配體的收集以及預(yù)處理
3.3對(duì)接相關(guān)參數(shù)的準(zhǔn)備
重點(diǎn):水分子的加入和處理
3.4蛋白-水分子-配體對(duì)接
3.5結(jié)果分析
以乙酰膽堿結(jié)合蛋白(AChBP)與尼古丁復(fù)合物為例
第五
分子動(dòng)力學(xué)模擬(linux與gromacs使用安裝)
1. linux系統(tǒng)的介紹和簡(jiǎn)單使用
1.1 linux常用命令行
1.2 linux上的常用程序安裝
1.3 體驗(yàn):如何在linux上進(jìn)行虛擬篩選
2.分子動(dòng)力學(xué)的理論介
2.1分子動(dòng)力學(xué)模擬的原理
2.2分子動(dòng)力學(xué)模擬的方法及相關(guān)程序
2.3相關(guān)力場(chǎng)的介紹
3.gromacs使用及介紹
重點(diǎn):主要命令及參數(shù)的介紹
4.origin介紹及使用
第六天
溶劑化分子動(dòng)力學(xué)模擬的執(zhí)行
1.一般的溶劑化蛋白的處理流程
2.蛋白晶體的準(zhǔn)備
3.結(jié)構(gòu)的能量最小化
4.對(duì)體系的預(yù)平衡
5.無限制的分子動(dòng)力學(xué)模擬
6.分子動(dòng)力學(xué)結(jié)果展示與解讀
以水中的溶菌酶為例
第七
蛋白-配體分子動(dòng)力學(xué)模擬的執(zhí)行
1.蛋白-配體在分子動(dòng)力學(xué)模擬的處理流程
2.蛋白晶體的準(zhǔn)備
3.蛋白-配體模擬初始構(gòu)象的準(zhǔn)備
4.配體分子力場(chǎng)拓?fù)湮募臏?zhǔn)備
4.1 高斯的簡(jiǎn)要介紹
4.2 ambertool的簡(jiǎn)要介紹
4.3生成小分子的力場(chǎng)參數(shù)文件
5.對(duì)復(fù)合物體系溫度和壓力分別限制的預(yù)平衡
6.無限制的分子動(dòng)力學(xué)模擬
7.分子動(dòng)力學(xué)結(jié)果展示與解讀
8.軌跡后處理及分析
以新冠病毒蛋白主蛋白酶靶點(diǎn)及相關(guān)抑制劑為例
部分模型案例圖片
二:AIDD人工智能藥物發(fā)現(xiàn)與設(shè)計(jì)
(第一天)
人工智能藥物發(fā)(AIDD)簡(jiǎn)介
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用
工具的介紹與安裝
1.人工智能藥物發(fā)現(xiàn)(AIDD)簡(jiǎn)介2.機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用
1.2 環(huán)境搭建
python
anaconda
工具包
RDKit
scikit-learn
pandas
numpy
(第二天)
機(jī)器習(xí)
機(jī)器學(xué)習(xí)藥物發(fā)現(xiàn)
2.1 機(jī)器學(xué)習(xí)
2.1.1 隨機(jī)森林Random Forest (RF)
2.1.2 支持向量機(jī)Support Vector Machines (SVMs)
2.1.3卷積神經(jīng)網(wǎng)絡(luò)
? 梯度下
? 反向傳播
? 隨機(jī)梯度下降
? 學(xué)習(xí)率和激活函數(shù)
? 卷積神經(jīng)網(wǎng)絡(luò)CNN
? 常用框架介紹
? Pytorch
? TensorFlow
2.1.4機(jī)器學(xué)習(xí)任務(wù)
? 分類任務(wù):classification
? 回歸任務(wù):regression
? 聚類任務(wù):clustering
2.1.5機(jī)器學(xué)習(xí)驗(yàn)證和評(píng)估指標(biāo)
? 驗(yàn)證:K折交叉驗(yàn)證K-fold cross validation
? 性能評(píng)估指標(biāo):
? Sensitivity
? Specificity
? Accuracy
? ROC-curve
? AUC
2.2 ChEMBL數(shù)據(jù)庫(kù)介紹和使用
? compound activity measures
?IC50
?pIC50
2.3 化合物的編碼方式及化學(xué)相似性
2.3.1 化合物編碼方式
? SMILES
? InChI
? Cheb
? 分子指紋
? MACCS:Molecular ACCess System fingerprints (MACCS Keys)
? Morgan Fingerprints:Extended-Connectivity Fingerprints (ECFPs)
2.3.2 化合物的化學(xué)相似性
? Tanimoto 系數(shù)
? Dice 系數(shù)
2.4 項(xiàng)目實(shí)戰(zhàn)
2.4.1 Classification:基于分子指紋的化合物活性預(yù)測(cè)
2.4.2 Clustering:基于Butina算法的分子聚類方法研究
(第三天)
圖神經(jīng)網(wǎng)絡(luò)與藥物發(fā)現(xiàn)
3.1 圖神經(jīng)網(wǎng)絡(luò)
? 圖卷積網(wǎng)絡(luò) GCN
? 圖注意力網(wǎng)絡(luò) GAN
? 圖同構(gòu)網(wǎng)絡(luò) GIN
? 常用框架介紹
? Pytorch_Geometric
? DGL
3.2 分子毒性簡(jiǎn)介與相關(guān)數(shù)據(jù)集介紹
? Tox21
? ToxCas
? ClinTox
3.3 項(xiàng)目實(shí)戰(zhàn):基于圖神經(jīng)網(wǎng)絡(luò)的分子毒性預(yù)測(cè)
3.4 經(jīng)典論文講解:DeepTox: Toxicity Prediction using Deep Learning
(第四天)
(第四天)
自然語言處理與藥物發(fā)現(xiàn)
4.1 自然語言處理
? 循環(huán)神經(jīng)網(wǎng)絡(luò) RNN
? LSTM
? Seq2seq
? Transformer
? 常用框架介紹:
? Pytorch
? TensorFlow
4.2 有機(jī)反應(yīng)產(chǎn)量簡(jiǎn)介及相關(guān)數(shù)據(jù)集
4.2.1 有機(jī)反應(yīng)的表示方法
4.2.2 有機(jī)反應(yīng)的產(chǎn)
4.2.3 有機(jī)反應(yīng)相關(guān)數(shù)據(jù)集 USPTO
4.3 項(xiàng)目實(shí)戰(zhàn):基于Transformer的有機(jī)化學(xué)反應(yīng)產(chǎn)量預(yù)測(cè)
4.4 經(jīng)典論文解讀:Extraction of organic chemistry grammar from unsupervised learning of chemical reactions
(第五天
生化代謝路徑設(shè)計(jì)與藥物發(fā)現(xiàn)
5.1 生化數(shù)據(jù)集介紹與使用
? KEGG
? BiGG
? BioCyc
? PubChe
? Chebi
5.2 搜索方法
? 基于化學(xué)計(jì)量矩陣的搜索方法
? 基于逆合成的搜索方
? 基于圖結(jié)構(gòu)的搜索方法
? 于進(jìn)化算法的搜索方法
5.3 評(píng)估方法
? 通量平衡分析FBA
? 理論產(chǎn)量計(jì)算
? 熱力學(xué)可行性分析
5.4 目實(shí)戰(zhàn):基于逆合成的生物代謝路
5.5 經(jīng)典論文講解:Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network
深度學(xué)習(xí)AiphaFold2蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)實(shí)例講
蛋白質(zhì)結(jié)構(gòu)與功能的概述。
蛋白質(zhì)的組成
蛋白質(zhì)的結(jié)構(gòu)
蛋的功能
常見蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的網(wǎng)站及方法。
常用蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的相關(guān)網(wǎng)站及軟件
常用網(wǎng)站及軟件的使用方法及說明
機(jī)器學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的應(yīng)用。
蛋白質(zhì)結(jié)構(gòu)與小分子藥物庫(kù)獲取
機(jī)器學(xué)習(xí)加速預(yù)測(cè)小分子藥物
AlphaFold2機(jī)器學(xué)習(xí)模型對(duì)蛋白結(jié)構(gòu)預(yù)測(cè)
實(shí)戰(zhàn)蛋白結(jié)構(gòu)預(yù)測(cè)目前最好的人工智能模型AlphaFold2。
AlphaFold2模型的獲取及安裝
AlphaFold2相關(guān)數(shù)據(jù)的獲取
AlphaFold2模型的實(shí)戰(zhàn)操作
三:機(jī)器學(xué)習(xí)與代謝組學(xué)專題課表內(nèi)容
第一天
A1 代謝物及代謝組學(xué)的發(fā)展與應(yīng)用
(1) 代謝生理功能;
(2) 代謝疾?。?/p>
(3) 非靶向與靶向代謝組學(xué);
(4) 空間代謝組學(xué)與質(zhì)譜成像(MSI);
(5) 代謝流與機(jī)制研究;
(6) 代謝組學(xué)與藥物和生物標(biāo)志物。
A2 代謝組學(xué)實(shí)驗(yàn)流程簡(jiǎn)介
A3 色譜、質(zhì)譜硬件原理
(1) 色譜分析原理;
(2) 色譜的氣相、液相和固相;
(3) 色譜儀和色譜柱的選擇;
(4) 質(zhì)譜分析原理及動(dòng)畫演示;
(5) 正、負(fù)離子電離模式;
(6) 色譜質(zhì)譜聯(lián)用技術(shù);
(7) LC-MS 的液相系統(tǒng)
A4 代謝通路及代謝數(shù)據(jù)庫(kù)
(1) 幾種經(jīng)典代謝通路簡(jiǎn)介;
(2) 能量代謝通路;
(3) 三大常見代謝物庫(kù):HMDB、METLIN 和 KEGG;
(4) 代謝組學(xué)原始數(shù)據(jù)庫(kù):Metabolomics Workbench 和Metabolights.
第二天
(3) 樣本及代謝物的運(yùn)輸與保存問題;
B2 LC-MS 數(shù)據(jù)質(zhì)控與搜庫(kù)
(1) LC-MS 實(shí)驗(yàn)過程中 QC 樣本的設(shè)置方法;
(2) LC-MS 上機(jī)過程的數(shù)據(jù)質(zhì)控監(jiān)測(cè)和分析;
(3) XCMS 軟件數(shù)據(jù)轉(zhuǎn)換與提峰;
B3 R 軟件基礎(chǔ)
(1) R 和 Rstudio 的安裝;
(2) Rstudio 的界面配置;
(3) R 的基本數(shù)據(jù)結(jié)構(gòu)和語法;
(4) 載與加載包;
(5) 函數(shù)調(diào)用和 debug;
B4 ggplot2
(1) 安裝并使用 ggplot2
(2) ggplot2 的畫圖哲學(xué);
(3) ggplot2 的配色系統(tǒng);
(4) ggplot2 畫組合圖和火山圖;
第三天
機(jī)器習(xí)
C1 無監(jiān)督式機(jī)器學(xué)習(xí)在代謝組學(xué)數(shù)據(jù)處理中的應(yīng)用
(1) 大數(shù)據(jù)處理中的降維;
(2) PCA 分析作圖;
(3) 三種常見的聚類分析:K-means、層次分析與 SOM
(4) 熱圖和 hcluster 圖的 R 語言實(shí)現(xiàn);
C2 一組代謝組學(xué)數(shù)據(jù)的降維與聚類分析的 R 演練
(1) 數(shù)據(jù)解析;
(2) 演練與操作;
C3 有監(jiān)督式機(jī)器學(xué)習(xí)在代謝組學(xué)數(shù)據(jù)處理中的應(yīng)用
(1) 數(shù)據(jù)用 PCA 降維處理后仍然無法找到差異怎么辦?
(2) PLS-DA 找出最可能影響差異的代謝物;
(3) VIP score 和 coef 的意義及選擇;
(4) 分類算法:支持向量機(jī),隨機(jī)森林
C4 一組代謝組學(xué)數(shù)據(jù)的分類算法實(shí)現(xiàn)的 R 演練
(1) 數(shù)據(jù)解讀;
(2) 演練與操作;
第四天
D1 代謝組學(xué)數(shù)據(jù)清洗與 R 語言進(jìn)階
(1) 代謝組學(xué)中的 t、fold-change 和響應(yīng)值;
(2) 數(shù)據(jù)清洗流程;
(3) R 語言 tidyverse
(4) R 語言正則表達(dá)式;
(5) 代謝組學(xué)數(shù)據(jù)過濾;
(6) 代謝組學(xué)數(shù)據(jù) Scaling 原理與 R 實(shí)現(xiàn);
(7) 代謝組學(xué)數(shù)據(jù)的 Normalization;
(8) 代謝組學(xué)數(shù)據(jù)清洗演練;
D2 在線代謝組分析網(wǎng)頁(yè) Metaboanalyst 操作
(1) 用 R 將數(shù)據(jù)清洗成網(wǎng)頁(yè)需要的格式;
(2) 獨(dú)立組、配對(duì)組和多組的數(shù)據(jù)格式問題;
(3) Metaboanalyst 的 pipeline 和注意事項(xiàng);
(4) Metaboanalyst 的結(jié)果查看和導(dǎo)出;
(5) Metaboanalyst 的數(shù)據(jù)編輯;
(6) 全流程演練與操作
第五天
E1 機(jī)器學(xué)習(xí)與代謝組學(xué)頂刊解讀(2-3 篇);
(1) Nature Communication 一篇代謝組學(xué)小鼠腦組織樣本 database 類型的文獻(xiàn);
(2) Cell 一篇代謝組學(xué)患者血液樣本的機(jī)器學(xué)習(xí)與疾病判斷的文獻(xiàn);
(3) 1-2 篇代謝組學(xué)與轉(zhuǎn)錄組學(xué)和蛋白組學(xué)結(jié)合的文獻(xiàn)。
E2 文獻(xiàn)數(shù)據(jù)分析部分復(fù)現(xiàn)(1 篇)
(1) 文獻(xiàn)深度解讀;
(2) 實(shí)操:從原始數(shù)據(jù)下載到圖片復(fù)現(xiàn);
(3) 學(xué)員實(shí)操