生物信息學(xué)考題
> print(paste("第二題中,進(jìn)化分析12個(gè)物種為: ",ss,sep=""));
[1] "第二題中,進(jìn)化分析12個(gè)物種為: NC_010974C; NC_015332; NC_002658; NC_012422; NC_013579; NC_002081; NC_004414; NC_008131; NC_015344; NC_008491; NC_009968; NC_008747"
> print(paste("第二題中,進(jìn)化分析所選基因?yàn)椋?#34;,gene,sep=""));
[1] "第二題中,進(jìn)化分析所選基因?yàn)椋篘D3"
> print(paste("第三題中,基因表達(dá)數(shù)據(jù)分析的兩個(gè)基因是: ",nn,sep=""));
[1] "第三題中,基因表達(dá)數(shù)據(jù)分析的兩個(gè)基因是: RPS20, COX8A"
> print(paste("第四題第1問(wèn)中,用",en_re,"網(wǎng)站做富集分析的50個(gè)基因是:",gg,". (請(qǐng)用KEGG pathway或GO BP(biological process)的結(jié)果)",sep=""));
[1] "第四題第1問(wèn)中,用PATHER網(wǎng)站做富集分析的50個(gè)基因是:MYL2, CD79A, CDKN1B, PSMB8, LUC7L, MAML1, LAX1, PLG, NF2, KPNB1, IL1RAP, FCER2, ACTN2, RAB11FIP1, SMC4, HCLS1, BMP4, ANXA2, NRP1, PAX5, RRM1, DOK1, STIP1, KRT17, MME, CDC7, C15orf39, SEMA3C, SNRPD2, PRDM4, PTX3, COPS6, CD8A, LRPPRC, BIRC7, RAB18, PLEKHM2, NAA38, CTRC, CXCL11, MIF, RFC4, DSG2, THAP8, VDAC1, MMP7, GATAD2A, LOR, ITGA2, EGR1. (請(qǐng)用KEGG pathway或GO BP(biological process)的結(jié)果)"
> print(paste("第四題第2問(wèn)中,需要PDB數(shù)據(jù)庫(kù)資源查詢的蛋白質(zhì)結(jié)構(gòu)PDB的ID是 :",pp,sep=""));
[1] "第四題第2問(wèn)中,需要PDB數(shù)據(jù)庫(kù)資源查詢的蛋白質(zhì)結(jié)構(gòu)PDB的ID是 :1gol"
>?
二、進(jìn)化分析及基因組分析:(4小題,共40 分)
請(qǐng)就本題隨機(jī)運(yùn)行結(jié)果的“進(jìn)化分析12個(gè)物種”(species)中的每一個(gè)ID作為GenBank的登錄號(hào);如NC_005826;"進(jìn)化分析所選基因?yàn)?#34;作為要研究的這些物種內(nèi)的基因(gene),如Cytb基因(又稱CYTB)。根據(jù)ID找到這12個(gè)物種的線粒體全序列,然后下載全序列中的上述指定的一個(gè)基因(如Cytb基因)片段的DNA序列,形成FASTA格式的文件后,利用ClusterX軟件完成比對(duì),將產(chǎn)生的aln文件轉(zhuǎn)化為Mega格式,再利用Mega軟件對(duì)序列進(jìn)行分析,構(gòu)建系統(tǒng)進(jìn)化樹(shù)。
請(qǐng)完成:
1,請(qǐng)基于給定基因(如Cytb基因)核苷酸序列,利用Mega軟件中的NJ法構(gòu)建給定的12個(gè)物種的系統(tǒng)樹(shù)圖,并在樹(shù)上給出自檢值(5分);簡(jiǎn)要說(shuō)明系統(tǒng)樹(shù)上物種關(guān)系(5分);要求系統(tǒng)樹(shù)中物種統(tǒng)一命名為:登錄號(hào)-基因名(如NC_005826-Cytb)(5分)。-00
2,請(qǐng)以本題給定的12個(gè)登錄號(hào)(如NC_005826)物種中的第二個(gè)物種為研究對(duì)象,分別給出指定基因(如Cytb基因)序列的長(zhǎng)度和GC含量(5分),并利用RNAstructure軟件或其他在線軟件繪制出該物種線粒體基因組中12S rRNA基因和16S rRNA基因的tRNA基因的二級(jí)結(jié)構(gòu)(5分);-00
? ? 3,請(qǐng)以本題給定的12個(gè)登錄號(hào)(如NC_005826)物種中的第三個(gè)物種為研究對(duì)象,利用相關(guān)在線軟件服務(wù)的方法進(jìn)行該物種線粒體基因組的所有基因定位和tRNA基因定位,給出它們的截屏信息(10分);請(qǐng)簡(jiǎn)要文字描述在線分析方法的步驟(5分)。-00
我的答案:
NC013579,NC008747,NC015344,NC004414和NC002081的親緣關(guān)系比較遠(yuǎn)
NC008131和NC013579,NC008747,NC015344,NC004414,NC002081的親緣關(guān)系比較近
NC010974和NC012422的親緣關(guān)系比較近
NC002658,NC008491和NC009968的親緣關(guān)系比較近。



NC_002658的tRNA基因定位
方法:進(jìn)入http://lowelab.ucsc.edu/tRNAscan-SE/?網(wǎng)址
然后在Sequence source中選擇Mammalian mitochondrial;
在Query sequence中選擇Raw sequence
選擇NC_002658的全序列文件,點(diǎn)擊Run tRNAscan-SE:


?NC_002658物種的線粒體基因組的所有基因定位
方法:1.打開(kāi)網(wǎng)址http://mitos.bioinf.uni-leipzig.de/index.py
2.填寫(xiě)名字;郵箱;
Job?identifier隨便填個(gè)字母;
Genetic?Code?一般默認(rèn)為脊椎動(dòng)物(02-Vertebrate)
3.Fasta?file?直接點(diǎn)擊瀏覽,選擇Fasta格式序列文件
4.完畢后點(diǎn)擊Proceed,出現(xiàn)如下頁(yè)面,等待頁(yè)面自動(dòng)刷新
5. 結(jié)果會(huì)在一段時(shí)間(可能會(huì)比較久,應(yīng)該和序列大小有關(guān))后顯示出來(lái),同時(shí)以鏈接形式發(fā)至郵箱。
點(diǎn)擊即可查看

三、疾病轉(zhuǎn)錄組數(shù)據(jù)的分析與R語(yǔ)言的應(yīng)用( 5小題,共30分)
本題數(shù)據(jù)來(lái)源于GEO數(shù)據(jù)庫(kù)中的基因表達(dá)芯片數(shù)據(jù),為500行和31列的經(jīng)過(guò)標(biāo)準(zhǔn)化的基因表達(dá)數(shù)據(jù)矩陣,已知前11列為正常組織樣本,后20列為疾病組織樣本。就隨機(jī)程序獲得的“基因表達(dá)數(shù)據(jù)分析的兩個(gè)基因(gen_name)及表達(dá)值信息(data)數(shù)據(jù)進(jìn)行如下操作:
1,通過(guò)相關(guān)網(wǎng)站獲得兩個(gè)基因的功能,并簡(jiǎn)要用中文描述(5分),同時(shí)說(shuō)明這兩個(gè)基因可能有因缺陷導(dǎo)致的疾病嗎,其對(duì)應(yīng)的藥物又有哪些并提供相應(yīng)的截屏(10分)-00
2,請(qǐng)通過(guò)STRING網(wǎng)站(http://www.string-db.org/)分別獲得與這兩個(gè)基因相互作用的基因(或蛋白),并找出哪個(gè)基因(或蛋白)與已知基因互作是因?yàn)榛蚬脖磉_(dá)(gene coexpression)證據(jù)。(5分)-00
3,請(qǐng)根據(jù)兩個(gè)基因名和表達(dá)值信息變量(data)檢測(cè)這兩個(gè)基因在兩類樣本(正常和疾病樣本)中是否發(fā)生顯著上調(diào)或是下調(diào),請(qǐng)根據(jù)計(jì)算結(jié)果做出相應(yīng)說(shuō)明(提示t.test()函數(shù)可以用于判斷顯著性)(10分)。-00
RPS20在樣本(正常和疾病樣本)中發(fā)生顯著上調(diào)或是下調(diào)不顯著
COX8A在樣本(正常和疾病樣本)中發(fā)生顯著上調(diào)或是下調(diào)不顯著


COX8A的功能簡(jiǎn)述:呼吸鏈含有3種多亞基配合物琥珀酸脫氫酶(Complex?II,CII)、泛醌-細(xì)胞色素c氧化還原酶(Cytochrom?b-C1?Complex,Complex?III,CIII)和細(xì)胞色素c氧化酶(Complex?IV,CIV),它們協(xié)同將NADH衍生的電子和琥珀酸鹽轉(zhuǎn)移到分子氧上,在內(nèi)膜上形成電化學(xué)梯度,驅(qū)動(dòng)跨膜轉(zhuǎn)運(yùn)和ATP合成酶。細(xì)胞色素c氧化酶是催化氧氣還原為水的呼吸鏈的組成部分。通過(guò)亞基2的雙核銅A中心(CU(A))和亞基1的血紅素A(Heme?A),由血紅素A3和銅B(CU(B))形成的雙核中心(BNC)中的一個(gè)雙核中心(BNC),由細(xì)胞膜空間(IMS)中還原的細(xì)胞色素c產(chǎn)生的電子被轉(zhuǎn)移。BNC利用IMS中細(xì)胞色素c的4個(gè)電子和線粒體基質(zhì)中的4個(gè)質(zhì)子將分子氧還原為2個(gè)水分子。
?
COX8A可能導(dǎo)致的疾病:痘苗病毒(VACV)感染增加,無(wú)效果乳腺形成結(jié)腸譜系的生存能力下降shRNA下降豐度(Z-score《-2)NF-κB報(bào)告表達(dá)降低shRNA增加豐度(Z值>2)亞砷酸刺激后應(yīng)激顆粒中G3BP1蛋白表達(dá)和組裝減少


RPS20基因的功能簡(jiǎn)述:GO標(biāo)識(shí)限定GO術(shù)語(yǔ)證據(jù),使RNA結(jié)合HDA,IEA,使核糖體的結(jié)構(gòu)組成IDA,IBA,NAS,HDA,IEA?,使蛋白質(zhì)綁定IPI ,啟動(dòng)MDM2/MDM4家族蛋白綁定
RPS20可能導(dǎo)致的疾?。?span id="s0sssss00s" class="font-size-16">無(wú)影響生存力下降電離輻射敏感性下降FOXO1核定位有絲分裂細(xì)胞數(shù)量增加不確定核仁前40S成熟缺陷shRNA減少內(nèi)體-核距離減少(核周區(qū)域內(nèi)的內(nèi)體聚集)丙型肝炎病毒復(fù)制減少野生型和TP53基因敲除細(xì)胞的活力下降,TP53蛋白表達(dá)率下降(野生型/TP53敲除細(xì)胞)降低核大小細(xì)胞數(shù)量減少,S-DNA含量增加艾滋病病毒核定位

與RPS20基因相互作用的并且是因?yàn)榛蚬脖磉_(dá)的基因有RPS,RPL35,RPL18A,RPS12和RPL1.
證據(jù)如圖:

與COX8A基因相互作用的并且是因?yàn)榛蚬脖磉_(dá)的基因有COX6A1,COX5B,COX6B1,COX7C和COX5A,證據(jù)如圖:

四、基因集的功能分析和蛋白質(zhì)組分析( 2小題,共 25分)
?
1, 利用DAVID網(wǎng)站http://david.abcc.ncifcrf.gov/summary.jsp或PATHER網(wǎng)站http://pantherdb.org/;進(jìn)行基因功能富集分析。請(qǐng)就上述隨機(jī)運(yùn)行結(jié)果的“2個(gè)網(wǎng)站做富集分析的50個(gè)人類的基因?yàn)椤保╣o_50)的50個(gè)基因轉(zhuǎn)化為一列的基因名單,貼到網(wǎng)站的相應(yīng)位置,選擇KEGG_PATHWAY(DAVAID)或是 Biological Process (?GO)?進(jìn)行功能分析,給出前5個(gè)富集的功能詞條(少于5個(gè)時(shí)貼出所有詞條)或是圖作為結(jié)果截屏黏貼下來(lái)(5分),并簡(jiǎn)要用中文說(shuō)明這些基因富集了哪些功能(5分),選擇其中一種功能,描述該功能喪失可能導(dǎo)致的疾病,請(qǐng)查閱英文文獻(xiàn)支持你的觀點(diǎn)(給出文獻(xiàn)題目,發(fā)表時(shí)間和與疾病有關(guān)的文獻(xiàn)關(guān)鍵語(yǔ)句)?-00
2,對(duì)給定的蛋白質(zhì)PDB 結(jié)構(gòu)ID進(jìn)行PDB網(wǎng)站數(shù)據(jù)資源的查詢,下載獲取該蛋白的四級(jí)結(jié)構(gòu)文件(.pdb文件),用PyMol軟件繪制該蛋白的空間結(jié)構(gòu)圖(5分),請(qǐng)嘗試用不同顏色(Color)和標(biāo)簽(Label)標(biāo)出不同的鏈(5分)。-00



