CPTAC蛋白組學數據庫介紹及數據下載分析
一、CPTAC數據庫功能介紹
和TCGA數據庫一樣,CPTAC數據庫也是NIH的一個項目。其中主要提供了不同癌癥類型的蛋白質組學數據,此外還包含基因組測序、miRNA測序和DNA甲基化數據等,是不是很棒,一下子可以做多個水平的多組學聯合分析。其中基因組數據包含總計1300+不同類型腫瘤病人的WGS、WES和RNA-seq數據,可通過GDC Data Portal訪問,也就是咱們下載TCGA數據庫的界面。
蛋白組數據可通過PDC 訪問(https://pdc.cancer.gov/pdc/browse),CPTAC數據庫用到的蛋白質定量技術主要是基于質譜的檢測技術,包括ITRAQ和TMT。
收集的信息如下:

此外,CPTAC數據庫還提供了生物樣品的元數據和臨床數據,例如病人的性別、年齡、癌癥類型和臨床治療記錄等。分析工具和生物信息學資源包括了一系列數據處理和分析工具等。CPTAC數據庫的綜合性質使其成為腫瘤分子分析的重要數據來源。
二、CPTAC數據庫使用方法
1. 數據庫訪問
用可以通過網站(https://pdc.cancer.gov/pdc/browse)訪問該數據庫,下載過TCGA數據庫的都應該很熟悉,基本差不多。

包含完善的統(tǒng)計信息和數據集信息,點擊PDC Study ID查看詳細信息:

以CPTAC LUAD為例,點進去可以看到每個研究項目的詳細信息:

如果需要下載原始數據信息點擊Files下面的數字625,下載處理好整合好的數據點擊6:

點擊Protein assembly之后,如下圖可以下載整合好的數據:

打開就可以看到咱們無比熟悉親切的矩陣,需要注意的是數據中包含log Ratio 和Unshared log ratio,咱們只需要Unshared這個數據,需要用R語言提取一下。然后就可以開心的進行分析了。

對于Clinical data,如下圖可下載:

2. 分析工具
CPTAC數據庫還提供了一些分析工具,方便用戶對蛋白質組學數據進行可視化。

(1)Explore Quantitation Data
PDC通過標準分析流程產生結果后可用于鑒別蛋白質和翻譯后修飾(PTMs)豐度的pattern,并通過熱圖展示。Explore Quantitation Data 可對每個study的蛋白定量結果進行分析和展示。其中行為基因(蛋白),列為樣本,并可嵌入臨床信息??梢哉{整很多參數,大家自行摸索。

(2)Peptide Genome mapping
主要是各種類型數據在基因組上的可視化展示。

(3)Pepquery
這是一個以肽段序列為中心的搜索,與Blast類似,Pepquery使用戶能夠在MS數據庫中查詢感興趣的新的肽段或DNA序列?;蚪M改變導致產生新的蛋白序列,經過蛋白組學驗證,這些新的序列可能會是潛在的疾病標志物或治療靶標。Pepquery不需要定制化的構建數據庫,區(qū)別于spectrum-centric的方法,使用peptide-centric,允許快速和方便的驗證基因組改變導致的蛋白質組改變。
(4)cProSite
可指定腫瘤類型和數據集,針對單個基因,分析其在腫瘤和癌旁組織的豐度差異,磷酸化位點差異等??捎糜隍炞C目標基因是否在指定類型腫瘤中存在高表達,磷酸化等。也可以選擇多種癌癥類型進行泛癌分析:

