【菜鳥博士學(xué)習(xí)】【ProteoWizard MSConvert】質(zhì)譜文件格式簡介及其轉(zhuǎn)換
【菜鳥博士學(xué)習(xí)】【ProteoWizard MSConvert】質(zhì)譜文件格式簡介及其轉(zhuǎn)換

菜鳥博士Caesar
分享快樂
【ProteoWizard MSConvert】質(zhì)譜文件格式簡介及其轉(zhuǎn)換
質(zhì)譜格式
質(zhì)譜文件格式多種多樣,各儀器廠商產(chǎn)出的數(shù)據(jù)都有不同。雖然HUPO已經(jīng)對(duì)質(zhì)譜數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,但大家依然是我行我素,因?yàn)椴坏貌挥盟鼈兲峁┑能浖煌能浖?huì)要求不同的格式進(jìn)行搜庫(不過現(xiàn)在很多軟件以及支持多種數(shù)據(jù)格式了,如MaxQuant)。各廠商對(duì)應(yīng)的文件格式如下表:

image.png
好在ProteoWizard為我們提供了格式轉(zhuǎn)換的工具M(jìn)SConvert,它可以轉(zhuǎn)換為以下數(shù)據(jù)格式:
mzML 1.1
mzML 1.0
mzXML
MGF
MS2/CMS2/BMS2
mzIdentML
其中mzXML和mzML就是標(biāo)準(zhǔn)數(shù)據(jù)格式。
格式轉(zhuǎn)換
MSConvert的Linux版本并不友好,需要wine/docker來運(yùn)行Proteowizard,但一般linux默認(rèn)都是x64架構(gòu),而x64一直詬病于對(duì)Framework的支持。
1.Linux轉(zhuǎn)換
Wine
msconvert –help
msconvert data.RAW –mzXML #默認(rèn)mzML
msconvert *.RAW -o my_output_dir
msconvert data.RAW –zlib –filter “peakPicking true [1,2]” #用vendor方法對(duì)msLevels 1/2進(jìn)行中心化過濾,并用zlib對(duì)結(jié)果數(shù)據(jù)進(jìn)行壓縮,此命令比較常用
更多命令可參考:msconvert
Docker
ProteoWizard提供了docker解決方案
# 下載docker鏡像
docker pull chambm/pwiz-skyline-i-agree-to-the-vendor-licenses
##直接運(yùn)行
docker run -it --rm -e WINEDEBUG=-all -v /home/xxx/rawfiles/:/data chambm/pwiz-skyline-i-agree-to-the-vendor-licenses wine msconvert /data/*.raw --filter "peakPicking true 1-"
## 交互式運(yùn)行,通過bash進(jìn)入
docker run -it --rm -e WINEDEBUG=-all -v /home/xxx/rawfiles/:/data chambm/pwiz-skyline-i-agree-to-the-vendor-licenses /bin/bash
轉(zhuǎn)換過程會(huì)遇到一些錯(cuò)誤,好像都有一些問題。
2.Windows轉(zhuǎn)換
GUI界面版本操作起來更簡單,但數(shù)據(jù)轉(zhuǎn)移和運(yùn)行速度實(shí)在是忍不了。

使用默認(rèn)參數(shù)不過濾的話,轉(zhuǎn)換的文件會(huì)非常大(比源文件增加數(shù)倍,因?yàn)樗岩恍o強(qiáng)度的峰也加進(jìn)去了),速度也巨慢。一般Filters需要設(shè)置為Peak Picking,MS Levels設(shè)為1-2。

而且要注意,選擇后記得按Add,否則還是沒有加入peakPicking,并且要將peakPicking放在第一行(行可拖動(dòng))。

其他格式轉(zhuǎn)換軟件
ThermoRawFileParser
Proteome Discoverer
GNPS
不同軟件轉(zhuǎn)換的結(jié)果很可能不同。比如同一個(gè)數(shù)據(jù),我用ThermoRawFileParser(默認(rèn)參數(shù)),同事用Proteome Discoverer,得到MGF的譜圖數(shù)竟然有4-5倍差異!后來用MSConvert轉(zhuǎn)換和ThermoRawFileParser譜圖一致,它倆的算法好像是一樣的。哎,搞不懂,如果連原始數(shù)據(jù)質(zhì)量都不能保證,還做個(gè)屁的數(shù)據(jù)分析。