【R】SSR分子標(biāo)記結(jié)果轉(zhuǎn)化為0,1數(shù)據(jù)矩陣
????2022年了,沒想到還需要將SSR分子標(biāo)記的數(shù)據(jù)轉(zhuǎn)化為0,1數(shù)據(jù)進(jìn)行處理分析。畢竟現(xiàn)行農(nóng)業(yè)品種鑒定標(biāo)準(zhǔn)還是使用SSR標(biāo)記進(jìn)行分析【落淚,何時(shí)可以踏入SNP或重測序領(lǐng)域】。
????目的:將分子量數(shù)值轉(zhuǎn)化為二元型的0,1數(shù)據(jù)矩陣。分子量數(shù)值舉例:80/80、120/124、50/56等。不同大小的片段數(shù)據(jù),主要針對(duì)SSR分子標(biāo)記對(duì)個(gè)體基因型的鑒定。
????解決思路:使用R對(duì)數(shù)據(jù)進(jìn)行處理。原始數(shù)據(jù)讀取→分析分子標(biāo)記等位變異數(shù)n→將其轉(zhuǎn)化為0,1數(shù)據(jù)矩陣。
????解決方法:
1.????原始數(shù)據(jù)讀取。
數(shù)據(jù)如下。每一行為一個(gè)個(gè)體的單倍型,每一列為同一分子標(biāo)記在不同個(gè)體中的等位變異。其中包含缺失數(shù)據(jù)"?/?"

2.提取每一列的數(shù)據(jù),進(jìn)行位點(diǎn)統(tǒng)計(jì)并轉(zhuǎn)化。
R中直接查看數(shù)據(jù)是這種類型的。

輸出的txt格式文件內(nèi)容為:

*這里有個(gè)問題就是直接輸出.csv格式,數(shù)據(jù)前方的0會(huì)消失,修改成文本格式也調(diào)不出來。不過因?yàn)槭侵虚g工程文件,也沒有什么大關(guān)系。
3.最后的數(shù)據(jù)轉(zhuǎn)化。

等待后續(xù)分析……
添加一個(gè)自動(dòng)運(yùn)行該R文件的bat文本。
????*加一個(gè)pause看運(yùn)行情況,注意運(yùn)行路徑不可有中文。
局限性:
????1.本代碼不適用于同一個(gè)體一個(gè)標(biāo)記處三個(gè)等位變異。→若同一標(biāo)記處含三個(gè)等位變異則需在function中再添加一個(gè)變量,后邊依次修正。
總結(jié):
????一開始忘記加載dplyr包,使用filter清洗數(shù)據(jù)一直NA報(bào)錯(cuò),后邊才發(fā)現(xiàn)。標(biāo)記等位基因個(gè)數(shù)的統(tǒng)計(jì)卡殼了將近一周。菜狗落淚。
————————————————————————————————————————
*上邊代碼注釋太多,容易抄錯(cuò),放上簡潔一點(diǎn)的。

