玩轉(zhuǎn)JMP變量類型——于平淡處見(jiàn)多彩結(jié)果

上一篇文章我們給大家介紹了Excel數(shù)據(jù)導(dǎo)入JMP的三種常用方式:復(fù)制和粘貼,直接導(dǎo)入,以及Excel中JMP選項(xiàng)卡直接生成數(shù)據(jù)表,大家掌握得如何呢?
為了幫助更多的臨床醫(yī)師學(xué)習(xí)如何運(yùn)用JMP高效地開(kāi)展數(shù)據(jù)分析,提高日常工作和發(fā)表論文的效率,2020年8月起,JMP資深用戶、JMP特約專欄作者、資深統(tǒng)計(jì)學(xué)家馮國(guó)雙博士及其團(tuán)隊(duì)將在JMP數(shù)據(jù)分析平臺(tái)為大家分享一系列統(tǒng)計(jì)及數(shù)據(jù)分析、JMP實(shí)戰(zhàn)操作等干貨內(nèi)容,每期一個(gè)經(jīng)典話題,幫助大家掌握一個(gè)新技能。值得注意的是,這些話題并非僅針對(duì)臨床醫(yī)師,對(duì)所有運(yùn)用JMP軟件開(kāi)展數(shù)據(jù)分析的小伙伴都適用。本文為此系列文章的第三期。馮博士及其團(tuán)隊(duì)繼續(xù)為大家?guī)?lái)JMP軟件的基礎(chǔ)知識(shí)與操作—變量的類型,以及變量標(biāo)簽的設(shè)置。
可能有的朋友會(huì)覺(jué)得,變量類型有什么好講的,我都知道。是的,變量類型本身不難,但是在JMP中,如果真的能夠靈活運(yùn)用變量類型的設(shè)置,你會(huì)發(fā)現(xiàn)一個(gè)豐富多彩的結(jié)果天地。所以,仔細(xì)看一下本文,你會(huì)恍然發(fā)現(xiàn),原來(lái)JMP中的變量類型設(shè)置有隱藏著這么多的技巧和秘密!
我們以一個(gè)名為“Diabetes”的數(shù)據(jù)集為例,導(dǎo)入數(shù)據(jù)后呈現(xiàn)圖1狀態(tài)。

01 先從變量名稱說(shuō)起
如果你想改變某個(gè)變量的名稱,例如將“性別”改為“Gender”,有兩種方式可以做到。
第一種,在想改變名稱的變量名上點(diǎn)擊鼠標(biāo)右鍵,左鍵選擇“列信息”,彈出窗口在框里填入想更改的變量名稱點(diǎn)擊確定即可,如圖2。

另一種方式,是在窗口左側(cè)的變量列表中選中你想更改名稱的變量,再單擊一次變成可編輯模式(如圖3),填入新的變量名,點(diǎn)擊空白處或按回車即可。

02 重頭戲——變量類型
“列信息”窗口不僅能更改變量名稱,還能還能更改變量類型。
在導(dǎo)入數(shù)據(jù)時(shí),JMP為每個(gè)變量確定兩種類型,如圖4,分別是“數(shù)據(jù)類型”和“建模類型”。

“數(shù)據(jù)類型”決定了變量在JMP中的存儲(chǔ)格式,其下拉菜單有四種類型,如圖5,一般情況下,我們的數(shù)據(jù)只會(huì)涉及到數(shù)值型和字符型兩種:數(shù)值型變量均為數(shù)字,可進(jìn)行運(yùn)算,而字符型變量可以包含字母、數(shù)字或是字母和數(shù)字的組合,且不能進(jìn)行運(yùn)算。
這里我們可以更改“數(shù)據(jù)類型”,但有一點(diǎn)需要特別注意:如果你將字符型變量更改成數(shù)值型,那么變量中所有的字符值將變?yōu)槿笔е?,且不能?fù)原。所以,如果沒(méi)有必要,不要輕易嘗試修改系統(tǒng)默認(rèn)的設(shè)置。

“建模類型”決定了JMP在進(jìn)行數(shù)據(jù)分析時(shí)如何處理該變量,其下拉菜單中包括多個(gè)選項(xiàng),一般情況下,我們只會(huì)用到前三種:連續(xù)型、有序型以及名義型,見(jiàn)圖7。
好,明確了變量類型后,下面我們看看變量類型的設(shè)置到底對(duì)JMP作圖、制表和統(tǒng)計(jì)分析有什么影響,以及如何變換變量類型。
03 變量類型決定了JMP將如何呈現(xiàn)你的表和圖
話不多說(shuō),上圖。圖6和圖8展示了當(dāng)“年齡”作為“連續(xù)型”變量時(shí),JMP呈現(xiàn)的表和圖的狀態(tài);圖7和圖9展示了當(dāng)“年齡”作為“名義型”變量時(shí),JMP呈現(xiàn)的表和圖的狀態(tài)。
在制表時(shí),將年齡拖入制表的橫標(biāo)目,“連續(xù)型”年齡的縱標(biāo)目自動(dòng)出現(xiàn)“總和”,你還可以自己添加均數(shù)、標(biāo)準(zhǔn)差等用來(lái)描述連續(xù)型變量的指標(biāo)(圖6)。

“名義型”年齡的縱標(biāo)目自動(dòng)出現(xiàn)每一個(gè)年齡值的數(shù)目(因?yàn)槟挲g此時(shí)作為多分類變量),你還可以自己添加列百分比等用來(lái)描述分類變量的指標(biāo)(圖7)。

在作圖時(shí),當(dāng)我們將年齡拖入圖形生成器的X軸并點(diǎn)擊上方的條形圖按鈕,“連續(xù)型”年齡即出現(xiàn)年齡分布的分布圖,每個(gè)柱子代表在一定的年齡區(qū)間內(nèi)的觀測(cè)數(shù)(圖8);

而“名義型”年齡的每一條柱子代表該年齡值(代表多分類變量中的一個(gè)類)的觀測(cè)數(shù)(圖9)。

可能大家對(duì)剛才舉例中的圖表做法還不是很清楚,別著急,我們會(huì)在后文章中有詳盡的介紹。
04 JMP可根據(jù)變量類型自動(dòng)選取適當(dāng)模型
在第一篇《臨床醫(yī)師看過(guò)來(lái):5個(gè)理由告訴你,為什么JMP軟件更適合你?》中已經(jīng)提到,JMP是個(gè)半智能化的軟件,可以自動(dòng)根據(jù)變量類型做出一些基本方法的選擇。這里再詳細(xì)說(shuō)一下。
以廣義回歸模型為例,在頂部菜單欄選擇分析→擬合模型,彈出對(duì)話框的右側(cè)在特質(zhì)框內(nèi)選擇廣義線性。我們?cè)谑纠龜?shù)據(jù)里分別設(shè)置了連續(xù)型、有序型以及名義型的Y作為因變量。
當(dāng)我們將連續(xù)型的Y放入Y(因變量)的框中后,JMP默認(rèn)給出的分布為正態(tài),下拉框可選擇的分布顯示如圖10,注意此時(shí)logistic回歸為灰色,無(wú)法選擇。

當(dāng)我們將名義型的Y放入Y(因變量)的框中后,JMP默認(rèn)給出的分布為二項(xiàng)(圖11),且下拉框其他的選項(xiàng)為灰色(不可選擇)。

當(dāng)我們將有序型的Y放入Y(因變量)的框中后,JMP默認(rèn)給出的分布為有序型Logistic(圖12),其下拉菜單中除了“多項(xiàng)式”,其他的選項(xiàng)均為灰色(不可選擇)。

05 不同類型變量做自變量時(shí)參數(shù)估計(jì)結(jié)果不同
仍然以廣義回歸為例,我們將年齡(連續(xù)型)生成按照年齡段分組的新變量,分別設(shè)定其為名義型和有序型,以Y(連續(xù)型)為因變量,分別以年齡(連續(xù)型)、年齡(名義型)以及年齡(有序型)作為自變量,構(gòu)建廣義回歸模型,結(jié)果見(jiàn)圖13-圖15。
當(dāng)自變量為連續(xù)型變量時(shí),變量的參數(shù)估計(jì)值只有一個(gè)(圖13),其含義是年齡每增加1歲,因變量的平均改變情況。

當(dāng)年齡作為多分類變量進(jìn)入模型時(shí),模型默認(rèn)將排在最后一位的類別作為參照,其余每一類與參照的比較均產(chǎn)生一個(gè)參數(shù)估計(jì)值(圖14)。比如這個(gè)例子中,我們將年齡分為3個(gè)年齡段:<50、50-59、>=60。以>=60作為參照,其余2個(gè)年齡段與該類進(jìn)行比較。其含義分別顯示了<50與>=60相比、50-59與>=60相比的結(jié)果。

當(dāng)然,也可以設(shè)其它類作為參照組,具體可通過(guò)值順序進(jìn)行調(diào)整,詳見(jiàn)后面介紹的“值順序”操作。
當(dāng)年齡作為有序變量進(jìn)入模型時(shí),其結(jié)果顯示的是相鄰兩個(gè)類別的比較(圖15)。其含義分別顯示了50-59與<50、>=60與50-59相比的結(jié)果。

大家可以對(duì)比一下圖14和圖15,不難理解作為名義型(無(wú)序分類)和有序型的結(jié)果的區(qū)別在哪里。
06 怎樣更改變量類型?
更改變量類型有兩種方式:
一種方式是在列信息中進(jìn)行修改(圖16);

另一種方式是在數(shù)據(jù)表左側(cè)變量列表中點(diǎn)擊變量前的圖標(biāo)即可更改(圖17)。

在更改變量類型時(shí),有以下幾個(gè)需要注意的地方:
(1)“建模類型”為連續(xù)型的變量,其“數(shù)據(jù)類型”只能是數(shù)值型;
(2)“建模類型”為名義型變量,其“數(shù)據(jù)類型”既可以是數(shù)值也可以是字符,在建模時(shí),JMP將其作為沒(méi)有順序的離散型變量;
(3)“建模類型”為有序型,和名義型一樣,其變量的“數(shù)據(jù)類型”可以是數(shù)值或字符,在建模時(shí),JMP將其作為有順序的離散型變量。
了解完變量類型對(duì)作圖、報(bào)表和分析的影響后,我們?cè)倏纯纯慈绾握{(diào)整值順序。這也是大家常常關(guān)注的一個(gè)話題。
07 如何調(diào)整名義型和有序型的值順序?
對(duì)于名義型和有序型,學(xué)會(huì)如何調(diào)整變量值的順序比較重要。
如果變量值是1、2、3…等數(shù)字,這種情況下不用擔(dān)心順序問(wèn)題,軟件將按照數(shù)字大小認(rèn)定變量的順序。如圖形展示時(shí),坐標(biāo)會(huì)根據(jù)這些數(shù)字依次排序。
但如果你的值用的是類似“high”、“medium”、“l(fā)ow”等字母或其它字符, JMP默認(rèn)按照字母表順序認(rèn)定該變量的順序,即“high”、“l(fā)ow”、“medium”的順序。
對(duì)于變量值是字母或其它字符的變量,有時(shí)它們的順序并不是我們期望的。如上述例子中,JMP的默認(rèn)順序(字母順序)其實(shí)是“high”、“l(fā)ow”、“medium”,這種情況下,無(wú)論在圖表中,還是統(tǒng)計(jì)分析結(jié)果中,都是按這一順序顯示,顯然這不符合我們的期望。我們期望看到的是“high”、“medium”、“l(fā)ow”這種順序。這就需要學(xué)會(huì)如何修改變量值的順序。
修改變量值順序有兩種方式:
(1)選中想要修改的列,右鍵菜單列屬性→值順序(圖18);

(2)在列信息窗口點(diǎn)擊列屬性→值順序(圖19);

08 變量標(biāo)簽
對(duì)于分類變量,盡管我們可以在錄入時(shí)直接以字符的形式錄入,如前面提到的high、medium、low,但絕大多數(shù)情況下,我們?cè)阡浫霐?shù)據(jù)時(shí)都是數(shù)字形式(如將high、medium、low分別錄成1、2、3),這是為了分析方便,而且數(shù)據(jù)表看起來(lái)整潔。
但從結(jié)果展示角度,其實(shí)我們更希望看到每一類所代表的含義(如在圖中直接顯示“high”、“medium”、“l(fā)ow”,而不是1、2、3)。這種情況下,就需要用到數(shù)據(jù)標(biāo)簽功能了。
下面就給大家介紹JMP的“值標(biāo)簽”功能,一經(jīng)設(shè)置,可在生成圖表中直接使用標(biāo)簽,既節(jié)省時(shí)間又增加了結(jié)果的可讀性。
同樣,有兩種方式設(shè)置值標(biāo)簽:
一是在列信息窗口點(diǎn)擊列屬性→值標(biāo)簽(圖20);

二是選中列之后,右鍵菜單列屬性→值標(biāo)簽(圖21);

如果將來(lái)你突然不想看標(biāo)簽了,想看原始數(shù)據(jù),那也很簡(jiǎn)單,無(wú)需刪除已設(shè)置好的值標(biāo)簽,只需在變量上點(diǎn)擊右鍵,出現(xiàn)的菜單中,把“使用值標(biāo)簽”前面的對(duì)號(hào)勾選掉就可以了(圖22)。

以上就是我們本期為大家?guī)?lái)的JMP實(shí)操指南。如果你還未體驗(yàn)過(guò)JMP,歡迎下載JMP試用,跟著文章練起來(lái)吧!
從數(shù)據(jù)導(dǎo)入到各種統(tǒng)計(jì)分析和結(jié)果報(bào)表的分析、解讀,你所需要的,都將在后續(xù)文章中陸續(xù)推出。敬請(qǐng)期待!