巧用JMP公式,讓新變量的生成更簡(jiǎn)單

在數(shù)據(jù)整理及分析中,我們經(jīng)常遇到需要根據(jù)現(xiàn)有變量生成新變量的情況,比如將連續(xù)型的年齡劃分為年齡段,將BMI的具體值轉(zhuǎn)換為“標(biāo)準(zhǔn)”、“超重”等分組,提取地址變量中的某個(gè)字段,提取時(shí)間變量中的年月日等等。
在常用的一些編程統(tǒng)計(jì)分析軟件中,我們需要記住一些函數(shù)才能夠?qū)崿F(xiàn)。而在JMP中,這些需求都可以通過清晰直觀的“公式編輯器”點(diǎn)擊操作實(shí)現(xiàn),某些甚至可以一鍵生成。
今天這篇文章我們將介紹幾個(gè)平時(shí)分析中最常用的情境,幫助大家直觀感受JMP生成新變量的方便與快捷。

為了幫助更多的臨床醫(yī)師學(xué)習(xí)如何運(yùn)用JMP高效地開展數(shù)據(jù)分析,提高日常工作和發(fā)表論文的效率,2020年8月起,JMP資深用戶、JMP特約專欄作者、資深統(tǒng)計(jì)學(xué)家馮國(guó)雙博士及其團(tuán)隊(duì)將在JMP數(shù)據(jù)分析平臺(tái)為大家分享一系列統(tǒng)計(jì)及數(shù)據(jù)分析、JMP實(shí)戰(zhàn)操作、JMP分析報(bào)表解讀等干貨內(nèi)容,每期一個(gè)經(jīng)典話題,幫助大家掌握一個(gè)新技能。值得注意的是,這些話題并非僅針對(duì)臨床醫(yī)師,對(duì)所有運(yùn)用JMP軟件開展數(shù)據(jù)分析的小伙伴都適用。本文為此系列文章的第7期。
01 如何利用"公式編輯器”生成新變量?
我們首先選取JMP自帶樣本數(shù)據(jù)庫中的Diabetes數(shù)據(jù),如圖1。

插入新變量
假設(shè)我們要根據(jù)BMI產(chǎn)生分類變量。
首先,創(chuàng)建一個(gè)新變量用來指示分組。這里有兩種方式,第一種是在任何一個(gè)變量頂部變量名處單擊右鍵彈出菜單選擇插入列,如圖2。

第二種是在空列處雙擊左鍵,如圖3。

插入新變量后,我們可以在該列名處單擊右鍵進(jìn)行列信息的設(shè)置,包括變量名稱及類型等(關(guān)于變量名稱的轉(zhuǎn)換,可點(diǎn)擊這里回顧)。這里我們將該變量命名為[BMI分組],變量類型設(shè)置為名義變量。
編輯公式
假設(shè)將BMI分為三組:正常為<25,超重為25-<30,肥胖為>=30,我們需要利用條件公式,也就是常說的if-then創(chuàng)建新變量。那么在JMP中如何實(shí)現(xiàn)呢?
首先,我們?cè)贐MI分組變量名處右鍵菜單中選擇【公式…】,即彈出針對(duì)該變量的公式編輯對(duì)話框,如圖4所示。

通過JMP中的條件和比較兩部分語句,我們可以生成BMI的分組變量,具體操作步驟如圖5和圖6。


注意:雙箭頭后面的0、 1、 2是我們給分類的命名,分類名稱不局限于數(shù)字,我們還可以給分類命名為“正?!薄ⅰ俺亍?、“肥胖”。
公式編輯完畢之后,點(diǎn)擊應(yīng)用,確定,即可生成BMI分組變量,如圖7所示。

可能有的朋友覺得這樣編輯公式也很麻煩,希望有更簡(jiǎn)便的操作,那么有沒有呢?答案是:有!那就是通過JMP的“新建公式列”也可以快速生成新變量。
02 如何利用“新建公式列”快速生成新變量?
JMP將一些常用的公式集合成了快捷選項(xiàng),可以通過在變量名處單擊鼠標(biāo)右鍵觸發(fā),達(dá)到一鍵生成新變量的目的。但需要注意的是,不是所有的公式都有,比如上面講到的按照一定條件分組的操作,還是必須將條件公式輸入進(jìn)去才能生成滿足需求的新變量。
那么這個(gè)快捷選項(xiàng)怎么操作呢?我們這里舉兩個(gè)例子,示例數(shù)據(jù)是2019年我國(guó)部分城市空氣氣象數(shù)據(jù),見圖8。

一鍵提取日期變量中的月份等信息
在date變量名處單擊右鍵,然后如圖9所示依次選擇新建公式列→日期時(shí)間→月,點(diǎn)擊后,即生成月份列,并自動(dòng)命名為【月】,如圖10所示。


從圖9中,我們還可以看到,步驟3中,除了可以選擇月,還可以選擇年、季度、周、星期等,可以一鍵提取出想要的日期信息,在我們進(jìn)行時(shí)間序列相關(guān)的分析時(shí),你會(huì)發(fā)現(xiàn)這些快捷選項(xiàng)非常實(shí)用。大家感興趣的話可以每一個(gè)功能都實(shí)際操作一下看看效果。
一鍵實(shí)現(xiàn)變量變換
新建公式列選項(xiàng)中除了日期相關(guān)的提取,更多的是關(guān)于連續(xù)型變量的變量變換,如圖11中,我們可以直接在新列中對(duì)選取列進(jìn)行四舍五入、平方、對(duì)數(shù)變換、指數(shù)變換等操作。

還有針對(duì)多列的計(jì)算,比如新建公式列→合并→求和,可以得到多個(gè)列的加和值,如圖12,對(duì)其他選項(xiàng)感興趣的朋友們也可以一一嘗試下。

此外,我們甚至可能一鍵進(jìn)行更復(fù)雜的變換,如圖13所示,我們可以針對(duì)目標(biāo)列進(jìn)行一鍵中心化、標(biāo)準(zhǔn)化、顯示秩次,甚至Box-Cox變換,當(dāng)然這些操作都需要建立在一個(gè)清晰的分析目的基礎(chǔ)上。

今天的文章我們分享了如何根據(jù)現(xiàn)有變量在JMP中利用“公式編輯器”和“新建公式列”生成滿足分析需要的新變量,希望可以幫助大家在數(shù)據(jù)清洗的過程中事半功倍。
需要強(qiáng)調(diào)下的是,這里只是列舉了幾個(gè)比較常用的情況,還有非常多且同樣實(shí)用的但本文沒有具體介紹的公式和選項(xiàng),希望大家使用一些樣本數(shù)據(jù)多進(jìn)行嘗試和練習(xí),體會(huì)無需編程也能快速便捷實(shí)現(xiàn)數(shù)據(jù)處理的樂趣。
如果你也想體驗(yàn)JMP生成新變量的小技巧,歡迎復(fù)制以下鏈接到瀏覽器下載JMP試用,跟著文章練起來吧!
https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7013Z000002sEGsQAM&utm_source=bilibili&utm_medium=social