SAS Training 002 - 聊一聊貼標(biāo)簽 labeling
前幾天給藥品??編盲,貼了大量的標(biāo)簽???。今天我們就來聊聊貼標(biāo)簽,不同的是,我們聊聊 SAS 里的貼標(biāo)簽(labeling)。
直接進入主題。我們這里所說的 labeling,其實是進行格式的 label。SAS 中已經(jīng)有對數(shù)字、日期等可用的格式,但是我們 programming 不滿足于此,想更大可能地簡化我們的工作,這時候,自定義 labeling 就呼之欲出了。
最直接的例子,現(xiàn)有一個分類變量,取值 1、2、3,你想依據(jù)其進行分組編碼(high、mid、low),但是在分析過程中,你只想以 1、2、3 簡單代替實際分組 character,怎么辦?對分類變量的各 value 進行 labeling。
實際上,labeling 主要有兩種:對 variable 進行 format,以及對 varaible 的取值 value 進行 format。我們一一來看。
creating variable labels
首先,準(zhǔn)備演示數(shù)據(jù)集:
DATA auto;
? ?INPUT make $ mpg rep78 weight foreign;
? ?CARDS;
? ? ? ?AMC ? ? 22 3 2930 0
? ? ? ?AMC ? ? 17 3 3350 0
? ? ? ?AMC ? ? 22 . 2640 0
? ? ? ?Audi ? ?17 5 2830 1
? ? ? ?Audi ? ?23 3 2070 1
? ? ? ?BMW ? ? 25 4 2650 1
? ? ? ?Buick ? 20 3 3250 0
? ? ? ?Buick ? 15 4 4080 0
? ? ? ?Buick ? 18 3 3670 0
? ? ? ?Buick ? 26 . 2230 0
? ? ? ?Buick ? 20 3 3280 0
? ? ? ?Buick ? 16 3 3880 0
? ? ? ?Buick ? 19 3 3400 0
? ? ? ?Cad. ? ?14 3 4330 0
? ? ? ?Cad. ? ?14 2 3900 0
? ? ? ?Cad. ? ?21 3 4290 0
? ? ? ?Chev. ? 29 3 2110 0
? ? ? ?Chev. ? 16 4 3690 0
? ? ? ?Chev. ? 22 3 3180 0
? ? ? ?Chev. ? 22 2 3220 0
? ? ? ?Chev. ? 24 2 2750 0
? ? ? ?Chev. ? 19 3 3430 0
? ? ? ?Datsun ?23 4 2370 1
? ? ? ?Datsun ?35 5 2020 1
? ? ? ?Datsun ?24 4 2280 1
? ? ? ?Datsun ?21 4 2750 1
? ?;
RUN;
PROC CONTENTS DATA= auto;
RUN;

我們來使用 label statement 對其中的遍歷 foreign、mpg 和 rep78 進行 labeling,看看結(jié)果啥樣:
DATA auto2;
? ?SET auto;
? ?LABEL rep78= "1978 Repair Record"
? ? ? ? ?mpg= "Miles Per Gallon"
? ? ? ? ?foreign= "Where Car Was Made";
RUN;
PROC CONTENTS DATA= auto2;
RUN;

哎,有變化。多出一列 label。我們可以把它當(dāng)作對 variable name 的一種詳細(xì)描述。這里,需要注意的是:一旦我們在 data 步完成 labeling,其 label 在這個數(shù)據(jù)集后續(xù)的所有操作中是永久有效的;而作為對比,如果是在 proc 步中 labeling,那么該 label 只是在該 proc 步有效。我們來瞧瞧 data 步 labeling 后,該變量的 label 還是不是矢志不渝地存在?
PROC MEANS DATA= auto2;
RUN;

沒有問題,label 依然存在。
很好理解吧,給 variable 進行 labeling,我們可以更確切地理解該變量的含義。
creating and using value labels
要對變量的各種取值進行 labeling,坦率地說,用 proc format,有兩種方式都可以實現(xiàn),都拿來吧你!
方式一:借助 value statement
等不及了,先看 code:
PROC FORMAT;
? ?VALUE forgnf
? ? ? ?0= "domestic"
? ? ? ?1= "foreign"
? ?;
? ?VALUE $makef
? ? ? ?"AMC"= "American Motors"
? ? ? ?"Buick"= "Buick (GM)"
? ? ? ?"Cad."= "Cadillac (GM)"
? ? ? ?"Chev."= "Chevrolet (GM)"
? ? ? ?"Datsun"= "Datsun (Nissan)"
? ?;
RUN;
PROC FREQ DATA= auto2;
? ?FORMAT foreign forgnf.
? ? ? ? ? make $makef.;
? ?TABLES foreign make;
RUN;

顯而易見,foreign 的 0、1 數(shù)值取值在 display 時被字符串標(biāo)簽替代,make 的字符串取值被更詳細(xì)的 label 取代。這里值得指出來的是,**我們注意到:**字符串變量 make 有 7 種分類取值,而在最后只有其中的 5 種被 labeling,剩余未 labeling 的取值仍然保持原 value 顯示;此外,注意到 format statement 中每種 format 后都有個 . ,為啥加這個?其實是為了讓 SAS 清楚地分辨變量名和 format 的名字。
以上,出現(xiàn)了對數(shù)值取值、字符串取值的 character labeling,我能不能對字符串取值作 numeric labeling?
上 code:
proc format;
? ?invalue fmtgrdn
? ? ? ?"Male"= 1
? ? ? ?"Female"= 2;
run;
data xx1;
? ?length sex $10;
? ?sex= "Male"; output;
? ?sex= "Female"; output;
run;
data xx2;
? ?set xx1;
? ?sexgrdn= input(sex, fmtgrdn.);
run;
當(dāng)然是可以的。這里要提醒大家注意:我們使用了 invalue statement 和 input function。
方式二:借助 proc format input control data sets(cntlin)
講方式二之前,我們先看下我們上面生成的 fmtgrdn format 的具體情況:
proc format lib= work fmtlib;
run;

我這里展示的是,我的 work library 中所有已 define 的 format,為什么全部拿出來展示?因為實際上,包含了 numeric values -> character labels,character values -> character labels 以及 character values -> numeric labels 的情況。我們通過認(rèn)真理解這些 format 的內(nèi)在邏輯,非常有助于我們理解第二種 labeling 的方式,即通過 SAS 數(shù)據(jù)集來生成 format。
我們要 produce 與以上邏輯類似的數(shù)據(jù)集,上 code:
data scale;
? ?input begin: $char2. end: $char2. amount: $char4.;
? ?datalines;
? ? ? ?0 ? 3 ? ?0%
? ? ? ?4 ? 6 ? ?3%
? ? ? ?7 ? 8 ? ?6%
? ? ? ?9 ? 10 ? 8%
? ? ? ?11 ?16 ? 10%
? ?;
run;
data ctrl;
? ?length label $11;
? ?set scale(rename= (begin= start amount= label)) end= last;
? ?retain fmtname "PercentageFormat" type "n";
? ?output;
? ?if last then do;
? ? ? ?hlo= "O";
? ? ? ?label= "***ERROR***";
? ? ? ?output;
? ?end;
run;

我們借助官方文檔中的這個例子來說明 PROC FORMAT input control data sets 的格式要求(如上)。
proc format library= work cntlin= ctrl;
run;
proc format lib= work fmtlib;
? ?select percentageformat;
run;
生成的 format 如下:

值得好好理解體會。
proc format library= work;
? ?invalue evaluation
? ? ? ?"O"= 4
? ? ? ?"S"= 3
? ? ? ?"E"= 2
? ? ? ?"C"= 1
? ? ? ?"N"= 0
? ?;
run;
data points;
? ?input EmployeeId $ (Q1-Q4) (evaluation., +1);
? ?TotalPoints= q1+q2+q3+q4;
? ?datalines;
? ? ? ?2355 S O O S
? ? ? ?5889 2 . 2 2
? ? ? ?3878 C E E E
? ? ? ?4409 0 1 1 1
? ? ? ?3985 3 3 3 2
? ? ? ?0740 S E E S
? ? ? ?2398 E E ? C
? ? ? ?5162 C C C E
? ? ? ?4421 3 2 2 2
? ? ? ?7385 C C C N
? ?;
run;
proc print data= points;
run;
proc report data= work.points nowd headskip split= "#";
? ?column employeeid totalpoints totalpoints= Pctage;
? ?define employeeid / right;
? ?define totalpoints / "Total#Points" right;
? ?define pctage / format= PercentageFormat12. "Percentage" left;
? ?title "The Percentage of Salary for Calculating Bonus";
run;
這是一個非常有意思的例子,里面很值得細(xì)細(xì)琢磨。
其實,還有很多值得注意的細(xì)節(jié),限于篇幅,我們不能在短短一篇推送里面面俱到,期待以后的推送??
