最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

SAS Training 002 - 聊一聊貼標(biāo)簽 labeling

2021-08-12 00:55 作者:陸震同學(xué)  | 我要投稿

前幾天給藥品??編盲,貼了大量的標(biāo)簽???。今天我們就來聊聊貼標(biāo)簽,不同的是,我們聊聊 SAS 里的貼標(biāo)簽(labeling)。

直接進入主題。我們這里所說的 labeling,其實是進行格式的 label。SAS 中已經(jīng)有對數(shù)字、日期等可用的格式,但是我們 programming 不滿足于此,想更大可能地簡化我們的工作,這時候,自定義 labeling 就呼之欲出了。

最直接的例子,現(xiàn)有一個分類變量,取值 1、2、3,你想依據(jù)其進行分組編碼(high、mid、low),但是在分析過程中,你只想以 1、2、3 簡單代替實際分組 character,怎么辦?對分類變量的各 value 進行 labeling。

實際上,labeling 主要有兩種:對 variable 進行 format,以及對 varaible 的取值 value 進行 format。我們一一來看。

creating variable labels

首先,準(zhǔn)備演示數(shù)據(jù)集:

DATA auto; ? ?INPUT make $ mpg rep78 weight foreign; ? ?CARDS; ? ? ? ?AMC ? ? 22 3 2930 0 ? ? ? ?AMC ? ? 17 3 3350 0 ? ? ? ?AMC ? ? 22 . 2640 0 ? ? ? ?Audi ? ?17 5 2830 1 ? ? ? ?Audi ? ?23 3 2070 1 ? ? ? ?BMW ? ? 25 4 2650 1 ? ? ? ?Buick ? 20 3 3250 0 ? ? ? ?Buick ? 15 4 4080 0 ? ? ? ?Buick ? 18 3 3670 0 ? ? ? ?Buick ? 26 . 2230 0 ? ? ? ?Buick ? 20 3 3280 0 ? ? ? ?Buick ? 16 3 3880 0 ? ? ? ?Buick ? 19 3 3400 0 ? ? ? ?Cad. ? ?14 3 4330 0 ? ? ? ?Cad. ? ?14 2 3900 0 ? ? ? ?Cad. ? ?21 3 4290 0 ? ? ? ?Chev. ? 29 3 2110 0 ? ? ? ?Chev. ? 16 4 3690 0 ? ? ? ?Chev. ? 22 3 3180 0 ? ? ? ?Chev. ? 22 2 3220 0 ? ? ? ?Chev. ? 24 2 2750 0 ? ? ? ?Chev. ? 19 3 3430 0 ? ? ? ?Datsun ?23 4 2370 1 ? ? ? ?Datsun ?35 5 2020 1 ? ? ? ?Datsun ?24 4 2280 1 ? ? ? ?Datsun ?21 4 2750 1 ? ?; RUN; PROC CONTENTS DATA= auto; RUN;

我們來使用 label statement 對其中的遍歷 foreign、mpg 和 rep78 進行 labeling,看看結(jié)果啥樣:

DATA auto2; ? ?SET auto; ? ?LABEL rep78= "1978 Repair Record" ? ? ? ? ?mpg= "Miles Per Gallon" ? ? ? ? ?foreign= "Where Car Was Made"; RUN; PROC CONTENTS DATA= auto2; RUN;

哎,有變化。多出一列 label。我們可以把它當(dāng)作對 variable name 的一種詳細(xì)描述。這里,需要注意的是:一旦我們在 data 步完成 labeling,其 label 在這個數(shù)據(jù)集后續(xù)的所有操作中是永久有效的;而作為對比,如果是在 proc 步中 labeling,那么該 label 只是在該 proc 步有效。我們來瞧瞧 data 步 labeling 后,該變量的 label 還是不是矢志不渝地存在?

PROC MEANS DATA= auto2; RUN;

沒有問題,label 依然存在。

很好理解吧,給 variable 進行 labeling,我們可以更確切地理解該變量的含義。

creating and using value labels

要對變量的各種取值進行 labeling,坦率地說,用 proc format,有兩種方式都可以實現(xiàn),都拿來吧你!

方式一:借助 value statement

等不及了,先看 code:

PROC FORMAT; ? ?VALUE forgnf ? ? ? ?0= "domestic" ? ? ? ?1= "foreign" ? ?; ? ?VALUE $makef ? ? ? ?"AMC"= "American Motors" ? ? ? ?"Buick"= "Buick (GM)" ? ? ? ?"Cad."= "Cadillac (GM)" ? ? ? ?"Chev."= "Chevrolet (GM)" ? ? ? ?"Datsun"= "Datsun (Nissan)" ? ?; RUN; PROC FREQ DATA= auto2; ? ?FORMAT foreign forgnf. ? ? ? ? ? make $makef.; ? ?TABLES foreign make; RUN;

顯而易見,foreign 的 0、1 數(shù)值取值在 display 時被字符串標(biāo)簽替代,make 的字符串取值被更詳細(xì)的 label 取代。這里值得指出來的是,**我們注意到:**字符串變量 make 有 7 種分類取值,而在最后只有其中的 5 種被 labeling,剩余未 labeling 的取值仍然保持原 value 顯示;此外,注意到 format statement 中每種 format 后都有個 . ,為啥加這個?其實是為了讓 SAS 清楚地分辨變量名和 format 的名字。

以上,出現(xiàn)了對數(shù)值取值、字符串取值的 character labeling,我能不能對字符串取值作 numeric labeling?

上 code:

proc format; ? ?invalue fmtgrdn ? ? ? ?"Male"= 1 ? ? ? ?"Female"= 2; run; data xx1; ? ?length sex $10; ? ?sex= "Male"; output; ? ?sex= "Female"; output; run; data xx2; ? ?set xx1; ? ?sexgrdn= input(sex, fmtgrdn.); run;

當(dāng)然是可以的。這里要提醒大家注意:我們使用了 invalue statement 和 input function。

方式二:借助 proc format input control data sets(cntlin)

講方式二之前,我們先看下我們上面生成的 fmtgrdn format 的具體情況:

proc format lib= work fmtlib; run;

我這里展示的是,我的 work library 中所有已 define 的 format,為什么全部拿出來展示?因為實際上,包含了 numeric values -> character labels,character values -> character labels 以及 character values -> numeric labels 的情況。我們通過認(rèn)真理解這些 format 的內(nèi)在邏輯,非常有助于我們理解第二種 labeling 的方式,即通過 SAS 數(shù)據(jù)集來生成 format。

我們要 produce 與以上邏輯類似的數(shù)據(jù)集,上 code:

data scale; ? ?input begin: $char2. end: $char2. amount: $char4.; ? ?datalines; ? ? ? ?0 ? 3 ? ?0% ? ? ? ?4 ? 6 ? ?3% ? ? ? ?7 ? 8 ? ?6% ? ? ? ?9 ? 10 ? 8% ? ? ? ?11 ?16 ? 10% ? ?; run; data ctrl; ? ?length label $11; ? ?set scale(rename= (begin= start amount= label)) end= last; ? ?retain fmtname "PercentageFormat" type "n"; ? ?output; ? ?if last then do; ? ? ? ?hlo= "O"; ? ? ? ?label= "***ERROR***"; ? ? ? ?output; ? ?end; run;

我們借助官方文檔中的這個例子來說明 PROC FORMAT input control data sets 的格式要求(如上)。

proc format library= work cntlin= ctrl; run; proc format lib= work fmtlib; ? ?select percentageformat; run;

生成的 format 如下:

值得好好理解體會。

proc format library= work; ? ?invalue evaluation ? ? ? ?"O"= 4 ? ? ? ?"S"= 3 ? ? ? ?"E"= 2 ? ? ? ?"C"= 1 ? ? ? ?"N"= 0 ? ?; run; data points; ? ?input EmployeeId $ (Q1-Q4) (evaluation., +1); ? ?TotalPoints= q1+q2+q3+q4; ? ?datalines; ? ? ? ?2355 S O O S ? ? ? ?5889 2 . 2 2 ? ? ? ?3878 C E E E ? ? ? ?4409 0 1 1 1 ? ? ? ?3985 3 3 3 2 ? ? ? ?0740 S E E S ? ? ? ?2398 E E ? C ? ? ? ?5162 C C C E ? ? ? ?4421 3 2 2 2 ? ? ? ?7385 C C C N ? ?; run; proc print data= points; run; proc report data= work.points nowd headskip split= "#"; ? ?column employeeid totalpoints totalpoints= Pctage; ? ?define employeeid / right; ? ?define totalpoints / "Total#Points" right; ? ?define pctage / format= PercentageFormat12. "Percentage" left; ? ?title "The Percentage of Salary for Calculating Bonus"; run;

這是一個非常有意思的例子,里面很值得細(xì)細(xì)琢磨。

其實,還有很多值得注意的細(xì)節(jié),限于篇幅,我們不能在短短一篇推送里面面俱到,期待以后的推送??


SAS Training 002 - 聊一聊貼標(biāo)簽 labeling的評論 (共 條)

分享到微博請遵守國家法律
博湖县| 八宿县| 水富县| 江孜县| 华宁县| 灌阳县| 宣威市| 招远市| 宁国市| 泽州县| 子洲县| 上犹县| 池州市| 宾阳县| 雷波县| 禄丰县| 龙井市| 安阳市| 贵州省| 新建县| 拜城县| 聂拉木县| 天峻县| 德格县| 黔西| 兰溪市| 广水市| 都江堰市| 肃南| 清徐县| 蚌埠市| 徐水县| 清流县| 元阳县| 黄大仙区| 兰西县| 寻乌县| 高阳县| 喜德县| 南雄市| 洪江市|