拓端tecdat|R語(yǔ)言兩層2^k析因試驗(yàn)設(shè)計(jì)(因子設(shè)計(jì))分析工廠產(chǎn)量數(shù)據(jù)和Lenth方法檢驗(yàn)顯
原文鏈接:http://tecdat.cn/?p=25921?
原文出處:拓端數(shù)據(jù)部落公眾號(hào)
假設(shè)調(diào)查人員有興趣檢查減肥干預(yù)方法的三個(gè)組成部分。這三個(gè)組成部分是:
記錄食物日記(是/否)
增加活動(dòng)(是/否)
家訪(是/否)
調(diào)查員計(jì)劃調(diào)查所有?
?,實(shí)驗(yàn)條件的組合。實(shí)驗(yàn)條件為
要執(zhí)行因子設(shè)計(jì),您需要為多個(gè)因子(變量)中的每一個(gè)選擇固定數(shù)量的水平,然后以所有可能的組合運(yùn)行實(shí)驗(yàn)。
這些因素可以是定量的或定性的。
定量變量的兩個(gè)水平可以是兩個(gè)不同的溫度或兩個(gè)不同的濃度。
定性因素可能是兩種類型的催化劑或某些實(shí)體的存在和不存在。
符號(hào)?
: - 因子數(shù) (3) - 每個(gè)因子的水平數(shù) (2) - 設(shè)計(jì)中有多少實(shí)驗(yàn)條件 (
)
因子實(shí)驗(yàn)可以涉及具有不同水平數(shù)量的因子。
測(cè)試:
考慮一個(gè)?
?設(shè)計(jì)。
有多少因素?
每個(gè)因素有多少個(gè)水平?
多少實(shí)驗(yàn)條件(運(yùn)行)?
答案:
(a) 有 2+2+1 = 5 個(gè)因數(shù)。
(b) 兩個(gè)因素有4個(gè)水平,2個(gè)因素有3個(gè)水平,1個(gè)因素有2個(gè)水平。
(c) 有 288 個(gè)實(shí)驗(yàn)條件。
方差分析和因子設(shè)計(jì)之間的區(qū)別
在 ANOVA 中,目標(biāo)是比較各個(gè)實(shí)驗(yàn)條件。
讓我們考慮一下上面的食物日記研究。
我們可以通過(guò)比較食物日記設(shè)置為 NO(條件 1-4)的所有條件的平均值和食物日記設(shè)置為 YES(條件 5-8)的所有條件的平均值來(lái)估計(jì)食物日記的效應(yīng)。這也被稱為食物日記的?主效應(yīng)?,形容詞?主要?是提醒這個(gè)平均值超過(guò)了其他因素的水平。
食物日記的主要作用是:
體育鍛煉的主要作用是:
家訪的主要作用是:
使用了所有實(shí)驗(yàn)對(duì)象,但重新排列以進(jìn)行每次比較。受試者被回收以測(cè)量不同的效應(yīng)。這是析因?qū)嶒?yàn)更有效的原因之一。
執(zhí)行?
?因子設(shè)計(jì)
要執(zhí)行因子設(shè)計(jì):
為每個(gè)因子選擇固定數(shù)量的水平。
以所有可能的組合運(yùn)行實(shí)驗(yàn)。
我們將討論每個(gè)因子只有兩個(gè)水平的設(shè)計(jì)。因素可以是定量的或定性的。兩個(gè)水平的定量變量可以是兩個(gè)不同的溫度或濃度。定量變量的兩個(gè)級(jí)別可以是兩種不同類型的催化劑或某些實(shí)體的存在/不存在。
一項(xiàng)實(shí)驗(yàn)采用 2^3 因子設(shè)計(jì),具有兩個(gè)定量因素 - 溫度 (T) 和濃度 (C) - 以及一個(gè)定性因素 - 催化劑 K 類型。
溫度T(C°)有兩個(gè)等級(jí):160C°和180C°。它們分別編碼為 -1 和 +1。
濃度 C (%) 有兩個(gè)級(jí)別:20 和 40。它們分別編碼為 -1 和 +1。
催化劑 K 有兩個(gè)級(jí)別:A 和 B。它們分別編碼為 -1 和 +1。
記錄的每個(gè)數(shù)據(jù)值都是針對(duì)兩次重復(fù)運(yùn)行的平均因變量產(chǎn)量 y。
立方圖
下圖顯示了立方體角處因子 T、C 和 K 的各種組合的 y 值。例如,當(dāng) T=-1、C = 1 和 K=-1 時(shí),從運(yùn)行 3 獲得 y=54。
立方體展示了這種設(shè)計(jì)如何沿著立方體的 12 個(gè)邊緣進(jìn)行 12 次比較:溫度變化影響的四個(gè)測(cè)量值;濃度變化影響的四種測(cè)量方法;催化劑變化效應(yīng)的四種測(cè)量方法。
在立方體的每條邊上,只有一個(gè)因子發(fā)生變化,而其他兩個(gè)因子保持不變。
bh4 <- lm
Plot
因子效應(yīng)
主要影響
運(yùn)行 1 和 2 的影響僅因溫度而不同,因?yàn)闈舛葹?20%,催化劑類型為 A。差異 72-60 = 12 提供了一種溫度影響的測(cè)量值,而其余因素保持不變。對(duì)于濃度和催化劑的四種組合中的每一種,有四種這樣的溫度效應(yīng)測(cè)量方法。
T 的主要(平均)影響是
有一組類似的濃度 C 測(cè)量值。在這些測(cè)量值中的每一個(gè)中,水平 T 和 K 都保持不變。濃度 C 的主要影響是:
C的主要(平均)影響是
K 的主要影響是
K 的主要(平均)影響是
所有 8 次運(yùn)行都用于估計(jì)每個(gè)主效應(yīng)。這就是因子設(shè)計(jì)比一次檢查一個(gè)因子更有效的原因。
一般來(lái)說(shuō),主要影響是兩個(gè)平均值之間的差異:
其中 ˉy+?是對(duì)應(yīng)于因子 +1 水平的平均響應(yīng),而 ˉy??是對(duì)應(yīng)于因子 -1 水平的平均響應(yīng)。
交互效應(yīng)
兩因素相互作用
當(dāng)催化劑 K 為 A 時(shí),溫度效應(yīng)為:
當(dāng)催化劑 K 為 B 時(shí),溫度效應(yīng)為:
這兩個(gè)平均差異之間的平均差異稱為溫度和催化劑之間的?相互作用?,用 TK 表示。這就是溫度和催化劑兩個(gè)因素之間的相互作用——溫度和催化劑之間的兩個(gè)因素相互作用。
這也可以在立方圖上看到:與立方體正面 (13) 相比,立方體 (33) 背面的平均溫度影響更大。
三因素相互作用
當(dāng)催化劑為 B(在其 +1 水平)時(shí),濃度相互作用的溫度為:
當(dāng)催化劑為 A(在其 -1 水平)時(shí),濃度相互作用的溫度為:
這兩種相互作用之間的差異衡量了兩種催化劑的溫度-濃度相互作用的一致性。這種差異的一半被定義為溫度、濃度和催化劑的三因素相互作用,用 TCK 表示。
因子設(shè)計(jì)中的復(fù)制
工廠實(shí)驗(yàn)的結(jié)果 y是兩次重復(fù)運(yùn)行的平均值。兩個(gè)單獨(dú)的運(yùn)行如下表所示。運(yùn)行順序是隨機(jī)的。例如,運(yùn)行 6 和 13 是 T、C 和 K(T=-1、C=-1、K=-1)的相同設(shè)置下的兩個(gè)仿行。
復(fù)制運(yùn)行并不總是可行的。工廠實(shí)驗(yàn)運(yùn)行包括清潔反應(yīng)器,插入適當(dāng)?shù)拇呋瘎┭b料,并在給定的進(jìn)料濃度下在給定的溫度下運(yùn)行設(shè)備 3 小時(shí),以使過(guò)程在所選的實(shí)驗(yàn)條件下穩(wěn)定下來(lái),以及 (4) 取樣在運(yùn)行的最后幾個(gè)小時(shí)內(nèi)每 15 分鐘輸出一次。
假設(shè)每次測(cè)量的方差為 σ2。每組條件下的估計(jì)方差為:
其中 yi1 是第 i 次運(yùn)行的第一個(gè)結(jié)果。在上表中diffi=(yi1?yi2)。σ2 的匯總估計(jì)是?
對(duì)于重復(fù)運(yùn)行,具有一個(gè)自由度的方差估計(jì)為?
. 這些產(chǎn)生單自由度估計(jì)的平均值產(chǎn)生具有 8 個(gè)自由度的合并估計(jì) s2=8。
重復(fù)運(yùn)行效應(yīng)的誤差方差和標(biāo)準(zhǔn)誤差的估計(jì)
每個(gè)估計(jì)的效應(yīng),例如 T、C、K、TC 等,都是 8 個(gè)觀測(cè)值的兩個(gè)平均值之間的差異。重復(fù)運(yùn)行的因子效應(yīng)方差為
因此,任何因子效應(yīng)的標(biāo)準(zhǔn)誤為:
結(jié)果解釋
哪些影響是真實(shí)的,哪些可以偶然解釋?一個(gè)粗略的經(jīng)驗(yàn)法則是,任何 2-3 倍于其標(biāo)準(zhǔn)誤差的效應(yīng)都不容易僅靠偶然性來(lái)解釋。
如果我們假設(shè)觀測(cè)值是獨(dú)立且正態(tài)分布的,那么
因此,95% 的置信區(qū)間可以計(jì)算為:
其中 t8,.05/2 是 t8t 的第 97.5 個(gè)百分位數(shù)。這是通過(guò)?qt()
?函數(shù)在 R 中獲得的。
qt(p = 1-.025,df = 8)
因此,因子效應(yīng)的 95% 置信區(qū)間為
T 的 95% 置信區(qū)間為
K 的 95% 置信區(qū)間為
1.5-3.2 #下限?
## [1] -1.7
1.5+3.2 #上限
## [1] 4.7
溫度的影響可能不是偶然的,但偶然不能成為催化劑的影響的規(guī)則。
只有在沒(méi)有證據(jù)表明該因素與其他因素相互作用時(shí),才應(yīng)單獨(dú)解釋一個(gè)因素的主效應(yīng)。
交互圖
下圖顯示了每對(duì)因子 TC、TK、CK(即這些因子的每個(gè)因子水平組合)的平均產(chǎn)量。這些圖通常稱為交互圖。如果兩條線平行,則表明沒(méi)有相互作用,如果兩條線交叉或接近交叉,則表明可能存在相互作用。
下圖顯示了催化劑和溫度之間的雙向相互作用。
plot(tabT,taC,ty, type = "l")
2k 因子設(shè)計(jì)的線性模型
yi 是第 i 次運(yùn)行的結(jié)果,
2^3 因子設(shè)計(jì)的線性模型是:
變量?
?是溫度和濃度之間的相互作用,xi1xi3xi1xi3 是溫度和催化劑之間的相互作用等。
參數(shù)估計(jì)是通過(guò)?lm()
?R 中的函數(shù)獲得的。
fact.mod <-lm(y~T*K*C,data = tab0503)
round(summary(fact.mod)$coefficients,2)
設(shè)計(jì)矩陣?
?設(shè)計(jì)是:
這個(gè)模型矩陣?
?設(shè)計(jì)是:
model.matr
下表顯示了具有因變量的模型矩陣:
如果將 T 的列乘以平均收益率并除以 4,則得到 T 的主效應(yīng)。
估計(jì)的最小二乘系數(shù)是因子估計(jì)的二分之一,截距 β0 是樣本均值。因此,因子估計(jì)是最小二乘系數(shù)的兩倍。例如,
4 的除數(shù)將對(duì)比度轉(zhuǎn)換為兩個(gè)平均值之間的差異。
通過(guò)乘以各自因素的標(biāo)識(shí)獲得交互作用對(duì)比。
每列相對(duì)于其他列完全平衡(正數(shù)和負(fù)數(shù)相等)。
平衡(正交)設(shè)計(jì)確保每個(gè)估計(jì)的效應(yīng)不受其他效應(yīng)的大小和標(biāo)識(shí)的影響。
最小二乘估計(jì)可以在 R 中乘以 2。
fad <-lm
round(2*coeffits,2)
當(dāng)有重復(fù)運(yùn)行時(shí),我們還從回歸模型中獲得因子效應(yīng)的 p 值和置信區(qū)間。例如,β1 的 p 值對(duì)應(yīng)于溫度的階乘效應(yīng)
如果原假設(shè)為真,那么??
?
為了獲得因子效應(yīng)的 95% 置信區(qū)間,我們將回歸參數(shù)的 95% 置信區(qū)間乘以 2。這在 R 中使用函數(shù) 很容易做到?confint()
。
2*confint.lm
濃度主效應(yīng)的 95% 置信區(qū)間為 (-8.0,-1.5),溫度和濃度之間的雙向交互作用具有 95% 置信區(qū)間 (-1.46,4.96)。
因子設(shè)計(jì)相對(duì)于一次一個(gè)因子設(shè)計(jì)的優(yōu)勢(shì)
假設(shè)一次只研究一個(gè)因素。例如,在將濃度保持在 20% (-1) 并將催化劑保持在 B (+1) 時(shí)研究溫度。
為了使效應(yīng)具有更普遍的相關(guān)性,有必要使效應(yīng)在所有其他濃度和催化劑水平上都相同。換句話說(shuō),因素(例如,溫度和催化劑)之間沒(méi)有相互作用。如果效應(yīng)相同,則因子設(shè)計(jì)更有效,因?yàn)樾?yīng)的估計(jì)需要更少的觀察來(lái)達(dá)到相同的精度。
如果在其他濃度和催化劑水平下效應(yīng)不同,則階乘可以檢測(cè)和估計(jì)相互作用。
非重復(fù)因子設(shè)計(jì)中的正態(tài)圖
回顧正態(tài)分位數(shù)圖
一組數(shù)據(jù)的正態(tài)性可以通過(guò)以下方法來(lái)評(píng)估。讓
?表示的有序值?
. 例如,r(1) 是 r1,...,rN 的最小值,r(N) 是 r1,...,rN 的最大值。所以,如果數(shù)據(jù)是:-1, 2, -10, 20, 那么?
。
N(0,1)的累積分布函數(shù) (CDF) 具有 S 形。
x <- seq
plot(x,pnorm)
因此,一組數(shù)據(jù)的正態(tài)性檢驗(yàn)是繪制數(shù)據(jù)的有序值 r(i) 與 pi=(i-0.5)/N 的關(guān)系。如果該圖與正態(tài) CDF 具有相同的 S 形,則這表明數(shù)據(jù)來(lái)自正態(tài)分布。
下面是從圖中模擬的 1000 個(gè)隨機(jī)樣本的 r(i) 與 pi=(i?0.5)/N,i=1,...,N 的關(guān)系圖
N <- 1000
x <- rnorm(N)
p <- ((1:N)-0.5)/N
plot
我們還可以構(gòu)建一個(gè)正態(tài)的分位數(shù)-分位數(shù)圖??梢宰C明 Φ(r(i))Φ(r(i)) 在 [0,1] 上具有均勻分布。這意味著 E(Φ(r(i)))=i/(N+1)(這是來(lái)自 [0,1] 上的均勻分布的第 i 階統(tǒng)計(jì)量的期望值。
?這意味著 N 點(diǎn) (pi,Φ(r(i))) 應(yīng)該落在一條直線上?,F(xiàn)在將 Φ?1 變換應(yīng)用于水平和垂直尺度。N個(gè)點(diǎn)
形成正態(tài)概率圖?
. 如果?
?是從正態(tài)分布生成的,然后是點(diǎn)圖?
?應(yīng)該是一條直線。
在 R?qnorm()
?中是 Φ-1。
plot(qnorm(p),sort(x))
我們通常使用內(nèi)置函數(shù)?qqnorm()
?(并?qqline()
?添加一條直線進(jìn)行比較)來(lái)生成 QQ 圖。請(qǐng)注意,R 使用稍微更通用的分位數(shù)版本 (pi=(1?a)/(N+(1?a)?a),其中 a=3/8,如果 N≤10,a=1/2,如果N>10。
qqnorm(x);qqline(x)
該圖與直線的顯著(系統(tǒng)性)偏差表明:
正態(tài)假設(shè)不成立。
方差不是恒定的。
一個(gè)主要應(yīng)用是在因子設(shè)計(jì)中,其中 r(i) 被有序因子效應(yīng)代替。設(shè) ^θ(1)<^θ(2)<?<^θ(N) 為 N 個(gè)有序因子估計(jì)。如果我們繪制
那么接近 0 的階乘效應(yīng) ^θi 將沿直線下降。因此,偏離直線的點(diǎn)將被宣布為重要點(diǎn)。
基本原理如下: 1. 假設(shè)估計(jì)效應(yīng) ^θi 為 N(θ,σ)(估計(jì)效應(yīng)涉及 N 個(gè)觀測(cè)值的平均值,CLT 確保 N 小至 8 的平均值接近正態(tài))。2. 如果 H0:θi=0,i=1,...,N 為真,那么所有估計(jì)的影響都將為零。3. 估計(jì)效應(yīng)的結(jié)果正態(tài)概率圖將是一條直線。4. 因此,正態(tài)概率圖是檢驗(yàn)所有估計(jì)的效應(yīng)是否具有相同的分布(即相同的均值)。
當(dāng)一些效應(yīng)不為零時(shí),相應(yīng)的估計(jì)效應(yīng)將趨于更大并偏離直線。
對(duì)于正面影響,估計(jì)的影響落在該線之上,而負(fù)面影響落在該線之下。
示例 -?
?研究化學(xué)反應(yīng)的設(shè)計(jì)
一個(gè)工藝開(kāi)發(fā)實(shí)驗(yàn)研究了四個(gè)因素?
?因子設(shè)計(jì):催化劑裝料量?1、溫度?2、壓力?3和其中一種反應(yīng)物的濃度?4。因變量 y 是 16 個(gè)運(yùn)行條件中每個(gè)條件下的轉(zhuǎn)化百分比。該設(shè)計(jì)如下圖所示。
該設(shè)計(jì)未重復(fù),因此無(wú)法估計(jì)因子效應(yīng)的標(biāo)準(zhǔn)誤差。
fct1 <- lm
可以獲得因子效應(yīng)的正態(tài)圖?。
Plot(fac
對(duì)應(yīng)的效應(yīng)?x1, x4, x2:x4, x2
?不會(huì)沿著直線下降。
半正態(tài)圖
相關(guān)的圖形方法稱為半正態(tài)概率圖。讓
表示無(wú)標(biāo)識(shí)因子效應(yīng)估計(jì)的有序值。
根據(jù)半正態(tài)分布的坐標(biāo)繪制它們 - 正態(tài)隨機(jī)變量的絕對(duì)值具有半正態(tài)分布。
半正態(tài)概率圖由點(diǎn)組成
該圖的一個(gè)優(yōu)點(diǎn)是所有較大的估計(jì)效應(yīng)都出現(xiàn)在右上角并落在該線之上。
可以獲得過(guò)程開(kāi)發(fā)示例中效應(yīng)的半正態(tài)圖half = TRUE
。
Lenth 方法:檢驗(yàn)沒(méi)有方差估計(jì)的實(shí)驗(yàn)的顯著性
半正態(tài)圖和正態(tài)圖是涉及視覺(jué)判斷的非正式圖形方法。最好根據(jù)正式的顯著性檢驗(yàn)來(lái)定量地判斷與直線的偏差。
在 2k設(shè)計(jì) N=2k-1 中估計(jì) θ1,θ2,...,θN的因子效應(yīng)。假設(shè)所有因子效應(yīng)具有相同的標(biāo)準(zhǔn)差。
偽標(biāo)準(zhǔn)誤差 (PSE) 定義為
其中中位數(shù)是在 ∣∣^θi∣ 中計(jì)算的?
?和
估計(jì)的因子效應(yīng)為:
ef <- 2*fat1$coeffic
s0=1.5?median∣∣^θi∣∣的估計(jì)是
s0 <- 1.5*median(abs(eff))
s0
修整常數(shù) 2.5s0 是
2.5*s0
∣∣^θi∣∣≥2.5s0 的效應(yīng) ^θi 將被修剪。下面是標(biāo)記為?TRUE
?(?x1,x2,x4,x2:x4
)的效應(yīng)
abs(eff)<2.5*s0
然后將 PSE 計(jì)算為這些值中位數(shù)的 1.5 倍。
PE <- 1.5*median
PE
ME 和 SME 是
ME <- PE*qt
ME
PE*qt(p =(1+.95^{1/15})/2,df=(16-1)/3)
因此,效應(yīng)的 95% 置信區(qū)間為:
lor <- round(ef-ME,2)
uper <- round(ef+ME,2)
kable(cbind)
具有 MEME 和 SME 的效應(yīng)圖通常稱為 Lenth 圖。PSE,ME,SMEPSE,ME,SME 的值是輸出的一部分。下圖中的尖峰用于顯示因子效應(yīng)。
Plot(fat1,cex.fac = 0.5)
該選項(xiàng)?cex.fac = 0.5
?調(diào)整用于因子標(biāo)簽的字符大小。
最受歡迎的見(jiàn)解
1.Matlab馬爾可夫鏈蒙特卡羅法(MCMC)估計(jì)隨機(jī)波動(dòng)率(SV,Stochastic Volatility) 模型
2.基于R語(yǔ)言的疾病制圖中自適應(yīng)核密度估計(jì)的閾值選擇方法
3.WinBUGS對(duì)多元隨機(jī)波動(dòng)率模型:貝葉斯估計(jì)與模型比較
4.R語(yǔ)言回歸中的hosmer-lemeshow擬合優(yōu)度檢驗(yàn)
5.matlab實(shí)現(xiàn)MCMC的馬爾可夫切換ARMA – GARCH模型估計(jì)
6.R語(yǔ)言區(qū)間數(shù)據(jù)回歸分析
7.R語(yǔ)言WALD檢驗(yàn) VS 似然比檢驗(yàn)
8.python用線性回歸預(yù)測(cè)股票價(jià)格
9.R語(yǔ)言如何在生存分析與Cox回歸中計(jì)算IDI,NRI指標(biāo)