閱讀筆記五(圖解統(tǒng)計(jì)學(xué)真是輕松愉快酣暢淋漓)

我們在前文中說過,統(tǒng)計(jì)學(xué)大致分為“描述統(tǒng)計(jì)學(xué)”和“推斷統(tǒng)計(jì)學(xué)”
,雙誤差率合為5%,這就是“雙向檢驗(yàn)”了。是采用雙向檢驗(yàn)還是單向檢驗(yàn),在判斷上會有截然不同的差異出現(xiàn)(
面對重要的判斷,一定要事先想好這條“嚴(yán)格的誤差線”,拒絕曖昧和模棱兩可。
總結(jié)
權(quán)衡是一個調(diào)節(jié)問題,這里不存在任何正確答案。
有什么能把負(fù)數(shù)變?yōu)檎龜?shù)的好方法嗎?
說到把負(fù)數(shù)變?yōu)檎龜?shù)的方法,可以想到的有“平方法”。比如:
(3-5)= -2,平方就是(3-5)2
?=(-2)2
?= 4。
不喜歡“方差”,可以用“標(biāo)準(zhǔn)差”?
?

?

專欄 還有許多其他的連續(xù)量?
只要是正態(tài)分布的例子,就算沒有詳細(xì)的實(shí)際數(shù)據(jù)也可以借助平均數(shù)+標(biāo)準(zhǔn)差畫出正態(tài)分布圖來!
?


表示健康程度的BMI指數(shù)
我的體重是65kg,身高170cm,所以BMI指數(shù)是65÷(1.7×1.7)=22.49。原來這個指數(shù)也是凱特勒想出來的啊。
?

?
死亡與統(tǒng)計(jì)
?平均數(shù)越小,分布曲線越往“左”。 像下圖這樣。
?平均數(shù)越大,分布曲線越往“右”。(太簡單不想貼圖)
平均數(shù)的大小決定正態(tài)分布曲線的左右位置,標(biāo)準(zhǔn)差的大小決定正態(tài)分布曲線的緩急變化。
平均數(shù)-1×標(biāo)準(zhǔn)差≤68.3%≤平均數(shù)+1×標(biāo)準(zhǔn)差
②平均數(shù)-2×標(biāo)準(zhǔn)差≤95.5%≤平均數(shù)+2×標(biāo)準(zhǔn)差
③平均數(shù)-3×標(biāo)準(zhǔn)差≤99.7%≤平均數(shù)+3×標(biāo)準(zhǔn)差
?
?

說的就是這個道理。因?yàn)橐话憧荚嚨臐M分都是100分,所以偏差值把50分定為“中間分”,也就是剛才公式里的“+50”。如何計(jì)算偏差值,簡單來說有以下三步:
① 先用自己的得分減去平均分,然后除以標(biāo)準(zhǔn)差;
② 乘以 10;
③ 加上 50。
于是,68.3%的考生的道理。因?yàn)橐话憧荚嚨臐M分都是100分,所以偏差值把50分定為“中間分”,也就是剛才公式里的“+50”。如何計(jì)算偏差值,簡單來說有以下三步:
① 先用自己的得分減去平均分,然后除以標(biāo)準(zhǔn)差;
② 乘以 10;
③ 加上 50。
于是,68.3%的考生的偏差值在40~60范圍內(nèi),95.5%的考生的偏差值在30~70之間(2個標(biāo)準(zhǔn)差)
在1萬名考生中,15.85%的人在上游,那么這名考生的排名是不是大概就在10000×0.1585=1585名左右呢。
,其中一個學(xué)生的偏差值是60,你們想想,他的排名大概是多少呢?
:咦?還可以算出來嗎?我只知道40~60之間大概有68.3%的人。
s
?


?
統(tǒng)計(jì)學(xué)分為描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)。
描述統(tǒng)計(jì)學(xué)以全數(shù)調(diào)查為基本。
推斷統(tǒng)計(jì)學(xué)采用抽樣調(diào)查,抽取的樣本需具有“整體的縮影”的特性。
蓋洛普抽樣失?。?/span>
原因就在調(diào)查方的“調(diào)查員”身上。也就是說,雖然對調(diào)查對象進(jìn)行了適當(dāng)?shù)碾A層分配,但是,調(diào)查員通常會避開那些跟自己關(guān)系不太好的人,會更傾向于選擇友好且易于交談的人來做調(diào)查。
RDD由電腦隨機(jī)選號,組合出一個電話號碼,然后致電對方進(jìn)行調(diào)查。
:質(zhì)檢管理圖上的UCL和LCL是什么意思???
是“控制線”的意思。UCL是“upper controllimit”的縮寫,代表上控制線。
:那下面的LCL是不是就是“l(fā)ow controllimit”的縮寫,代表下控制線呢?從命名來看,高于UCL線或低于LCL線似乎都是不好的。
?


表示相關(guān)性強(qiáng)弱的相關(guān)系數(shù)是“-1~+1”區(qū)間的數(shù)值。
0.4<不完全正相關(guān)≦0.7
0.2<弱正相關(guān) ≦ 0.4
-0.2≦不相關(guān) ≦ 0.2
-0.4≦弱負(fù)相關(guān) <-0.2
-0.7≦不完全負(fù)相關(guān)<-0.4
-1.0≦完全負(fù)相關(guān)<-0.7
?

有因果關(guān)系必有相關(guān)性,有相關(guān)性未必有因果關(guān)系。
有相關(guān)性但沒有因果關(guān)系的事例非常多,不要被沒有因果關(guān)系的“疑似相關(guān)”蒙騙了!
:統(tǒng)計(jì)學(xué)是從龐大的事實(shí)案例出發(fā),推論這些事件之間是否存在共同的成因。也就是從個別事例推導(dǎo)普遍概念。這種方法被稱為歸納法。
:這個叫歸納法啊。那針對這個歸納法,
回歸直線:在實(shí)際操作中,因?yàn)檫€會考慮用正殘差的平方和負(fù)殘差的平方相加求得“最小”值(最小平方),所以會比較花工夫。
:是的。首先是數(shù)據(jù)的位置,把身高輸入到B3~B7單元格中,體重輸入到C3~C7單元格中。相關(guān)系數(shù)使用“correl”,范圍分別是B3~B7和C3~C7。所以用“=correl(B3:B7,C3:C7)”就可以了。
:好厲害,這么容易就能算出相關(guān)系數(shù)是0.9923。那下一步該怎么辦呢?
結(jié)果就是,首次考試中取得高分的人在他們的第二次考試中的得分往往會更接近自己的歷次考試的平均分。
多元回歸分析表示多個因素與結(jié)果的關(guān)系。
但是,3個以上因素的分析圖就無法畫出來了。
多元回歸分析不僅要考慮“多個因素”,還要考慮“加權(quán)”
確實(shí),3個人是太少了。不過類似這種集中在某一個點(diǎn)上,能快速算出7小時10分鐘的,用于估計(jì)總體參數(shù)的樣本統(tǒng)計(jì)量就是“點(diǎn)估計(jì)”根據(jù)樣本推斷總體的方法有兩種,即點(diǎn)估計(jì)和區(qū)間估計(jì)。
?


?
收視率約為3%,有大逆轉(zhuǎn)的可能嗎?
大和進(jìn)行了Excel計(jì)算。輸入的是:
節(jié)目A …… p=0.18、n=900
在收視率等類似調(diào)查判斷中,應(yīng)加入2%左右的誤差率。
?
節(jié)目B …… p=0.21、n=900
答案出來了。根據(jù)已發(fā)布的節(jié)目A的18%的收視率、節(jié)目B的21%的收視率,算出它們各自95%的誤差范圍是:
15.5%≤ 節(jié)目A的收視率≤20.5%
18.3%≤ 節(jié)目B的收視率≤23.7%
?
?
?