建立對(duì)數(shù)據(jù)科學(xué)深刻的統(tǒng)計(jì)思考Building Deep Statistical

- 采樣樣本 和 總體存在bias,導(dǎo)致統(tǒng)計(jì)結(jié)論錯(cuò)誤。
- 比如選舉的時(shí)候,受調(diào)查的人存在回答問卷的偏好,但是選舉投票是隨機(jī)化的。
- 導(dǎo)致調(diào)查越多,得到的結(jié)論越不可信。(Big Data Paradox)
- 用Data Defect Correlation 描述采樣樣本的偏移程度。
- 解釋了一個(gè)現(xiàn)象:
- 人數(shù)越多的州,投票 Z score的偏移越大。(完全隨機(jī)化的 Z score 應(yīng)該與調(diào)查人數(shù)無關(guān) 只是方差減少)
標(biāo)簽: