《看穿一切數(shù)字的統(tǒng)計學》
究竟什么樣的教育方法才是最好的,對于這個問題的回答也與醫(yī)療問題一樣屬于充滿不確定性的領域,因為受教育者的特性和能力以及周圍的環(huán)境都會對最終的結果產(chǎn)生重要影響。當自己生病的時候,想必沒有人會馬上去找百歲老人詢問長壽的秘訣吧?可是,那些為孩子成績煩惱的家長,卻爭先恐后地購買將所有孩子都送進東京大學的老年人所寫的個人經(jīng)驗,會出現(xiàn)這種現(xiàn)象難道大家不覺得很莫名其妙嗎?
?
?
像這種“實際上沒有任何區(qū)別,只是因為誤差或偶然產(chǎn)生數(shù)據(jù)差(甚至有可能包括極端的差距)的概率”在統(tǒng)計學上稱為p值。這個p值越?。ㄒ话阍?%以下),數(shù)據(jù)就越準確,證明其不是偶然導致的結果。
?
“進行適當?shù)谋容^”、“不只進行單純的收集統(tǒng)計,還清楚誤差與p值”,只要掌握了這兩點,就能夠找到遠超經(jīng)驗與直覺的秘籍。
?
之前提到過的“一次購買兩臺縫紉機可以打9折”的促銷活動。這一方案所引發(fā)的現(xiàn)實結果雖然十分簡單,但卻是所有人都始料未及的??吹竭@一促銷廣告的顧客當然不會為了9折而購買兩臺縫紉機。但是,他們會為了享受9折的優(yōu)惠,特意勸說鄰居或者朋友一起購買。也就是說,喬安公司或許在不經(jīng)意間雇用了一個非常優(yōu)秀的銷售團隊。結果正如之前所說,看到這一促銷廣告的顧客與沒看到促銷廣告的顧客相比,人均銷量提高了3倍以上。當然,這兩組顧客是隨機化的結果,除了是否看到促銷廣告之外的其他條件,基本都是相同的。由此可見,產(chǎn)生這3倍以上的銷量差,主要就是因為“是否看到促銷廣告”。
當我們面對“找不到正確答案的問題”時,首先應該想到的就是進行隨機對照試驗。只要采取隨機對照試驗,并且對后續(xù)的數(shù)據(jù)進行采集,就能夠找到“怎樣做才好”以及“能夠創(chuàng)造多少利益”這些問題的答案,至少能夠在通往正確判斷的道路上實實在在地更進一步。
?
置信水平為95%的置信區(qū)間:假設包括0在內的許多回歸系數(shù),算出“p值在5%以下時真值”的范圍。基本可以認為“真值就在這個范圍之內”。 p值:假設回歸系數(shù)為0的情況下,只能通過數(shù)據(jù)的隨機性推測回歸系數(shù)的概率。一般來說當這個值在5%以上時,可以認為“就算回歸系數(shù)為0也不可能出現(xiàn)”。
?
要想防止辛普森悖論,就需要像流行病學的觀察研究那樣保證條件的一致性。將高中A和高中B的學生的成績按照男女性別分組,或者將玩暴力游戲的孩子按照家庭環(huán)境分組,只要將對結果可能產(chǎn)生影響的條件保持一致進行比較,就能夠避免辛普森悖論的產(chǎn)生。這種將具有同樣條件的群體進行比較分析的方法,被稱為分組分析。