散文網(wǎng) » 科技 »學(xué)習(xí) » 大廠面試都在考的假設(shè)檢驗，讓我來教你！

大廠面試都在考的假設(shè)檢驗，讓我來教你！

2021-03-22 15:49 作者:愛數(shù)據(jù)分析社區(qū) 0人讀過 | 我要投稿

上次寫了統(tǒng)計學(xué)里面的置信度與置信區(qū)間以后，文章反響還不錯，這次再來試著寫寫統(tǒng)計學(xué)里面的假設(shè)檢驗。點擊查看：聊聊置信度與置信區(qū)間假設(shè)檢驗的核心其實就是反證法。反證法是數(shù)學(xué)中的一個概念，就是你要證明一個結(jié)論是正確的，那么先假設(shè)這個結(jié)論是錯誤的，然后以這個結(jié)論是錯誤的為前提條件進行推理，推理出來的結(jié)果與假設(shè)條件矛盾，這個時候就說明這個假設(shè)是錯誤的，也就是這個結(jié)論是正確的。以上就是反證法的一個簡單思路。

了解完反證法以后，我們開始正式的假設(shè)檢驗，這里還是引用一個大家都很熟悉的一個例子『女士品茶』。

女士品茶是一個很久遠的故事，講述了在很久很久以前的一個下午，有一群人在那品茶，這個時候有位女士提出了一個有趣的點，就是把茶加到奶里和把奶加到茶里面最后得到的『奶茶』的味道是不一樣的。大部分人都覺得這位女士在瞎說，只有其中一位男士提出了要用科學(xué)的方法去證明到底一樣不一樣(牛人想問題角度永遠都是那么獨特，多想想別人為什么那么說，而不是一上來就不經(jīng)思考的拒絕)。

接下來，我們具體看一下這一位男士是怎么去證明的。首先他假設(shè)了把茶加到奶里和把奶加到茶里面得出來的『奶茶』味道是一樣的。然后隨機把這兩種『奶茶』端給女士，讓女士品，是先加的奶還是先加的茶，如果女士都能品對，說明確實有差異，如果要是品不對，說明是沒差異的。這里面就涉及到一個問題，讓女士品多少杯呢，品一杯肯定是不行的，因為任意一杯猜對(瞎蒙)的概率都有50%。下面是不同杯數(shù)對應(yīng)的猜對的概率(注意，這里是猜對而不是品對)。

通過上表我們可以看出，連續(xù)4杯都猜對的概率不足0.1，連續(xù)10杯都猜對的概率不足0.001。如果把奶加到茶里和把茶加到奶里面得到的『奶茶』真沒有差別，也就是女士要想品對，基本全靠猜，但是10杯全部猜對的概率不足0.001，我們把這種概率很小很小(這里需要定義一下，具體多小算小概率事件)的事件稱為小概率事件。我們認為小概率事件一般是不會發(fā)生的，如果發(fā)生了，說明我們的認知就是錯誤的，也就是說女士品茶不是靠猜的，也就是把奶加到茶里和把茶加到奶里面得到的『奶茶』的確是有差別的。

我們把上面這個過程就叫做假設(shè)檢驗。了解完假設(shè)檢驗的思想以后，我們來看一下具體步驟：

step1：提出零假設(shè)和備擇假設(shè)；

零假設(shè)(H0)一般是我們要推翻的論點，備擇假設(shè)(H1)則是我們要證明的論點。拿上面的女士品茶例子來講。H0：把茶加到奶里和把奶加到茶里面得到的『奶茶』是一樣的。
H0：把茶加到奶里和把奶加到茶里面得到的『奶茶』是不一樣的。

step2：構(gòu)造檢驗統(tǒng)計量，并找出在H0假設(shè)成立的前提下，該統(tǒng)計量所服從的分布；

檢驗統(tǒng)計量是根據(jù)樣本觀測結(jié)果計算得到的樣本統(tǒng)計量，并以此對零假設(shè)和備擇假設(shè)做出決策。

上面圖片中是三種不同的統(tǒng)計量以及其對應(yīng)的分布，分別叫做Z檢驗、T建議、卡方檢驗。

下面為三種檢驗對應(yīng)的分布圖：

根據(jù)不同檢驗的特征，我們可以根據(jù)下圖來進行選擇合適的檢驗方式：

step3：根據(jù)要求的顯著性水平，求臨界值和拒絕域
還記得我們在前面提到的小概率事件嗎？如果小概率事件發(fā)生了，就表示我們的零假設(shè)是錯誤的，可是具體多小的概率才算是小概率呢？一般這個概率為0.05，也就是5%，如果一件事情發(fā)生的概率小于等于5%，我們就認為這是一個小概率事件，0.05就是顯著性水平，用α表示。顯著性水平把概率分布分為兩個區(qū)間：拒絕區(qū)間和接受區(qū)間，最后計算出來的結(jié)果落在拒絕區(qū)間，我們就可以拒絕零假設(shè)；如果落在了接受區(qū)間，我們就需要接受零假設(shè)。1-α稱為置信水平(置信度)。

現(xiàn)在我們知道了顯著性水平了，然后就可以根據(jù)顯著性水平求得臨界值和拒絕域了。那具體怎么求呢？這里的臨界值就是z值(正太分布用z值)或t值(t分布用t值)，以臨界值為端點的區(qū)間稱為拒絕域。z值和t值直接根據(jù)顯著性水平然后到對應(yīng)的z值表和t值表中查詢即可。

下圖為雙側(cè)檢驗和單側(cè)檢驗對應(yīng)的α、1-α、臨界值、拒絕域、接受域的情況，其中α是表示陰影部分的面積，而不是x軸的值。

到這里顯著性水平對應(yīng)的臨界值和拒絕域就算出來了。

step4：計算檢驗統(tǒng)計量

根據(jù)我們在前面選擇檢驗統(tǒng)計量類型，計算對應(yīng)的檢驗統(tǒng)計量的值。除此之外我們還可以根據(jù)樣本量得出P值，P值就是實際樣本中小概率事件的具體概率值。

step5：決策

比較計算出來的檢驗統(tǒng)計量與臨界值和拒絕域，如果值落在了拒絕域內(nèi)，那我們就要拒絕零假設(shè)，否則接受零假設(shè)。

比較計算出來的P值和顯著性水平α值，如果P值小于等于α，則拒絕零假設(shè)，否則接受原假設(shè)。

上面兩種方法分別叫做統(tǒng)計量檢驗和P值檢驗。

以上就是假設(shè)檢驗的一般流程。除此之外，假設(shè)檢驗里面還有兩種錯誤，第一類錯誤叫做棄真錯誤，通俗一點就是漏診，就是本來是生病了(假設(shè)是正確的)，但是你沒有檢測出來，所以給拒絕掉了；第二類錯誤是取偽錯誤，通俗一點就是誤診，就是本來沒病(假設(shè)是錯誤的)，結(jié)果你診斷說生病了(假設(shè)是正確的)，所以就把假設(shè)給接受了。

關(guān)于假設(shè)檢驗我們就講到這里，后面會分享統(tǒng)計學(xué)里面的其他知識，如果有想看的內(nèi)容，可以評論區(qū)留言。I型錯誤的值一般為0.05，II型錯誤的值一般為0.1或0.2，除此之外還有一個指標叫做功效(power)，power = 1 - II型錯誤的值，power 表示你有多大把握能夠正確的拒絕你的零假設(shè)H0。

關(guān)于假設(shè)檢驗我們就講到這里，后面會分享統(tǒng)計學(xué)里面的其他知識，如果有想看的內(nèi)容，可以評論區(qū)留言。

還想要了解更多行業(yè)經(jīng)驗？

掃描二維碼預(yù)約進入直播間

名師在線答疑，就等你來！

標簽：

大廠面試都在考的假設(shè)檢驗，讓我來教你！的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

大廠面試都在考的假設(shè)檢驗，讓我來教你！

大廠面試都在考的假設(shè)檢驗，讓我來教你！的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

大廠面試都在考的假設(shè)檢驗，讓我來教你！

本文作者的其他文章

大廠面試都在考的假設(shè)檢驗，讓我來教你！的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

大廠面試都在考的假設(shè)檢驗，讓我來教你！

大廠面試都在考的假設(shè)檢驗，讓我來教你！的評論 (共條)