統(tǒng)計(jì)學(xué)知識(shí)大梳理(終極篇)

學(xué)好統(tǒng)計(jì)學(xué),讓你成為高富帥,迎娶白富美,走上人生巔峰,不是不可能,但可能性只有0.00001%。從統(tǒng)計(jì)學(xué)的角度,這是小概率事件。但是學(xué)好統(tǒng)計(jì)學(xué)的現(xiàn)實(shí)好處多多,我就隨便舉幾個(gè)例子給大家聽(tīng)聽(tīng)。
學(xué)會(huì)看問(wèn)題,懂得數(shù)字的意義。新聞報(bào)道上,各種各樣的數(shù)字隨處可見(jiàn),如果你不想被各種數(shù)字蒙騙,最好學(xué)點(diǎn)統(tǒng)計(jì)學(xué)。學(xué)過(guò)統(tǒng)計(jì)的人,當(dāng)看到這樣的數(shù)字的時(shí)候,就會(huì)多問(wèn)幾個(gè)為什么,就能明白數(shù)字背后的真實(shí)含義了。用數(shù)據(jù)說(shuō)話,讓你的說(shuō)服力爆表。現(xiàn)在職場(chǎng)上的人們,誰(shuí)不要給領(lǐng)導(dǎo)匯報(bào)工作,或者團(tuán)隊(duì)之間討論問(wèn)題。當(dāng)你匯報(bào)和討論的時(shí)候,光說(shuō),“我覺(jué)得”,“我保證”,“根據(jù)我的經(jīng)驗(yàn)”,這些個(gè)詞太沒(méi)有信服力了。必須說(shuō)數(shù)據(jù),擺事實(shí)。利用清晰的數(shù)據(jù)傳達(dá)具有強(qiáng)有力說(shuō)服的信息。體驗(yàn)一種與眾不同的思維方式。很多人的思維方式,非黑即白。但世界上的很多事物并不是非黑即白。統(tǒng)計(jì)學(xué)的思維就是永遠(yuǎn)不肯定這個(gè)世界到底是什么樣子的。統(tǒng)計(jì)學(xué)永遠(yuǎn)是講概率的,就是可能性。這就是一種概率思維方式。懂因果,知報(bào)應(yīng)。統(tǒng)計(jì)學(xué)常常研究?jī)蓚€(gè)因素之間的關(guān)系,叫做因果關(guān)系。例如,你的學(xué)歷對(duì)你收入的影響。統(tǒng)計(jì)學(xué)家可能會(huì)說(shuō),學(xué)歷每提升一個(gè)層次,年收入將提高1.2萬(wàn)元。所以不要相信讀書(shū)無(wú)用論,你要相信概率。如果你相信自己能成為比爾蓋茨,那讀書(shū)對(duì)你確實(shí)沒(méi)意義,同樣,這只是小概率事件,基本不會(huì)發(fā)生在你身上。既然統(tǒng)計(jì)學(xué)這么厲害,這么牛逼,這么重要。作為統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的我,我就忍不住要給大家好好梳理下統(tǒng)計(jì)學(xué)的知識(shí)框架,并且?guī)е蠹乙稽c(diǎn)一點(diǎn)的學(xué)習(xí)下統(tǒng)計(jì)學(xué)和概率論的知識(shí)。在今后的關(guān)于統(tǒng)計(jì)學(xué)的文章中,我努力實(shí)現(xiàn)以下幾個(gè)小目標(biāo)。目標(biāo)一:構(gòu)建出統(tǒng)計(jì)學(xué)需要掌握的知識(shí)框架,讓讀者對(duì)這個(gè)知識(shí)體系一覽無(wú)余。目標(biāo)二:盡量闡述統(tǒng)計(jì)學(xué)每個(gè)知識(shí)在數(shù)據(jù)分析工作中的使用場(chǎng)景以及邊界條件。目標(biāo)三:為讀者解答數(shù)據(jù)分析中碰到的各種統(tǒng)計(jì)學(xué)問(wèn)題。今天這篇文章,主要還是帶大家從宏觀的層面理解下統(tǒng)計(jì)學(xué)。
01
概率與概率分布
稍微關(guān)注過(guò)統(tǒng)計(jì)學(xué)的人,可能會(huì)這么一個(gè)疑問(wèn)。為什么大學(xué)里會(huì)有這樣兩門(mén)課,《概率論與數(shù)理統(tǒng)計(jì)》,《統(tǒng)計(jì)學(xué)》,它們有什么區(qū)別?
我的理解,《概率論與數(shù)理統(tǒng)計(jì)》更專(zhuān)業(yè)一些,偏理工科,會(huì)有大量公式的推導(dǎo),知其然,知其所以然;而統(tǒng)計(jì)學(xué)這本書(shū)更基礎(chǔ),側(cè)重于概念現(xiàn)象的解釋?zhuān)话銜?huì)直接給出結(jié)論,而不要求掌握結(jié)論的數(shù)理推導(dǎo)過(guò)程,文理科皆可用。
但不管是哪門(mén)課程,前期都是先講概率和概率分布。概率論是統(tǒng)計(jì)學(xué)的基礎(chǔ),而隨機(jī)事件的概率是概率論研究的基本內(nèi)容。統(tǒng)計(jì)學(xué)不研究統(tǒng)計(jì),它研究的是不確定性。我們的世界是一個(gè)充滿不確定性的環(huán)境,整個(gè)世界并非嚴(yán)格按照某個(gè)制定好的路線運(yùn)行的。多數(shù)事物之間也并非有因必有果,萬(wàn)物之間充滿了不可控的隨機(jī)事件,我們不會(huì)因?yàn)榻裉炫α嗣魈炀鸵欢〞?huì)成功。不確定性事件唯一的規(guī)律就是概率,獨(dú)立隨機(jī)事件我們沒(méi)辦法預(yù)測(cè)或控制它在某個(gè)時(shí)刻一定會(huì)發(fā)生,但卻可以用概率來(lái)描述它發(fā)生的可能性。以概率論作為理論基礎(chǔ),為我們提供了認(rèn)識(shí)不確定世界的方法。這一章節(jié),需要大家掌握幾個(gè)核心概念:
隨機(jī)事件
概率
概率分布
數(shù)字特征

02
用圖表演示數(shù)據(jù)
今年疫情期間,待在家里除了陪伴家人以外,每天討論最多、關(guān)注最高的事件莫過(guò)于疫情的新動(dòng)態(tài),這些動(dòng)態(tài)的展現(xiàn)形式大家有沒(méi)有注意到,各種專(zhuān)業(yè)、好看、直觀的圖表和數(shù)據(jù)圖,讓數(shù)據(jù)呈現(xiàn)得一目了然。
是的,工作中,一名數(shù)據(jù)分析師拿到了數(shù)據(jù)后,第一步要做的是數(shù)據(jù)初步探索,這也叫數(shù)據(jù)的預(yù)處理,這個(gè)時(shí)候,更多的就是利用各種圖表探索數(shù)據(jù)。圖表的好處是它可以很直觀的看到數(shù)據(jù)的分布以及趨勢(shì),更有效的觀察數(shù)據(jù)。這一章節(jié),需要大家掌握幾個(gè)核心概念:
數(shù)據(jù)類(lèi)型
統(tǒng)計(jì)表
統(tǒng)計(jì)圖

03
數(shù)據(jù)的概括性度量
利用上面所講的圖表展示,我們可以對(duì)數(shù)據(jù)分布的形狀和特征有一個(gè)大致的了解,但要全面把握數(shù)據(jù)分布就要反映數(shù)據(jù)分布特征的代表值。通常包含分布的集中趨勢(shì)、分布的離散程度、分布的形狀。數(shù)據(jù)分析中,最常見(jiàn)的場(chǎng)景,就是你手上拿到一組,一批或者一坨數(shù)據(jù)。不懂統(tǒng)計(jì)學(xué)的人,可能會(huì)不知所措,或者說(shuō),你不做些加工和處理,你不知道這些數(shù)據(jù)有啥用。這個(gè)時(shí)候,就需要通過(guò)這些概括性的度量指標(biāo),來(lái)幫我們從宏觀上把握數(shù)據(jù)中的初步信息。這一章節(jié),需要大家掌握幾個(gè)核心概念:
眾數(shù)/平均數(shù)
方差/標(biāo)準(zhǔn)差
偏度/峰度

04
統(tǒng)計(jì)量極其抽樣分布
抽樣好懂,抽樣分布不好懂。
抽樣,就是從研究的總體中抽取一部分個(gè)體作為我們真正的研究對(duì)象,可以簡(jiǎn)單把樣本理解為總體的一個(gè)子集,通過(guò)樣本的結(jié)果來(lái)推測(cè)總體情況。比如我們想知道中國(guó)成年男性的平均身高,理論上最準(zhǔn)確的辦法是調(diào)查中國(guó)所有成年男性的身高,然后計(jì)算平均數(shù)。很顯然,沒(méi)人這樣做。實(shí)際的做法總是抽取一部分人,然后計(jì)算這部分人的平均身高,由這個(gè)平均身高來(lái)大致估計(jì)總體的平均身高。理解了抽樣,再來(lái)理解抽樣分布。抽樣分布說(shuō)的是對(duì)誰(shuí)的分布?答案是樣本統(tǒng)計(jì)量,比如樣本均數(shù)或者樣本比例。以樣本均數(shù)為例,一般說(shuō)樣本均數(shù)的抽樣分布如何如何,這里,樣本均數(shù)被當(dāng)成了一個(gè)隨機(jī)變量來(lái)看待。我們最希望大家記住的要點(diǎn):樣本均數(shù)是一個(gè)隨機(jī)變量,但對(duì)于初學(xué)者,這確實(shí)是比較反直覺(jué)的。為何樣本均數(shù)可以被當(dāng)做一個(gè)隨機(jī)變量?因?yàn)闃颖揪鶖?shù)是依賴樣本計(jì)算得出的:每抽取一組樣本都可以計(jì)算出一個(gè)樣本均數(shù),而且這些樣本均數(shù)或多或少都會(huì)有些差異。由此,樣本均數(shù)會(huì)隨著抽樣的不同而隨機(jī)變動(dòng)。只是現(xiàn)實(shí)生活中我們一般只抽取一組樣本,計(jì)算一個(gè)樣本均數(shù),因此,會(huì)覺(jué)得樣本均數(shù)不變。這一章節(jié),需要大家掌握幾個(gè)核心概念:
統(tǒng)計(jì)量
抽樣
抽樣分布

05
參數(shù)估計(jì)
當(dāng)初大學(xué)里,學(xué)數(shù)理統(tǒng)計(jì)的時(shí)候,到了這塊就感覺(jué)越來(lái)越難了,學(xué)習(xí)的過(guò)程中可以說(shuō)就是囫圇吞棗,似懂非懂。但現(xiàn)在,經(jīng)過(guò)漫長(zhǎng)的實(shí)踐過(guò)程,對(duì)統(tǒng)計(jì)學(xué)的知識(shí)有了更深一步的理解。統(tǒng)計(jì)推斷,說(shuō)白了,就兩件事。第一個(gè),參數(shù)估計(jì)。第二個(gè),各類(lèi)假設(shè)檢驗(yàn)。學(xué)習(xí)到這里,假如你是做數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)的,你就會(huì)強(qiáng)烈意識(shí)到,數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)之間是存在千絲萬(wàn)縷的聯(lián)系。參數(shù)估計(jì),顧名思義就是對(duì)參數(shù)進(jìn)行估計(jì),那什么是參數(shù)呢?就是你假設(shè)分布的參數(shù)就是說(shuō)你認(rèn)為或者知道某個(gè)隨機(jī)過(guò)程服從什么分布,但是不確定他的參數(shù)是什么,那怎么辦?你采樣、采很多樣本(實(shí)際值),通過(guò)這些樣本的值去估計(jì)分布的參數(shù)就是參數(shù)估計(jì)。這一章節(jié),需要大家掌握幾個(gè)核心概念:
參數(shù)
點(diǎn)估計(jì)
區(qū)間估計(jì)

06
假設(shè)檢驗(yàn)
上面講到,統(tǒng)計(jì)推斷就需要明白兩件事,一件是參數(shù)估計(jì),另外一件是假設(shè)檢驗(yàn)。
假設(shè)檢驗(yàn)是什么?說(shuō)白了,假設(shè)檢驗(yàn)就是先對(duì)總體猜一個(gè)參數(shù)值,然后利用樣本的數(shù)據(jù)檢驗(yàn)這個(gè)參數(shù)值準(zhǔn)不準(zhǔn)?;ヂ?lián)網(wǎng)生產(chǎn)實(shí)踐中的ABTEST方法,就經(jīng)常會(huì)應(yīng)用到假設(shè)檢驗(yàn)的思想。舉一個(gè)簡(jiǎn)單的例子:學(xué)而思網(wǎng)校App進(jìn)行了改版迭代,現(xiàn)在有以下兩個(gè)版本版本1:首頁(yè)為一屏課程列表?版本2:首頁(yè)為信息流如果我們想?yún)^(qū)分兩個(gè)版本,哪個(gè)版本用戶更喜歡,轉(zhuǎn)化率會(huì)更高。我們就需要對(duì)總體(全部用戶)進(jìn)行評(píng)估,但是并不是全部存量用戶都會(huì)訪問(wèn)App,并且每天還會(huì)新增很多用戶。所以我們無(wú)法對(duì)總體(全部用戶)進(jìn)行評(píng)估,我們只能從總體的用戶中隨機(jī)抽取樣本(訪問(wèn)App)的用戶進(jìn)行分析,用樣本數(shù)據(jù)表現(xiàn)情況來(lái)充當(dāng)總體數(shù)據(jù)表現(xiàn)情況,以此來(lái)評(píng)估哪個(gè)版本轉(zhuǎn)化率更高。這一章節(jié),需要大家掌握幾個(gè)核心概念:
假設(shè)檢驗(yàn)
P值

07
回歸分析
大學(xué)里學(xué)習(xí)統(tǒng)計(jì)學(xué)的時(shí)候,最喜歡學(xué)回歸分析,也是學(xué)的最明白的一部分。因?yàn)樗囊锥?,也因?yàn)樗膶?shí)用性。但隨著自己數(shù)據(jù)分析經(jīng)驗(yàn)的積累,對(duì)回歸分析的理解也越來(lái)越深,它不是簡(jiǎn)單的回歸模型求解那么簡(jiǎn)單,它更是一種日常工作中解決問(wèn)題的思路和方法論。
數(shù)據(jù)挖掘中使用的各種高深的模型,任何模型都可理解成回歸模型,包含因變量Y和自變量X,求解參數(shù)。在我看來(lái),回歸分析由兩部分組成:業(yè)務(wù)分析和技術(shù)分析。其中,業(yè)務(wù)分析屬于“道”的層面,而技術(shù)分析屬于“術(shù)”的層面。從“道”的層面來(lái)看,回歸分析是業(yè)務(wù)分析,其分析的不是數(shù)據(jù),而是業(yè)務(wù),是業(yè)務(wù)中的不確定性。通過(guò)業(yè)務(wù)分析,獲得對(duì)業(yè)務(wù)不確定性的理解,進(jìn)而將抽象的不確定性業(yè)務(wù)問(wèn)題轉(zhuǎn)換成一個(gè)具體的數(shù)據(jù)可分析問(wèn)題。什么是數(shù)據(jù)可分析問(wèn)題?一個(gè)業(yè)務(wù)問(wèn)題,只要有清晰定義的因變量Y(不管是看得見(jiàn)的,還是看不見(jiàn)的)和清晰定義的自變量X,這就是一個(gè)數(shù)據(jù)可分析問(wèn)題。一旦把業(yè)務(wù)問(wèn)題規(guī)范成一個(gè)具體的數(shù)據(jù)可分析問(wèn)題(有清晰定義的Y和X),那么接下來(lái)就是技術(shù)分析,屬于回歸分析“術(shù)”的層面。在這個(gè)層面,人們關(guān)心對(duì)于一個(gè)既定的Y和X,要研究其中的不確定性,應(yīng)該選擇什么樣的模型設(shè)定,線性模型還是非線性模型,一元模型還是多元模型,簡(jiǎn)單的決策樹(shù)還是隨機(jī)森林,普通的神經(jīng)網(wǎng)絡(luò)還是深度學(xué)習(xí)。模型設(shè)定確定下來(lái)后,還需思考應(yīng)該用什么方法估計(jì),如何調(diào)優(yōu),等等。以上是對(duì)回歸分析的一種廣義上的理解,狹義上理解回歸分析,需要理解以下幾個(gè)核心概念:
相關(guān)系數(shù)
回歸分析
最小二乘法
顯著性檢驗(yàn)
多重共線性
擬合優(yōu)度

當(dāng)然,統(tǒng)計(jì)學(xué)的知識(shí)還包含很多,比如方差分析,時(shí)間序列分析,統(tǒng)計(jì)指數(shù)等等,這些知識(shí)在特定的應(yīng)用場(chǎng)合,也有著廣泛的應(yīng)用,只是相比以上的知識(shí)點(diǎn),應(yīng)用范圍更小點(diǎn)。
關(guān)注我即刻了解更多數(shù)據(jù)分析知識(shí)
更多數(shù)據(jù)分析內(nèi)容
掃描碼即可了解
