「回歸分析」知識(shí)點(diǎn)梳理,數(shù)據(jù)業(yè)務(wù)的決策就靠它了!

文末掃海報(bào)二維碼領(lǐng)【統(tǒng)計(jì)學(xué)導(dǎo)圖】
“正確問(wèn)題的近似答案要比近似問(wèn)題的精確答案更有價(jià)值”
這正是回歸分析所追求的目標(biāo)。它是最常用的預(yù)測(cè)建模技術(shù)之一,有助于在重要情況下做出更明智的決策。在本文中,我們將討論什么是回歸分析,它是如何工作的。
一、什么是回歸分析?
回歸分析是作為數(shù)據(jù)科學(xué)家需要掌握的第一個(gè)算法。它是數(shù)據(jù)分析中最常用的預(yù)測(cè)建模技術(shù)之一。即使在今天,大多數(shù)公司都使用回歸技術(shù)來(lái)實(shí)現(xiàn)大規(guī)模決策。
要回答“什么是回歸分析”這個(gè)問(wèn)題,我們需要深入了解基本面。簡(jiǎn)單的回歸分析定義是一種用于基于一個(gè)或多個(gè)獨(dú)立變量(X)預(yù)測(cè)因變量(Y)的技術(shù)。
經(jīng)典的回歸方程看起來(lái)像這樣:

在上面的等式中,hθ(x)是因變量Y,X是自變量,θ0是常數(shù),并且θ1是回歸系數(shù)。
二、回歸分析的應(yīng)用
回歸分析用于在許多業(yè)務(wù)情況下做出決策。回歸分析有三個(gè)主要應(yīng)用:
解釋他們理解困難的事情。例如,為什么客戶(hù)服務(wù)電子郵件在上一季度有所下降。
預(yù)測(cè)重要的商業(yè)趨勢(shì)。例如,明年會(huì)要求他們的產(chǎn)品看起來(lái)像什么?
選擇不同的替代方案。例如,我們應(yīng)該進(jìn)行PPC(按點(diǎn)擊付費(fèi))還是內(nèi)容營(yíng)銷(xiāo)活動(dòng)?
三、 什么是不同類(lèi)型的回歸分析技術(shù)?
由于存在許多不同的回歸分析技術(shù),因此很難找到非常狹窄的回歸分析定義。大多數(shù)人傾向于將兩種常見(jiàn)的線性或邏輯回歸中的任何一種應(yīng)用于幾乎每個(gè)回歸問(wèn)題。
但是,有許多可用的回歸技術(shù),不同的技術(shù)更適合于不同的問(wèn)題。回歸分析技術(shù)的類(lèi)型基于:
自變量的數(shù)量(1,2或更多)
因變量的類(lèi)型(分類(lèi),連續(xù)等)
回歸線的形狀

四、主要類(lèi)型的回歸分析
1. 線性回歸
線性回歸是最常用的回歸技術(shù)。線性回歸的目的是找到一個(gè)稱(chēng)為Y的連續(xù)響應(yīng)變量的方程,它將是一個(gè)或多個(gè)變量(X)的函數(shù)。
因此,線性回歸可以在僅知道X時(shí)預(yù)測(cè)Y的值。它不依賴(lài)于任何其他因素。
Y被稱(chēng)為標(biāo)準(zhǔn)變量,而X被稱(chēng)為預(yù)測(cè)變量。線性回歸的目的是通過(guò)點(diǎn)找到稱(chēng)為回歸線的最佳擬合線。這就是數(shù)學(xué)線性回歸公式 /等式的樣子:

在上面的等式中,hθ(x)是標(biāo)準(zhǔn)變量Y,X是預(yù)測(cè)變量,θ0是常數(shù),并且θ1是回歸系數(shù)
線性回歸可以進(jìn)一步分為多元回歸分析和簡(jiǎn)單回歸分析。在簡(jiǎn)單線性回歸中,僅使用一個(gè)獨(dú)立變量X來(lái)預(yù)測(cè)因變量Y的值。
另一方面,在多元回歸分析中,使用多個(gè)自變量來(lái)預(yù)測(cè)Y,當(dāng)然,在這兩種情況下,只有一個(gè)變量Y,唯一的區(qū)別在于自變量的數(shù)量。
例如,如果我們僅根據(jù)平方英尺來(lái)預(yù)測(cè)公寓的租金,那么這是一個(gè)簡(jiǎn)單的線性回歸。
另一方面,如果我們根據(jù)許多因素預(yù)測(cè)租金; 平方英尺,房產(chǎn)的位置和建筑物的年齡,然后它成為多元回歸分析的一個(gè)例子。
2. Logistic回歸
要理解什么是邏輯回歸,我們必須首先理解它與線性回歸的不同之處。為了理解線性回歸和邏輯回歸之間的差異,我們需要首先理解連續(xù)變量和分類(lèi)變量之間的區(qū)別。
連續(xù)變量是數(shù)值。它們?cè)谌魏蝺蓚€(gè)給定值之間具有無(wú)限數(shù)量的值。示例包括視頻的長(zhǎng)度或收到付款的時(shí)間或城市的人口。
另一方面,分類(lèi)變量具有不同的組或類(lèi)別。它們可能有也可能沒(méi)有邏輯順序。示例包括性別,付款方式,年齡段等。
在線性回歸中,因變量Y始終是連續(xù)變量。如果變量Y是分類(lèi)變量,則不能應(yīng)用線性回歸。
如果Y是只有2個(gè)類(lèi)的分類(lèi)變量,則可以使用邏輯回歸來(lái)克服此問(wèn)題。這些問(wèn)題也稱(chēng)為二元分類(lèi)問(wèn)題。
理解標(biāo)準(zhǔn)邏輯回歸只能用于二元分類(lèi)問(wèn)題也很重要。如果Y具有多于2個(gè)類(lèi),則它變?yōu)槎囝?lèi)分類(lèi),并且不能應(yīng)用標(biāo)準(zhǔn)邏輯回歸。
邏輯回歸分析的最大優(yōu)點(diǎn)之一是它可以計(jì)算事件的預(yù)測(cè)概率分?jǐn)?shù)。這使其成為數(shù)據(jù)分析的寶貴預(yù)測(cè)建模技術(shù)。
3. 多項(xiàng)式回歸
如果自變量(X)的冪大于1,那么它被稱(chēng)為多項(xiàng)式回歸。這是多項(xiàng)式回歸方程的樣子:y = a + b * x ^ 3
與線性回歸不同,最佳擬合線是直線,在多項(xiàng)式回歸中,它是適合不同數(shù)據(jù)點(diǎn)的曲線。這是多項(xiàng)式回歸方程的圖形:

對(duì)于多項(xiàng)式方程,人們傾向于擬合更高次多項(xiàng)式,因?yàn)樗鼘?dǎo)致更低的錯(cuò)誤率。但是,這可能會(huì)導(dǎo)致過(guò)度擬合。確保曲線真正符合問(wèn)題的本質(zhì)非常重要。
檢查曲線朝向兩端并確保形狀和趨勢(shì)落實(shí)到位尤為重要。多項(xiàng)式越高,它在解釋過(guò)程中產(chǎn)生奇怪結(jié)果的可能性就越大。
4. 逐步回歸
當(dāng)存在多個(gè)獨(dú)立變量時(shí),使用逐步回歸。逐步回歸的一個(gè)特點(diǎn)是自動(dòng)選擇自變量,而不涉及人的主觀性。
像R-square和t-stats這樣的統(tǒng)計(jì)值用于識(shí)別正確的自變量。當(dāng)數(shù)據(jù)集具有高維度時(shí),通常使用逐步回歸。這是因?yàn)?strong>其目標(biāo)是使用最少數(shù)量的變量最大化模型的預(yù)測(cè)能力。
逐步回歸基于預(yù)定義的條件一次增加或減少一個(gè)共變量。它一直這樣做,直到適合回歸模型。
5. 嶺回歸
當(dāng)自變量高度相關(guān)(多重共線性)時(shí),使用嶺回歸。當(dāng)自變量高度相關(guān)時(shí),最小二乘估計(jì)的方差非常大。
結(jié)果,觀察值與實(shí)際值有很大差異。嶺回歸通過(guò)在回歸估計(jì)中增加一定程度的偏差來(lái)解決這個(gè)問(wèn)題。這是嶺回歸方程式的樣子:

在上面的等式中,收縮參數(shù)λ(λ)用于解決多重共線性的問(wèn)題。
6. 套索回歸
就像嶺回歸一樣,Lasso回歸也使用收縮參數(shù)來(lái)解決多重共線性問(wèn)題。它還通過(guò)提高準(zhǔn)確性來(lái)幫助線性回歸模型。
它與嶺回歸的不同之處在于懲罰函數(shù)使用絕對(duì)值而不是正方形。這是Lasso回歸方程:

7. 彈性網(wǎng)絡(luò)回歸
ElasticNet回歸方法線性地組合了Ridge和Lasso方法的L1和L2懲罰。以下是ElasticNet回歸方程的樣子:

-?END -
本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請(qǐng)聯(lián)系后臺(tái)刪除

