SixSigma工具 | 多重線性回歸的適用條件
多重線性回歸模型作為一種統(tǒng)計模型,它有嚴格的適用條件,在建模時也需要對這些適用條件進行判斷。但是許多使用者往往忽視了這一點,在使用過程中只是單一的構建模型,最終很有可能得出錯誤的結論。因此在應用多重線性回歸之前,我們應該了解它需要滿足哪些前提條件呢?

天行健六西格瑪顧問總結可用4個詞來概況:線性(Linear),獨立(Independence),正態(tài)(Normality),齊性(Equal variance),縮寫為LINE原則。
(1) 線性:各自變量xi與因變量yi之間存在線性關系,可以通過繪制散點圖來進行判斷;
(2) 獨立:因變量yi的取值之間相互獨立,反映到回歸模型中,實際上就是要求殘差ei之間相互獨立;
(3) 正態(tài)性:構建多重線性回歸模型后,殘差ei服從正態(tài)分布;
(4) 方差齊性:殘差ei的大小不隨xi取值水平的變化而變化,即殘差ei具有方差齊性。
只有準確把握了LINE核心原則,才能夠保證構建符合統(tǒng)計學要求的多重線性回歸模型。但是,由于多重線性回歸模型具有一定的“抗偏倚性”,如果只是想通過構建方程來探討自變量和因變量之間的關聯性,而非對因變量進行預測,那么后面兩個條件可以適當放寬。

此外,還應該注意以下幾點:
(5) 因變量yi為連續(xù)性變量,而非分類變量;
(6) 自變量xi可以為連續(xù)變量,也可以為分類變量,當自變量為多分類無序變量時,則需要設置啞變量,當為有序變量時,則需要根據等級順序進行賦值。
(7) 對于自變量xi的分布特征沒有具體的限定,只要求自變量xi間相互獨立,不存在多重共線性;
(8) 對于樣本量的要求,根據經驗一般要求樣本量應當為納入模型的自變量的20倍以上為宜,比如模型納入5個自變量,則樣本量應當在100以上為宜。
