最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

不止卡方檢驗(yàn)和線性相關(guān)系數(shù),相關(guān)性分析有6種方法

2023-07-18 13:56 作者:盈飛無限  | 我要投稿


從事質(zhì)量行業(yè)的朋友一定經(jīng)常需要對(duì)數(shù)據(jù)進(jìn)行分析,這也是一項(xiàng)最基礎(chǔ)的技能。那么你知道幾種數(shù)據(jù)相關(guān)性分析的方法呢?

做數(shù)據(jù)分析時(shí),為了提煉觀點(diǎn),相關(guān)性分析是必不可少,而且尤為重要的一個(gè)環(huán)節(jié)。但是,對(duì)于不同類型的數(shù)據(jù),相關(guān)性分析的方法都各不相同。本文,主要按照不同的數(shù)據(jù)類型,來對(duì)各種相關(guān)性分析方法進(jìn)行梳理總結(jié)。

相關(guān)性分析是指對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,相關(guān)性不等于因果性。

一、離散與離散變量之間的相關(guān)性

1、卡方檢驗(yàn)

卡方檢驗(yàn)是一種用途很廣的計(jì)數(shù)資料的假設(shè)檢驗(yàn)方法。它屬于非參數(shù)檢驗(yàn)的范疇,主要是比較兩個(gè)及兩個(gè)以上樣本率( 構(gòu)成比)以及兩個(gè)分類變量的關(guān)聯(lián)性分析。其根本思想就是在于比較理論頻數(shù)和實(shí)際頻數(shù)的吻合程度或擬合優(yōu)度問題。

它在分類資料統(tǒng)計(jì)推斷中的應(yīng)用,包括:兩個(gè)率或兩個(gè)構(gòu)成比比較的卡方檢驗(yàn);多個(gè)率或多個(gè)構(gòu)成比比較的卡方檢驗(yàn)以及分類資料的相關(guān)分析等。

編輯

(1)假設(shè),多個(gè)變量之間不相關(guān)

(2)根據(jù)假設(shè)計(jì)算得出每種情況的理論值,根據(jù)理論值與實(shí)際值的差別,計(jì)算得到卡方值 及 自由度

df=(C-1)(R-1)

(3)查卡方表,求p值

卡方值越大,P值越小,變量相關(guān)的可能性越大,當(dāng)P<=0.05,否定原假設(shè),認(rèn)為變量相關(guān)。

2、信息增益和信息增益率

在介紹信息增益之前,先來介紹兩個(gè)基礎(chǔ)概念,信息熵和條件熵。

信息熵,就是一個(gè)隨機(jī)變量的不確定性程度。

條件熵,就是在一個(gè)條件下,隨機(jī)變量的不確定性。

(1)信息增益:熵 - 條件熵

在一個(gè)條件下,信息不確定性減少的程度。

Gain(Y,X)=H(Y)-H(Y|X)

信息增益越大,表示引入條件X之后,不純度減少得越多。信息增益越大,則兩個(gè)變量之間的相關(guān)性越大。

(2)信息增益率

假設(shè),某個(gè)變量存在大量的不同值,例如ID,引入ID后,每個(gè)子節(jié)點(diǎn)的不純度都為0,則信息增益減少程度達(dá)到最大。所以,當(dāng)不同變量的取值數(shù)量差別很大時(shí),引入取值多的變量,信息增益更大。因此,使用信息增益率,考慮到分支個(gè)數(shù)的影響。

Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)

二、連續(xù)與連續(xù)變量之間的相關(guān)性

1、協(xié)方差

協(xié)方差,表達(dá)了兩個(gè)隨機(jī)變量的協(xié)同變化關(guān)系。如果兩個(gè)變量不相關(guān),則協(xié)方差為0。

Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}

當(dāng) cov(X, Y)>0時(shí),表明 X與Y 正相關(guān);

當(dāng) cov(X, Y)<0時(shí),表明X與Y負(fù)相關(guān);

當(dāng) cov(X, Y)=0時(shí),表明X與Y不相關(guān)。

協(xié)方差只能對(duì)兩組數(shù)據(jù)進(jìn)行相關(guān)性分析,當(dāng)有兩組以上數(shù)據(jù)時(shí)就需要使用協(xié)方差矩陣。

協(xié)方差通過數(shù)字衡量變量間的相關(guān)性,正值表示正相關(guān),負(fù)值表示負(fù)相關(guān)。但無法對(duì)相關(guān)的密切程度進(jìn)行度量。當(dāng)我們面對(duì)多個(gè)變量時(shí),無法通過協(xié)方差來說明那兩組數(shù)據(jù)的相關(guān)性最高。要衡量和對(duì)比相關(guān)性的密切程度,就需要使用下一個(gè)方法:相關(guān)系數(shù)。

2、線性相關(guān)系數(shù)

也叫Pearson相關(guān)系數(shù), 主要衡量?jī)蓚€(gè)變量線性相關(guān)的程度。

r=cov(X,Y)/(D(X)D(Y))

相關(guān)系數(shù)是用協(xié)方差除以兩個(gè)隨機(jī)變量的標(biāo)準(zhǔn)差。相關(guān)系數(shù)的大小在-1和1之間變化。再也不會(huì)出現(xiàn)因?yàn)橛?jì)量單位變化,而數(shù)值暴漲的情況了。

線性相關(guān)系數(shù)必須建立在因變量與自變量是線性的關(guān)系基礎(chǔ)上,否則線性相關(guān)系數(shù)是無意義的。

三、連續(xù)與離散變量之間的相關(guān)性

1、連續(xù)變量離散化

將連續(xù)變量離散化,然后,使用離散與離散變量相關(guān)性分析的方法來分析相關(guān)性。

2、箱形圖

使用畫箱形圖的方法,看離散變量取不同值,連續(xù)變量的均值與方差及取值分布情況。

如果,離散變量取不同值,對(duì)應(yīng)的連續(xù)變量的箱形圖差別不大,則說明,離散變量取不同值對(duì)連續(xù)變量的影響不大,相關(guān)性不高;反之,相關(guān)性高。

文章轉(zhuǎn)自網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除。

歡迎來到盈飛無限質(zhì)量智能世界。【質(zhì)量管理系統(tǒng) QMS/QES】免費(fèi)試用,注冊(cè)下載,試用賬號(hào)和密碼是:admin,【下載路徑】https://www.infinityqs.cn/quickstart/free-trial 歡迎關(guān)注微信公眾號(hào)【品質(zhì)人生質(zhì)量開講】,收獲專屬“掌上質(zhì)量知識(shí)庫”!??


不止卡方檢驗(yàn)和線性相關(guān)系數(shù),相關(guān)性分析有6種方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
梅州市| 英超| 东丽区| 池州市| 齐河县| 灌阳县| 达州市| 高青县| 舒城县| 南汇区| 北安市| 昌图县| 凤阳县| 五大连池市| 三江| 安西县| 陕西省| 茂名市| 文登市| 九台市| 桂平市| 胶南市| 法库县| 左云县| 正蓝旗| 五常市| 桑日县| 芦溪县| 南投市| 株洲市| 任丘市| 巴里| 绩溪县| 育儿| 吴堡县| 莱州市| 聂拉木县| 海阳市| 罗源县| 营山县| 澄江县|