- # 相關(guān)
- # 相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。相關(guān)系數(shù)的符號(hào)(?)表明關(guān)系的方向(正相
- # 關(guān)或負(fù)相關(guān)),其值的大小表示關(guān)系的強(qiáng)弱程度(完全不相關(guān)時(shí)為0,完全相關(guān)時(shí)為1)我們將使用R基礎(chǔ)安裝中的
- # state.x77數(shù)據(jù)集,它提供了美國50個(gè)州在1977年的人口、收入、文盲率、預(yù)期壽命、謀殺率和
- # 高中畢業(yè)率數(shù)據(jù)。數(shù)據(jù)集中還收錄了氣溫和土地面積數(shù)據(jù),但為了節(jié)約空間,這里將其丟棄。你
- # 可以使用help(state.x77)了解數(shù)據(jù)集的更多信息。除了基礎(chǔ)安裝以外,我們還將使用psych
- # 和ggm包。
-
- install.packages("psych")
- library(psych)
-
- install.packages("igraph")
- library(igraph)
- install.packages("ggm")
- library(ggm)
- #
- # 相關(guān)的類型
- # R可以計(jì)算多種相關(guān)系數(shù),包括Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)、Kendall相關(guān)系數(shù)、偏
- # 相關(guān)系數(shù)、多分格(polychoric)相關(guān)系數(shù)和多系列(polyserial)相關(guān)系數(shù)。
- #
- # 1. Pearson、Spearman和Kendall相關(guān)
- # Pearson積差相關(guān)系數(shù)衡量了兩個(gè)定量變量之間的線性相關(guān)程度。Spearman等級(jí)相關(guān)系數(shù)則衡
- # 量分級(jí)定序變量之間的相關(guān)程度。Kendall’s Tau相關(guān)系數(shù)也是一種非參數(shù)的等級(jí)相關(guān)度量。
- # cor()函數(shù)可以計(jì)算這三種相關(guān)系數(shù),而cov()函數(shù)可用來計(jì)算協(xié)方差。
- cor(x,use = ,method = )
- #
- # x 矩陣或數(shù)據(jù)框
- # use 指定缺失數(shù)據(jù)的處理方式??蛇x的方式為all.obs(假設(shè)不存在缺失數(shù)據(jù)——遇到缺失數(shù)據(jù)時(shí)將報(bào)
- # 錯(cuò))、everything(遇到缺失數(shù)據(jù)時(shí),相關(guān)系數(shù)的計(jì)算結(jié)果將被設(shè)為missing)、complete.obs
- # (行刪除)以及 pairwise.complete.obs(成對(duì)刪除,pairwise deletion)
- # method 指定相關(guān)系數(shù)的類型??蛇x類型為pearson、spearman或kendall
-
- #
- # 協(xié)方差和相關(guān)系數(shù)
-
-
- states<-state.x77[,1:6]
- cov(states)
- #
- # > cov(states)
- # Population Income Illiteracy Life Exp Murder
- # Population 19931683.7588 571229.7796 292.8679592 -407.8424612 5663.523714
- # Income 571229.7796 377573.3061 -163.7020408 280.6631837 -521.894286
- # Illiteracy 292.8680 -163.7020 0.3715306 -0.4815122 1.581776
- # Life Exp -407.8425 280.6632 -0.4815122 1.8020204 -3.869480
- # Murder 5663.5237 -521.8943 1.5817755 -3.8694804 13.627465
- # HS Grad -3551.5096 3076.7690 -3.2354694 6.3126849 -14.549616
- # HS Grad
- # Population -3551.509551
- # Income 3076.768980
- # Illiteracy -3.235469
- # Life Exp 6.312685
- # Murder -14.549616
- # HS Grad 65.237894
-
-
- cor(states)
- cor(states,method = "spearman")
- #
- # > cor(states,method = "spearman")
- # Population Income Illiteracy Life Exp Murder HS Grad
- # Population 1.0000000 0.1246098 0.3130496 -0.1040171 0.3457401 -0.3833649
- # Income 0.1246098 1.0000000 -0.3145948 0.3241050 -0.2174623 0.5104809
- # Illiteracy 0.3130496 -0.3145948 1.0000000 -0.5553735 0.6723592 -0.6545396
- # Life Exp -0.1040171 0.3241050 -0.5553735 1.0000000 -0.7802406 0.5239410
- # Murder 0.3457401 -0.2174623 0.6723592 -0.7802406 1.0000000 -0.4367330
- # HS Grad -0.3833649 0.5104809 -0.6545396 0.5239410 -0.4367330 1.0000000
- # #
- # 首個(gè)語句計(jì)算了方差和協(xié)方差,第二個(gè)語句則計(jì)算了Pearson積差相關(guān)系數(shù),而第三個(gè)語句計(jì)算
- # 了Spearman等級(jí)相關(guān)系數(shù)。舉例來說,我們可以看到收入和高中畢業(yè)率之間存在很強(qiáng)的正相關(guān),
- # 而文盲率和預(yù)期壽命之間存在很強(qiáng)的負(fù)相關(guān)
-
- #
- # 請(qǐng)注意,在默認(rèn)情況下得到的結(jié)果是一個(gè)方陣(所有變量之間兩兩計(jì)算相關(guān))。你同樣可以
- # 計(jì)算非方形的相關(guān)矩陣
- # 當(dāng)你對(duì)某一組變量與另外一組變量之間的關(guān)系感興趣時(shí),cor()函數(shù)的這種用法是非常實(shí)用
- # 的。注意,上述結(jié)果并未指明相關(guān)系數(shù)是否顯著不為0(即,根據(jù)樣本數(shù)據(jù)是否有足夠的證據(jù)得
- # 出總體相關(guān)系數(shù)不為0的結(jié)論)。由于這個(gè)原因,你需要對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)(
- #
- # 2. 偏相關(guān)
- # 偏相關(guān)是指在控制一個(gè)或多個(gè)定量變量時(shí),另外兩個(gè)定量變量之間的相互關(guān)系。你可以使用
- # ggm包中的pcor()函數(shù)計(jì)算偏相關(guān)系數(shù)。ggm包沒有被默認(rèn)安裝,在第一次使用之前需要先進(jìn)行
- # 安裝。函數(shù)調(diào)用格式為:pcor(u,s)其中的u是一個(gè)數(shù)值向量,前兩個(gè)數(shù)值表示要計(jì)算相關(guān)系數(shù)的變量下標(biāo),其余的數(shù)值為條件變量
- # (即要排除影響的變量)的下標(biāo)。S為變量的協(xié)方差陣。
-
- library(ggm)
- pcor(c(1,5,2,3,6),cov(states))
- # > pcor(c(1,5,2,3,6),cov(states))
- # [1] 0.3462724
- # 本例中,在控制了收入、文盲率和高中畢業(yè)率的影響時(shí),人口和謀殺率之間的相關(guān)系數(shù)為
- # 0.346。偏相關(guān)系數(shù)常用于社會(huì)科學(xué)的研究中。
-
- #
- # 3. 其他類型的相關(guān)
- # polycor包中的hetcor()函數(shù)可以計(jì)算一種混合的相關(guān)矩陣,其中包括數(shù)值型變量的
- # Pearson積差相關(guān)系數(shù)、數(shù)值型變量和有序變量之間的多系列相關(guān)系數(shù)、有序變量之間的多分格相
- # 關(guān)系數(shù)以及二分變量之間的四分相關(guān)系數(shù)。多系列、多分格和四分相關(guān)系數(shù)都假設(shè)有序變量或二
- # 分變量由潛在的正態(tài)分布導(dǎo)出。請(qǐng)
-
-
-
- #
- # 相關(guān)性的顯著性檢驗(yàn)
- # 在計(jì)算好相關(guān)系數(shù)以后,如何對(duì)它們進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)?zāi)??常用的原假設(shè)為變量間不相關(guān)(即總體的相關(guān)系數(shù)為0)。
-
- #
- # cor.test()函數(shù)對(duì)單個(gè)的Pearson、Spearman和Kendall相
- # 關(guān)系數(shù)進(jìn)行檢驗(yàn):cor.test(x,y,alternative=,method=)
-
-
- # 其中的x和y為要檢驗(yàn)相關(guān)性的變量,alternative則用來指定進(jìn)行雙側(cè)檢驗(yàn)或單側(cè)檢驗(yàn)(取值
- # 為"two.side"、"less"或"greater"),而method用以指定要計(jì)算的相關(guān)類型("pearson"、
- # "kendall"或"spearman")。
- #當(dāng)研究的假設(shè)為總體的相關(guān)系數(shù)小于0時(shí),請(qǐng)使用alternative="less"
- # 在研究的假設(shè)為總體的相關(guān)系數(shù)大于0時(shí),應(yīng)使用alternative="greater"。
- #默認(rèn)情況下:為alternative="two.side"(總體相關(guān)系數(shù)不等于0)
-
-
- cor.test(states[,3],states[,5])
-
-
- #
- # > cor.test(states[,3],states[,5])
- #
- # Pearson's product-moment correlation
- #
- # data: states[, 3] and states[, 5]
- # t = 6.8479, df = 48, p-value = 1.258e-08
- # alternative hypothesis: true correlation is not equal to 0
- # 95 percent confidence interval:
- # 0.5279280 0.8207295
- # sample estimates:
- # cor
- # 0.7029752
- #
- # 這段代碼檢驗(yàn)了預(yù)期壽命和謀殺率的Pearson相關(guān)系數(shù)為0的原假設(shè)。假設(shè)總體的相關(guān)度為0,
- # 則預(yù)計(jì)在一千萬次中只會(huì)有少于一次的機(jī)會(huì)見到0.703這樣大的樣本相關(guān)度(即p = 1.258e?08)。
- # 由于這種情況幾乎不可能發(fā)生,所以你可以拒絕原假設(shè),從而支持了要研究的猜想,即預(yù)期壽命
- # 和謀殺率之間的總體相關(guān)度不為0。
-
-
- #
- # 遺憾的是,cor.test每次只能檢驗(yàn)一種相關(guān)關(guān)系。但幸運(yùn)的是,psych包中提供的
- # corr.test()函數(shù)可以一次做更多事情。。corr.test()函數(shù)可以為Pearson、Spearman或Kendall
- #相關(guān)計(jì)算相關(guān)矩陣和顯著性水平
- #
- # corr.test計(jì)算相關(guān)矩陣并進(jìn)行顯著性檢驗(yàn)
-
- corr.test(states,use = "complete")
-
- #
- # > corr.test(states,use = "complete")
- # Call:corr.test(x = states, use = "complete")
- # Correlation matrix
- # Population Income Illiteracy Life Exp Murder HS Grad
- # Population 1.00 0.21 0.11 -0.07 0.34 -0.10
- # Income 0.21 1.00 -0.44 0.34 -0.23 0.62
- # Illiteracy 0.11 -0.44 1.00 -0.59 0.70 -0.66
- # Life Exp -0.07 0.34 -0.59 1.00 -0.78 0.58
- # Murder 0.34 -0.23 0.70 -0.78 1.00 -0.49
- # HS Grad -0.10 0.62 -0.66 0.58 -0.49 1.00
- # Sample Size
- # [1] 50
- # Probability values (Entries above the diagonal are adjusted for multiple tests.)
- # Population Income Illiteracy Life Exp Murder HS Grad
- # Population 0.00 0.59 1.00 1.0 0.10 1
- # Income 0.15 0.00 0.01 0.1 0.54 0
- # Illiteracy 0.46 0.00 0.00 0.0 0.00 0
- # Life Exp 0.64 0.02 0.00 0.0 0.00 0
- # Murder 0.01 0.11 0.00 0.0 0.00 0
- # HS Grad 0.50 0.00 0.00 0.0 0.00 0
- #
- # To see confidence intervals of the correlations, print with the short=FALSE option
-
- # 參數(shù)use=的取值可為"pairwise"或"complete"(分別表示對(duì)缺失值執(zhí)行成對(duì)刪除或行刪
- # 除)。參數(shù)method=的取值可為"pearson"(默認(rèn)值)、"spearman"或"kendall"。人口數(shù)
- # 量和高中畢業(yè)率的相關(guān)系數(shù)(-?0.10)并不顯著地不為0(p = 0.5)
-
- #
- # 其他顯著性檢驗(yàn)
- # 在7.4.1節(jié)中,我們關(guān)注了偏相關(guān)系數(shù)。在多元正態(tài)性的假設(shè)下,psych包中的pcor.test()
- # 函數(shù)①可以用來檢驗(yàn)在控制一個(gè)或多個(gè)額外變量時(shí)兩個(gè)變量之間的條件獨(dú)立性。使用格式為:
- # 其中的r是由pcor()函數(shù)計(jì)算得到的偏相關(guān)系數(shù),q為要控制的變量數(shù)(以數(shù)值表示位置),n為
- # 樣本大小。
- # 在結(jié)束這個(gè)話題之前應(yīng)當(dāng)指出的是,psych包中的r.test()函數(shù)提供了多種實(shí)用的顯著性
- # 檢驗(yàn)方法。此函數(shù)可用來檢驗(yàn):
- # ? 某種相關(guān)系數(shù)的顯著性;
- # ? 兩個(gè)獨(dú)立相關(guān)系數(shù)的差異是否顯著;
- # ? 兩個(gè)基于一個(gè)共享變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著;
- # ? 兩個(gè)基于完全不同的變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著。
補(bǔ)充知識(shí):
一 、相關(guān)性和顯著性的關(guān)系:
1 關(guān)系的顯著性(the significance of the relationship):指兩(或多)變量之間關(guān)系的統(tǒng)計(jì)顯著水平,一般要求p < 0.05。這是解釋的第一步,如果不顯著(p
> 0.05)、不管其相關(guān)系數(shù)(回歸系數(shù)或其它描述關(guān)系強(qiáng)度的統(tǒng)計(jì)量)多強(qiáng)(這在小樣本的情況下會(huì)發(fā)生),都沒有繼續(xù)討論的意義,因?yàn)樵诳傮w中這種關(guān)系存在的可能性很低,如接受這種關(guān)系的風(fēng)險(xiǎn)太大(即Type I錯(cuò)誤)。
2. 關(guān)系的強(qiáng)度(the strength of the relationship):指相關(guān)系數(shù)(或其它類似統(tǒng)計(jì)量)的大小。以相關(guān)系數(shù)為例,一般認(rèn)為0.3以下為弱相關(guān)、0.3-0.7之間為中相關(guān)、0.7-1.0為強(qiáng)相關(guān)。這種分類也適用于其它標(biāo)準(zhǔn)化統(tǒng)計(jì)量(如標(biāo)準(zhǔn)回歸系數(shù),
standardized regression coefficient,在SPSS中叫BETA)。大家知道,這些標(biāo)準(zhǔn)化的統(tǒng)計(jì)量的平方描述了兩(或多)個(gè)變量之間的重合部分(如我最近詳細(xì)解釋的回歸模型R2描述了自變量對(duì)因變量的解釋部分),從那個(gè)角度來看,弱相關(guān)的變量之間的重合不到10%、中相關(guān)變量之間的重合在10-50%,強(qiáng)相關(guān)變量之間的重合在50%以上。
3. 關(guān)系的方向(the direction of the relationship):指相關(guān)系數(shù)(或其它類似統(tǒng)計(jì)量)的正負(fù)符號(hào)。如果原先的假設(shè)是單尾(one-tailed),如“上網(wǎng)會(huì)減少社交時(shí)間”、“上網(wǎng)會(huì)增加孤獨(dú)感”等,那么其相關(guān)系數(shù)的方向就十分重要。(從可證偽性原則來看,單尾假設(shè)比雙尾假設(shè)更好。)當(dāng)一對(duì)變量的關(guān)系是顯著并強(qiáng)烈、但是其方向與假設(shè)相反,該研究假設(shè)也必須被拒絕。當(dāng)然研究者應(yīng)該深入分析這種情況為何會(huì)發(fā)生。
4. 關(guān)系的形式(the form of the relationship):指變量之間的關(guān)系是線性(linear)還是非線性(nonlinear)。上述統(tǒng)計(jì)量描述的都是線性關(guān)系,如果不顯著、顯著而弱、顯著并強(qiáng)烈但反方向,也許其真正的關(guān)系不是線性而是非線性,所以我們不能簡單地收工回家,而要探索其非線性關(guān)系。當(dāng)然,后者更復(fù)雜、對(duì)于沒有良好的理論和方法訓(xùn)練的研究者更是容易掉進(jìn)種種陷阱。
二 、只有顯著性水平顯著時(shí),相關(guān)系數(shù)才是可信的
也就說只看相關(guān)系數(shù)是說明不了問題的,還得看顯著性,而且還是顯著性水平顯著的時(shí)候,就可以說明相關(guān)系數(shù)論證的點(diǎn)可信的,我們知道相關(guān)系數(shù)有以下含義:
這里,
,
是一個(gè)可以表征
和
之間線性關(guān)系緊密程度的量。它具有兩個(gè)性質(zhì):
(2)
的充要條件是,存在常數(shù)a,b,使得
由性質(zhì)衍生:
a. 相關(guān)系數(shù)定量地刻畫了 X 和 Y的相關(guān)程度,即
越大,相關(guān)程度越大;
對(duì)應(yīng)相關(guān)程度最低;
b. X 和Y 完全相關(guān)的含義是在概率為1的意義下存在線性關(guān)系,于是
是一個(gè)可以表征X 和Y 之間線性關(guān)系緊密程度的量。當(dāng)
較大時(shí),通常說X 和Y相關(guān)程度較好;當(dāng)
較小時(shí),通常說X 和Y相關(guān)程度較差;當(dāng)X和Y不相關(guān),通常認(rèn)為X和Y之間不存在線性關(guān)系,但并不能排除X和Y之間可能存在其他關(guān)系。
若X和Y不相關(guān),
,通常認(rèn)為X和Y之間不存在線性關(guān)系,但并不能排除X和Y之間可能存在其他關(guān)系;若
,則X和Y不相關(guān)。
若X和Y獨(dú)立,則必有
,因而X和Y不相關(guān);若X和Y不相關(guān),則僅僅是不存在線性關(guān)系,可能存在其他關(guān)系,如
,X和Y不獨(dú)立。
看例圖:

顯著系數(shù)P:
P值即概率,反映某一事件發(fā)生的可能性大小。統(tǒng)計(jì)學(xué)根據(jù)顯著性檢驗(yàn)方法所得到的P 值,一般以P < 0.05 為有統(tǒng)計(jì)學(xué)差異, P<0.01 為有顯著統(tǒng)計(jì)學(xué)差異,P<0.001為有極其顯著的統(tǒng)計(jì)學(xué)差異。
|
P值
|
碰巧的概率
|
對(duì)無效假設(shè)
|
統(tǒng)計(jì)意義
|
|
P>0.05
|
碰巧出現(xiàn)的可能性大于5%
|
不能否定無效假設(shè)
|
兩組差別無顯著意義
|
|
P<0.05
|
碰巧出現(xiàn)的可能性小于5%
|
可以否定無效假設(shè)
|
兩組差別有顯著意義
|
|
P <0.01
|
碰巧出現(xiàn)的可能性小于1%
|
可以否定無效假設(shè)
|
兩者差別有非常顯著意義
|
|