电竞比分网-中国电竞赛事及体育赛事平台

分享

R之相關(guān)性的顯著性檢驗(yàn)

 leadingsci 2018-03-28
  1. # 相關(guān)  
  2. # 相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。相關(guān)系數(shù)的符號(hào)(?)表明關(guān)系的方向(正相  
  3. # 關(guān)或負(fù)相關(guān)),其值的大小表示關(guān)系的強(qiáng)弱程度(完全不相關(guān)時(shí)為0,完全相關(guān)時(shí)為1)我們將使用R基礎(chǔ)安裝中的  
  4. # state.x77數(shù)據(jù)集,它提供了美國50個(gè)州在1977年的人口、收入、文盲率、預(yù)期壽命、謀殺率和  
  5. # 高中畢業(yè)率數(shù)據(jù)。數(shù)據(jù)集中還收錄了氣溫和土地面積數(shù)據(jù),但為了節(jié)約空間,這里將其丟棄。你  
  6. # 可以使用help(state.x77)了解數(shù)據(jù)集的更多信息。除了基礎(chǔ)安裝以外,我們還將使用psych  
  7. # 和ggm包。  
  8.   
  9. install.packages("psych")  
  10. library(psych)  
  11.   
  12. install.packages("igraph")  
  13. library(igraph)  
  14. install.packages("ggm")  
  15. library(ggm)  
  16. #   
  17. # 相關(guān)的類型  
  18. # R可以計(jì)算多種相關(guān)系數(shù),包括Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)、Kendall相關(guān)系數(shù)、偏  
  19. # 相關(guān)系數(shù)、多分格(polychoric)相關(guān)系數(shù)和多系列(polyserial)相關(guān)系數(shù)。  
  20. #   
  21. # 1. Pearson、Spearman和Kendall相關(guān)  
  22. # Pearson積差相關(guān)系數(shù)衡量了兩個(gè)定量變量之間的線性相關(guān)程度。Spearman等級(jí)相關(guān)系數(shù)則衡  
  23. # 量分級(jí)定序變量之間的相關(guān)程度。Kendall’s Tau相關(guān)系數(shù)也是一種非參數(shù)的等級(jí)相關(guān)度量。  
  24. # cor()函數(shù)可以計(jì)算這三種相關(guān)系數(shù),而cov()函數(shù)可用來計(jì)算協(xié)方差。  
  25. cor(x,use = ,method = )  
  26. #   
  27. # x     矩陣或數(shù)據(jù)框  
  28. # use   指定缺失數(shù)據(jù)的處理方式??蛇x的方式為all.obs(假設(shè)不存在缺失數(shù)據(jù)——遇到缺失數(shù)據(jù)時(shí)將報(bào)  
  29. #       錯(cuò))、everything(遇到缺失數(shù)據(jù)時(shí),相關(guān)系數(shù)的計(jì)算結(jié)果將被設(shè)為missing)、complete.obs  
  30. #       (行刪除)以及 pairwise.complete.obs(成對(duì)刪除,pairwise deletion)  
  31. # method 指定相關(guān)系數(shù)的類型??蛇x類型為pearson、spearman或kendall  
  32.   
  33. #   
  34. # 協(xié)方差和相關(guān)系數(shù)  
  35.   
  36.   
  37. states<-state.x77[,1:6]  
  38. cov(states)  
  39. #   
  40. # > cov(states)  
  41. # Population      Income   Illiteracy     Life Exp      Murder  
  42. # Population 19931683.7588 571229.7796  292.8679592 -407.8424612 5663.523714  
  43. # Income       571229.7796 377573.3061 -163.7020408  280.6631837 -521.894286  
  44. # Illiteracy      292.8680   -163.7020    0.3715306   -0.4815122    1.581776  
  45. # Life Exp       -407.8425    280.6632   -0.4815122    1.8020204   -3.869480  
  46. # Murder         5663.5237   -521.8943    1.5817755   -3.8694804   13.627465  
  47. # HS Grad       -3551.5096   3076.7690   -3.2354694    6.3126849  -14.549616  
  48. # HS Grad  
  49. # Population -3551.509551  
  50. # Income      3076.768980  
  51. # Illiteracy    -3.235469  
  52. # Life Exp       6.312685  
  53. # Murder       -14.549616  
  54. # HS Grad       65.237894  
  55.   
  56.   
  57. cor(states)  
  58. cor(states,method = "spearman")  
  59. #   
  60. # > cor(states,method = "spearman")  
  61. # Population     Income Illiteracy   Life Exp     Murder    HS Grad  
  62. # Population  1.0000000  0.1246098  0.3130496 -0.1040171  0.3457401 -0.3833649  
  63. # Income      0.1246098  1.0000000 -0.3145948  0.3241050 -0.2174623  0.5104809  
  64. # Illiteracy  0.3130496 -0.3145948  1.0000000 -0.5553735  0.6723592 -0.6545396  
  65. # Life Exp   -0.1040171  0.3241050 -0.5553735  1.0000000 -0.7802406  0.5239410  
  66. # Murder      0.3457401 -0.2174623  0.6723592 -0.7802406  1.0000000 -0.4367330  
  67. # HS Grad    -0.3833649  0.5104809 -0.6545396  0.5239410 -0.4367330  1.0000000  
  68. # #   
  69. # 首個(gè)語句計(jì)算了方差和協(xié)方差,第二個(gè)語句則計(jì)算了Pearson積差相關(guān)系數(shù),而第三個(gè)語句計(jì)算  
  70. # 了Spearman等級(jí)相關(guān)系數(shù)。舉例來說,我們可以看到收入和高中畢業(yè)率之間存在很強(qiáng)的正相關(guān),  
  71. # 而文盲率和預(yù)期壽命之間存在很強(qiáng)的負(fù)相關(guān)  
  72.   
  73. #   
  74. # 請(qǐng)注意,在默認(rèn)情況下得到的結(jié)果是一個(gè)方陣(所有變量之間兩兩計(jì)算相關(guān))。你同樣可以  
  75. # 計(jì)算非方形的相關(guān)矩陣  
  76. # 當(dāng)你對(duì)某一組變量與另外一組變量之間的關(guān)系感興趣時(shí),cor()函數(shù)的這種用法是非常實(shí)用  
  77. # 的。注意,上述結(jié)果并未指明相關(guān)系數(shù)是否顯著不為0(即,根據(jù)樣本數(shù)據(jù)是否有足夠的證據(jù)得  
  78. # 出總體相關(guān)系數(shù)不為0的結(jié)論)。由于這個(gè)原因,你需要對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)(  
  79. #   
  80. # 2. 偏相關(guān)  
  81. # 偏相關(guān)是指在控制一個(gè)或多個(gè)定量變量時(shí),另外兩個(gè)定量變量之間的相互關(guān)系。你可以使用  
  82. # ggm包中的pcor()函數(shù)計(jì)算偏相關(guān)系數(shù)。ggm包沒有被默認(rèn)安裝,在第一次使用之前需要先進(jìn)行  
  83. # 安裝。函數(shù)調(diào)用格式為:pcor(u,s)其中的u是一個(gè)數(shù)值向量,前兩個(gè)數(shù)值表示要計(jì)算相關(guān)系數(shù)的變量下標(biāo),其余的數(shù)值為條件變量  
  84. # (即要排除影響的變量)的下標(biāo)。S為變量的協(xié)方差陣。  
  85.   
  86. library(ggm)  
  87. pcor(c(1,5,2,3,6),cov(states))  
  88. # > pcor(c(1,5,2,3,6),cov(states))  
  89. # [1] 0.3462724  
  90. # 本例中,在控制了收入、文盲率和高中畢業(yè)率的影響時(shí),人口和謀殺率之間的相關(guān)系數(shù)為  
  91. # 0.346。偏相關(guān)系數(shù)常用于社會(huì)科學(xué)的研究中。  
  92.   
  93. #   
  94. # 3. 其他類型的相關(guān)  
  95. # polycor包中的hetcor()函數(shù)可以計(jì)算一種混合的相關(guān)矩陣,其中包括數(shù)值型變量的  
  96. # Pearson積差相關(guān)系數(shù)、數(shù)值型變量和有序變量之間的多系列相關(guān)系數(shù)、有序變量之間的多分格相  
  97. # 關(guān)系數(shù)以及二分變量之間的四分相關(guān)系數(shù)。多系列、多分格和四分相關(guān)系數(shù)都假設(shè)有序變量或二  
  98. # 分變量由潛在的正態(tài)分布導(dǎo)出。請(qǐng)  
  99.   
  100.   
  101.   
  102. #   
  103. # 相關(guān)性的顯著性檢驗(yàn)  
  104. # 在計(jì)算好相關(guān)系數(shù)以后,如何對(duì)它們進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)?zāi)??常用的原假設(shè)為變量間不相關(guān)(即總體的相關(guān)系數(shù)為0)。  
  105.   
  106. #   
  107. # cor.test()函數(shù)對(duì)單個(gè)的Pearson、Spearman和Kendall相  
  108. # 關(guān)系數(shù)進(jìn)行檢驗(yàn):cor.test(x,y,alternative=,method=)  
  109.   
  110.   
  111. # 其中的x和y為要檢驗(yàn)相關(guān)性的變量,alternative則用來指定進(jìn)行雙側(cè)檢驗(yàn)或單側(cè)檢驗(yàn)(取值  
  112. # 為"two.side"、"less"或"greater"),而method用以指定要計(jì)算的相關(guān)類型("pearson"、  
  113. # "kendall"或"spearman")。  
  114. #當(dāng)研究的假設(shè)為總體的相關(guān)系數(shù)小于0時(shí),請(qǐng)使用alternative="less"  
  115. # 在研究的假設(shè)為總體的相關(guān)系數(shù)大于0時(shí),應(yīng)使用alternative="greater"。  
  116. #默認(rèn)情況下:為alternative="two.side"(總體相關(guān)系數(shù)不等于0)  
  117.   
  118.   
  119. cor.test(states[,3],states[,5])  
  120.   
  121.   
  122. #   
  123. # > cor.test(states[,3],states[,5])  
  124. #   
  125. # Pearson's product-moment correlation  
  126. #   
  127. # data:  states[, 3] and states[, 5]  
  128. # t = 6.8479, df = 48, p-value = 1.258e-08  
  129. # alternative hypothesis: true correlation is not equal to 0  
  130. # 95 percent confidence interval:  
  131. #  0.5279280 0.8207295  
  132. # sample estimates:  
  133. #       cor   
  134. # 0.7029752   
  135. #   
  136. # 這段代碼檢驗(yàn)了預(yù)期壽命和謀殺率的Pearson相關(guān)系數(shù)為0的原假設(shè)。假設(shè)總體的相關(guān)度為0,  
  137. # 則預(yù)計(jì)在一千萬次中只會(huì)有少于一次的機(jī)會(huì)見到0.703這樣大的樣本相關(guān)度(即p = 1.258e?08)。  
  138. # 由于這種情況幾乎不可能發(fā)生,所以你可以拒絕原假設(shè),從而支持了要研究的猜想,即預(yù)期壽命  
  139. # 和謀殺率之間的總體相關(guān)度不為0。  
  140.   
  141.   
  142. #   
  143. # 遺憾的是,cor.test每次只能檢驗(yàn)一種相關(guān)關(guān)系。但幸運(yùn)的是,psych包中提供的  
  144. # corr.test()函數(shù)可以一次做更多事情。。corr.test()函數(shù)可以為Pearson、Spearman或Kendall  
  145. #相關(guān)計(jì)算相關(guān)矩陣和顯著性水平  
  146. #   
  147. # corr.test計(jì)算相關(guān)矩陣并進(jìn)行顯著性檢驗(yàn)  
  148.   
  149. corr.test(states,use = "complete")  
  150.   
  151. #   
  152. # > corr.test(states,use = "complete")  
  153. # Call:corr.test(x = states, use = "complete")  
  154. # Correlation matrix   
  155. #             Population Income Illiteracy Life Exp Murder HS Grad  
  156. # Population       1.00   0.21       0.11    -0.07   0.34   -0.10  
  157. # Income           0.21   1.00      -0.44     0.34  -0.23    0.62  
  158. # Illiteracy       0.11  -0.44       1.00    -0.59   0.70   -0.66  
  159. # Life Exp        -0.07   0.34      -0.59     1.00  -0.78    0.58  
  160. # Murder           0.34  -0.23       0.70    -0.78   1.00   -0.49  
  161. # HS Grad         -0.10   0.62      -0.66     0.58  -0.49    1.00  
  162. # Sample Size   
  163. # [1] 50  
  164. # Probability values (Entries above the diagonal are adjusted for multiple tests.)   
  165. #             Population Income Illiteracy Life Exp Murder HS Grad  
  166. # Population       0.00   0.59       1.00      1.0   0.10       1  
  167. # Income           0.15   0.00       0.01      0.1   0.54       0  
  168. # Illiteracy       0.46   0.00       0.00      0.0   0.00       0  
  169. # Life Exp         0.64   0.02       0.00      0.0   0.00       0  
  170. # Murder           0.01   0.11       0.00      0.0   0.00       0  
  171. # HS Grad          0.50   0.00       0.00      0.0   0.00       0  
  172. #   
  173. # To see confidence intervals of the correlations, print with the short=FALSE option  
  174.   
  175. # 參數(shù)use=的取值可為"pairwise"或"complete"(分別表示對(duì)缺失值執(zhí)行成對(duì)刪除或行刪  
  176. # 除)。參數(shù)method=的取值可為"pearson"(默認(rèn)值)、"spearman"或"kendall"。人口數(shù)  
  177. # 量和高中畢業(yè)率的相關(guān)系數(shù)(-?0.10)并不顯著地不為0(p = 0.5)  
  178.   
  179. #   
  180. # 其他顯著性檢驗(yàn)  
  181. # 在7.4.1節(jié)中,我們關(guān)注了偏相關(guān)系數(shù)。在多元正態(tài)性的假設(shè)下,psych包中的pcor.test()  
  182. # 函數(shù)①可以用來檢驗(yàn)在控制一個(gè)或多個(gè)額外變量時(shí)兩個(gè)變量之間的條件獨(dú)立性。使用格式為:  
  183. # 其中的r是由pcor()函數(shù)計(jì)算得到的偏相關(guān)系數(shù),q為要控制的變量數(shù)(以數(shù)值表示位置),n為  
  184. # 樣本大小。  
  185. # 在結(jié)束這個(gè)話題之前應(yīng)當(dāng)指出的是,psych包中的r.test()函數(shù)提供了多種實(shí)用的顯著性  
  186. # 檢驗(yàn)方法。此函數(shù)可用來檢驗(yàn):  
  187. # ? 某種相關(guān)系數(shù)的顯著性;  
  188. # ? 兩個(gè)獨(dú)立相關(guān)系數(shù)的差異是否顯著;  
  189. # ? 兩個(gè)基于一個(gè)共享變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著;  
  190. # ? 兩個(gè)基于完全不同的變量得到的非獨(dú)立相關(guān)系數(shù)的差異是否顯著。  


補(bǔ)充知識(shí):

一 、相關(guān)性和顯著性的關(guān)系:

關(guān)系的顯著性(the significance of the relationship):指兩(或多)變量之間關(guān)系的統(tǒng)計(jì)顯著水平,一般要求p < 0.05。這是解釋的第一步,如果不顯著(p > 0.05)、不管其相關(guān)系數(shù)(回歸系數(shù)或其它描述關(guān)系強(qiáng)度的統(tǒng)計(jì)量)多強(qiáng)(這在小樣本的情況下會(huì)發(fā)生),都沒有繼續(xù)討論的意義,因?yàn)樵诳傮w中這種關(guān)系存在的可能性很低,如接受這種關(guān)系的風(fēng)險(xiǎn)太大(即Type I錯(cuò)誤)。

 

2.     關(guān)系的強(qiáng)度(the strength of the relationship):指相關(guān)系數(shù)(或其它類似統(tǒng)計(jì)量)的大小。以相關(guān)系數(shù)為例,一般認(rèn)為0.3以下為弱相關(guān)、0.3-0.7之間為中相關(guān)、0.7-1.0為強(qiáng)相關(guān)。這種分類也適用于其它標(biāo)準(zhǔn)化統(tǒng)計(jì)量(如標(biāo)準(zhǔn)回歸系數(shù), standardized regression coefficient,在SPSS中叫BETA)。大家知道,這些標(biāo)準(zhǔn)化的統(tǒng)計(jì)量的平方描述了兩(或多)個(gè)變量之間的重合部分(如我最近詳細(xì)解釋的回歸模型R2描述了自變量對(duì)因變量的解釋部分),從那個(gè)角度來看,弱相關(guān)的變量之間的重合不到10%、中相關(guān)變量之間的重合在1050%,強(qiáng)相關(guān)變量之間的重合在50%以上。

 

3.     關(guān)系的方向(the direction of the relationship):指相關(guān)系數(shù)(或其它類似統(tǒng)計(jì)量)的正負(fù)符號(hào)。如果原先的假設(shè)是單尾(one-tailed),如“上網(wǎng)會(huì)減少社交時(shí)間”、“上網(wǎng)會(huì)增加孤獨(dú)感”等,那么其相關(guān)系數(shù)的方向就十分重要。(從可證偽性原則來看,單尾假設(shè)比雙尾假設(shè)更好。)當(dāng)一對(duì)變量的關(guān)系是顯著并強(qiáng)烈、但是其方向與假設(shè)相反,該研究假設(shè)也必須被拒絕。當(dāng)然研究者應(yīng)該深入分析這種情況為何會(huì)發(fā)生。

 

4.     關(guān)系的形式(the form of the relationship):指變量之間的關(guān)系是線性(linear)還是非線性(nonlinear)。上述統(tǒng)計(jì)量描述的都是線性關(guān)系,如果不顯著、顯著而弱、顯著并強(qiáng)烈但反方向,也許其真正的關(guān)系不是線性而是非線性,所以我們不能簡單地收工回家,而要探索其非線性關(guān)系。當(dāng)然,后者更復(fù)雜、對(duì)于沒有良好的理論和方法訓(xùn)練的研究者更是容易掉進(jìn)種種陷阱。



二 、只有顯著性水平顯著時(shí),相關(guān)系數(shù)才是可信的

    也就說只看相關(guān)系數(shù)是說明不了問題的,還得看顯著性,而且還是顯著性水平顯著的時(shí)候,就可以說明相關(guān)系數(shù)論證的點(diǎn)可信的,我們知道相關(guān)系數(shù)有以下含義:

這里,
  
  
是一個(gè)可以表征
  
  
之間線性關(guān)系緊密程度的量。它具有兩個(gè)性質(zhì):
(1)
 
(2)
  
的充要條件是,存在常數(shù)a,b,使得
 
由性質(zhì)衍生:
a. 相關(guān)系數(shù)定量地刻畫了 X 和 Y的相關(guān)程度,即
  
越大,相關(guān)程度越大;
  
對(duì)應(yīng)相關(guān)程度最低;
b. X 和Y 完全相關(guān)的含義是在概率為1的意義下存在線性關(guān)系,于是
  
是一個(gè)可以表征X 和Y 之間線性關(guān)系緊密程度的量。當(dāng)
  
較大時(shí),通常說X 和Y相關(guān)程度較好;當(dāng)
  
較小時(shí),通常說X 和Y相關(guān)程度較差;當(dāng)X和Y不相關(guān),通常認(rèn)為X和Y之間不存在線性關(guān)系,但并不能排除X和Y之間可能存在其他關(guān)系。
若X和Y不相關(guān),
  
,通常認(rèn)為X和Y之間不存在線性關(guān)系,但并不能排除X和Y之間可能存在其他關(guān)系;若
 
,則X和Y不相關(guān)。
若X和Y獨(dú)立,則必有
  
,因而X和Y不相關(guān);若X和Y不相關(guān),則僅僅是不存在線性關(guān)系,可能存在其他關(guān)系,如
  
,X和Y不獨(dú)立。
看例圖:


    顯著系數(shù)P:

       P值即概率,反映某一事件發(fā)生的可能性大小。統(tǒng)計(jì)學(xué)根據(jù)顯著性檢驗(yàn)方法所得到的P 值,一般以P < 0.05 為有統(tǒng)計(jì)學(xué)差異, P<0.01 為有顯著統(tǒng)計(jì)學(xué)差異,P<0.001為有極其顯著的統(tǒng)計(jì)學(xué)差異。

P值
碰巧的概率
對(duì)無效假設(shè)
統(tǒng)計(jì)意義
P>0.05
碰巧出現(xiàn)的可能性大于5%
不能否定無效假設(shè)
兩組差別無顯著意義
P<0.05
碰巧出現(xiàn)的可能性小于5%
可以否定無效假設(shè)
兩組差別有顯著意義
P <0.01
碰巧出現(xiàn)的可能性小于1%
可以否定無效假設(shè)
兩者差別有非常顯著意義


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多