电竞比分网-中国电竞赛事及体育赛事平台

分享

SAS初階2

 fire216 2009-07-17

數(shù)據(jù)探索――一維方法

SAS/INSIGHT提供了十分方便的數(shù)據(jù)探索功能。對(duì)一維數(shù)據(jù),可以作直方圖、盒形圖、馬賽克圖,對(duì)二維數(shù)據(jù),可以作散點(diǎn)圖、曲線圖、散點(diǎn)圖矩陣,對(duì)三維數(shù)據(jù)可以作旋轉(zhuǎn)圖(三維散點(diǎn)圖)。在圖上可以選定一些觀測(cè),這些選擇結(jié)果會(huì)同時(shí)反映在數(shù)據(jù)窗口和其它圖中。

以SASUSER.CLASS數(shù)據(jù)集為例。選定變量HEIGHT,用“Analyze | Histogram/Bar Charts(Y) ”菜單可以打開(kāi)一個(gè)圖形窗口生成身高的分布 直方圖,如圖 10。

直方圖的每一個(gè)條形代表了繪圖變量(HEIGHT)在一個(gè)區(qū)間的取值情況,比如70到75之間的條形代表身高在70到75英寸的人,條形高度為組頻數(shù),即取值在這一區(qū)間的觀測(cè)個(gè)數(shù),可以看出這一組有一個(gè)學(xué)生。單擊這一條形選中在此范圍的觀測(cè),可以發(fā)現(xiàn)這時(shí)數(shù)據(jù)窗口的相應(yīng)觀測(cè)也被選定了,被選中的是Philip,身高72英寸。如果雙擊某一條形,比如60到65的條形,就可以在選定相應(yīng)觀測(cè)的同時(shí)彈出一個(gè)檢查觀測(cè)窗口,窗口中顯示各被選中的觀測(cè)序號(hào),以及其中一個(gè)觀測(cè)的各變量值。這樣可以很方便地檢查圖中各部分所對(duì)應(yīng)的觀測(cè)。為取消選定,只要在圖中空白處單擊即可。

作出的圖形有一個(gè)方框包圍。如果想改變圖形大小,可以單擊方框使其變粗,然后拖動(dòng)四個(gè)角中的一個(gè),就可以把圖形放大或縮小。甚至還可以把一個(gè)角向其對(duì)角方向拖動(dòng)一直拖過(guò)對(duì)角,這樣可以改變圖形的橫縱軸方向。拖動(dòng)邊框可以把圖形移動(dòng)到窗口內(nèi)其它位置。

圖形中提供了一個(gè)設(shè)置菜單,可以單擊圖形邊框角上的向右箭頭或在圖形內(nèi)右鍵單擊來(lái)打開(kāi)。菜單內(nèi)容包括Ticks,可以設(shè)置坐標(biāo)軸的具體畫(huà)法;Axes用來(lái)指定畫(huà)不畫(huà)坐標(biāo)軸;Observations 用來(lái)指定是否畫(huà)觀測(cè);Values指定是否標(biāo)出各條形高度值。

對(duì)連續(xù)數(shù)據(jù)(Int型)作直方圖可以反映其分布情況,對(duì)離散數(shù)據(jù)(Nom型)作直方圖同樣可以反映其分布,即取每一個(gè)離散值的比例大小(頻數(shù)分布)。比如,在作了身高的直方圖后,選定變量SEX,對(duì)其作直方圖,則結(jié)果打開(kāi)一個(gè)新圖形窗口作出只有兩個(gè)條形的條形圖,一個(gè)標(biāo)記為F,另一個(gè)標(biāo)記為M,高度分別為9和10,即有9個(gè)女生,10個(gè)男生,男女比例為10 :9。單擊標(biāo)F的條形,可以看到數(shù)據(jù)窗口中所有女生的觀測(cè)被選定,另外還可以看到已作的身高的直方圖也發(fā)生了變換,身高的每一個(gè)條形都分成了顏色不同的兩部分,其中下面的一部分代表女生。

在用Analyse菜單中的作圖命令作圖時(shí)如果沒(méi)有選定的變量則彈出一個(gè)對(duì)話框提問(wèn)用哪一個(gè)變量作圖,如果對(duì)身高作圖,只要選HEIGHT然后按Y鈕即可。

盒形圖

從圖形菜單中選Values 可以標(biāo)出圖中重要數(shù)據(jù)值??梢钥闯?,此盒形圖的橫軸沒(méi)有用處,縱軸代表身高的取值范圍。盒形的中間有一條粗線,這是身高分布的中位數(shù)的位置,盒子上邊線是分布的四分之三分位數(shù),下邊線是分布的四分之一分位數(shù),盒子上下邊線包含了分布的中間50%的觀測(cè)。盒子的長(zhǎng)度叫做分布的四分位間距,其作用類似于標(biāo)準(zhǔn)差,可以反映數(shù)據(jù)分布的分散程度。從盒子邊線向外畫(huà)了兩條線叫做觸須線,最長(zhǎng)可以延伸到四分位間距的1.5倍,但是如果已經(jīng)到了數(shù)據(jù)的最小值或最大值處就不再延伸。如果觸須線沒(méi)有達(dá)到數(shù)據(jù)的極端值,則這些數(shù)據(jù)點(diǎn)用觸須線以外的點(diǎn)來(lái)畫(huà)出,一般認(rèn)為這樣的點(diǎn)是異常點(diǎn)。從盒形圖可以看出數(shù)據(jù)的偏斜情況,比如我們看到盒子的下半部比上半部長(zhǎng),而且下觸須線比上觸須線長(zhǎng),說(shuō)明身高分布略左偏。

用盒形圖菜單中的“Means”選項(xiàng)可以在盒形圖上加畫(huà)一個(gè)菱形,菱形的中間代表分布的平均值,菱形端點(diǎn)到中間距離為兩倍標(biāo)準(zhǔn)差。如果是變量服從正態(tài)分布,菱形上下端點(diǎn)之間應(yīng)該包含大約95%的觀測(cè)。平均值和中位數(shù)的比較也能反映變量的偏斜情況,平均值低于中位數(shù)可能左偏。

單擊或雙擊盒形圖的某一部分(盒子上半部或下半部、觸須線、極端值)可以選定觀測(cè)。

盒形圖可以方便地比較按某分組變量分組后的分布情況。比如,如果我們想看一看男女的身高分布有何異同,不選任何變量啟動(dòng)“Analyze | Box Plot/Mosaic Plot”菜單,彈出選擇變量的對(duì)話框如圖 13。

選身高為Y變量,選性別為X變量,畫(huà)出的圖見(jiàn)圖 14。

圖中有兩個(gè)盒形圖,女生一個(gè),男生一個(gè)。從圖中看出,男生身高普遍高于女生,且女生身高分布左偏較男生嚴(yán)重。這種并排盒形圖可以十分直觀地比較兩個(gè)相關(guān)的分布。作盒形圖時(shí)指定多個(gè)Y變量也可以作出并排的盒形圖,比如,同時(shí)指定身高和體重作為Y變量作盒形圖就可以生成身高和體重的并排的盒形圖。

Analyze菜單的“Box Plot/Mosaic Plot”命令對(duì)連續(xù)型變量作盒形圖,對(duì)離散型變量將作 馬賽克圖。比如,對(duì)性別變量作圖得圖 16。

選“Values”菜單后標(biāo)出了男女的人數(shù)、百分比。馬賽克圖一般不對(duì)單個(gè)變量作,而是對(duì)兩個(gè)離散變量來(lái)作。比如,先把SASUSER.CLASS 中變量AGE的量測(cè)水平由Int改為Nom,然后取消所有變量的選定,啟動(dòng)“Box Plot/Mosai Plot ”,選SEX為Y變量,選AGE為X變量,作圖如圖 15。

這種圖的好處是直觀顯示了兩個(gè)變量每種取值組合的觀測(cè)個(gè)數(shù)和比例。單擊或雙擊其中一個(gè)方塊可以迅速選中一個(gè)分組,比如雙擊年齡為11性別為女(F)的方塊可以看到這一組的學(xué)生。

 

數(shù)據(jù)探索――二維

SAS/INSIGHT可以作曲線圖、散點(diǎn)圖、散點(diǎn)圖矩陣,可以在散點(diǎn)圖中刷亮觀測(cè)。

曲線圖

選DATETIME 為X變量,CO為Y變量,可以畫(huà)出CO的時(shí)間序列曲線圖。

單擊曲線上某一個(gè)點(diǎn)可以顯示其觀測(cè)序號(hào),雙擊可以檢查觀測(cè)。如果想單擊曲線上點(diǎn)時(shí)不顯示觀測(cè)序號(hào)而顯示記錄時(shí)間是幾點(diǎn),可以在曲線圖窗口中選主菜單的“Edit | Window | Renew”,可以再?gòu)棾鲎兞看翱?,選HOUR 并按Label鈕把時(shí)間指定為標(biāo)簽變量。這時(shí)在作的CO的曲線圖上單擊一個(gè)點(diǎn)顯示的就是記錄時(shí)間了??梢钥闯鯟O的高峰一般在早晨8點(diǎn)和晚上17點(diǎn)-21點(diǎn)。用圖形菜單(右鍵或單擊向右三角)中的Observations可以畫(huà)出各個(gè)數(shù)據(jù)點(diǎn)的符號(hào)。

可以在圖上同時(shí)畫(huà)出多條曲線。比如,想考察風(fēng)速對(duì)污染的影響,在圖形窗口中再用主菜單的“Edit | Window | Renew”,把WIND也作為Y變量,畫(huà)出的圖就有兩條不同顏色的曲線,單擊外面的CO變量符號(hào)和WIND變量符號(hào)可以加重顯示對(duì)應(yīng)的曲線以區(qū)分這兩條曲線。見(jiàn)圖 18 。圖中被選的點(diǎn)是風(fēng)速的最高值,時(shí)間是11點(diǎn)。注意在一條曲線中被選在另一條曲線中也被選。從此圖可以看出風(fēng)速對(duì)污染有較明顯的影響,風(fēng)大時(shí)污染較輕。

散點(diǎn)圖

從圖可以看出體重與身高有明顯的線性相關(guān)關(guān)系。

為了解哪一個(gè)點(diǎn)代表哪一個(gè)學(xué)生,單擊一個(gè)點(diǎn)可以顯示其觀測(cè)序號(hào),雙擊可以檢查觀測(cè)。為了在單擊時(shí)可以顯示學(xué)生名字而不是觀測(cè)序號(hào),需要把NAME指定為標(biāo)簽變量。這可以在生成散點(diǎn)圖時(shí)先不在數(shù)據(jù)窗口選X、Y變量而是直接啟動(dòng)“Analyze | Scatter Plot”菜單,彈出變量對(duì)話框,在其中選X、Y變量并把NAME指定為L(zhǎng)abel變量。這時(shí),單擊散點(diǎn)圖中最左下角的那個(gè)點(diǎn)可以顯示名字Sandy,單擊最右上角的那個(gè)點(diǎn)可以顯示Philip。選多個(gè)點(diǎn)可以用附加選中的辦法(Shift或Ctrl單擊)。

為了在散點(diǎn)圖中選定多個(gè)點(diǎn),SAS/INSIGHT還提供了一種稱為“ 刷亮(Brushing)”的操作。在圖中拖動(dòng)鼠標(biāo)光標(biāo)可以拖出一個(gè)小長(zhǎng)方形,在這個(gè)長(zhǎng)方形中的點(diǎn)都被選中,稱它為刷子。選中的點(diǎn)在數(shù)據(jù)窗口也被選中,可以在數(shù)據(jù)窗口翻頁(yè)查看,或用數(shù)據(jù)窗口的Find Next菜單命令查看,或在數(shù)據(jù)窗口用Move to First菜單命令把選中的點(diǎn)移到最前查看。雙擊長(zhǎng)方形(刷子)可以彈出檢查觀測(cè)窗口,在那里可以逐個(gè)查看選中的觀測(cè)內(nèi)容。

拖動(dòng)刷子的角可以改變其大小。拖動(dòng)刷子內(nèi)部可以移動(dòng)它的刷亮位置,使進(jìn)入刷子的點(diǎn)被選中,而離開(kāi)了刷子的點(diǎn)被取消選中??梢酝瑫r(shí)用附加選中(Ctrl單擊)的辦法加選不在刷子內(nèi)的點(diǎn),這些點(diǎn)還可以顯示標(biāo)簽。在拖動(dòng)刷子時(shí)如果同時(shí)按住Shift或Ctrl鍵則為附加選定,即進(jìn)入刷子的點(diǎn)被選中而離開(kāi)刷子的點(diǎn)仍保持被選中??梢园醋hift或Ctrl鍵拖出第二個(gè)刷子,這時(shí)第一個(gè)刷子不再顯示但它刷亮的點(diǎn)仍保持刷亮,移動(dòng)第二個(gè)刷子時(shí)如果按住Shift 或Ctrl鍵仍可保持已有選定。為了取消所有選定,只要點(diǎn)擊圖內(nèi)空白處。

散點(diǎn)圖矩陣

我們看到三個(gè)變量?jī)蓛山M合有三種組合,每種組合有兩個(gè)圖形(橫縱軸對(duì)換)。散點(diǎn)圖矩陣對(duì)角線為變量標(biāo)記和變量取值范圍,該變量是其所在行的縱軸變量,是其所在列的橫軸變量。比如第二行第一列的圖縱軸變量是HEIGHT ,橫軸變量是AGE,為身高對(duì)年齡的散點(diǎn)圖。其對(duì)稱位置(第一行第二列)是年齡對(duì)身高的散點(diǎn)圖,兩者只是把橫縱坐標(biāo)旋轉(zhuǎn)對(duì)調(diào)。

散點(diǎn)圖矩陣除了可以同時(shí)看到多個(gè)散點(diǎn)圖的優(yōu)點(diǎn)外主要是在一個(gè)散點(diǎn)圖中被選中的點(diǎn)在其它散點(diǎn)圖和數(shù)據(jù)窗口中也同時(shí)被選中。這樣,我們可以在一個(gè)圖中選一個(gè)極端點(diǎn),看它在其它圖中是否也處于極端位置。在一個(gè)散點(diǎn)圖中刷亮的點(diǎn)在其它散點(diǎn)圖中也同時(shí)被刷亮,這樣,我們可以觀察,年齡和身高都比較小時(shí),體重是否也比較低??梢砸苿?dòng)刷子,同時(shí)其它散點(diǎn)圖中被選中的點(diǎn)也在變化。從圖 20可以看出,年齡由小到大變化時(shí)身高、體重一般也變大,但同一年齡的學(xué)生的身高、體重差距較大。

SAS/INSIGHT提供了自動(dòng)移動(dòng)刷子的功能。在拖動(dòng)刷子時(shí)松開(kāi)鼠標(biāo)按鈕,類似于“拋出” 刷子,刷子就可以按拋出的方向繼續(xù)移動(dòng)并反彈。不過(guò)現(xiàn)在還較難控制自動(dòng)移動(dòng)的速度,有時(shí)移動(dòng)過(guò)快。

數(shù)據(jù)探索――三維

SAS/INSIGHT對(duì)三維數(shù)據(jù)可以作稱為旋轉(zhuǎn)圖的三維散點(diǎn)圖。比如,要對(duì)SASUSER.CLASS 中的學(xué)生年齡、身高、體重作三維散點(diǎn)圖,在數(shù)據(jù)窗口依次選定AGE、HEIGHT、WEIGHT,然后啟動(dòng)菜單“Analyze | Rotating Plot”,可以生成一個(gè)三維散點(diǎn)圖。圖 21是經(jīng)過(guò)旋轉(zhuǎn)后的圖形。

這種三維散點(diǎn)圖之所以稱為旋轉(zhuǎn)圖,是因?yàn)樽鴺?biāo)系可以在三維空間繞原點(diǎn)任意旋轉(zhuǎn)。圖形的左側(cè)有一個(gè)小工具欄,其中有向上、下、左、右、逆時(shí)針、順時(shí)針旋轉(zhuǎn)的圖標(biāo),再往下有一個(gè)滾動(dòng)條,用它來(lái)規(guī)定自動(dòng)旋轉(zhuǎn)的速度。左下角是圖形的菜單(向右的三角形)。

為了旋轉(zhuǎn)坐標(biāo)系,單擊左側(cè)的旋轉(zhuǎn)方向圖標(biāo)。按住旋轉(zhuǎn)圖標(biāo)可以連續(xù)旋轉(zhuǎn)。按住Shift或Ctrl 再旋轉(zhuǎn)可以實(shí)現(xiàn)自動(dòng)旋轉(zhuǎn)。當(dāng)鼠標(biāo)光標(biāo)移到圖形的四個(gè)角時(shí)光標(biāo)形狀變成了手的形狀,單擊可以旋轉(zhuǎn),拖動(dòng)可以連續(xù)旋轉(zhuǎn),拖動(dòng)時(shí)“拋出”可以自動(dòng)旋轉(zhuǎn)。自動(dòng)旋轉(zhuǎn)中可以隨時(shí)拖動(dòng)圖形以改變旋轉(zhuǎn)方向。

旋轉(zhuǎn)圖的菜單(圖 22)中,Ticks用來(lái)調(diào)整坐標(biāo)軸刻度,Axes可以選坐標(biāo)軸以數(shù)據(jù)中心點(diǎn)為原點(diǎn)、以左端點(diǎn)為原點(diǎn)、不畫(huà)坐標(biāo)軸。Observations指定畫(huà)出所有觀測(cè),如果沒(méi)有選中此項(xiàng)則只畫(huà)被選中的觀測(cè)。Rays從原點(diǎn)向每個(gè)散點(diǎn)畫(huà)射線。Cube在散點(diǎn)四周畫(huà)一個(gè)長(zhǎng)方體盒子。Depth可以使離視點(diǎn)近的點(diǎn)畫(huà)得較大,離得遠(yuǎn)的點(diǎn)畫(huà)得較小。Fast Draw指定用另一種較快的繪圖方法繪圖。Markers Sizes選擇散點(diǎn)的大小。

圖形的調(diào)整

SAS/INSIGHT提供了很強(qiáng)的調(diào)整繪制的圖形的功能。比如,調(diào)整坐標(biāo)軸的畫(huà)法,點(diǎn)的大小、符號(hào)、顏色,隱藏某些觀測(cè),等等。

給不同觀測(cè)使用不同的符號(hào)和顏色畫(huà)點(diǎn)有助于迅速區(qū)分不同類觀測(cè)的特點(diǎn)。比如,SASUSER.IRIS 數(shù)據(jù)集中包含了Fisher著名的Iris數(shù)據(jù),其中有三種不同的鳶尾屬植物的花瓣、花萼長(zhǎng)、寬的測(cè)量數(shù)據(jù),希望從這些測(cè)量數(shù)據(jù)找出區(qū)分這三種植物的指標(biāo)。為了直觀看到不同植物的測(cè)量數(shù)據(jù)的特征,最好用不同顏色畫(huà)每一種植物的散點(diǎn)。打開(kāi)數(shù)據(jù)集后,選定分類變量SPECIES ,調(diào)用“Analyse / Box Plot / Mosaic Plot”菜單來(lái)作其馬賽克圖,可以看到此變量的三個(gè)值為Virginica、Versicolor、Setosa。用“Edit | Windows | Tools”菜單可以打開(kāi)一個(gè)工具窗口,如圖 23。這個(gè)窗口可以改變觀測(cè)符號(hào)的顏色、符號(hào),連線的線型、線寬,可以放大圖形局部。

在打開(kāi)的馬賽克圖中先選定Virginica,這時(shí)所有類型Virginica的觀測(cè)被選中,按一下工具窗口中的紅色,就給所有這些觀測(cè)規(guī)定了繪圖符號(hào)為紅色。類似指定Virsicolor 為綠色,Setosa為藍(lán)色。作PETALWID(花瓣寬)對(duì)PETALLEN(花瓣長(zhǎng))的散點(diǎn)圖,可以作出三種不同植物用不同顏色繪點(diǎn)的散點(diǎn)圖,見(jiàn)圖 24。

利用一個(gè)變量的不同值來(lái)確定觀測(cè)繪點(diǎn)的顏色還可以自動(dòng)進(jìn)行,方法是先選定該變量(如SPECIES ),然后單擊工具窗口的漸變顏色棒,就可以為SPECIES的每一不同值分配一種不同顏色。這一方法不僅適用于SPECIES這樣的名義變量,也適用于數(shù)值型變量。顏色棒的顏色可以調(diào)整,比如要把顏色棒變?yōu)橛杉t到藍(lán),只要把紅色方塊拖到顏色棒左端,把藍(lán)色方塊拖到顏色棒右端。

為了改變繪點(diǎn)符號(hào)的大小,調(diào)用圖形菜單(圖形邊角上的向右三角符號(hào))中的Marker Sizes 菜單可以選擇一個(gè)合適的符號(hào)大小。

除了用不同顏色來(lái)區(qū)分不同種類的觀測(cè)外,還可以用不同的符號(hào)來(lái)畫(huà)不同的觀測(cè)。比如,選定SPECIES為Virginica的觀測(cè)后,單擊工具窗口的菱形圖標(biāo)把此類觀測(cè)的繪點(diǎn)符號(hào)變?yōu)榱庑?。類似指定Virsicolor用三角,Setosa用加號(hào),作的散點(diǎn)圖見(jiàn)圖 24。從圖中可以看出,用加號(hào)繪制的Setosa類和其它兩類差別很大,單靠花瓣的長(zhǎng)、寬就可以把這一類與其它兩類區(qū)分開(kāi),但是用菱形繪制的Virginica類和用三角繪制的Virsicolor類則在能大體區(qū)分開(kāi)的同時(shí)有少數(shù)觀測(cè)混雜在一起,所以單靠花瓣的長(zhǎng)、寬測(cè)量數(shù)據(jù)不能把這兩兩很好地區(qū)分開(kāi)。

利用一個(gè)分類變量來(lái)決定不同的繪點(diǎn)符號(hào)除了上述的對(duì)每一類觀測(cè)分別選定,然后指定繪點(diǎn)符號(hào)的辦法,還可以選定這一分類變量,然后單擊工具欄中繪點(diǎn)符號(hào)下面的多種符號(hào)的長(zhǎng)棒形圖標(biāo),可以自動(dòng)為每一類分配一個(gè)繪點(diǎn)符號(hào)。

不同類觀測(cè)用不同的顏色和符號(hào)來(lái)繪點(diǎn)是一種強(qiáng)有力的數(shù)據(jù)探索手段,恰當(dāng)使用可以直觀地發(fā)現(xiàn)不同類型觀測(cè)的區(qū)別。

分布研究

SAS/INSIGHT提供了很強(qiáng)的一維分布研究功能。對(duì)連續(xù)型變量,除了可以畫(huà)直方圖、盒形圖外,還可以作各種統(tǒng)計(jì)表,比如矩、分位數(shù)表,可以在直方圖上畫(huà)擬合密度曲線,可以檢驗(yàn)分布是否來(lái)自正態(tài)、對(duì)數(shù)正態(tài)、指數(shù)、威布爾分布,等等。對(duì)離散型變量,可以畫(huà)馬賽克圖、條形圖、頻數(shù)表。

為了研究SASUSER.CLASS中身高的分布,在未選中變量的情況下,啟動(dòng)“Analyze | Distribution(Y) ”菜單,出現(xiàn)圖 25的選擇變量對(duì)話框:

選Y變量為HEIGHT,按OK可以打開(kāi)一個(gè)新窗口,顯示身高的直方圖、盒形圖、矩統(tǒng)計(jì)量表(圖 26):

分位數(shù)表(圖 27):

各統(tǒng)計(jì)量是SAS中經(jīng)常使用的,我們?cè)诖思右哉f(shuō)明。設(shè)變量為 ,各觀測(cè)值為 。有時(shí)每個(gè)觀測(cè)還帶一個(gè)加權(quán) ,在沒(méi)有指定加權(quán)變量時(shí)認(rèn)為加權(quán)恒為1。

     

  • N-觀測(cè)個(gè)數(shù)

     

     

  • Sum Wgts-加權(quán)和

     

     

  • Mean-均值

     

     

  • Sum-總和

     

     

  • Std Dev-標(biāo)準(zhǔn)差

     

     

  • Variance-方差

     

     

  • Skewness-偏度

     

     

  • Kurtosis-峰度

     

     

  • USS-加權(quán)平方和

     

     

  • VSS-加權(quán)離差平方和

     

     

  • CV-變異系數(shù)

     

     

  • Std Mean-均值的標(biāo)準(zhǔn)誤差

 

其中加權(quán)的常見(jiàn)情形是當(dāng)一個(gè)觀測(cè)實(shí)際代表完全相同若干個(gè)樣品時(shí),求和、平方和等都要加權(quán)。比如,第i個(gè)觀測(cè)代表 個(gè)樣品時(shí),求變量Y的真正總和就需要用加權(quán)公式 。偏度可以表現(xiàn)變量分布的偏斜,負(fù)值為左偏,正值為右偏。峰度表現(xiàn)變量分布與正態(tài)分布相比是重尾(分布函數(shù)在正負(fù)無(wú)窮處衰減緩慢)還是輕尾(分布函數(shù)在正負(fù)無(wú)窮處衰減迅速)。標(biāo)準(zhǔn)誤差在統(tǒng)計(jì)中是一個(gè)十分重要的概念,它代表估計(jì)量作為隨機(jī)變量其標(biāo)準(zhǔn)差的估計(jì),這里的Std Mean是均值的標(biāo)準(zhǔn)差的估計(jì),實(shí)際計(jì)算公式是 ,而均值的理論標(biāo)準(zhǔn)差為 。如果估計(jì)量服從正態(tài)分布,通常用估計(jì)量加減兩倍標(biāo)準(zhǔn)誤差作為估計(jì)量的置信區(qū)間。

分位數(shù)表中,Max是最大值,Q3是四分之三分位數(shù),Med是中位數(shù)(反映數(shù)據(jù)中心位置),Q1 是四分之一分位數(shù),Min是最小值,Range是最大值減最小值,Q3-Q1為四分位間距,可以反映數(shù)據(jù)取值分散程度,Mode是眾數(shù),即出現(xiàn)最多的值。

在打開(kāi)了身高分布的窗口之后主菜單中的Tables、Graphs、Curves菜單被開(kāi)放。在Tables 菜單中可以選加一些統(tǒng)計(jì)表,比如Frequency Table是頻數(shù)表,為每一觀測(cè)值的頻數(shù)、累計(jì)頻數(shù)、百分比,C.I. for Mean可以計(jì)算均值的各種置信度的置信區(qū)間,Location Tests用于檢驗(yàn)均值為某常數(shù)值(一般是0)的假設(shè),可以用t檢驗(yàn)、符號(hào)檢驗(yàn)、符號(hào)秩檢驗(yàn),Gini's Mean Difference 是變量分布分散程度的一種穩(wěn)健估計(jì),計(jì)算公式為 ,對(duì)正態(tài)分布其期望值為 。Trimmed Mean, (1/2)N計(jì)算去掉最大(1/2)N 個(gè)和最小(1/2)N個(gè)值后的平均值,(1/2)N可以指定為1,2,3或自定值,這是變量中心位置的一種穩(wěn)健估計(jì),但估計(jì)量本身不再服從正態(tài)分布。Trimmed Mean, (1/2)Percent指定去掉最大、最小的百分之多少再計(jì)算均值。Winsorized Mean是把最大的(1/2)N個(gè)替換成由大到小第(1/2)N +1號(hào)值,把最小的(1/2)N個(gè)替換成由小到大第(1/2)N+1個(gè)值,然后計(jì)算的均值,它也是一種穩(wěn)健的均值估計(jì)。

在Graphs菜單中已選了直方圖、盒形圖,還可以作QQ圖,即分位數(shù)-分位數(shù)圖。

圖 28為身高的正態(tài)QQ圖,其中畫(huà)出了班上19個(gè)學(xué)生的19個(gè)點(diǎn),每個(gè)點(diǎn)的縱坐標(biāo)為變量值,而橫坐標(biāo)為該值的累計(jì)百分比頻數(shù)對(duì)應(yīng)的標(biāo)準(zhǔn)正態(tài)分位數(shù)。比如,身高最低的一個(gè)為51.3,其累計(jì)百分比頻數(shù)(即51.3的經(jīng)驗(yàn)分布函數(shù)值)為5.3%,即身高小于51.3的占5.3%,而標(biāo)準(zhǔn)正態(tài)分布的0.053分位數(shù)為-1.84570,所以此點(diǎn)的橫坐標(biāo)即-1.84570。如果身高服從正態(tài)分布,QQ圖的散點(diǎn)應(yīng)大致在一條直線附近變動(dòng)。QQ圖的各種不同形狀能夠反映出變量分布的偏斜情況和重、輕尾情況。在QQ圖中也可以選觀測(cè)、刷亮等。畫(huà)出QQ圖后選主菜單中的“Curves | QQ Ref Line ”可以為圖中散點(diǎn)畫(huà)一條擬合直線。

圖 28的身高的QQ圖顯示身高基本服從正態(tài)分布。如果我們畫(huà)SASUSER.GPA中GPA分?jǐn)?shù)的QQ 圖(圖 30):

就可以看到GPA的分布呈現(xiàn)左偏的情況。這是因?yàn)椋赒Q圖的左下端,GPA散點(diǎn)的走向比正態(tài)(圖中直線)偏下,說(shuō)明GPA分布的左尾比正態(tài)長(zhǎng);在QQ圖的右上端,GPA散點(diǎn)的走向比正態(tài)偏右下,說(shuō)明GPA分布的右尾比正態(tài)短,即分布左偏。作為驗(yàn)證,可以看一看的圖 29直方圖:

圖 32給出了與正態(tài)相比左偏、右偏、輕尾、重尾的分布的QQ圖的典型模式:

除了可以作正態(tài)分布QQ圖外,還可以作對(duì)數(shù)正態(tài)、指數(shù)分布、威布爾分布的QQ圖。對(duì)數(shù)正態(tài)要指定參數(shù)Sigma,威布爾分布要指定形狀參數(shù)C。

SAS/INSIGHT為研究一維變量分布除畫(huà)直方圖外還提供了兩類 分布密度估計(jì):參數(shù)估計(jì)和非參數(shù)估計(jì)。參數(shù)估計(jì)可以擬合正態(tài)、對(duì)數(shù)正態(tài)、指數(shù)、威布爾分布密度。非參數(shù)估計(jì)使用核估計(jì)。

比如,為了估計(jì)身高的正態(tài)密度并把密度曲線疊加在直方圖上,選“Curves | Parametric Density ”,彈出對(duì)話框圖 31:

指定正態(tài)分布且方法為用樣本估計(jì)分布密度參數(shù)。按OK后作出的圖見(jiàn)圖 33:

為了作身高密度的核估計(jì)圖,選“Curves | Kernel Density”,彈出一個(gè)對(duì)話框,可以選三種核函數(shù):正態(tài)核、三角核、二次函數(shù)核,可以自動(dòng)擬合最優(yōu)的密度估計(jì)(方法為AMISE )或者自己指定平滑參數(shù)C。見(jiàn)圖 33。

作了密度曲線圖后在圖形下面將出現(xiàn)顯示密度估計(jì)主要參數(shù)的表格,見(jiàn)圖 34:

單擊其中的曲線標(biāo)志可以加亮顯示圖中的曲線。對(duì)參數(shù)密度估計(jì),給出了估計(jì)的參數(shù),比如正態(tài)的均值、方差;對(duì)核估計(jì),給出了核函數(shù)類型,及平滑參數(shù)值。有些參數(shù)旁邊有一個(gè)滑塊,可以手工選擇參數(shù)的值。比如拖動(dòng)核估計(jì)中的平滑參數(shù),此參數(shù)變小時(shí)估計(jì)的曲線變粗糙,變大時(shí)曲線變光滑。

在“Curves”菜單中還提供了對(duì)樣本經(jīng)驗(yàn)分布函數(shù)的估計(jì)。選“Curves | Empirical CDF ”即繪制樣本經(jīng)驗(yàn)分布函數(shù)。選“Curves | CDF Confidence Band”并選一個(gè)置信限可以在經(jīng)驗(yàn)分布函數(shù)兩邊畫(huà)分布函數(shù)的置信限,見(jiàn)圖 35:

用經(jīng)驗(yàn)分布函數(shù)估計(jì)分布函數(shù)相當(dāng)于用直方圖估計(jì)分布密度。分布函數(shù)也可以用參數(shù)分布函數(shù)(如正態(tài)分布)來(lái)估計(jì)。選“Curves | Parametric CDF”并選分布類型可以畫(huà)出估計(jì)的分布函數(shù)。圖 35中的光滑曲線即用正態(tài)分布估計(jì)身高的分布函數(shù)。

SAS/INSIGHT還可以進(jìn)行分布檢驗(yàn),可以檢驗(yàn)數(shù)據(jù)是否來(lái)自某一類分布(參數(shù)未知),或檢驗(yàn)數(shù)據(jù)是否來(lái)自某一特定分布(參數(shù)已知)。選“Analyze | Test for Distribution”,并選擇是檢驗(yàn)正態(tài)、對(duì)數(shù)正態(tài)、指數(shù)、威布爾分布中哪一個(gè),選正態(tài)后,得到圖 36的結(jié)果。

它給出了分布類型、估計(jì)的分布均值、標(biāo)準(zhǔn)差,及Kolmogorov D統(tǒng)計(jì)量的值,并給出了檢驗(yàn)H0 :樣本來(lái)自正態(tài)分布的檢驗(yàn)p值(Prob > D)為>.15,說(shuō)明檢驗(yàn)結(jié)果不顯著,不能否定正態(tài)假設(shè)。

如果要檢驗(yàn)數(shù)據(jù)是否來(lái)自某一特定分布,選“Curves | Test for a Specific Distribution ”,并指定分布類型、分布參數(shù),可以計(jì)算檢驗(yàn)的Kolmogorov D統(tǒng)計(jì)量及相應(yīng)p值。圖 37是檢驗(yàn)身高是否標(biāo)準(zhǔn)正態(tài)分布的結(jié)果,可以看出p值為0.0001高度顯著,應(yīng)該否定數(shù)據(jù)來(lái)自標(biāo)準(zhǔn)正態(tài)的假設(shè)。

說(shuō)明:在SAS中,統(tǒng)計(jì)假設(shè)檢驗(yàn)的結(jié)果一般用檢驗(yàn)的p值給出。這與我們習(xí)慣的做法稍有不同,以單正態(tài)總體的均值檢驗(yàn)為例。假設(shè)我們要檢驗(yàn)SASUSER.CLASS中學(xué)生的身高是否均值為零(這當(dāng)然不可能,我們?yōu)楹?jiǎn)單起見(jiàn)用這種假設(shè)),設(shè)總體服從 ,要檢驗(yàn)的零假設(shè)為 ,水平0.05,統(tǒng)計(jì)量使用t統(tǒng)計(jì)量 ,一般我們用的假設(shè)檢驗(yàn)方法定否定域?yàn)閃={|t|>C} ,其中C為n-1自由度t分布的雙側(cè)0.05分位數(shù)(Pr{|t|>C}=0.05),當(dāng)用樣本算出的t統(tǒng)計(jì)量的值(如t=A)落入否定域時(shí)(|A|>C)否定零假設(shè)。在SAS中不需要這樣指定否定域,它可以先用樣本計(jì)算出t統(tǒng)計(jì)量的值(A),如果這個(gè)A絕對(duì)值很大就否定零假設(shè),t統(tǒng)計(jì)量絕對(duì)值值是不是很大可以用這樣一個(gè)p=Pr{|t|>|A|}來(lái)衡量,p是一個(gè)0到1之間的數(shù)值,顯然|A| 越大,p越小。p<0.05與|A|>C是等價(jià)的。所以,如果p小于0.05,就否定零假設(shè),稱檢驗(yàn)結(jié)果是顯著的。否則不否定零假設(shè)。對(duì)SASUSER.CLASS中HEIGHT變量,在其分布窗口中選菜單“Tables | Location Tests”并從彈出的對(duì)換框中選中t檢驗(yàn),要檢驗(yàn)的均值為0,得到的結(jié)果見(jiàn)圖 38。計(jì)算得到的t統(tǒng)計(jì)量值為A=52.9971,p值為Pr{|t|>52.9971}小于等于0.0001 。因p值小于0.05所以結(jié)果是否定零假設(shè),結(jié)論是身高均值不為零。

SAS/INSIGHT還提供了曲線擬合、回歸、logistic回歸、Poisson回歸、相關(guān)分析、主成分分析等高等統(tǒng)計(jì)功能,我們后面再陸續(xù)介紹。

畫(huà)出多個(gè)變量?jī)蓛砷g的散點(diǎn)圖以考察多變量關(guān)系。以SASUSER.CLASS為例,比如說(shuō)我們想了解年齡、身高、體重間的關(guān)系。先把年齡的量測(cè)水平設(shè)為連續(xù)型(Int),在數(shù)據(jù)窗口選定年齡、身高、體重,可以作出圖 20。
也有一個(gè)X變量和一個(gè)Y變量,但不要求X變量有從小到大的次序,畫(huà)圖不用連線而是用散點(diǎn)畫(huà)出每一對(duì)X、Y坐標(biāo)。比如對(duì)SASUSER.CLASS,我們希望通過(guò)畫(huà)圖了解身高和體重的關(guān)系。在數(shù)據(jù)窗口中先選定體重(Y軸變量)再附加選定身高(X軸變量),啟動(dòng)菜單 “Analyze | Scatter Plot”,就可以生成以體重為縱軸以身高為橫軸的散點(diǎn)圖(見(jiàn)圖 19)。
有一個(gè)取值由小到大的X變量,有一個(gè)或幾個(gè)Y變量,以X變量為橫坐標(biāo)對(duì)Y 變量畫(huà)曲線。為了演示曲線圖,打開(kāi)SASUSER.AIR數(shù)據(jù)集(用“File | Open”菜單)。這個(gè)數(shù)據(jù)集是德國(guó)某城市一周的每小時(shí)記錄的空氣污染情況。變量DATETIME是記錄的日期時(shí)間,為特殊SAS格式數(shù)據(jù),變量DAY為星期幾,HOUR為幾點(diǎn)鐘,CO、O3、SO2、NO、DUST分別為一氧化碳、臭氧、二氧化硫、一氧化氮、粉塵的濃度,WIND為風(fēng)速。要畫(huà)一氧化碳的曲線圖,可以在未選任何變量的情況下用“Analyse | Line Plot”,彈出變量對(duì)話框(圖 17)。
是另一種表現(xiàn)數(shù)值型變量分布的圖形。比如,要畫(huà)身高分布的盒形圖,選定變量HEIGHT然后用“Analyse | Box Plot/Mosaic Plot”可以作出圖 12。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多