|
1,什么是頻數(shù)分布 頻數(shù)也稱“次數(shù)”,對總數(shù)據(jù)按某種標(biāo)準(zhǔn)進(jìn)行分組,統(tǒng)計(jì)出各個(gè)組內(nèi)含個(gè)體的個(gè)數(shù)。我們把各個(gè)類別及其相應(yīng)的頻數(shù)全部列出來就是“頻數(shù)分布”或稱“次數(shù)分布”。 頻數(shù)分布的類型 在日常生活和經(jīng)濟(jì)管理中,常見的頻數(shù)分布曲線主要有正態(tài)分布(對稱分布)、偏態(tài)分布(skewed distribution)、J形分布、U形分布等幾種類型,如下圖所示: 正態(tài)分布是一種對稱的鐘形分布,有很多現(xiàn)象服從這種分布,如農(nóng)作物的單位面積產(chǎn)量、零件的公差、纖維強(qiáng)度等都服從正態(tài)分布,如圖(a)。J形分布有正J形和反J形兩種,如經(jīng)濟(jì)學(xué)中供給曲線,隨著價(jià)格的提高供給量以更快的速度增加,呈現(xiàn)為正J形;而需求曲線則表現(xiàn)為隨著價(jià)格的提高需求量以較快的速度減少,呈現(xiàn)為反J形。U形分布的特征是兩端的頻數(shù)分布多,中間的頻數(shù)分布少,比如,人和動(dòng)物的死亡率分布就近似服從U形分布,因?yàn)槿丝谥袐胗變汉屠夏耆说乃劳雎瘦^高,而中青年的死亡率則較低;產(chǎn)品的故障率也有類似的分布。 頻數(shù)分布的特征 頻數(shù)分布的兩個(gè)特征:集中趨勢(central tendency)和離散趨勢(tendency of dispersion)。 1、集中趨勢 大部分觀察值向某一數(shù)值集中的趨勢稱為集中趨勢,常用平均數(shù)指標(biāo)來表示,各觀察值之間大小參差不齊。 2、離散趨勢 頻數(shù)由中央位置向兩側(cè)逐漸減少,稱離散趨勢,是個(gè)體差異所致,可用一系列的變異指標(biāo)來反映。 2,什么是費(fèi)雪指數(shù) 費(fèi)雪指數(shù)是美國統(tǒng)計(jì)學(xué)家歐文·費(fèi)雪((Irving·Fisher)于1911年提出的。費(fèi)雪指數(shù)是指拉氏指數(shù)和派氏指數(shù)的幾何平均數(shù),主要用于對指數(shù)公式的測驗(yàn),以及調(diào)和拉氏與派氏兩種指數(shù)的矛盾,又被稱為“費(fèi)雪理想指數(shù)”。 費(fèi)雪還提出了評(píng)價(jià)指數(shù)優(yōu)劣的三項(xiàng)測驗(yàn)標(biāo)準(zhǔn): 1.時(shí)間互換測驗(yàn)標(biāo)準(zhǔn)。報(bào)告期對基期的指數(shù)和基期對報(bào)告期的指數(shù)的乘積應(yīng)等于1。 2.因子互換測驗(yàn)標(biāo)準(zhǔn)。物價(jià)指數(shù)和特量指數(shù)的乘積應(yīng)等于其總量指數(shù)。 3.循環(huán)測驗(yàn)標(biāo)準(zhǔn)。環(huán)比指數(shù)的乘積等于相應(yīng)的定基指數(shù)。 極少的綜合指數(shù)能夠通過費(fèi)雪提出的測驗(yàn)標(biāo)準(zhǔn),而費(fèi)雪提出幾何平均的指數(shù)公式可以通過前兩項(xiàng)測驗(yàn),因此費(fèi)雪將其稱為理想公式。 費(fèi)雪指數(shù)的公式 其價(jià)格指數(shù)和物量指數(shù)公式如下: 價(jià)格指數(shù): 物量指數(shù): 費(fèi)雪的價(jià)格指數(shù)在一些國際對比應(yīng)用較多。例如不少國家人均國民生產(chǎn)總值,就是借用價(jià)格指數(shù),運(yùn)用貨幣購買力平價(jià)指數(shù)法計(jì)算的;又如聯(lián)合國編制的地域差別生活費(fèi)指數(shù),也采用了價(jià)格指。 3,什么是區(qū)間估計(jì) 區(qū)間估計(jì)就是以一定的概率保證估計(jì)包含總體參數(shù)的一個(gè)值域,即根據(jù)樣本指標(biāo)和抽樣平均誤差推斷總體指標(biāo)的可能范圍。它包括兩部分內(nèi)容:一是這一可能范圍的大??;二是總體指標(biāo)落在這個(gè)可能范圍內(nèi)的概率。區(qū)間估計(jì)既說清估計(jì)結(jié)果的準(zhǔn)確程度,又同時(shí)表明這個(gè)估計(jì)結(jié)果的可靠程度,所以區(qū)間估計(jì)是比較科學(xué)的。 用樣本指標(biāo)來估計(jì)總體指標(biāo),要達(dá)到100%的準(zhǔn)確而沒有任何誤差,幾乎是不可能的,所以在估計(jì)總體指標(biāo)時(shí)就必須同時(shí)考慮估計(jì)誤差的大小。從人們的主觀愿望上看,總是希望花較少的錢取得較好的效果,也就是說希望調(diào)查費(fèi)用和調(diào)查誤差越小越好。但是,在其他條件不變的情況下,縮小抽樣誤差就意味著增加調(diào)查費(fèi)用,它們是一對矛盾。因此,在進(jìn)行抽樣調(diào)查時(shí),應(yīng)該根據(jù)研究目的和任務(wù)以及研究對象的標(biāo)志變異程度,科學(xué)確定答應(yīng)的誤差范圍。 區(qū)間估計(jì)必須同時(shí)具備三個(gè)要素。即具備估計(jì)值、抽樣極限誤差和概率保證程度三個(gè)基本要素。 抽樣誤差范圍決定抽樣估計(jì)的準(zhǔn)確性,概率保證程度決定抽樣估計(jì)的可靠性,二者密切聯(lián)系,但同時(shí)又是一對矛盾,所以,對估計(jì)的精確度和可靠性的要求應(yīng)慎重考慮。 區(qū)間估計(jì)的方法 在實(shí)際抽樣調(diào)查中,區(qū)間估計(jì)根據(jù)給定的條件不同,有兩種估計(jì)方法:①給定極限誤差,要求對總體指標(biāo)做出區(qū)間估計(jì);②給定概率保證程度,要求對總體指標(biāo)做出區(qū)間估計(jì)。 例1:某企業(yè)對某批電子元件進(jìn)行檢驗(yàn),隨機(jī)抽取100只,測得平均耐用時(shí)間為1000小時(shí),標(biāo)準(zhǔn)差為50小時(shí),合格率為94%,求: (1)以耐用時(shí)間的答應(yīng)誤差范圍Δx=10小時(shí),估計(jì)該批產(chǎn)品平均耐用時(shí)間的區(qū)間及其概率保證程度。 (2)以合格率估計(jì)的誤差范圍不超過2.45%,估計(jì)該批產(chǎn)品合格率的區(qū)間及其概率保證程度。 (3)試以95%的概率保證程度,對該批產(chǎn)品的平均耐用時(shí)間做出區(qū)間估計(jì)。 (4)試以95%的概率保證程度,對該批產(chǎn)品的合格率做出區(qū)間估計(jì)。 求(1)的計(jì)算步驟: ①求樣本指標(biāo):
②根據(jù)給定的Δx=10小時(shí),計(jì)算總體平均數(shù)的上、下限:
③根據(jù)t=Δx/μx=10/5=2,查概率表得F(t)=95.45% 由以上計(jì)算結(jié)果,估計(jì)該批產(chǎn)品的平均耐用時(shí)間在990~1010小時(shí)之間,有95.45%的概率保證程度。 求(2)的計(jì)算步驟: ①求樣本指標(biāo):
②根據(jù)給定的Δp=2.45%,求總體合格率的上、下限:
③根據(jù)t=Δp /μp=2.45%/2.38%=1.03,查概率表得F(t)=69.70% 由以上計(jì)算結(jié)果,估計(jì)該批產(chǎn)品的合格率在91.55%~96.45%之間,有69.70%的概率保證程度。 解:求(3)的計(jì)算步驟: ①求樣本指標(biāo):
②根據(jù)給定的F(t)=95%,查概率表得t=1.96。 ③根據(jù)Δx=t×μx=1.96×5=9.8,計(jì)算總體平均耐用時(shí)間的上、下限:
所以,以95%的概率保證程度估計(jì)該批產(chǎn)品的平均耐用時(shí)間在990.2~1009.8小時(shí)之間。 求(4)的計(jì)算步驟: ①求樣本指標(biāo):
②下限p-Δp=94%-4.6%=89.4% 上限p+Δp=94%+4.6%=98.6%。 所以,以95%的概率保證程度估計(jì)該批產(chǎn)品的合格率在89.4%~98.6%之間。 (一)當(dāng)%26sigma;2已知時(shí),求μ的置信區(qū)間 例2:某種零件的長度服從正態(tài)分布,從該批產(chǎn)品中隨機(jī)抽取9件,測得它們的平均長度為21.4毫米,已知總體標(biāo)準(zhǔn)差為%26sigma; = 0.15毫米,試建立該種零件平均長度的置信區(qū)間,假定給定置信水平為0.95。 解:已知X~N(μ,0.152),
,n=9,1-α=0.95,因?yàn)?/p>
~N(0,1) 所以對于給定的置信水平0.95,有
。 當(dāng)α=0.05時(shí),Uα/2=1.96,于是有
即總體均值的置信區(qū)間為[21.302,21.498]。 我們有95%的概率保證該種零件的平均長度在21.302毫米和21.498毫米之間。 例3:某保險(xiǎn)公司自投保人中隨機(jī)抽取36人,計(jì)算出此36人的平均年齡 =39.5歲,已知投保人年齡分布近似正態(tài)分布,標(biāo)準(zhǔn)差為7.2歲,試求所有投保人平均年齡的置信區(qū)間(1-α=99%)。 解:已知,X~N(μ,7.22),
歲,n=36,1-α=0.99,則 當(dāng)α=0.01,有U%26alpha; / 2 = U0.01 / 2 = U0.005 = 2.575,所以
,即總體的置信區(qū)間為[36.41,42.59]。有99%的把握保證投保人的平均年齡在36~42歲之間。 (二)當(dāng) 2未知時(shí),求μ的置信區(qū)間 不知道總體方差時(shí),一個(gè)很自然的想法是用樣本方差來代替,這時(shí),需要考慮的問題是,用樣本方差代替總體方差后,統(tǒng)計(jì)量 服從的是什么分布,以下定理給出了統(tǒng)計(jì)量T的分布形式。 定理 設(shè)
(n≥2)是來自總體N(μ,%26sigma;2)的一個(gè)樣本,則
~t(n-1) t分布具有如下特性: 1、t分布與標(biāo)準(zhǔn)正態(tài)分布相似,是以x=0為對稱軸的鐘形對稱分布,取值范圍是(-∞,+∞),但是t分布的方差大于1,比標(biāo)準(zhǔn)正態(tài)分布的方差大,所以從分布曲線看,t分布的曲線較標(biāo)準(zhǔn)正態(tài)分布平緩。 2、t分布的密度函數(shù)為
t分布的密度函數(shù)中只有一個(gè)參數(shù),稱為自由度。假如隨機(jī)變量X具有以上形式的分布密度,則稱X服從自由度為n的t分布,記為X~t(n)。隨著自由度的增大,t分布的變異程度逐漸減小,其方差逐漸接近1,當(dāng)n→∞時(shí),t分布成為正態(tài)分布。 3、隨機(jī)變量X落在某一區(qū)域內(nèi)的概率,等于t分布曲線下,相應(yīng)區(qū)域的面積,對于不同的n,同樣的區(qū)域下的概率不同。如n=10,X落入[-1.372,+1.372]區(qū)間的概率為0.9,而當(dāng)n=20時(shí),概率為0.9所對應(yīng)的區(qū)間為[-1.325,+1.325];當(dāng)n=30時(shí),概率為0.9所對應(yīng)的區(qū)間為[-1.31,+1.31]。 關(guān)于t分布的特性就討論到此,現(xiàn)在回到如何應(yīng)用t分布求解置信區(qū)間的問題,既然定理已經(jīng)證實(shí)了統(tǒng)計(jì)量
服從n-1個(gè)自由度的t分布,則對于給定的顯著性水平α,不難找出t%26alpha; / 2(n %26minus; 1),使得
。于是得到以1-α置信水平保證的置信區(qū)間
例4:某研究機(jī)構(gòu)進(jìn)行了一項(xiàng)調(diào)查來估計(jì)吸煙者一月花在抽煙上的平均支出,假定吸煙者買煙的月支出近似服從正態(tài)分布。該機(jī)構(gòu)隨機(jī)抽取了容量為26的樣本進(jìn)行調(diào)查,得到樣本平均數(shù)為80元,樣本標(biāo)準(zhǔn)差為20元,試以95%的把握估計(jì)全部吸煙者月均煙錢支出的置信區(qū)間。 解:已知
=80,S=20,n=26,1-α=0.95 由于不知道總體方差,所以用樣本方差代替。因?yàn)?/p> 根據(jù)α=0.05,查閱t分布表得,t0.05 / 2(25)=2.06。 所以有
={80-2.06(3.92)%26lt;μ%26lt;80+2.06(3.92)}=0.95,即總體的置信區(qū)間為[71.92,88.08]。 有95%的把握認(rèn)為吸煙者月均煙錢支出在71.92元到88.08元之間。 (三)單個(gè)非正態(tài)總體或總體分布未知,求U的置信區(qū)間 當(dāng)總體為非正態(tài)分布,或不知總體的分布形式時(shí),只要知道總體方差,則根據(jù)Lindeberg-Levy的中心極限定理,當(dāng)n很大時(shí),統(tǒng)計(jì)量
就近似服從標(biāo)準(zhǔn)正態(tài)分布,經(jīng)驗(yàn)上,n%26gt;30就可以認(rèn)為是大樣本了。 例5:設(shè)某金融機(jī)構(gòu)共有8042張應(yīng)收賬款單,根據(jù)過去記錄,所有應(yīng)收賬款的標(biāo)準(zhǔn)差為3033.4元?,F(xiàn)隨機(jī)抽查了250張應(yīng)收款單,得平均應(yīng)收款為3319元,求98%置信水平的平均應(yīng)收款。 解:已知
=3319元,n=250%26gt;30,1-α=0.98,%26sigma;=3033.4 因?yàn)?/p>
近似服從標(biāo)準(zhǔn)正態(tài)分布,U%26alpha; / 2 = U0.02 / 2 = 2.33,則總體均值的置信區(qū)間為
根據(jù)調(diào)查結(jié)果,我們有98%的把握認(rèn)為全部賬單的平均金額至少為2871.99元,至多為3766元。 以上例題雖然不知總體分布形式,但總體的方差是已知的,而在實(shí)際中往往并不知道總體的方差,在實(shí)際應(yīng)用中,只要是大樣本,則仍然可以用樣本方差代替統(tǒng)計(jì)量η中的總體方差,并以標(biāo)準(zhǔn)正態(tài)分布近似作為統(tǒng)計(jì)量η的抽樣分布。 例6:某地區(qū)抽查了400戶農(nóng)民家庭的人均化纖布的消費(fèi)量,得到平均值為3.3米,標(biāo)準(zhǔn)差為0.9米,試以95%的置信水平估計(jì)該地區(qū)農(nóng)民家庭人均化纖布的消費(fèi)量。 解:因?yàn)閚=400是大樣本,則有
置們區(qū)間為[3.204,3.396]。 所以,有95%的把握認(rèn)為該地區(qū)農(nóng)民化纖布的消費(fèi)量在3.204米至3.396米之間。 4,什么是點(diǎn)估計(jì) 點(diǎn)估計(jì)也稱定值估計(jì),它是以抽樣得到的樣本指標(biāo)作為總體指標(biāo)的估計(jì)量,并以樣本指標(biāo)的實(shí)際值直接作為總體未知參數(shù)的估計(jì)值的一種推斷方法。 點(diǎn)估計(jì)的方法 點(diǎn)估計(jì)的方法有矩估計(jì)法、順序統(tǒng)計(jì)量法、最大似然法、最小二乘法等。這里僅介紹最為簡單、直觀又常用的矩估計(jì)法。 在統(tǒng)計(jì)學(xué)中,矩是指以期望為基礎(chǔ)而定義的數(shù)字特征,一般分為原點(diǎn)矩和中心矩。 設(shè)X為隨機(jī)變量,對任意正整數(shù)k,稱E(Xk)為隨機(jī)變量X的k階原點(diǎn)矩,記為:
可見一階原點(diǎn)矩為隨機(jī)變量X的數(shù)學(xué)期望。 我們把Ck = E[X ? E(X)]k稱為以E(X)為中心的k階中心矩。 顯然,當(dāng)k=2時(shí), C2 = E[X ? E(X)]2 = σ2 可見二階中心矩為隨機(jī)變量X的方差。 例1:已知某種燈泡的壽命X~N(μ,σ2),其中,μ,σ2都是未知的,今隨機(jī)取得4只燈泡,測得壽命(單位:小時(shí))為1502,1453,1367,1650,試估計(jì)μ和σ。 解:因?yàn)棣淌侨w燈泡的平均壽命,
為樣本的平均壽命,很自然地會(huì)想到用
去估計(jì)μ;同理用S去估計(jì) 。由于
故μ及σ的估計(jì)值分別為1493小時(shí)及118.61小時(shí)。 矩估計(jì)法簡便、直觀,比較常用,但是矩估計(jì)法也有其局限性。首先,它要求總體的k階原點(diǎn)矩存在,若不存在則無法估計(jì);其次,矩估計(jì)法不能充分地利用估計(jì)時(shí)已掌握的有關(guān)總體分布形式的信息。 通常設(shè)θ為總體X的待估計(jì)參數(shù),一般用樣本
構(gòu)成一個(gè)統(tǒng)計(jì)量
來估計(jì)θ則稱
為θ的估計(jì)量。對于樣本的一組數(shù)值
,估計(jì)量
的值
稱θ的估計(jì)值。于是點(diǎn)估計(jì)即是尋求一個(gè)作為待估計(jì)參數(shù)θ的估計(jì)量
的問題。但是必須注意,對于樣本的不同數(shù)值,估計(jì)值是不相同的。 如在例中,我們分別用樣本平均數(shù)和樣本修正方差來估計(jì)總體數(shù)學(xué)期望和總體均方差,即有: 其對應(yīng)于給定的估計(jì)值
小時(shí),
小時(shí)。[1] 點(diǎn)估計(jì)的優(yōu)良性準(zhǔn)則 樣本統(tǒng)計(jì)量,如樣本均值 ,樣本標(biāo)準(zhǔn)差S,樣本成數(shù)如何用于對相應(yīng)總體參數(shù)μ、σ和p的點(diǎn)估計(jì)值。直觀上,這些樣本統(tǒng)計(jì)量對相應(yīng)總體參數(shù)的點(diǎn)估計(jì)值是很有吸引力的。然而,在用一個(gè)樣本統(tǒng)計(jì)量作為點(diǎn)估計(jì)量之前,統(tǒng)計(jì)學(xué)應(yīng)檢驗(yàn)說明這些樣本統(tǒng)計(jì)量是否具有某些與好的點(diǎn)估計(jì)量相聯(lián)系的性質(zhì)。本節(jié)我們討論好的點(diǎn)估計(jì)量的性質(zhì):無偏性、有效性和一致性。 由于有許多不同的樣本統(tǒng)計(jì)量用作總體不同參數(shù)的點(diǎn)估計(jì)量,本節(jié)我們采用如下的一般記號(hào)。
θ代表一總體的參數(shù),如總體均值、總體標(biāo)準(zhǔn)差和總體比率等等;
代表相應(yīng)的樣本統(tǒng)計(jì)量,如樣本均值、樣本標(biāo)準(zhǔn)差和樣本比率。 1、無偏性 如果樣本統(tǒng)計(jì)量的數(shù)學(xué)期望等于所估計(jì)的總體參數(shù)的值,該樣本統(tǒng)計(jì)量稱作總體參數(shù)的無偏估計(jì)量。無偏性的定義如下: 如果
則稱樣本統(tǒng)計(jì)量
是總體參數(shù)θ的無偏估計(jì)。 式中
——樣本統(tǒng)計(jì)量
的數(shù)學(xué)期望 因此,樣本無偏統(tǒng)計(jì)量的所有可能值的期望值或均值等于被估計(jì)的總體參數(shù)。 2、有效性 假定含n個(gè)元素的一個(gè)簡單隨機(jī)樣本用于給出同一總體參數(shù)的兩個(gè)不同的無偏點(diǎn)估計(jì)量。這時(shí),我們偏好于用標(biāo)準(zhǔn)差較小的點(diǎn)估計(jì)量,因?yàn)樗o出的估計(jì)值與總體參數(shù)更接近。有較小標(biāo)準(zhǔn)差的點(diǎn)估計(jì)量稱作比其他點(diǎn)估計(jì)量有更好的相對效率。 3、一致性 與一個(gè)好的點(diǎn)估計(jì)相聯(lián)系的第三個(gè)性質(zhì)為一致性。粗略地講,如果當(dāng)樣本容量更大時(shí),點(diǎn)估計(jì)量的值更接近于總體參數(shù),該點(diǎn)估計(jì)量是一致的。換言之,大樣本比小樣本趨于接進(jìn)一個(gè)更好的點(diǎn)估計(jì)。注意到對樣本均值
,我們證明標(biāo)準(zhǔn)差
。由于
與樣本容量相關(guān),較大的樣本容量得到的\sigma_{\bar{x}}的值更小,我們得出大樣本容量趨于給出的點(diǎn)估計(jì)更接近于總體均值μ。在這個(gè)意義上,我們可以說樣本均值是總體均值μ的一個(gè)一致估計(jì)量。 但由于在實(shí)際抽樣調(diào)查中一次只是隨機(jī)抽取一個(gè)樣本,導(dǎo)致估計(jì)值會(huì)因樣本的不同而不同,甚至產(chǎn)生很大的差異。所以說,點(diǎn)估計(jì)是一種的估計(jì)或推斷,其缺點(diǎn)是既沒有解決參數(shù)估計(jì)的精確問題,也沒有考慮估計(jì)的可靠性程度,只有區(qū)間估計(jì)才能解決這兩個(gè)問題。不過,由于點(diǎn)估計(jì)直觀、簡單,對于那些要求不太高的判斷和分析,可以使用此種方法。 5,什么是單線性相關(guān)分析 單線性相關(guān)分析是指對呈現(xiàn)線性相關(guān)關(guān)系的兩個(gè)變量之間相關(guān)關(guān)系的分析與研究。 單線性相關(guān)分析的特點(diǎn) 單線性相關(guān)分析具有如下特點(diǎn): 1、所研究的兩個(gè)變量是對等關(guān)系,不反映任何自變量和因變量的關(guān)系。 2、對兩個(gè)變量X和Y來說,相關(guān)分析只能計(jì)算出一個(gè)反映兩個(gè)變量間相關(guān)關(guān)系密切程度的相關(guān)系數(shù),計(jì)算中改變X和Y的位置,并不影響相關(guān)系數(shù)的數(shù)值。 3、相關(guān)系數(shù)的正、負(fù)號(hào),反映相關(guān)關(guān)系的方向。正號(hào)表示正相關(guān),負(fù)號(hào)表示負(fù)相關(guān)。 4、相關(guān)分析的資料是抽樣取得的樣本資料,因而相關(guān)的兩個(gè)變量都是隨機(jī)的。 6,什么是方差分析 方差分析(ANOVA)又稱“變異數(shù)分析”或“F檢驗(yàn)”,是R.A.Fister發(fā)明的,用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。 由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動(dòng)狀。造成波動(dòng)的原因可分成兩類,一是不可控的隨機(jī)因素,另一是研究中施加的對結(jié)果形成影響的可控因素。 一個(gè)復(fù)雜的事物,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數(shù)據(jù)分析找出對該事物有顯著影響的因素,各因素之間的交互作用,以及顯著影響因素的最佳水平等。方差分析是在可比較的數(shù)組中,把數(shù)據(jù)間的總的“變差”按各指定的變差來源進(jìn)行分解的一種技術(shù)。對變差的度量,采用離差平方和。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和,這是一個(gè)很重要的思想。 經(jīng)過方差分析若拒絕了檢驗(yàn)假設(shè),只能說明多個(gè)樣本總體均數(shù)不相等或不全相等。若要得到各組均數(shù)間更詳細(xì)的信息,應(yīng)在方差分析的基礎(chǔ)上進(jìn)行多個(gè)樣本均數(shù)的兩兩比較。 1、多個(gè)樣本均數(shù)間兩兩比較 多個(gè)樣本均數(shù)間兩兩比較常用q檢驗(yàn)的方法,即Newman-kueuls法,其基本步驟為:建立檢驗(yàn)假設(shè)-->樣本均數(shù)排序-->計(jì)算q值-->查q界值表判斷結(jié)果。 2、多個(gè)實(shí)驗(yàn)組與一個(gè)對照組均數(shù)間兩兩比較 多個(gè)實(shí)驗(yàn)組與一個(gè)對照組均數(shù)間兩兩比較,若目的是減小第II類錯(cuò)誤,最好選用最小顯著差法(LSD法);若目的是減小第I類錯(cuò)誤,最好選用新復(fù)極差法,前者查t界值表,后者查q'界值表。 方差分析的基本思想 基本思想:通過分析研究中不同來源的變異對總變異的貢獻(xiàn)大小,從而確定可控因素對研究結(jié)果影響力的大小。 下面我們用一個(gè)簡單的例子來說明方差分析的基本思想: 如某克山病區(qū)測得11例克山病患者和13名健康人的血磷值(mmol/L)如下:
問該地克山病患者與健康人的血磷值是否不同? 從以上資料可以看出,24個(gè)患者與健康人的血磷值各不相同,如果用離均差平方和(SS)描述其圍繞總均數(shù)的變異情況,則總變異有以下兩個(gè)來源:
而且:SS總=SS組間+SS組內(nèi) v總=v組間+v組內(nèi) 如果用均方(即自由度v去除離均差平方和的商)代替離均差平方和以消除各組樣本數(shù)不同的影響,則方差分析就是用組內(nèi)均方去除組間均方的商(即F值)與1相比較,若F值接近1,則說明各組均數(shù)間的差異沒有統(tǒng)計(jì)學(xué)意義,若F值遠(yuǎn)大于1,則說明各組均數(shù)間的差異有統(tǒng)計(jì)學(xué)意義。實(shí)際應(yīng)用中檢驗(yàn)假設(shè)成立條件下F值大于特定值的概率可通過查閱F界值表(方差分析用)獲得。 方差分析的應(yīng)用條件 應(yīng)用方差分析對資料進(jìn)行統(tǒng)計(jì)推斷之前應(yīng)注意其使用條件,包括: 1、可比性。若資料中各組均數(shù)本身不具可比性則不適用方差分析。 2、正態(tài)性。即偏態(tài)分布資料不適用方差分析。對偏態(tài)分布的資料應(yīng)考慮用對數(shù)變換、平方根變換、倒數(shù)變換、平方根反正弦變換等變量變換方法變?yōu)檎龖B(tài)或接近正態(tài)后再進(jìn)行方差分析。 3、方差齊性。即若組間方差不齊則不適用方差分析。多個(gè)方差的齊性檢驗(yàn)可用Bartlett法,它用卡方值作為檢驗(yàn)統(tǒng)計(jì)量,結(jié)果判斷需查閱卡方界值表。 方差分析主要用于: 1、均數(shù)差別的顯著性檢驗(yàn); 2、分離各有關(guān)因素并估計(jì)其對總變異的作用; 3、分析因素間的交互作用; 4、方差齊性檢驗(yàn)。 方差分析的主要內(nèi)容 根據(jù)資料設(shè)計(jì)類型的不同,有以下兩種方差分析的方法: 1、對成組設(shè)計(jì)的多個(gè)樣本均數(shù)比較,應(yīng)采用完全隨機(jī)設(shè)計(jì)的方差分析,即單因素方差分析。 2、對隨機(jī)區(qū)組設(shè)計(jì)的多個(gè)樣本均數(shù)比較,應(yīng)采用配伍組設(shè)計(jì)的方差分析,即兩因素方差分析。 兩類方差分析的基本步驟相同,只是變異的分解方式不同,對成組設(shè)計(jì)的資料,總變異分解為組內(nèi)變異和組間變異(隨機(jī)誤差),即:SS總=SS組間+SS組內(nèi),而對配伍組設(shè)計(jì)的資料,總變異除了分解為處理組變異和隨機(jī)誤差外還包括配伍組變異,即:SS總=SS處理+SS配伍+SS誤差。整個(gè)方差分析的基本步驟如下: 1、建立檢驗(yàn)假設(shè);
檢驗(yàn)水準(zhǔn)為0.05。 2、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值; 3、確定P值并作出推斷結(jié)果。 6,什么是DOE DOE(Design of Experiment)試驗(yàn)設(shè)計(jì),一種安排實(shí)驗(yàn)和分析實(shí)驗(yàn)數(shù)據(jù)的數(shù)理統(tǒng)計(jì)方法;試驗(yàn)設(shè)計(jì)主要對試驗(yàn)進(jìn)行合理安排,以較小的試驗(yàn)規(guī)模(試驗(yàn)次數(shù))、較短的試驗(yàn)周期和較低的試驗(yàn)成本,獲得理想的試驗(yàn)結(jié)果以及得出科學(xué)的結(jié)論。 試驗(yàn)設(shè)計(jì)源于1920年代研究育種的科學(xué)家Dr.Fisher的研究, Dr. Fisher是大家一致公認(rèn)的此方法策略的創(chuàng)始者, 但后續(xù)努力集其大成, 而使DOE在工業(yè)界得以普及且發(fā)揚(yáng)光大者, 則非Dr. Taguchi (田口玄一博士) 莫屬。 為什么需要DOE
另一方面,過程通過數(shù)據(jù)表現(xiàn)出來的變異,實(shí)際上來源于二部分:一部分來源于過程本身的變異,一部分來源于測量過程中產(chǎn)生的變差,如何知道過程表現(xiàn)出來的變異有多接近過程本身真實(shí)的變異呢?這就需要進(jìn)行MSA測量系統(tǒng)分析。 DOE實(shí)驗(yàn)的基本策略 策略一:篩選主要因子(X型問題化成A型問題) 實(shí)驗(yàn)成功的標(biāo)志:在ANOVA分析中出現(xiàn)了1~4個(gè)顯著因子;這些顯著因子的累積貢獻(xiàn)率在70%以上。 策略二:找出最佳之生產(chǎn)條件(A型問題化成 T型問題) 實(shí)驗(yàn)成功的標(biāo)志:在第二階段的實(shí)驗(yàn)中主要的誤差都是隨機(jī)因素造成的。 因?yàn)楦饕蜃咏圆伙@著,因此,每一因子之各項(xiàng)水準(zhǔn)均可使用,在此情況下豈不是達(dá)到了成本低廉且又容易控制之目的。 策略三:證實(shí)最佳生產(chǎn)條件有再現(xiàn)性。 7,什么是加權(quán)算術(shù)平均法? 利用過去若干個(gè)按照發(fā)生時(shí)間順序排列起來的同一變量的觀測值并以時(shí)間順序數(shù)為權(quán)數(shù),計(jì)算出觀測值的加權(quán)算術(shù)平均數(shù),以這一數(shù)字作為預(yù)測未來期間該變量預(yù)測值的一種趨勢預(yù)測方法。 加權(quán)算術(shù)平均法的原理 假設(shè)用下列符號(hào)表示各有關(guān)的數(shù)值: xi 各觀測值; wi 各觀測值的對應(yīng)權(quán)數(shù); y 加權(quán)算術(shù)平均數(shù)(即預(yù)測值)。 則加權(quán)算術(shù)平均數(shù)的計(jì)算公式如下: y=∑(xi*wi)/∑wi 加權(quán)算術(shù)平均法的意義 采用這種方法來確定預(yù)測值,目的是為了適當(dāng)擴(kuò)大近期實(shí)際成本量對未來期間成本量預(yù)測值的影響作用。 加權(quán)移動(dòng)平均法概述 加權(quán)移動(dòng)平均法就是根據(jù)同一個(gè)移動(dòng)段內(nèi)不同時(shí)間的數(shù)據(jù)對預(yù)測值的影響程度,分別給予不同的權(quán)數(shù),然后再進(jìn)行平均移動(dòng)以預(yù)測未來值。 加權(quán)移動(dòng)平均法不像簡單移動(dòng)平均法那樣,在計(jì)算平均值時(shí)對移動(dòng)期內(nèi)的數(shù)據(jù)同等看待,而是根據(jù)愈是近期數(shù)據(jù)對預(yù)測值影響愈大這一特點(diǎn),不同地對待移動(dòng)期內(nèi)的各個(gè)數(shù)據(jù)。對近期數(shù)據(jù)給予較大的權(quán)數(shù),對較遠(yuǎn)的數(shù)據(jù)給予較小的權(quán)數(shù),這樣來彌補(bǔ)簡單移動(dòng)平均法的不足。 加權(quán)平均法的計(jì)算公式 加權(quán)平均法的計(jì)算公式如下:
式中: Yn + 1——第n+1期加權(quán)平均值; Yi——第i期實(shí)際值; x_i——第i期的權(quán)數(shù)(權(quán)數(shù)的和等于1); n——本期數(shù); k——移動(dòng)跨期; 用加權(quán)移動(dòng)平均法求預(yù)測值,對近期的趨勢反映較敏感,但如果一組數(shù)據(jù)有明顯的季節(jié)性影響時(shí),用加權(quán)移動(dòng)平均法所得到的預(yù)測值可能會(huì)出現(xiàn)偏差。因此,有明顯的季節(jié)性變化因素存在時(shí),最好不要加權(quán)。 簡單時(shí)間序列平滑法概述 簡單時(shí)間序列平滑法是時(shí)間序列平滑預(yù)測的基本法。 所謂時(shí)間序列平滑預(yù)測是指用平均的方法,把時(shí)間序列中的隨機(jī)波動(dòng)剔除掉,使序列變得比較平滑,以反映出其基本軌跡,并結(jié)合一定的模型進(jìn)行預(yù)測。所平均的范圍可以是整個(gè)序列(整體平均數(shù)),也可以是序列中的一部分(局部平均數(shù)); 所用平均數(shù)可以是簡單平均數(shù),也可以是加權(quán)平均數(shù)。在一次平均之后,就局部平均而言,還可以進(jìn)行第二次、第三次以至更多次的平均,進(jìn)行多層次的平滑。 所以,平滑預(yù)測的方法也是多種多樣的。 簡單時(shí)間序列平滑法是指用簡單平均數(shù)進(jìn)行預(yù)測的一類預(yù)測方法。當(dāng)給定一組數(shù)據(jù)或觀測值后,這些數(shù)值的平均數(shù)的種類很多,常見的有算術(shù)平均數(shù)、幾何平均數(shù)、調(diào)和平均數(shù)、加權(quán)算術(shù)平均數(shù)、移動(dòng)平均數(shù)與指數(shù)平滑平均數(shù)等。這些平均數(shù)各有各的計(jì)算方法,各有各的特點(diǎn)與用途,在使用平均法進(jìn)行預(yù)測時(shí),首先要判斷使用哪一種或哪幾種能夠滿足需要,然后再根據(jù)相應(yīng)的計(jì)算方法求之。 由于算術(shù)平均數(shù)、幾何平均數(shù)、調(diào)和平均數(shù)、加權(quán)算術(shù)平均數(shù)的計(jì)算方法相對其余幾種來說,比較簡單,故常稱這幾種平均數(shù)的求法為“簡單平均法”。 簡單時(shí)間序列法的計(jì)算公式 簡單時(shí)間序列法公式: F(T+1)=(1 / N) * Σ X(I) X(I)為時(shí)間序列的第I期的實(shí)際值 F(T+1)為預(yù)測值 N為平均的個(gè)數(shù) T為預(yù)測的年份 注:時(shí)間序列周期數(shù)選3 例:1979、1980、1981年的銷售額分別為2000、2100、2250,則1982年為(2000+2100+2250)/3 8,什么是自由度 自由度,英文稱degree of freedom,簡稱DF,是指當(dāng)以樣本的統(tǒng)計(jì)量來估計(jì)總體的參數(shù)時(shí),樣本中獨(dú)立或能自由變化的數(shù)據(jù)的個(gè)數(shù),通常用在抽樣分布中。假如df=n-k,則其中n為樣本含量,k為被限制的條件數(shù)或變量個(gè)數(shù)。
為了方便進(jìn)一步理解自由度的概念,可參見下述范例: 例1: 估計(jì)總體的平均數(shù)(
)時(shí),由于樣本中的
個(gè)數(shù)都是相互獨(dú)立的,任一個(gè)尚未抽出的數(shù)都不受已抽出任何數(shù)值的影響,所以自由度為
。 例2: 估計(jì)總體的方差(
)時(shí)所使用的統(tǒng)計(jì)量是樣本的方差
,而
必須用到樣本平均數(shù)
來計(jì)算。
在抽樣完成后已確定,所以大小為
的樣本中只要
個(gè)數(shù)確定了,第
個(gè)數(shù)就只有一個(gè)能使樣本符合
的數(shù)值。也就是說,樣本中只有
個(gè)數(shù)可以自由變化,只要確定了這
個(gè)數(shù),方差也就確定了。這里,平均數(shù)
就相當(dāng)于一個(gè)限制條件,由于加了這個(gè)限制條件,樣本方差
的自由度為
。 例3: 統(tǒng)計(jì)模型的自由度等于可自由取值的自變量的個(gè)數(shù)。如在回歸方程中,如果共有
個(gè)參數(shù)需要估計(jì),則其中包括了
個(gè)自變量(與截距對應(yīng)的自變量是常量)。因此該回歸方程的自由度為
。 9,什么是回歸系數(shù) 回歸系數(shù),英文稱coefficient of regression,是指回歸分析中反應(yīng)因變量與自變量的相依程度的指標(biāo),例如一元線性回歸方程Y=bX+a中,b就是回歸系數(shù),表示當(dāng)自變量X變動(dòng)一個(gè)單位時(shí),其因變量Y的估計(jì)值變動(dòng)的單位數(shù)。 回歸系數(shù)與相關(guān)系數(shù)的聯(lián)系: 1.對一組數(shù)據(jù)若能同時(shí)計(jì)算b和r,它們的符號(hào)一致。 2.b和r的假設(shè)檢驗(yàn)是等價(jià)的,即對同一樣本tb=tr。 3.用回歸可以解釋相關(guān) 回歸分析中有一個(gè)叫決定系數(shù)的指標(biāo),它的取值是在0~1之間的,決定系數(shù)值越接近1表明回歸的效果越好??梢宰C明,相關(guān)系數(shù)r平方等于決定系數(shù)的值,用公式記為:
10,什么是列欄 列(欄),英文稱column,是伴隨統(tǒng)計(jì)表而存在的,一個(gè)統(tǒng)計(jì)表中包含有總標(biāo)題、列欄標(biāo)題、橫行標(biāo)題、數(shù)字資料等幾部分。
11,什么是組合表 組合表,又稱復(fù)合表,英文稱combinative table,是統(tǒng)計(jì)表的一種,是指表的主詞按照兩個(gè)或兩個(gè)以上的標(biāo)志分組的統(tǒng)計(jì)表,有利于深入的分析比較復(fù)雜的數(shù)據(jù)情況。例如,下圖便是組合表的一種情形:
12,什么是因變量 因變量,英文稱dependent variable,是指某特定的數(shù)會(huì)隨另一個(gè)(或另幾個(gè))會(huì)變動(dòng)的數(shù)的變動(dòng)而變動(dòng),就稱為因變量。如:Y=f(X)中,Y隨X的變化而變化。Y是因變量,X是自變量。 從某種程度上講,自變量是“原因”,而因變量就是“結(jié)果”。例如,市場上一般賣10元一斤的豬肉,因?yàn)檫@幾天下暴雨而漲價(jià)2元。設(shè)定我買進(jìn)豬肉的錢是Y, 豬肉一般的價(jià)格為10,現(xiàn)在漲價(jià)X元。這就可以把函數(shù)式寫成:Y=10+X。表示因?yàn)闈q價(jià)的多少(X),而影響到我買進(jìn)豬肉時(shí)的錢要多少(Y)。在這 里,X是自變量,Y是因變量。 13,什么是臨界值(閥值) 臨界值,又稱閥值,英文稱critical value,是指是指一個(gè)效應(yīng)能夠產(chǎn)生的最低值或最高值。臨界值在數(shù)據(jù)分析中常常用來判定異常情況,比如我們在廣告投放中常常設(shè)定自己的臨界值,當(dāng)高于臨界值,我們就假定渠道廣告造假,需要重點(diǎn)盯防分析。 統(tǒng)計(jì)學(xué)中,常使用箱形圖(Box-plot)來判定是否異常,來判定臨界值的大小。
14,什么是全面調(diào)查 全面調(diào)查,英文稱complete survey,是指對調(diào)查對象中所包含的全部單位無一遺漏的調(diào)查,其主要目的在于取得總體現(xiàn)象比較全面系統(tǒng)的總量指標(biāo)。如各種普查和全面統(tǒng)計(jì)報(bào)表。 在我國,全面調(diào)查國家統(tǒng)計(jì)系統(tǒng)和各個(gè)業(yè)務(wù)部門為了定期取得系統(tǒng)的、全面的基本統(tǒng)計(jì)資料,按一定的要求和表式自上而下統(tǒng)一布置,自下而上提供資料的一種統(tǒng)計(jì)調(diào)查方法。例如人口普查、經(jīng)濟(jì)普查等都屬于全面調(diào)查的范疇。 全面調(diào)查的特點(diǎn) 調(diào)查對象范圍廣,單位多,內(nèi)容比較全面。但一般需要耗費(fèi)大量的人力、物力和時(shí)間。因此,調(diào)查內(nèi)容不宜太多,一般應(yīng)限于必須掌握的、能夠?yàn)榫幹婆c檢查國民 經(jīng)濟(jì)和社會(huì)發(fā)展計(jì)劃所必需的全社會(huì)的基本情況的指標(biāo)。應(yīng)逐步改變一切都要依靠全面統(tǒng)計(jì)報(bào)表搜集資料的習(xí)慣,盡量采用一些非全面調(diào)查的方法。 全面調(diào)查的缺點(diǎn) 1.全面調(diào)查只能反映事物的一般狀況,不利于對事物作深入細(xì)致的調(diào)查和研究; 2.全面調(diào)查需調(diào)查總體全部單位,涉及面廣,所需要的人力、物力、時(shí)間都較多,組織起來也較困難; 3.全面調(diào)查不夠靈活; 4.全面調(diào)查的局限性,有些只適合非全面調(diào)查。 15,什么是組距 組距,英文稱class interval,是指一組數(shù)據(jù)中最高數(shù)值與最低數(shù)值之間的距離,組距的大小和標(biāo)志變量數(shù)列的全距大小成正比變化,與組數(shù)多少成反比變化。 計(jì)算公式:
n=1+3.322lgN 關(guān)于組距分組: 組距分組是將全部變量值依次劃分為若干個(gè)區(qū)間,并將這一區(qū)間的變量值作為一組。組距分組是數(shù)值型數(shù)據(jù)分組的基本形式。 在組距分組中,各組之間的取值界限稱為組限,一個(gè)組的最小值稱為下限,最大值稱為上限;上限與下限的差值稱為組距;上限與下限值的平均數(shù)稱為組中值,它是一組變量值的代表值。 16,什么是集中趨勢 集中趨勢,英文稱central tendency,是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。其在中心附近的觀察值數(shù)目較多,遠(yuǎn)離中心的較少,常??捎闷骄鶖?shù)、眾數(shù)、中位數(shù)等統(tǒng)計(jì)指標(biāo)來表示。 當(dāng)一組數(shù)據(jù)分布不呈集中趨勢時(shí),用平均數(shù)來反應(yīng)其整體情況往往是不合理的,比如平均工資,平均房價(jià)等
17,什么是百分位數(shù) 百分位數(shù)又稱百分位分?jǐn)?shù)(percentile),是一種相對地位量數(shù),它是次數(shù)分布中的一個(gè)點(diǎn)。把一個(gè)次數(shù)分布排序后,分為100個(gè)單位,百分位數(shù) 就是次數(shù)分布中相對于某個(gè)特定百分點(diǎn)的原始分?jǐn)?shù),它表明在次數(shù)分布中特定個(gè)案百分比低于該分?jǐn)?shù)。百分位數(shù)用P加下標(biāo)m(特定百分點(diǎn))表示。譬如,若P30 等于60,則其表明在該次數(shù)分布中有30%的個(gè)案低于60分。 百分位數(shù)的應(yīng)用 百分位數(shù)用于描述一組數(shù)據(jù)某一百分位置的水平,多個(gè)百分位數(shù)結(jié)合應(yīng)用,可全面描述一組觀察值的分布特征;百分位數(shù)還可用于確定非正態(tài)分布資料的醫(yī)學(xué)參考值范圍。但應(yīng)用百分位數(shù)時(shí),樣本含量要足夠大,否則不宜取太靠近兩端的百分位數(shù)。 百分位數(shù)的計(jì)算
其中,Pm——第m百分位數(shù); L——Pm所在組的組實(shí)下限; U——Pm所在組的組實(shí)上限; f——Pm所在組的次數(shù); Fb——小于L的累積次數(shù); Fa——大于U的累積次數(shù)。 【例1】某省某年公務(wù)員考試考生分?jǐn)?shù)分布如下表所示,預(yù)定取考分居前15%的考生進(jìn)行面試選拔,請劃定面試分?jǐn)?shù)線。
解:由于預(yù)定取考分居前15%的考生進(jìn)行面試,即有85%的考生分?jǐn)?shù)低于劃定的分?jǐn)?shù)線,由此可知,分?jǐn)?shù)線在70~74這一組中。
【例2】對于考試成績的統(tǒng)計(jì),如果您的成績處在95的百分位數(shù)上,則意味著95%的參加考試者得到了和您一樣的考分或還要低的考分,而不是您答對了 95%的試題。也許您只答對了20%,即使如此,您取得的成績也與95%的參加考試者一樣好,或者比95%的參加考試者更好[2]。 【例3】假設(shè)想為退休存夠錢??蓜?chuàng)建一個(gè)包括所有不確定變量的模型,如投資年回報(bào)率、通貨膨脹、退休時(shí)的開支等,得到概率分布的結(jié)果如下圖所示,如果選擇平均值,錢不夠的概率就會(huì)有50%。所以選第90百分位數(shù)所對應(yīng)的投資數(shù),這樣錢不夠的概率將只有10%。
18,什么是完全相關(guān) 完全相關(guān),英文稱completely correlation,是指兩列變量的關(guān)系是一一對應(yīng),完全確立的關(guān)系。在坐標(biāo)軸上描繪兩列變量時(shí)會(huì)形成一條直線。通常,當(dāng)兩個(gè)變量的相關(guān)系數(shù)為1時(shí),也被視為完全相關(guān)。 所謂相關(guān),是指兩個(gè)或兩個(gè)以上變量間相互關(guān)系是否密切。相關(guān)分析僅限于測定兩個(gè)或兩個(gè)以上變量具有相關(guān)關(guān)系者,其主要目的是計(jì)算出兩個(gè)或兩個(gè)以上變量間的相關(guān)程度和性質(zhì)。 如果一個(gè)變量的變化是由其他變量的數(shù)量變化所唯一確定,此時(shí)變量間的關(guān)系就是完全相關(guān)。即因變量y的數(shù)值完全隨自變量x的變動(dòng)而變動(dòng),它在相關(guān)圖上表現(xiàn)為所有的觀察點(diǎn)都落在同一條直線上,這種情況下,相關(guān)關(guān)系實(shí)際上是函數(shù)關(guān)系。所以,函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。 19,什么是統(tǒng)計(jì)決策理論 統(tǒng)計(jì)決策理論的概述 統(tǒng)計(jì)決策理論是由統(tǒng)計(jì)學(xué)家A.瓦爾德在1950年提出的一種數(shù)理統(tǒng)計(jì)學(xué)的理論,這種理論把數(shù)理統(tǒng)計(jì)問題看成是統(tǒng)計(jì)學(xué)家與大自然之間的博弈;用這種觀點(diǎn)把各種各樣的統(tǒng)計(jì)問題統(tǒng)一起來,以對策論的觀點(diǎn)來研究。在此以前,人們對數(shù)理統(tǒng)計(jì),主要是著眼于其推斷的功能,亦即從觀測數(shù)據(jù)出發(fā)對總體作出某種論斷。至于由此應(yīng)該采取什么決策或行動(dòng),會(huì)產(chǎn)生什么后果,則被認(rèn)為不屬于統(tǒng)計(jì)的范疇。瓦爾德的理論則把后面這一部分內(nèi)容也納入統(tǒng)計(jì)的范圍之內(nèi),這在數(shù)理統(tǒng)計(jì)學(xué)上是一項(xiàng)革新,有較大的實(shí)際意義。 在一個(gè)統(tǒng)計(jì)問題中,統(tǒng)計(jì)工作者掌握的資料是樣本X =(x1,x2…,xn),X所來自的總體的分布Fθ中包含的參數(shù)θ為未知,而只知道θ所屬的集合Θ(Θ為θ所有可能取值的集合,稱為參數(shù)空間)。但是,采取什么決策最好,則取決于未知的θ值。用形象化的說法,θ是由大自然在參數(shù)空間中選定的,人們力圖去找到它。大自然掌握了θ的秘密,而這個(gè)秘密又通過樣本泄露出來,統(tǒng)計(jì)工作者的任務(wù)就是根據(jù)樣本 X中所包含的關(guān)于θ的信息,去作出良好的決策。例如,一家商店根據(jù)抽樣決定是否接受一批來貨,一個(gè)工廠根據(jù)市場調(diào)查的結(jié)果決定某種產(chǎn)品生產(chǎn)多少等,希望所采取的行動(dòng)取得盡可能好的效果,或者說,使“行動(dòng)不當(dāng)”所造成的損失盡可能小。 統(tǒng)計(jì)決策三要素 可以通過三個(gè)要素把一個(gè)統(tǒng)計(jì)決策問題表達(dá)出來。 ① 樣本空間H與樣本分布族{Fθ:θ∈Θ}這個(gè)要素規(guī)定了問題的概率模型。樣本空間是樣本可能的取值范圍,而樣本分布族是樣本所可能遵從的分布的集合。 ② 行動(dòng)空間A 它是統(tǒng)計(jì)工作者可以采取的單純策略(或稱行動(dòng))的集合。例如,設(shè)θ為一維參數(shù),要對θ作區(qū)間估計(jì),則實(shí)軸上任一區(qū)間[a,b]構(gòu)成一個(gè)單純策略,這時(shí)行動(dòng)空間為所有[a,b]構(gòu)成的集合,即{[a,b]:-∞<><> ③ 損失函數(shù)L 統(tǒng)計(jì)決策理論有一個(gè)基本出發(fā)點(diǎn):所采取的行動(dòng)的后果可以數(shù)量化。設(shè)參數(shù)真值為θ,統(tǒng)計(jì)工作者采取的行動(dòng)為a,則所遭受的損失可表為a與θ的函數(shù)L(θ, a),稱之為損失函數(shù)。在一個(gè)具體問題中,采取什么損失函數(shù)最好,是一個(gè)需要進(jìn)行大量調(diào)查研究以至理論工作的問題,這也是在使用決策理論時(shí)的一個(gè)困難點(diǎn)。 統(tǒng)計(jì)決策函數(shù) 當(dāng)三個(gè)要素都已給定時(shí),統(tǒng)計(jì)工作者采取什么行動(dòng),取決于他所掌握的樣本。求一個(gè)統(tǒng)計(jì)決策問題的解,就是制定一個(gè)規(guī)則,以便對樣本空間中每一點(diǎn),在行動(dòng)空間中都有一個(gè)元素與之對應(yīng),也就是找一個(gè)定義于樣本空間H,而取值于行動(dòng)空間A的函數(shù)或分布函數(shù)δ,當(dāng)有了樣本 X,就按δ采取行動(dòng),稱δ為決策函數(shù)。用對策論的語言,δ就是統(tǒng)計(jì)工作者所采取的策略。 選擇決策函數(shù)的準(zhǔn)則 對一個(gè)統(tǒng)計(jì)決策問題,為選定一個(gè)較優(yōu)的決策函數(shù),需要建立反映決策函數(shù)優(yōu)劣的指標(biāo)。風(fēng)險(xiǎn)函數(shù)R(θ,δ)就是這樣的指標(biāo),定義為R(θ,δ)=Eθ [L(θ,δ(X)],即采取決策函數(shù)δ而參數(shù)真值為θ時(shí)所遭受的平均損失。風(fēng)險(xiǎn)函數(shù)愈小,決策函數(shù)愈好。在這個(gè)原則下,可以引進(jìn)種種更具體且可行的準(zhǔn)則。 ① 容許性準(zhǔn)則 設(shè)δ為一決策函數(shù),若存在另一決策函數(shù)δ,使對一切θ∈有R(θ,δ)≤R(θ,δ),且不等號(hào)至少在Fθ中的某一點(diǎn)成立,則稱δ為不可容許的,否則為可容許的。從風(fēng)險(xiǎn)愈小愈好的原則出發(fā),當(dāng)δ不可容許時(shí),便沒有理由使用它。判定一個(gè)決策函數(shù)是否可容許,是統(tǒng)計(jì)決策理論中一個(gè)重要而且困難的問題。在風(fēng)險(xiǎn)函數(shù)愈小愈好的原則下,若存在決策函數(shù)δ0,對一切θ∈必成立R(θ,δ0)≤R(θ,δ),其中δ為任一決策函數(shù),則δ0是最好的決策函數(shù),稱為一致最優(yōu)決策函數(shù)。但這種決策函數(shù)一般不存在,因而不得不放寬條件,常采用的有兩種方法:一種是不對風(fēng)險(xiǎn)函數(shù)在上作逐點(diǎn)比較,而采用某種綜合性指標(biāo);另一種方法是先從一定角度對允許使用的決策函數(shù)加以一定限制,然后再找一致最優(yōu)的,從而又引出下列準(zhǔn)則。 ② 最小化最大準(zhǔn)則 最大風(fēng)險(xiǎn)
是一種綜合性指標(biāo),若存在使最大風(fēng)險(xiǎn)最小的決策函數(shù)δ,使得對一切決策函數(shù)δ都有:M(δ)≥M(δ),則稱δ是最小化最大決策函數(shù),它反映了一種較穩(wěn)健或保守的策略思想。 ③ 貝葉斯準(zhǔn)則 它以貝葉斯風(fēng)險(xiǎn)為指標(biāo), 在參數(shù)空間上選定一概率測度ξ,稱ξ為θ(θ∈Θ)的先驗(yàn)分布,而稱
為決策函數(shù)δ的相對于ξ的貝葉斯風(fēng)險(xiǎn),它也是一個(gè)綜合性指標(biāo)。若對一切決策函數(shù)δ都成立,稱δ為ξ的貝葉斯決策函數(shù)。 ④ 最優(yōu)同變性準(zhǔn)則 這是一種在限制決策函數(shù)有同變性的條件下,求一致最優(yōu)決策函數(shù)的準(zhǔn)則。同變性是指當(dāng)問題由于平移、刻度等變換而發(fā)生變化時(shí),相應(yīng)的決策(對策)也能有同步地變換的性質(zhì)。例如,在正態(tài)總體N(μ,1)中抽樣x1,x2,…,xn以估計(jì)μ,若將度量原由零點(diǎn)(O)移到с處,則樣本在新坐標(biāo)系下變?yōu)閤1+с,x2+с…,xn+с,而參數(shù)變?yōu)棣?с,如果接受“估計(jì)結(jié)果不應(yīng)與坐標(biāo)原點(diǎn)的取法有關(guān)”的原則,則所用的決策δ應(yīng)滿足:對任何實(shí)數(shù)с,有δ(X1 + c,X2 + c,...,Xn + c) = δ(X1,X2,...,Xn) + c ;稱這樣的 δ在平移變換下有同變性??梢栽跇颖究臻gH上考慮更復(fù)雜的一一變換群,而定義在這個(gè)變換群之下的同變性,在所有具有同變性的決策函數(shù)類中,風(fēng)險(xiǎn)一致最小的決策函數(shù)被稱為最優(yōu)同變決策函數(shù)。 在點(diǎn)估計(jì)中,限制使用的估計(jì)量有無偏性,采用平方損失函數(shù)
,在這個(gè)限制下,一致最優(yōu)估計(jì)量就是一致最小方差無偏估計(jì)。這是另一個(gè)在限制決策函數(shù)下,求一致最優(yōu)策略的例子。 一旦選定了優(yōu)良性標(biāo)準(zhǔn),統(tǒng)計(jì)決策問題的解決,就相當(dāng)于一個(gè)數(shù)學(xué)上的最優(yōu)化問題。1950年后的幾十年來在這方面做了不少工作,這不僅使統(tǒng)計(jì)問題有了嚴(yán)格的數(shù)學(xué)提法,同時(shí)也在形式上部分地突出了瓦爾德的想法,把形式不一樣的統(tǒng)計(jì)問題歸并在一個(gè)模式下統(tǒng)一處理。決策函數(shù)的觀點(diǎn)使統(tǒng)計(jì)更注重了所采取行動(dòng)的效果,也使統(tǒng)計(jì)問題提法更加多樣化,從而開拓了某些新的研究領(lǐng)域,例如前面提到的關(guān)于容許性及最小化最大準(zhǔn)則的研究。因此,瓦爾德的理論受到統(tǒng)計(jì)學(xué)界的重視,成為二次大戰(zhàn)后統(tǒng)計(jì)學(xué)史上一個(gè)重大事件。但是,在這個(gè)問題上的看法也并不一致,英國統(tǒng)計(jì)學(xué)家M.肯德爾認(rèn)為“損失的數(shù)量化”并非在任何情況下都合理可行,而且他還認(rèn)為,把統(tǒng)計(jì)問題歸之于統(tǒng)計(jì)工作者與大自然之間的博弈的觀點(diǎn),是值得懷疑的。 20,什么是中心極限定理 大數(shù)定律揭示了大量隨機(jī)變量的平均結(jié)果,但沒有涉及到隨機(jī)變量的分布的問題。而中心極限定理說明的是在一定條件下,大量獨(dú)立隨機(jī)變量的平均數(shù)是以正態(tài)分布為極限的。 中心極限定理是概率論中最著名的結(jié)果之一。它提出,大量的獨(dú)立隨機(jī)變量之和具有近似于正態(tài)的分布。因此,它不僅提供了計(jì)算獨(dú)立隨機(jī)變量之和的近似概率的簡單方法,而且有助于解釋為什么有很多自然群體的經(jīng)驗(yàn)頻率呈現(xiàn)出鐘形(即正態(tài))曲線這一事實(shí),因此中心極限定理這個(gè)結(jié)論使正態(tài)分布在數(shù)理統(tǒng)計(jì)中具有很重要的地位,也使正態(tài)分布有了廣泛的應(yīng)用。 中心極限定理的表現(xiàn)形式 中心極限定理也有若干個(gè)表現(xiàn)形式,這里僅介紹其中四個(gè)常用定理: (一)辛欽中心極限定理 設(shè)隨機(jī)變量
相互獨(dú)立,服從同一分布且有有限的數(shù)學(xué)期望a和方差σ2,則隨機(jī)變量
,在n無限增大時(shí),服從參數(shù)為a和
的正態(tài)分布即n→∞時(shí),
將該定理應(yīng)用到抽樣調(diào)查,就有這樣一個(gè)結(jié)論:如果抽樣總體的數(shù)學(xué)期望a和方差σ2是有限的,無論總體服從什么分布,從中抽取容量為n的樣本時(shí),只要n足夠大,其樣本平均數(shù)的分布就趨于數(shù)學(xué)期望為a,方差為σ2 / n的正態(tài)分布。 (二)德莫佛——拉普拉斯中心極限定理 設(shè)μn是n次獨(dú)立試驗(yàn)中事件A發(fā)生的次數(shù),事件A在每次試驗(yàn)中發(fā)生的概率為P,則當(dāng)n無限大時(shí),頻率設(shè)μn / n趨于服從參數(shù)為
的正態(tài)分布。即:
該定理是辛欽中心極限定理的特例。在抽樣調(diào)查中,不論總體服從什么分布,只要n充分大,那么頻率就近似服從正態(tài)分布。 (三)李亞普洛夫中心極限定理 設(shè)
是一個(gè)相互獨(dú)立的隨機(jī)變量序列,它們具有有限的數(shù)學(xué)期望和方差:
。 記
,如果能選擇這一個(gè)正數(shù)δ>0,使當(dāng)n→∞時(shí),
,則對任意的x有:
該定理的含義是:如果一個(gè)量是由大量相互獨(dú)立的隨機(jī)因素影響所造成的,而每一個(gè)別因素在總影響中所起的作用不很大,則這個(gè)量服從或近似服從正態(tài)分布。 (四)林德貝爾格定理 設(shè)
是一個(gè)相對獨(dú)立的隨機(jī)變量序列,它們具有有限的數(shù)學(xué)期望和方差 滿足林德貝爾格條件,則當(dāng)n→∞時(shí),對任意的x,有
。 中心極限定理案例分析 案例一:中心極限定理在商業(yè)管理中的應(yīng)用 水房擁擠問題:假設(shè)西安郵電學(xué)院新校區(qū)有學(xué)生5000人,只有一個(gè)開水房,由于每天傍晚打開水的人較多,經(jīng)常出現(xiàn)同學(xué)排長隊(duì)的現(xiàn)象,為此校學(xué)生會(huì)特向后勤集團(tuán)提議增設(shè)水龍頭。假設(shè)后勤集團(tuán)經(jīng)過調(diào)查,發(fā)現(xiàn)每個(gè)學(xué)生在傍晚一般有1%的時(shí)間要占用一個(gè)水龍頭,現(xiàn)有水龍頭45個(gè),現(xiàn)在總務(wù)處遇到的問題是: (1)未新裝水龍頭前,擁擠的概率是多少? (2)至少要裝多少個(gè)水龍頭,才能以95%以上的概率保證不擁擠? 解:(1)設(shè)同一時(shí)刻,5000個(gè)學(xué)生中占用水龍頭的人數(shù)為X,則 X~B(5000,0.01) 擁擠的概率是
有定理2,n=5000,p=0.01,q=0.99,
故
即擁擠的概率 P(ζ > 45) = 1 ? 0.2389 = 0.7611 (2)欲求m,使得
即
由于
即
查表
即
需裝62個(gè)水龍頭。 問題的變形: (3)至少安裝多少個(gè)水龍頭,才能以99%以上的概率保證不擁擠? 解:欲求m,使得
即
由
即
查表
即m≥66.4 故需要裝67個(gè)水龍頭。 (4)若條件中已有水龍頭數(shù)量改為55個(gè),其余的條件不變,1,2兩問題結(jié)果如何? 解:(1)
(2)同上。 (5)若條件中的每個(gè)學(xué)生占用由1%提高到1.5%,其余的條件不變,則(1), (2)兩問題結(jié)果如何? 解:(1)設(shè)同一時(shí)刻,5000個(gè)學(xué)生中占用水龍頭的人數(shù)為X,則 X-B(5000,0.015) 已知n=5000,p=0.015,q=0.985,np=75,
擁擠的概率達(dá)
(2)欲求m,使得
即
由
即
查表
即m≥89.14 故需裝90個(gè)水龍頭。 中心極限定理以嚴(yán)格的數(shù)學(xué)形式闡明了在大樣本條件下,不論總體的分布如何,樣本的均值總是近似地服從正態(tài)分布。如果一個(gè)隨機(jī)變量能夠分解為獨(dú)立同分布的隨機(jī)變量序列之和,則可以直接利用中心極限定理進(jìn)行解決??傊?,恰當(dāng)?shù)厥褂弥行臉O限定理解決實(shí)際問題有著極其重要意義。, 21,什么是大數(shù)定律 大數(shù)定律是指在隨機(jī)試驗(yàn)中,每次出現(xiàn)的結(jié)果不同,但是大量重復(fù)試驗(yàn)出現(xiàn)的結(jié)果的平均值卻幾乎總是接近于某個(gè)確定的值。 其原因是,在大量的觀察試驗(yàn)中,個(gè)別的、偶然的因素影響而產(chǎn)生的差異將會(huì)相互抵消,從而使現(xiàn)象的必然規(guī)律性顯示出來。例如,觀察個(gè)別或少數(shù)家庭的嬰兒出生情況,發(fā)現(xiàn)有的生男,有的生女,沒有一定的規(guī)律性,但是通過大量的觀察就會(huì)發(fā)現(xiàn),男嬰和女嬰占嬰兒總數(shù)的比重均會(huì)趨于50%。 大數(shù)定律的表現(xiàn)形式 定義1:設(shè)
為概率空間(Ω,F,P)上定義的隨機(jī)變量序列(簡稱隨機(jī)序列),若存在隨機(jī)變數(shù)
,使對任意
,恒有: 則稱隨機(jī)序列
依概率收斂于隨機(jī)變量
(
也可以是一個(gè)常數(shù)),并用下面的符號(hào)表示:
或
定義2:設(shè)
為一隨機(jī)序列,數(shù)學(xué)期望
)存在,令
,若
0(P),則稱隨機(jī)序列
服從大數(shù)定律,或者說大數(shù)法則成立。 定義3:設(shè)Fn(x)是分布函數(shù)序列,若存在一個(gè)非降函數(shù)F(x),對于它的每一連續(xù)點(diǎn)x,都有
,則稱分布函數(shù)序列Fn(x)弱收斂于F(x)。 定義4:設(shè)
分別是隨機(jī)變量
及
的分布函數(shù),若
,則稱
依分布收斂于
,亦記為
,且有:(1)若
,則
;(2)設(shè)c為常數(shù),則
的充要條件是
。 逆極限定理:設(shè)特征函數(shù)列fn(t)收斂于某一函數(shù)f(t),且f(t)在t=0時(shí)連續(xù),則相應(yīng)的分布函數(shù)列Fn(x)弱收斂于某一分布函數(shù)F(x),而且f(t)是F(x)的特征函數(shù)。 大數(shù)定律有若干個(gè)表現(xiàn)形式。這里僅介紹其中常用的兩個(gè)重要定律: (一)切貝雪夫大數(shù)定理 設(shè)
是一列兩兩相互獨(dú)立的隨機(jī)變量,服從同一分布,且存在有限的數(shù)學(xué)期望a和方差σ2,則對任意小的正數(shù)ε,有:
該定律的含義是:當(dāng)n很大,服從同一分布的隨機(jī)變量
的算術(shù)平均數(shù)
將依概率接近于這些隨機(jī)變量的數(shù)學(xué)期望。 將該定律應(yīng)用于抽樣調(diào)查,就會(huì)有如下結(jié)論:隨著樣本容量n的增加,樣本平均數(shù)將接近于總體平均數(shù)。從而為統(tǒng)計(jì)推斷中依據(jù)樣本平均數(shù)估計(jì)總體平均數(shù)提供了理論依據(jù)。 (二)貝努里大數(shù)定律 設(shè)μn是n次獨(dú)立試驗(yàn)中事件A發(fā)生的次數(shù),且事件A在每次試驗(yàn)中發(fā)生的概率為P,則對任意正數(shù)ε,有:
該定律是切貝雪夫大數(shù)定律的特例,其含義是,當(dāng)n足夠大時(shí),事件A出現(xiàn)的頻率將幾乎接近于其發(fā)生的概率,即頻率的穩(wěn)定性。 在抽樣調(diào)查中,用樣本成數(shù)去估計(jì)總體成數(shù),其理論依據(jù)即在于此。 22,什么是對照組 對照組,英文稱control group,是指在隨機(jī)抽取的實(shí)驗(yàn)中,起輔助、對比作用,以突出并有力支持從實(shí)驗(yàn)組所能得出結(jié)論的單組或多組實(shí)驗(yàn)。 關(guān)于對照組,要注意以下幾點(diǎn): 1、要盡可能消除無關(guān)變量,即讓所有要形成對比的變量(稱作“實(shí)驗(yàn)變量”)之外的變量都盡可能地減少。比如,在證明“吸煙會(huì)增大得肺癌的幾率”的實(shí)驗(yàn)或者 調(diào)查中,如果一個(gè)人群為吸煙的官員,另一個(gè)人群為不吸煙的核廢料處理廠工人,那么這個(gè)實(shí)驗(yàn)顯然是有問題的,因?yàn)檫@增加了職業(yè)這個(gè)重要的無關(guān)變量。 2、對比要鮮明,易于觀察。 3、要考慮實(shí)驗(yàn)中的種種現(xiàn)實(shí)因素之制約,要具有可行性。 23,什么是完全隨機(jī)設(shè)計(jì) 完全隨機(jī)設(shè)計(jì),又稱成組設(shè)計(jì),英文稱completely random design,是指不加任何條件限制應(yīng)用隨機(jī)數(shù)字表或隨機(jī)排列表將觀察對象隨機(jī)地分配到試驗(yàn)組和對照組進(jìn)行實(shí)驗(yàn)觀察的一種設(shè)計(jì)方法,是用隨機(jī)化的方式來控 制誤差變異,認(rèn)為經(jīng)過隨機(jī)化處理后,樣本間的變異在各個(gè)處理水平上隨機(jī)分布,這樣就可將實(shí)驗(yàn)結(jié)果的差異歸于不同處理的影響。 隨機(jī)區(qū)組設(shè)計(jì)與完全隨機(jī)設(shè)計(jì)的區(qū)別 1.從定義上看:隨機(jī)區(qū)組和完全隨機(jī)的設(shè)計(jì)方式不同。 完全隨機(jī)的實(shí)驗(yàn)設(shè)計(jì)是,有幾種實(shí)驗(yàn)處理就有幾組被試分組,比如說,研究噪音對數(shù)學(xué)成績的影響,你可以研究有無噪音但是也可以研究噪音程度,那么,噪音就要 有不同水平,高分貝,低分貝,中分貝三種不同程度的噪音,被試在不同噪音下進(jìn)行數(shù)學(xué)作業(yè),分別評(píng)估不同水平下,數(shù)學(xué)成績的高低從而得出結(jié)論。 2.實(shí)驗(yàn)誤差來源不一樣 完全隨機(jī)設(shè)計(jì)的誤差:被試之間的誤差(很大比率),實(shí)驗(yàn)誤差,不可控誤差。 3.進(jìn)行方差分析的時(shí)候不一樣:隨機(jī)區(qū)組不用進(jìn)行方差齊性檢驗(yàn)而完全隨機(jī)需要。 24,什么是校正值 校正值,英文稱correction value,是指為了使測量結(jié)果去掉系統(tǒng)誤差,接近真實(shí)值而產(chǎn)生的數(shù)值,真值=測量值+校正值。 真值=測量值+校正值=測量值-示值誤差 25,什么是數(shù)據(jù)分析 簡單的說就是對數(shù)據(jù)進(jìn)行分析;較為專業(yè)的說是只用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的數(shù)據(jù)進(jìn)行分析,將他們加以匯總、理解并笑話,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用的信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)的研究和概括總結(jié)的過程。
探索性數(shù)據(jù)分析側(cè)重于數(shù)據(jù)中發(fā)現(xiàn)新的特性;而驗(yàn)證性數(shù)據(jù)分析側(cè)重于已有假設(shè)的真?zhèn)涡?;描述性?shù)據(jù)分析屬于初級(jí)的數(shù)據(jù)分析;常見的分析方法有對比分析,平均 分析,交叉分析;探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析主要屬于高級(jí)的數(shù)據(jù)分析,常見的數(shù)據(jù)分析有相關(guān)分析、因子分析、回歸分析。日常生活中主要設(shè)計(jì)的是描述 性數(shù)據(jù)分析,也就是大家常說的初級(jí)數(shù)據(jù)分析。 26,什么是抽樣框 抽樣框又稱“抽樣框架”、“抽樣結(jié)構(gòu)”,是指對可以選擇作為樣本的總體單位列出名冊或排序編號(hào),以確定總體的抽樣范圍和結(jié)構(gòu)。設(shè)計(jì)出了抽樣框 后,便可采用抽簽的方式或按照隨機(jī)數(shù)表來抽選必要的單位數(shù)。若沒有抽樣框,則不能計(jì)算樣本單位的概率,從而也就無法進(jìn)行概率選樣。 好的抽樣框應(yīng)做到:完整而不重復(fù)。 常見的抽樣框:大學(xué)學(xué)生花名冊、城市黃頁里的電話列表、工商企業(yè)名錄、街道派出所里居民戶籍冊、意向購房人信息冊……。在沒有現(xiàn)成的名單的情況 下,可由調(diào)查人員自己編制。應(yīng)該注意的是,在利用現(xiàn)有的名單作為抽樣框時(shí),要先對該名錄進(jìn)行檢查,避免有重復(fù)、遺漏的情況發(fā)生。以提高樣本對總體的代表 性。 例如:要從10000名職工中抽出200名組成一個(gè)樣本,則10000名職工的名冊,就是抽樣框。 27、什么是假設(shè)檢驗(yàn) 假設(shè)檢驗(yàn)又稱統(tǒng)計(jì)假設(shè)檢驗(yàn)(注:顯著性檢驗(yàn)只是假設(shè)檢驗(yàn)中最常用的一種方法),是一種基本的統(tǒng)計(jì)推斷形式,也是數(shù)理統(tǒng)計(jì)學(xué)的一個(gè)重要的分支,用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。 其基本原理是先對總體的特征作出某種假設(shè),然后通過抽樣研究的統(tǒng)計(jì)推理,對此假設(shè)應(yīng)該被拒絕還是接受作出推斷。 28、什么是歸納統(tǒng)計(jì)學(xué) 歸納統(tǒng)計(jì)學(xué)(stochastics,inductive statistics)是從現(xiàn)實(shí)所給予的比較少量的資料中,來推論其所包含的整個(gè)規(guī)律的以數(shù)程序?yàn)橹黧w所構(gòu)成的學(xué)科。R.A.Fisher曾把歸納統(tǒng)計(jì)學(xué) 作為農(nóng)業(yè)試驗(yàn)法這一分支領(lǐng)域的一項(xiàng)基礎(chǔ),而現(xiàn)在在社會(huì)群團(tuán)、生物群體的樣本調(diào)查法、農(nóng)業(yè)試驗(yàn)和各種自然科學(xué)中的實(shí)驗(yàn)分析法、工業(yè)的抽樣檢查法、產(chǎn)品質(zhì)量管 理法等許多方面都廣為應(yīng)用。 歸納統(tǒng)計(jì)學(xué)的主要概念是: (1)群體:系作為調(diào)查、研究的對象,也就是具特定標(biāo)記的所有個(gè)體或其屬性之集群。在一定管理?xiàng)l件下進(jìn)行測定和試驗(yàn)中,其試行在無限反復(fù)情況時(shí)所估算的值 為因素的假定全體,稱為無限群體。無限群體的分布規(guī)律,通常以正態(tài)分布、二項(xiàng)分布、泊利-艾根貝格分布、泊松分布等來表示。 (2)參數(shù):為群體分布規(guī)律特征的常數(shù),在正態(tài)分布中的群體平均數(shù)和分散,在二項(xiàng)分布和泊松分布中的群體平均數(shù)等均屬于此。一般群體數(shù)為未知數(shù),必須從樣本來推測。 (3)樣本:實(shí)際上是作為所調(diào)查研究對象的群體的一部分,以其數(shù)來作為樣本的大小,隨機(jī)抽樣(random sampling),即對群體中任何個(gè)體都必須進(jìn)行同樣的隨機(jī)抽樣,這樣所選取的樣品稱為隨機(jī)樣品(random sample)。根據(jù)隨機(jī)樣品便可進(jìn)行有關(guān)群體的統(tǒng)計(jì)學(xué)的推算。 29,什么是標(biāo)準(zhǔn)正態(tài)分布 標(biāo)準(zhǔn)正態(tài)分布standard normal distribution 正態(tài)分布(Normal distribution)又名高斯分布(Gaussian distribution),是一個(gè)在數(shù)學(xué)、物理及工程等領(lǐng)域都非常重要的概率分布,在統(tǒng)計(jì)學(xué)的許多方面有著重大的影響力。期望值μ=0,即曲線圖象對稱軸為Y軸,標(biāo)準(zhǔn)差σ=1條件下的正態(tài)分布,記為N(0,1)。 標(biāo)準(zhǔn)正態(tài)分布又稱為u分布,是以0為均數(shù)、以1為標(biāo)準(zhǔn)差的正態(tài)分布,記為N(0,1)。 標(biāo)準(zhǔn)正態(tài)分布曲線下面積分布規(guī)律是:在-1.96~+1.96范圍內(nèi)曲線下的面積等于0.9500,在-2.58~+2.58范圍內(nèi)曲線下面積為0.9900。統(tǒng)計(jì)學(xué)家還制定了一張統(tǒng)計(jì)用表(自由度為∞時(shí)),借助該表就可以估計(jì)出某些特殊u1和u2值范圍內(nèi)的曲線下面積。 正態(tài)分布的概率密度函數(shù)曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。我們通常所說的標(biāo)準(zhǔn)正態(tài)分布是位置參數(shù)均數(shù)為0, 尺度參數(shù):標(biāo)準(zhǔn)差為1的正態(tài)分布(見右圖中綠色曲線)。
正態(tài)分布中一些值得注意的量: 密度函數(shù)關(guān)于平均值對稱 平均值與它的眾數(shù)(statistical mode)以及中位數(shù)(median)同一數(shù)值。 函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。 95.449974%的面積在平均數(shù)左右兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。 99.730020%的面積在平均數(shù)左右三個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。 99.993666%的面積在平均數(shù)左右四個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。 函數(shù)曲線的反曲點(diǎn)(inflection point)為離平均數(shù)一個(gè)標(biāo)準(zhǔn)差距離的位置。, 單個(gè)來源中國統(tǒng)計(jì)網(wǎng),感謝原作者。 數(shù)據(jù)小編匯總整理。\(^o^)/~ |
|
|