![]() 上一篇文章中,我們在講方差和標準差時,用到的公式分母是 n。可是,如果你去翻現(xiàn)在的統(tǒng)計學教材,就會發(fā)現(xiàn)樣本方差和樣本標準差的分母寫成了 n?1。這到底是為什么?難道以前的公式錯了嗎? 【一】 從 n 到 n?1:歷史的演變 在統(tǒng)計學的發(fā)展早期,很多教材中的樣本方差寫法是: ![]() 這樣寫很自然:它和總體方差的形式一模一樣,也更容易記憶。 如果我們有一個總體(比如全校所有學生成績),均值 μ 是已知的常數(shù),當然可以除以 N。 但是在現(xiàn)實中,我們幾乎從來拿不到整個總體的數(shù)據(jù)。我們只能通過抽樣得到一部分數(shù)據(jù)(樣本),再用樣本均值來代替總體均值。 問題就出在這里。樣本均值本身是一個估計量,它依賴于樣本數(shù)據(jù),因此會讓計算出的方差偏小。換句話說,這樣的樣本方差(分母 n)是有偏的,不能準確地反映總體的真實波動。 到了 20 世紀以后,統(tǒng)計學家們(如 Fisher、Neyman 等)提出修正方案: 把分母改成 n?1,得到新的公式: ![]() 很多同學還會問:為什么一定是 n?1,而不是 n?2、n?3? 要回答這個問題,就得先理解“自由度”是什么。 所謂自由度,可以理解為:數(shù)據(jù)里真正能自由變化的數(shù)量。 舉個例子: 假設(shè)你有 5 個同學的分數(shù),平均分已經(jīng)算出來是 70。
所以,雖然你有 5 個數(shù)據(jù)點,但實際上只有 4 個是真正自由的。 這就是 n?1 的由來。 換句話說:在計算樣本方差時,我們已經(jīng)“用掉”了一個自由度去計算樣本均值,因此在計算分散程度時,只剩下 n?1 個自由度。 讓我們用一個更直觀的小例子: 假設(shè)有 3 個學生的成績:60 分、70 分、80 分。 ![]() 如果用 分母 n=3 計算方差: ![]() ![]() 哪一個更接近總體方差? 如果這 3 個學生是從一個大班級里隨機抽樣的,那么用 n?1 得到的結(jié)果才是總體方差的“無偏估計”。 這就是為什么現(xiàn)代統(tǒng)計學堅持使用 n?1。
?? 所以,今天我們在教材里看到的樣本方差公式,并不是“突然改了”,而是統(tǒng)計學經(jīng)過幾十年的發(fā)展,逐漸形成的科學共識。 |
|
|
來自: taotao_2016 > 《概率》