為什么樣本方差（sample variance）的分母是 n-1？

鉞YUE 2024-09-11 發(fā)布于天津

展開全文

樣本均值與樣本方差的定義

首先來看一下均值，方差，樣本均值與樣本方差的定義總體均值的定義：

也就是將總體中所有的樣本值加總除以個(gè)數(shù)，也可以叫做總體的數(shù)學(xué)期望或簡稱期望

總體方差的定義：

總體中全部樣本各數(shù)值與總體均值差的平方和的平均數(shù)，用來衡量隨機(jī)變量或一組數(shù)據(jù)離散程度的度量。

在實(shí)際應(yīng)用中，我們一般是拿不到總體的均值與總體的方差，只能通過抽樣得到的樣本均值與樣本方差來估計(jì)總體的均值與方差。于是我們就得到了樣本均值和樣本方差：樣本均值的定義

樣本方差的定義

對(duì)比總體方差的公式，樣本方差的公式的系數(shù)為什么變?yōu)榱?span data-formula="\frac{1}{n-1}">？

通俗理解-自由度

一個(gè)比較通俗的的理解就是自由度,可以理解為對(duì)應(yīng)的獨(dú)立信息量。樣本均值和樣本方差就是抽樣后把所有的獨(dú)立的信息量（這里的獨(dú)立的信息量就是數(shù)值，包含了均值和方差的信息）平均得到,在計(jì)算樣本方差時(shí)用替代了總體均值,自由度減少了一個(gè)。

假設(shè)只采樣了兩個(gè)樣本，這其中的信息量是多少呢？方差是計(jì)算樣本之間的偏離程度，所以一個(gè)獨(dú)立有效的信息量就是這個(gè)數(shù)值減去均值。在計(jì)算方差時(shí)分子有兩項(xiàng)：和 . 要算第一個(gè)樣本的偏離程度，毋庸置疑只能老老實(shí)實(shí)算；但是，第二個(gè)樣本呢？計(jì)算嗎？其實(shí)還有另外一種方法，因?yàn)?span data-formula="\bar X=\frac{X_1+X_2}{2}">，和其實(shí)是對(duì)于對(duì)稱的。所以其實(shí) 。也就是我們?cè)谟脴颖揪?span data-formula="\bar X">替代總體均值后，只要確定了之后，是可以根據(jù)推出來具體數(shù)值的，實(shí)際能夠有效提供樣本到的偏移量的信息數(shù)只有一條。

我們對(duì)這種現(xiàn)象可以有一個(gè)表述：就是是不自由的，因?yàn)閺闹暗氖阶涌梢酝瞥鏊?。?dāng)然，對(duì)稱地，我們也可以說是不自由的。總之，這兩個(gè)式子當(dāng)中，只有一個(gè)是自由的，所以我們稱這兩個(gè)式子的自由度為 1.所以在兩個(gè)樣本求方差的時(shí)候要除1，應(yīng)為實(shí)際應(yīng)用到方差計(jì)算種的只有這一個(gè)有效信息。

同樣，將樣本數(shù)增加至三個(gè)，當(dāng)有兩個(gè)樣本并且知道的情況下，我們就可以推出第三個(gè)樣本的值，對(duì)應(yīng)的自由度為 2.

以此類推，當(dāng)我們有個(gè)樣本的時(shí)候，其自由度為.也就是說，當(dāng)我們有個(gè)樣本的時(shí)候，我們雖然看起來在分子上做了個(gè)減法，但實(shí)際上我們只算出了個(gè)偏差量。因此，做平均的時(shí)候，要除以的分母就是

但是，為什么 n 個(gè)減法做完，自由度只有 n - 1？是誰從中搞鬼，偷走了一個(gè)自由度？答案很簡單，是。注意在總體方差中，隱含的分布均值是，這個(gè)均值是知道了總體的分布后計(jì)算出來的，而在樣本方差中是未知的，所以在估計(jì)方差之前，我們會(huì)需要先找一個(gè) 的代替，也就是，而是根據(jù)樣本算出來的. 也就是說，在用代替的過程中，我們損失了一個(gè)自由度。

那么，如果問題的背景變了，我們知道隱含的分布均值，只是不知道，那我們?cè)撊绾喂烙?jì) ？這種情況下求方差就變成了符合直覺的。

嚴(yán)密推導(dǎo)過程

估計(jì)量的評(píng)選標(biāo)準(zhǔn)

當(dāng)我們用抽樣的方法去估計(jì)總體時(shí)，總是希望每次抽樣的結(jié)果盡可能的靠近實(shí)際的總體評(píng)估量，同時(shí)抽取的樣本越多時(shí)越接近實(shí)際的總體評(píng)估量。對(duì)于評(píng)估量的好壞有如下三個(gè)評(píng)價(jià)指標(biāo)

無偏性

設(shè)是總體的未知參數(shù)，是總體的一個(gè)樣本，是參數(shù)的一個(gè)估計(jì)量，若

則稱是的一個(gè)無偏估計(jì)量無偏性簡單來說就是取樣后得到的估計(jì)量的期望就等于總體的估計(jì)量。

考慮如下一個(gè)打靶的例子。如果有一個(gè)射擊高手打靶，那么結(jié)果總會(huì)在靶心附近(總體期望)，那么我們一般會(huì)通過打靶結(jié)果（也就是樣本）認(rèn)為這是一個(gè)熟練的射擊手，對(duì)于多次的打靶結(jié)果我們對(duì)其打靶結(jié)果的期望是靶心(),也就是無偏的。

但如果出現(xiàn)了如下這種結(jié)果，通過這些樣本我們就會(huì)猜測(cè)集中在一點(diǎn)附近可能是一個(gè)射擊高手，這個(gè)偏差可能是由于瞄準(zhǔn)鏡歪了這種導(dǎo)致的呢

對(duì)于這種穩(wěn)定影響結(jié)果的因素導(dǎo)致的偏差稱為系統(tǒng)偏差，也就是。無偏估計(jì)的實(shí)際意義就是無系統(tǒng)偏差。很明顯無偏估計(jì)更接近實(shí)際的總體統(tǒng)計(jì)量

有效性

若和都是樣本的無偏估計(jì)量，若對(duì)于任意取值范圍里有, 則比更加有效。有效性就是同樣無偏的估計(jì)量，更集中，方差更小的估計(jì)量更好接著考慮如下打靶結(jié)果，雖然期望都是靶心，但是很明顯后面的結(jié)果更加集中，相應(yīng)的評(píng)估效果也會(huì)更好

相合性

之前的無偏性和一致性都是在樣本容量固定為n的情況下討論的，而如果樣本容量越來越多時(shí)，一個(gè)估計(jì)量能穩(wěn)定于待估的參數(shù)真值相合性大樣本條件下，估計(jì)值等于實(shí)際值.對(duì)于任意,有

推導(dǎo)

首先來看一下在分母為n的情況下樣本方差是不是總體方差的無偏估計(jì)量：

其中

接著計(jì)算有：

可以看到同樣在除以的情況下只有當(dāng)時(shí)才有,在其他情況下都是小于的。這一個(gè)結(jié)果也很好理解，只要樣本均值越偏離總體均值，樣本也就越偏離總體均值。

接下來就是要計(jì)算出差異是多少由

代入有：

所以

進(jìn)行一下調(diào)整，即有

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：鉞YUE > 《統(tǒng)計(jì)學(xué)》

舉報(bào)/認(rèn)領(lǐng)