电竞比分网-中国电竞赛事及体育赛事平台

分享

為什么樣本方差(sample variance)的分母是 n-1?

 鉞YUE 2024-09-11 發(fā)布于天津

樣本均值與樣本方差的定義

首先來看一下均值,方差,樣本均值與樣本方差的定義總體均值的定義:

也就是將總體中所有的樣本值加總除以個(gè)數(shù),也可以叫做總體的數(shù)學(xué)期望或簡稱期望

總體方差的定義:

總體中全部樣本各數(shù)值與總體均值差的平方和的平均數(shù),用來衡量隨機(jī)變量或一組數(shù)據(jù)離散程度的度量。

在實(shí)際應(yīng)用中,我們一般是拿不到總體的均值與總體的方差,只能通過抽樣得到的樣本均值與樣本方差來估計(jì)總體的均值與方差。于是我們就得到了樣本均值和樣本方差:樣本均值的定義

樣本方差的定義

對(duì)比總體方差的公式,樣本方差的公式的系數(shù)為什么變?yōu)榱?span data-formula="\frac{1}{n-1}">?

通俗理解-自由度

一個(gè)比較通俗的的理解就是自由度,可以理解為對(duì)應(yīng)的獨(dú)立信息量。樣本均值和樣本方差就是抽樣后把所有的獨(dú)立的信息量(這里的獨(dú)立的信息量就是數(shù)值,包含了均值和方差的信息)平均得到,在計(jì)算樣本方差時(shí)用替代了總體均值,自由度減少了一個(gè)。

假設(shè)只采樣了兩個(gè)樣本,這其中的信息量是多少呢?方差是計(jì)算樣本之間的偏離程度,所以一個(gè)獨(dú)立有效的信息量就是這個(gè)數(shù)值減去均值。在計(jì)算方差時(shí)分子有兩項(xiàng): . 要算第一個(gè)樣本的偏離程度,毋庸置疑只能老老實(shí)實(shí)算  ;但是,第二個(gè)樣本呢?計(jì)算  嗎?其實(shí)還有另外一種方法,因?yàn)?span data-formula="\bar X=\frac{X_1+X_2}{2}">, 其實(shí)是對(duì)于 對(duì)稱的。所以其實(shí) 。也就是我們?cè)谟脴颖揪?span data-formula="\bar X">替代總體均值后,只要確定了之后,是可以根據(jù)推出來具體數(shù)值的,實(shí)際能夠有效提供樣本到 的偏移量的信息數(shù)只有一條。

我們對(duì)這種現(xiàn)象可以有一個(gè)表述:就是 是不自由的,因?yàn)閺闹暗氖阶涌梢酝瞥鏊?。?dāng)然,對(duì)稱地,我們也可以說 是不自由的。總之,這兩個(gè)式子當(dāng)中,只有一個(gè)是自由的,所以我們稱這兩個(gè)式子的自由度為 1.所以在兩個(gè)樣本求方差的時(shí)候要除1,應(yīng)為實(shí)際應(yīng)用到方差計(jì)算種的只有這一個(gè)有效信息。

同樣,將樣本數(shù)增加至三個(gè),當(dāng)有兩個(gè)樣本并且知道的情況下,我們就可以推出第三個(gè)樣本的值,對(duì)應(yīng)的自由度為 2.

以此類推,當(dāng)我們有 個(gè)樣本的時(shí)候,其自由度為.也就是說,當(dāng)我們有 個(gè)樣本的時(shí)候,我們雖然看起來在分子上做了 個(gè)減法,但實(shí)際上我們只算出了 個(gè)偏差量。因此,做平均的時(shí)候,要除以的分母就是

但是,為什么 n 個(gè)減法做完,自由度只有 n - 1?是誰從中搞鬼,偷走了一個(gè)自由度?答案很簡單,是 。注意在總體方差中,隱含的分布均值是 ,這個(gè)均值是知道了總體的分布后計(jì)算出來的,而在樣本方差中 是未知的,所以在估計(jì)方差之前,我們會(huì)需要先找一個(gè) 的代替,也就是 ,而是根據(jù)樣本算出來的. 也就是說,在用 代替 的過程中,我們損失了一個(gè)自由度。

那么,如果問題的背景變了,我們知道隱含的分布均值 ,只是不知道 ,那我們?cè)撊绾喂烙?jì) ?這種情況下求方差就變成了符合直覺的。

嚴(yán)密推導(dǎo)過程

估計(jì)量的評(píng)選標(biāo)準(zhǔn)

當(dāng)我們用抽樣的方法去估計(jì)總體時(shí),總是希望每次抽樣的結(jié)果盡可能的靠近實(shí)際的總體評(píng)估量,同時(shí)抽取的樣本越多時(shí)越接近實(shí)際的總體評(píng)估量。對(duì)于評(píng)估量的好壞有如下三個(gè)評(píng)價(jià)指標(biāo)

無偏性

設(shè)是總體的未知參數(shù),是總體的一個(gè)樣本,是參數(shù)的一個(gè)估計(jì)量,若

則稱的一個(gè)無偏估計(jì)量 無偏性簡單來說就是取樣后得到的估計(jì)量的期望就等于總體的估計(jì)量。

考慮如下一個(gè)打靶的例子。如果有一個(gè)射擊高手打靶,那么結(jié)果總會(huì)在靶心附近(總體期望),那么我們一般會(huì)通過打靶結(jié)果(也就是樣本)認(rèn)為這是一個(gè)熟練的射擊手,對(duì)于多次的打靶結(jié)果我們對(duì)其打靶結(jié)果的期望是靶心(),也就是無偏的。圖片

但如果出現(xiàn)了如下這種結(jié)果,通過這些樣本我們就會(huì)猜測(cè)集中在一點(diǎn)附近可能是一個(gè)射擊高手,這個(gè)偏差可能是由于瞄準(zhǔn)鏡歪了這種導(dǎo)致的呢圖片

對(duì)于這種穩(wěn)定影響結(jié)果的因素導(dǎo)致的偏差稱為系統(tǒng)偏差,也就是。無偏估計(jì)的實(shí)際意義就是無系統(tǒng)偏差。很明顯無偏估計(jì)更接近實(shí)際的總體統(tǒng)計(jì)量

有效性

都是樣本的無偏估計(jì)量,若對(duì)于任意取值范圍里有, 則更加有效。 有效性就是同樣無偏的估計(jì)量,更集中,方差更小的估計(jì)量更好 接著考慮如下打靶結(jié)果,雖然期望都是靶心,但是很明顯后面的結(jié)果更加集中,相應(yīng)的評(píng)估效果也會(huì)更好圖片

相合性

之前的無偏性和一致性都是在樣本容量固定為n的情況下討論的,而如果樣本容量越來越多時(shí),一個(gè)估計(jì)量能穩(wěn)定于待估的參數(shù)真值 相合性大樣本條件下,估計(jì)值等于實(shí)際值.對(duì)于任意,有

推導(dǎo)

首先來看一下在分母為n的情況下樣本方差是不是總體方差的無偏估計(jì)量:

其中

接著計(jì)算有:

可以看到同樣在除以的情況下只有當(dāng)時(shí)才有,在其他情況下都是小于的。這一個(gè)結(jié)果也很好理解,只要樣本均值越偏離總體均值,樣本也就越偏離總體均值。

圖片接下來就是要計(jì)算出差異是多少 由

代入有:

所以

進(jìn)行一下調(diào)整,即有

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多