樣本均值與樣本方差的定義首先來看一下均值,方差,樣本均值與樣本方差的定義總體均值的定義: 也就是將總體中所有的樣本值加總除以個(gè)數(shù),也可以叫做總體的數(shù)學(xué)期望或簡稱期望 總體方差的定義: 總體中全部樣本各數(shù)值與總體均值差的平方和的平均數(shù),用來衡量隨機(jī)變量或一組數(shù)據(jù)離散程度的度量。 在實(shí)際應(yīng)用中,我們一般是拿不到總體的均值與總體的方差,只能通過抽樣得到的樣本均值與樣本方差來估計(jì)總體的均值與方差。于是我們就得到了樣本均值和樣本方差:樣本均值的定義 樣本方差的定義 對(duì)比總體方差的公式,樣本方差的公式的系數(shù)為什么變?yōu)榱?span data-formula="\frac{1}{n-1}">? 通俗理解-自由度一個(gè)比較通俗的的理解就是自由度,可以理解為對(duì)應(yīng)的獨(dú)立信息量。樣本均值和樣本方差就是抽樣后把所有的獨(dú)立的信息量(這里的獨(dú)立的信息量就是數(shù)值,包含了均值和方差的信息)平均得到,在計(jì)算樣本方差時(shí)用替代了總體均值,自由度減少了一個(gè)。 假設(shè)只采樣了兩個(gè)樣本,這其中的信息量是多少呢?方差是計(jì)算樣本之間的偏離程度,所以一個(gè)獨(dú)立有效的信息量就是這個(gè)數(shù)值減去均值。在計(jì)算方差時(shí)分子有兩項(xiàng): 和 . 要算第一個(gè)樣本的偏離程度,毋庸置疑只能老老實(shí)實(shí)算 ;但是,第二個(gè)樣本呢?計(jì)算 嗎?其實(shí)還有另外一種方法,因?yàn)?span data-formula="\bar X=\frac{X_1+X_2}{2}">, 和 其實(shí)是對(duì)于 對(duì)稱的。所以其實(shí) 。也就是我們?cè)谟脴颖揪?span data-formula="\bar X">替代總體均值后,只要確定了之后,是可以根據(jù)推出來具體數(shù)值的,實(shí)際能夠有效提供樣本到 的偏移量的信息數(shù)只有一條。 我們對(duì)這種現(xiàn)象可以有一個(gè)表述:就是 是不自由的,因?yàn)閺闹暗氖阶涌梢酝瞥鏊?。?dāng)然,對(duì)稱地,我們也可以說 是不自由的。總之,這兩個(gè)式子當(dāng)中,只有一個(gè)是自由的,所以我們稱這兩個(gè)式子的自由度為 1.所以在兩個(gè)樣本求方差的時(shí)候要除1,應(yīng)為實(shí)際應(yīng)用到方差計(jì)算種的只有這一個(gè)有效信息。 同樣,將樣本數(shù)增加至三個(gè),當(dāng)有兩個(gè)樣本并且知道的情況下,我們就可以推出第三個(gè)樣本的值,對(duì)應(yīng)的自由度為 2. 以此類推,當(dāng)我們有 個(gè)樣本的時(shí)候,其自由度為.也就是說,當(dāng)我們有 個(gè)樣本的時(shí)候,我們雖然看起來在分子上做了 個(gè)減法,但實(shí)際上我們只算出了 個(gè)偏差量。因此,做平均的時(shí)候,要除以的分母就是 但是,為什么 n 個(gè)減法做完,自由度只有 n - 1?是誰從中搞鬼,偷走了一個(gè)自由度?答案很簡單,是 。注意在總體方差中,隱含的分布均值是 ,這個(gè)均值是知道了總體的分布后計(jì)算出來的,而在樣本方差中 是未知的,所以在估計(jì)方差之前,我們會(huì)需要先找一個(gè) 的代替,也就是 ,而是根據(jù)樣本算出來的. 也就是說,在用 代替 的過程中,我們損失了一個(gè)自由度。 那么,如果問題的背景變了,我們知道隱含的分布均值 ,只是不知道 ,那我們?cè)撊绾喂烙?jì) ?這種情況下求方差就變成了符合直覺的。 嚴(yán)密推導(dǎo)過程估計(jì)量的評(píng)選標(biāo)準(zhǔn)當(dāng)我們用抽樣的方法去估計(jì)總體時(shí),總是希望每次抽樣的結(jié)果盡可能的靠近實(shí)際的總體評(píng)估量,同時(shí)抽取的樣本越多時(shí)越接近實(shí)際的總體評(píng)估量。對(duì)于評(píng)估量的好壞有如下三個(gè)評(píng)價(jià)指標(biāo) 無偏性設(shè)是總體的未知參數(shù),是總體的一個(gè)樣本,是參數(shù)的一個(gè)估計(jì)量,若 則稱是的一個(gè)無偏估計(jì)量 無偏性簡單來說就是取樣后得到的估計(jì)量的期望就等于總體的估計(jì)量。 考慮如下一個(gè)打靶的例子。如果有一個(gè)射擊高手打靶,那么結(jié)果總會(huì)在靶心附近(總體期望),那么我們一般會(huì)通過打靶結(jié)果(也就是樣本)認(rèn)為這是一個(gè)熟練的射擊手,對(duì)于多次的打靶結(jié)果我們對(duì)其打靶結(jié)果的期望是靶心(),也就是無偏的。 但如果出現(xiàn)了如下這種結(jié)果,通過這些樣本我們就會(huì)猜測(cè)集中在一點(diǎn)附近可能是一個(gè)射擊高手,這個(gè)偏差可能是由于瞄準(zhǔn)鏡歪了這種導(dǎo)致的呢 對(duì)于這種穩(wěn)定影響結(jié)果的因素導(dǎo)致的偏差稱為系統(tǒng)偏差,也就是。無偏估計(jì)的實(shí)際意義就是無系統(tǒng)偏差。很明顯無偏估計(jì)更接近實(shí)際的總體統(tǒng)計(jì)量 有效性若和都是樣本的無偏估計(jì)量,若對(duì)于任意取值范圍里有,
則比更加有效。
有效性就是同樣無偏的估計(jì)量,更集中,方差更小的估計(jì)量更好
接著考慮如下打靶結(jié)果,雖然期望都是靶心,但是很明顯后面的結(jié)果更加集中,相應(yīng)的評(píng)估效果也會(huì)更好 相合性之前的無偏性和一致性都是在樣本容量固定為n的情況下討論的,而如果樣本容量越來越多時(shí),一個(gè)估計(jì)量能穩(wěn)定于待估的參數(shù)真值 相合性大樣本條件下,估計(jì)值等于實(shí)際值.對(duì)于任意,有 推導(dǎo)首先來看一下在分母為n的情況下樣本方差是不是總體方差的無偏估計(jì)量: 其中 接著計(jì)算有: 可以看到同樣在除以的情況下只有當(dāng)時(shí)才有,在其他情況下都是小于的。這一個(gè)結(jié)果也很好理解,只要樣本均值越偏離總體均值,樣本也就越偏離總體均值。
代入有: 所以 進(jìn)行一下調(diào)整,即有 |
|
|