一、什么是統(tǒng)計學(xué)綜合來講,統(tǒng)計學(xué)就是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)。 比如說,我們想知道中國男性和女性誰的收入更高。全中國人民那么多,即使是官方機(jī)構(gòu)想要進(jìn)行一個總體的統(tǒng)計都不太現(xiàn)實,更別提我們了。因此我們需要進(jìn)行抽樣,并統(tǒng)計我們抽中的樣本的數(shù)據(jù)情況,對數(shù)據(jù)進(jìn)行一些必要的處理(比如處理缺失值、異常值、重復(fù)數(shù)據(jù)等),然后對數(shù)據(jù)進(jìn)行分析,并對分析結(jié)果進(jìn)行解釋。最后,給出一個可靠的結(jié)論。 以上就是一項統(tǒng)計學(xué)任務(wù)的流程。其中,數(shù)據(jù)分析所使用的方法可以分為描述統(tǒng)計方法和推斷統(tǒng)計方法。 - 描述統(tǒng)計:Descriptive Statistics,研究的是數(shù)據(jù)收集、處理、匯總、圖表描述、概括與分析等統(tǒng)計方法。
- 推斷統(tǒng)計:Inferential Statistics,研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計方法。
之后我們會詳細(xì)討論兩者的更多細(xì)節(jié)。 二、統(tǒng)計數(shù)據(jù)的類型我們有必要先了解下數(shù)據(jù)的類型。 1. 按照計量尺度 - 分類數(shù)據(jù):categorical data,能歸于某一類別的非數(shù)字型數(shù)據(jù),它是對食物進(jìn)行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,一般用文字來表述。比如人口分為男、女兩類等。為方便處理,我們經(jīng)常會用數(shù)字代碼來代替文字。
- 順序數(shù)據(jù):rank data,能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。比如考試成績可以分為優(yōu)、良、中、及格、不及格,一個人的受教育程度可以分為小學(xué)、初中、高中、本科、碩士、博士等。
- 數(shù)值型數(shù)據(jù):metric data,按數(shù)字尺度測量的觀察值,其結(jié)果表現(xiàn)為具體的數(shù)值。數(shù)值型數(shù)據(jù)具體又可以分為等距數(shù)據(jù)和等比數(shù)據(jù)。在等距數(shù)據(jù)中,數(shù)據(jù)間的單位尺度是固定的,比如我們走路的步數(shù),可以是1步、2步、……、100步,但是不會是1.1步,因此等距數(shù)據(jù)屬于離散數(shù)據(jù);等比數(shù)據(jù)則是一種連續(xù)數(shù)據(jù),它的加減乘除均有意義。
2. 按照統(tǒng)計數(shù)據(jù)的收集方法 - 觀測數(shù)據(jù):observational data,通過調(diào)查或觀測而收集到的數(shù)據(jù),這類數(shù)據(jù)是在沒有人為操控的情況下得到的。
- 實驗數(shù)據(jù):experimental data,實驗中控制實驗對象而收集到的數(shù)據(jù),這類數(shù)據(jù)是在人為操控的環(huán)境下得到的。
3. 按照被描述對象與時間的關(guān)系 - 截面數(shù)據(jù):cross-sectional data,在相同或近似相同的時間點上收集的數(shù)據(jù)。我們常常提到的橫向?qū)Ρ?,事實上就是對同一時期收集到的截面數(shù)據(jù)進(jìn)行對比。
- 時間序列數(shù)據(jù):time series data,在不同時間收集到的數(shù)據(jù),這類數(shù)據(jù)是按照時間順序收集到的,用于描述現(xiàn)象隨時間變化的情況。我們常常提到的縱向?qū)Ρ龋褪侵竿皇挛镌诓煌瑫r期的時間序列數(shù)據(jù)間的對比。時間序列分析可以單獨(dú)拆分為一門大學(xué)問,我們后續(xù)可能會單獨(dú)拆出一個系列來講解。
三、統(tǒng)計中的一些基本概念1. 總體和樣本 總體:population,包含所研究的全部個體的集合。比如當(dāng)我們想要研究中國人民的人均身高時,全中國人民就是總體??傮w分為有限總體和無限總體,對于有限總體來說,元素的數(shù)目是可數(shù)的,而無限總體中的元素則是無限、不可數(shù)的。在無限總體中,每次抽取一個單位,并不影響下一次的抽樣結(jié)果,這是因為無限總體去除上一次抽取的樣本后,剩下的仍然是一個無限總體。因此無限總體中的每次抽樣總可以看做是獨(dú)立的。反之,在有限總體中,多次無放回的抽樣之間并不是相互獨(dú)立的。 樣本:sample,從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素的數(shù)目成為樣本量。抽樣的目的是根據(jù)樣本提供的信息推斷總體的特征。比如我們統(tǒng)計中國人民的人均身高時,抽取了10000人的樣本來作為代表。那么全中國人民是我們的總體,這10000人就是我們的樣本,樣本量是10000。 2. 參數(shù)和統(tǒng)計量 - 參數(shù):parameter,用來描述
總體特征 的概括性數(shù)字度量,它是研究者想要了解的總體的某種特征值。比如總體均值、總體標(biāo)準(zhǔn)差等。在統(tǒng)計中,總體參數(shù)通常用希臘字母表示,比如總體均值用μ表示,總體標(biāo)準(zhǔn)差用σ表示,總體比例用π表示等。 - 統(tǒng)計量:statistic,用來描述
樣本特征 的概括性數(shù)字度量。樣本統(tǒng)計量常用英文字母來表示。
由于樣本已知,因此統(tǒng)計量可以輕松求得。抽樣的目的是根據(jù)樣本統(tǒng)計量來估計總體參數(shù)。比如用樣本標(biāo)準(zhǔn)差s估計總體標(biāo)準(zhǔn)差σ等。 一言以蔽之,參數(shù)相當(dāng)于總體中的統(tǒng)計量,統(tǒng)計量相當(dāng)于樣本中的參數(shù),它們的含義一致,只是分別應(yīng)用于總體和統(tǒng)計量,且樣本統(tǒng)計量可以直接通過描述統(tǒng)計得到,而總體參數(shù)往往是未知的,需要通過推斷統(tǒng)計來估計。 3. 變量 變量:variable,相信我們對變量都比較熟悉,我們最常使用的名稱有自變量和因變量,其中后者跟隨前者的變化而變化。不過今天我們會從其他的角度對變量進(jìn)行分類。 按照變量數(shù)據(jù)類型分類: - 分類變量:categorical variable,對應(yīng)分類數(shù)據(jù)。
- 順序變量:rank variable,對應(yīng)順序數(shù)據(jù)。
- 數(shù)值型變量:metric variable,對應(yīng)數(shù)值型數(shù)據(jù)。可以進(jìn)一步分為離散型變量(discrete variable)和連續(xù)性變量(continuous variable)。
其他分類角度 - 隨機(jī)變量和非隨機(jī)變量
- 經(jīng)驗變量和理論變量
這部分后續(xù)我們會接觸到。 以上內(nèi)容是統(tǒng)計學(xué)的基礎(chǔ),不難,但是必須要記清楚,避免以后在某些問題上產(chǎn)生混淆。
|