概率到統(tǒng)計(jì)的思考與理解
由于統(tǒng)計(jì)學(xué)在現(xiàn)實(shí)生活和“高端”科學(xué)研究中有著很高的地位,時(shí)常思考統(tǒng)計(jì)相關(guān)的問(wèn)題,加深對(duì)它的基礎(chǔ)理論的理解應(yīng)該對(duì)我們理解和研究現(xiàn)實(shí)世界有幫助。
1、樣本空間與總體的關(guān)系
樣本空間,在茆詩(shī)松等編著的《概率論與數(shù)理統(tǒng)計(jì)教程》一書(shū)中,是這樣定義的:隨機(jī)現(xiàn)象的一切可能的基本結(jié)果組成的集合稱為樣本空間,每個(gè)基本結(jié)果被稱為樣本點(diǎn)。首先理解一下,什么是隨機(jī)現(xiàn)象?隨機(jī)現(xiàn)象就是在一定條件下,并不總是出現(xiàn)相同結(jié)果的現(xiàn)象,稱為隨機(jī)現(xiàn)象。這里我們不去深究什么是現(xiàn)象,因?yàn)樗慕忉尡旧硎浅橄蟮模橄蟮臇|西相對(duì)具體的東西理解稍微困難一點(diǎn),我們可以在不斷的學(xué)習(xí)過(guò)程中慢慢理解、意會(huì)這些概念。這里我們固定了某個(gè)關(guān)心的結(jié)果后,就可以產(chǎn)生樣本空間了。比如,我們研究“某個(gè)環(huán)境中,固定條件下,投擲骰子出現(xiàn)的點(diǎn)數(shù)”,這里我們考慮的是出現(xiàn)的點(diǎn)數(shù)這種結(jié)果形式,為什么不是說(shuō)結(jié)果,而是說(shuō)結(jié)果形式,只是微妙的一點(diǎn)點(diǎn)差別而已,結(jié)果是確定的,而結(jié)果形式是概述這些可能的結(jié)果,我這樣理解,但是由于這樣會(huì)帶來(lái)理解上的負(fù)擔(dān),干脆用“結(jié)果”這個(gè)詞來(lái)代替了,在大多數(shù)情況下,大家都可以意會(huì)。這個(gè)例子中,我們考慮的是投擲骰子這種隨機(jī)現(xiàn)象的出現(xiàn)點(diǎn)數(shù)這種結(jié)果,所以樣本點(diǎn)有“出現(xiàn)1點(diǎn)”,“出現(xiàn)2點(diǎn)”,...,"出現(xiàn)6點(diǎn)",這些樣本點(diǎn)組成樣本空間。樣本空間還強(qiáng)調(diào)了“一切可能”,表征全面性。樣本空間的本質(zhì)屬性是集合,這個(gè)定義不想我們大家在代數(shù)中學(xué)到的空間一樣,代數(shù)中,空間是定義了運(yùn)算以及某些限定條件的集合,他跟分析中的空間也不一樣,總之概率中的樣本空間僅僅是一個(gè)集合而已,如果你愿意,你可以叫他樣本集合。
總體,我們繼續(xù)把茆詩(shī)松等人的定義作為理解的出發(fā)點(diǎn),所謂總體就是指研究對(duì)象的全體。與樣本空間不同,樣本空間是隨機(jī)現(xiàn)象的我們所關(guān)心的結(jié)果的集合,而總體是指對(duì)象的全體,它本質(zhì)也是集合的概念,每個(gè)研究對(duì)象是可以區(qū)分開(kāi)來(lái)的,每一個(gè)對(duì)象我們稱之為個(gè)體,總體只說(shuō)明是對(duì)象的集合,沒(méi)有說(shuō)明是結(jié)果的集合,但是很多情況下,或者研究統(tǒng)計(jì)的科學(xué)家實(shí)際上是想把總體定義成結(jié)果的集合的,實(shí)際中他們也是這樣用的。他們隸屬的學(xué)科也不同,樣本空間屬于概率論的范疇,總體屬于統(tǒng)計(jì)的范疇。概率是給出某些假設(shè)本質(zhì),研究本質(zhì)后的現(xiàn)象問(wèn)題,就是說(shuō)概率是已知概率分布,然后研究隨機(jī)變量的關(guān)系啊,性質(zhì)啊,給一些新的變量定義啊,比如數(shù)學(xué)期望,方差,標(biāo)準(zhǔn)差啊之類的,統(tǒng)計(jì)是為了發(fā)現(xiàn)總體某種原始本質(zhì)性質(zhì),而做出的數(shù)學(xué)上的分析和理解。當(dāng)然這只是我個(gè)人的理解,也許事實(shí)不是這樣的,不管事實(shí)怎樣,這樣理解并不會(huì)對(duì)我們理解統(tǒng)計(jì)學(xué)的基本原理和方法造成障礙。
既然學(xué)科不同,即使他們有聯(lián)系,我們?cè)诳紤]不同學(xué)科的時(shí)候,根據(jù)上下文區(qū)分即可,不要過(guò)于糾結(jié),糾結(jié)多了,會(huì)阻止我們前進(jìn)的。
2、理解總體之后的概念和需要研究的問(wèn)題
知道了什么是總體,什么是個(gè)體了么? 如果我們要研究某個(gè)區(qū)域中學(xué)生的身高,那么這個(gè)區(qū)域中所有學(xué)生的身高構(gòu)成了我們研究問(wèn)題的總體,每個(gè)學(xué)生的身高就是一個(gè)個(gè)體。這樣一來(lái),我們?nèi)绻^續(xù)思考下,寫書(shū)的作者也做過(guò)討論,就是做數(shù)學(xué)理論研究,很容易想到去除實(shí)際背景,研究去除背景后的數(shù)學(xué)模型的性質(zhì)理論。這里呢,我們就去除身高這個(gè)實(shí)際名詞,我們研究的是代表身高的那一堆數(shù),這堆數(shù)有的出現(xiàn)的次數(shù)多一點(diǎn),有的出現(xiàn)的次數(shù)少一點(diǎn),也就是說(shuō)在這堆數(shù)中任意取一個(gè)數(shù),每個(gè)數(shù)都有可能被抽到。那么我們可以把這個(gè)數(shù)看成隨機(jī)變量去研究它,是可以的,這堆數(shù)有用一個(gè)分布函數(shù)來(lái)描述它,每個(gè)數(shù)用隨機(jī)變量描述它。再插一點(diǎn),什么是隨機(jī)變量呢?隨機(jī)變量是定義在樣本空間上的一個(gè)實(shí)值函數(shù)。又提到樣本空間了,另一種理解,樣本空間就是這個(gè)區(qū)域中所有學(xué)生,樣本點(diǎn)就是每個(gè)學(xué)生,那么不管你研究身高,還是體重,這兩個(gè)都可以給出數(shù)量指標(biāo),這個(gè)指標(biāo)完全可以用實(shí)數(shù)來(lái)表示,這就是隨機(jī)變量了,如果考慮的是身高和體重,用一個(gè)二維隨機(jī)變量來(lái)表示就行了?,F(xiàn)在我們研究的是統(tǒng)計(jì)學(xué)問(wèn)題,隨機(jī)變量就是定義在總體之上的實(shí)值函數(shù),但是前面我們說(shuō)的總體是全體學(xué)生的身高啊,怎么不是全體學(xué)生呢?哈哈,可以根據(jù)上下文區(qū)分下,總體到底是什么,一般我們研究的是可以量化的指標(biāo),如果只考慮某一個(gè)指標(biāo)的時(shí)候,我們研究的每個(gè)同學(xué)只有一個(gè)這樣的指標(biāo),所以這個(gè)指標(biāo)可以認(rèn)為就是這個(gè)同學(xué)了,但是我們?cè)谘芯慷鄠€(gè)指標(biāo)的情況下,我們只能把總體看成是全體學(xué)生了,你不把它看成全體學(xué)生也可以,可以認(rèn)為每個(gè)個(gè)體只是變成了一個(gè)多維描述的指標(biāo)了而已。
在糾正道正路上來(lái),我們研究總體的性質(zhì)有很多限制,比如我們沒(méi)有那么多人力去認(rèn)真統(tǒng)計(jì)某個(gè)大區(qū)域中的所有學(xué)生身高。我們又想知道總體到底是一個(gè)什么樣子的。其實(shí)我們說(shuō)研究性質(zhì),不是十分準(zhǔn)確,概率統(tǒng)計(jì)中,只要分布已知了,本質(zhì)就知道了。所以準(zhǔn)確的說(shuō),我們是為了研究總體的分布,想知道總體到底滿足什么分布,然后某些分布具有什么性質(zhì),就是概率論研究的內(nèi)容了。
不能每個(gè)個(gè)體都研究,我們就想一個(gè)辦法來(lái)近似的研究整體,就是找一個(gè)我們認(rèn)為能很好的代替總體的一個(gè)小集合來(lái)研究下,為了更好的在數(shù)學(xué)上研究呢,我們就引進(jìn)了樣本的概念。關(guān)于樣本的定義大家有一點(diǎn)差別,但是不會(huì)影響我們后面的學(xué)習(xí),我傾向于于寅寫的高等工程數(shù)學(xué)里的理解,當(dāng)然他也許不是這個(gè)定義的創(chuàng)造者,但是我讀了他的書(shū),學(xué)知識(shí)而已,就認(rèn)為是他寫的也不會(huì)影響我們最終的收獲。樣本就是按照一定規(guī)則從總體抽取的若干個(gè)體,抽取的個(gè)體數(shù)目稱為樣本容量,有的人也就他樣本量。如果我們抽取的規(guī)則是隨機(jī)的,也就是說(shuō)每個(gè)個(gè)體被抽到的機(jī)會(huì)是均等的;每一次抽取的個(gè)體跟其它次抽取行為沒(méi)有關(guān)系。這樣的到的樣本叫簡(jiǎn)單隨機(jī)樣本。我們大多數(shù)情況下研究這樣的樣本。因?yàn)檫@樣的樣本才能很好的反應(yīng)總體的本質(zhì)。至于為什么這樣的樣本能反應(yīng)總體分布,我沒(méi)有去證明,也許有前輩已經(jīng)證明了,我們就可以站在前輩的肩膀上了。
想想,既然從總體中是隨機(jī)拿到的一個(gè)值,那么代表這個(gè)值得變量就是隨機(jī)變量了,它應(yīng)該跟總體滿足相同的分布,而且他們相互獨(dú)立,所謂獨(dú)立同分布啊。所以一個(gè)樣本可以認(rèn)為是一個(gè)多維隨機(jī)變量,每一維都是獨(dú)立的。試驗(yàn)做畢,你會(huì)得到一組值,這組值就是樣本觀測(cè)值。試驗(yàn)就是抽取個(gè)體的過(guò)程。樣本中的每個(gè)個(gè)體呢,也有個(gè)新名字,叫樣品。有的時(shí)候也不區(qū)分這個(gè),所以有些書(shū)里面也就不介紹了。