概率到統(tǒng)計的思考與理解

時間：2019-07-05 14:32:01

關(guān)鍵字：概率統(tǒng)計學(xué)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]由于統(tǒng)計學(xué)在現(xiàn)實生活和“高端”科學(xué)研究中有著很高的地位，時常思考統(tǒng)計相關(guān)的問題，加深對它的基礎(chǔ)理論的理解應(yīng)該對我們理解和研究現(xiàn)實世界有幫助。1、樣本空間與總體的關(guān)系樣本空間，在茆詩松等編著的《概率論與

由于統(tǒng)計學(xué)在現(xiàn)實生活和“高端”科學(xué)研究中有著很高的地位，時常思考統(tǒng)計相關(guān)的問題，加深對它的基礎(chǔ)理論的理解應(yīng)該對我們理解和研究現(xiàn)實世界有幫助。

1、樣本空間與總體的關(guān)系

樣本空間，在茆詩松等編著的《概率論與數(shù)理統(tǒng)計教程》一書中，是這樣定義的：隨機現(xiàn)象的一切可能的基本結(jié)果組成的集合稱為樣本空間，每個基本結(jié)果被稱為樣本點。首先理解一下，什么是隨機現(xiàn)象？隨機現(xiàn)象就是在一定條件下，并不總是出現(xiàn)相同結(jié)果的現(xiàn)象，稱為隨機現(xiàn)象。這里我們不去深究什么是現(xiàn)象，因為他的解釋本身是抽象的，抽象的東西相對具體的東西理解稍微困難一點，我們可以在不斷的學(xué)習(xí)過程中慢慢理解、意會這些概念。這里我們固定了某個關(guān)心的結(jié)果后，就可以產(chǎn)生樣本空間了。比如，我們研究“某個環(huán)境中，固定條件下，投擲骰子出現(xiàn)的點數(shù)”，這里我們考慮的是出現(xiàn)的點數(shù)這種結(jié)果形式，為什么不是說結(jié)果，而是說結(jié)果形式，只是微妙的一點點差別而已，結(jié)果是確定的，而結(jié)果形式是概述這些可能的結(jié)果，我這樣理解，但是由于這樣會帶來理解上的負擔，干脆用“結(jié)果”這個詞來代替了，在大多數(shù)情況下，大家都可以意會。這個例子中，我們考慮的是投擲骰子這種隨機現(xiàn)象的出現(xiàn)點數(shù)這種結(jié)果，所以樣本點有“出現(xiàn)1點”，“出現(xiàn)2點”，...，"出現(xiàn)6點"，這些樣本點組成樣本空間。樣本空間還強調(diào)了“一切可能”，表征全面性。樣本空間的本質(zhì)屬性是集合，這個定義不想我們大家在代數(shù)中學(xué)到的空間一樣，代數(shù)中，空間是定義了運算以及某些限定條件的集合，他跟分析中的空間也不一樣，總之概率中的樣本空間僅僅是一個集合而已，如果你愿意，你可以叫他樣本集合。

總體，我們繼續(xù)把茆詩松等人的定義作為理解的出發(fā)點，所謂總體就是指研究對象的全體。與樣本空間不同，樣本空間是隨機現(xiàn)象的我們所關(guān)心的結(jié)果的集合，而總體是指對象的全體，它本質(zhì)也是集合的概念，每個研究對象是可以區(qū)分開來的，每一個對象我們稱之為個體，總體只說明是對象的集合，沒有說明是結(jié)果的集合，但是很多情況下，或者研究統(tǒng)計的科學(xué)家實際上是想把總體定義成結(jié)果的集合的，實際中他們也是這樣用的。他們隸屬的學(xué)科也不同，樣本空間屬于概率論的范疇，總體屬于統(tǒng)計的范疇。概率是給出某些假設(shè)本質(zhì)，研究本質(zhì)后的現(xiàn)象問題，就是說概率是已知概率分布，然后研究隨機變量的關(guān)系啊，性質(zhì)啊，給一些新的變量定義啊，比如數(shù)學(xué)期望，方差，標準差啊之類的，統(tǒng)計是為了發(fā)現(xiàn)總體某種原始本質(zhì)性質(zhì)，而做出的數(shù)學(xué)上的分析和理解。當然這只是我個人的理解，也許事實不是這樣的，不管事實怎樣，這樣理解并不會對我們理解統(tǒng)計學(xué)的基本原理和方法造成障礙。

既然學(xué)科不同，即使他們有聯(lián)系，我們在考慮不同學(xué)科的時候，根據(jù)上下文區(qū)分即可，不要過于糾結(jié)，糾結(jié)多了，會阻止我們前進的。

2、理解總體之后的概念和需要研究的問題

知道了什么是總體，什么是個體了么？如果我們要研究某個區(qū)域中學(xué)生的身高，那么這個區(qū)域中所有學(xué)生的身高構(gòu)成了我們研究問題的總體，每個學(xué)生的身高就是一個個體。這樣一來，我們?nèi)绻^續(xù)思考下，寫書的作者也做過討論，就是做數(shù)學(xué)理論研究，很容易想到去除實際背景，研究去除背景后的數(shù)學(xué)模型的性質(zhì)理論。這里呢，我們就去除身高這個實際名詞，我們研究的是代表身高的那一堆數(shù)，這堆數(shù)有的出現(xiàn)的次數(shù)多一點，有的出現(xiàn)的次數(shù)少一點，也就是說在這堆數(shù)中任意取一個數(shù)，每個數(shù)都有可能被抽到。那么我們可以把這個數(shù)看成隨機變量去研究它，是可以的，這堆數(shù)有用一個分布函數(shù)來描述它，每個數(shù)用隨機變量描述它。再插一點，什么是隨機變量呢？隨機變量是定義在樣本空間上的一個實值函數(shù)。又提到樣本空間了，另一種理解，樣本空間就是這個區(qū)域中所有學(xué)生，樣本點就是每個學(xué)生，那么不管你研究身高，還是體重，這兩個都可以給出數(shù)量指標，這個指標完全可以用實數(shù)來表示，這就是隨機變量了，如果考慮的是身高和體重，用一個二維隨機變量來表示就行了。現(xiàn)在我們研究的是統(tǒng)計學(xué)問題，隨機變量就是定義在總體之上的實值函數(shù)，但是前面我們說的總體是全體學(xué)生的身高啊，怎么不是全體學(xué)生呢？哈哈，可以根據(jù)上下文區(qū)分下，總體到底是什么，一般我們研究的是可以量化的指標，如果只考慮某一個指標的時候，我們研究的每個同學(xué)只有一個這樣的指標，所以這個指標可以認為就是這個同學(xué)了，但是我們在研究多個指標的情況下，我們只能把總體看成是全體學(xué)生了，你不把它看成全體學(xué)生也可以，可以認為每個個體只是變成了一個多維描述的指標了而已。

在糾正道正路上來，我們研究總體的性質(zhì)有很多限制，比如我們沒有那么多人力去認真統(tǒng)計某個大區(qū)域中的所有學(xué)生身高。我們又想知道總體到底是一個什么樣子的。其實我們說研究性質(zhì)，不是十分準確，概率統(tǒng)計中，只要分布已知了，本質(zhì)就知道了。所以準確的說，我們是為了研究總體的分布，想知道總體到底滿足什么分布，然后某些分布具有什么性質(zhì)，就是概率論研究的內(nèi)容了。

不能每個個體都研究，我們就想一個辦法來近似的研究整體，就是找一個我們認為能很好的代替總體的一個小集合來研究下，為了更好的在數(shù)學(xué)上研究呢，我們就引進了樣本的概念。關(guān)于樣本的定義大家有一點差別，但是不會影響我們后面的學(xué)習(xí)，我傾向于于寅寫的高等工程數(shù)學(xué)里的理解，當然他也許不是這個定義的創(chuàng)造者，但是我讀了他的書，學(xué)知識而已，就認為是他寫的也不會影響我們最終的收獲。樣本就是按照一定規(guī)則從總體抽取的若干個體，抽取的個體數(shù)目稱為樣本容量，有的人也就他樣本量。如果我們抽取的規(guī)則是隨機的，也就是說每個個體被抽到的機會是均等的；每一次抽取的個體跟其它次抽取行為沒有關(guān)系。這樣的到的樣本叫簡單隨機樣本。我們大多數(shù)情況下研究這樣的樣本。因為這樣的樣本才能很好的反應(yīng)總體的本質(zhì)。至于為什么這樣的樣本能反應(yīng)總體分布，我沒有去證明，也許有前輩已經(jīng)證明了，我們就可以站在前輩的肩膀上了。

想想，既然從總體中是隨機拿到的一個值，那么代表這個值得變量就是隨機變量了，它應(yīng)該跟總體滿足相同的分布，而且他們相互獨立，所謂獨立同分布啊。所以一個樣本可以認為是一個多維隨機變量，每一維都是獨立的。試驗做畢，你會得到一組值，這組值就是樣本觀測值。試驗就是抽取個體的過程。樣本中的每個個體呢，也有個新名字，叫樣品。有的時候也不區(qū)分這個，所以有些書里面也就不介紹了。