在研究大數(shù)據(jù)分析的統(tǒng)計數(shù)據(jù)時,你不可避免地需要學(xué)習(xí)概率。在概率背后的公式和理論中很容易迷失自己,但在工作和日常生活中都有重要的用途。我們之前已經(jīng)討論了描述性統(tǒng)計中的一些基本概念;現(xiàn)在,我們將探討統(tǒng)計學(xué)與概率的關(guān)系。
先決條件:
大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計假定沒有先驗統(tǒng)計知識,但至少需要具備Python的一般知識和一般的大數(shù)據(jù)分析知識。如果你對for循環(huán)和列表不滿意,建議在繼續(xù)之前在我們的Python入門課程中簡要介紹它們。
什么是概率?
在最基本的層面上,概率試圖回答以下問題:“事件發(fā)生的機(jī)會是什么?” 一個事件是一些令人感興趣的結(jié)果。要計算事件發(fā)生的機(jī)會,我們還需要考慮所有可能發(fā)生的其他事件。概率的典型代表是謙虛的拋硬幣。在拋硬幣過程中,唯一可能發(fā)生的事件是:
1)正面
2)反面
這兩個事件構(gòu)成了示例空間,即所有可能發(fā)生的事件的集合。為了計算事件發(fā)生的可能性,我們計算感興趣事件可以發(fā)生多少次(例如翻轉(zhuǎn)),并將其除以樣本空間。因此,概率將告訴我們,理想的硬幣有正面或反面的二分之一的機(jī)會。通過查看可能發(fā)生的事件,概率為我們提供了進(jìn)行預(yù)測的框架關(guān)于事件發(fā)生的頻率。但是,即使看起來很明顯,但如果我們實際上嘗試扔掉一些硬幣,偶爾也會有一次異常高或低的正面計數(shù)。如果我們不想假設(shè)硬幣是公平的,該怎么辦?我們可以收集數(shù)據(jù)!我們可以使用統(tǒng)計數(shù)據(jù)基于對現(xiàn)實世界的觀察來計算概率,并檢查其與理想情況的比較。
從統(tǒng)計到概率
我們的數(shù)據(jù)將通過擲硬幣10次并計數(shù)我們獲得多少次來生成。我們將召集一組10個拋硬幣試驗。我們的數(shù)據(jù)點將是我們觀察到的磁頭數(shù)量。我們可能沒有“理想”的5位負(fù)責(zé)人,但是我們不會擔(dān)心太多,因為一次試驗只是一個數(shù)據(jù)點。如果我們進(jìn)行很多次試驗,我們希望所有試驗的平均腦袋數(shù)接近50%。下面的代碼模擬10、100、1000和1000000次試驗,然后計算觀察到的頭部的平均比例。下圖也總結(jié)了我們的過程。
該coin_trial功能代表了10次拋硬幣的模擬。它使用該random()函數(shù)生成介于0和1之間的浮點數(shù),heads如果它在該范圍的一半以內(nèi),則增加計數(shù)。然后,simulate根據(jù)你想要的次數(shù)重復(fù)這些試驗,并返回所有試驗中平均頭數(shù)。投幣模擬給了我們一些有趣的結(jié)果。
首先,數(shù)據(jù)證實我們的平均正面人數(shù)確實接近了應(yīng)該達(dá)到的概率。此外,隨著更多的試驗,該平均值得到提高。在10個試驗中,有一些輕微的錯誤,但是在進(jìn)行1,000,000次試驗后,該錯誤幾乎完全消失了。隨著更多的試驗,偏離平均值的偏差減小。聽起來有點熟?當(dāng)然,我們本來可以自己扔掉硬幣的,但是Python允許我們在代碼中對該過程進(jìn)行建模,從而為我們節(jié)省了很多時間。隨著我們獲得越來越多的數(shù)據(jù),現(xiàn)實世界開始類似于理想狀態(tài)。
因此,在給定足夠的數(shù)據(jù)的情況下,統(tǒng)計數(shù)據(jù)使我們能夠使用現(xiàn)實世界的觀察來計算概率。概率提供了理論,而統(tǒng)計學(xué)提供了使用數(shù)據(jù)測試該理論的工具。描述性統(tǒng)計,特別是均值和標(biāo)準(zhǔn)差,成為理論上的代理。你可能會問:“如果我僅能自己計算理論概率,那為什么需要代理?” 拋硬幣是一個簡單的玩具示例,但更有趣的概率卻不那么容易計算。
隨著時間的推移,某人患上疾病的機(jī)會有多大?開車時關(guān)鍵的汽車部件發(fā)生故障的概率是多少?沒有簡單的方法來計算概率,因此我們必須依靠數(shù)據(jù)和統(tǒng)計數(shù)據(jù)來計算它們。在提供越來越多的數(shù)據(jù)的情況下,我們可以更加放心,我們計算出的值代表了這些重要事件發(fā)生的真實概率。話雖這么說,但請記住,根據(jù)我們之前的統(tǒng)計信息,你是一名培訓(xùn)侍酒師。在開始購買葡萄酒之前,你需要確定哪些葡萄酒比其他葡萄酒更好。你手頭上有很多數(shù)據(jù),因此我們將使用我們的統(tǒng)計數(shù)據(jù)來指導(dǎo)我們的決策。
數(shù)據(jù)與分布
在解決“哪種葡萄酒比平均水平更好”的問題之前,我們必須考慮數(shù)據(jù)的性質(zhì)。直觀地講,我們想用葡萄酒的分?jǐn)?shù)來比較各組,但是有一個問題:分?jǐn)?shù)通常在一定范圍內(nèi)。我們?nèi)绾伪容^葡萄酒類型之間的分?jǐn)?shù)組,并在一定程度上確定一種葡萄酒優(yōu)于另一種葡萄酒?輸入正態(tài)分布。正態(tài)分布是指概率和統(tǒng)計領(lǐng)域中的一個特別重要的現(xiàn)象。正態(tài)分布如下所示:
關(guān)于正態(tài)分布,要注意的最重要特征是其對稱性和形狀。我們一直稱其為分布,但是究竟分布了什么?這取決于上下文。在概率上,正態(tài)分布是所有事件之間概率的特定分布。x軸代表我們想知道概率的事件的值。y軸是與每個事件相關(guān)的概率,范圍是0到1。
我們在這里沒有深入討論概率分布,但是知道正態(tài)分布是一種特別重要的概率分布。在統(tǒng)計數(shù)據(jù)中,是分布的數(shù)據(jù)值。在此,x軸是我們數(shù)據(jù)的值,而y軸是這些值中每個值的計數(shù)。這是正態(tài)分布的同一張圖片,但根據(jù)概率和統(tǒng)計上下文進(jìn)行了標(biāo)記:
在概率上下文中,正態(tài)分布中的最高點表示發(fā)生概率最高的事件。隨著你從任一端離此事件越來越遠(yuǎn),幾率迅速下降,形成了熟悉的鐘形。統(tǒng)計上下文中的最高點實際上代表平均值。正如概率一樣,當(dāng)你遠(yuǎn)離均值時,頻率會迅速下降。也就是說,存在與平均值的極高和極低的偏差,但極為罕見。
如果你懷疑通過正態(tài)分布的概率與統(tǒng)計量之間存在其他關(guān)系,那么你是正確的!我們將在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計后面探討這種重要的關(guān)系,因此請緊緊抓住。由于我們將使用分?jǐn)?shù)分布來比較不同的葡萄酒,因此我們將進(jìn)行一些設(shè)置以捕獲一些我們感興趣的葡萄酒。我們將引入葡萄酒數(shù)據(jù),然后分離出一些葡萄酒的分?jǐn)?shù)對我們感興趣。要帶回數(shù)據(jù),我們需要以下代碼:
數(shù)據(jù)以表格形式顯示在下面。我們需要該points列,因此我們將其提取到其自己的列表中。我們從一位葡萄酒專家那里聽說匈牙利的青島啤酒葡萄酒非常出色,而一位朋友則建議我們從意大利哈爾濱啤酒開始。我們有數(shù)據(jù)可以比較這些葡萄酒!如果你不記得數(shù)據(jù)是什么樣子,這里有個快速的表格供你參考并重新認(rèn)識。
如果我們將每組分?jǐn)?shù)可視化為正態(tài)分布,則可以根據(jù)它們的位置立即判斷出兩個分布是否不同。但是我們將很快遇到這種方法的問題,如下所示。由于我們擁有大量數(shù)據(jù),因此我們假設(shè)得分將呈正態(tài)分布。盡管這里的假設(shè)還可以,但是稍后我們將討論這樣做的實際風(fēng)險。
當(dāng)兩個分?jǐn)?shù)分布重疊太多時,最好假設(shè)你實際上來自相同的分布并且沒有不同。在另一個沒有重疊的極端情況下,可以安全地假設(shè)分布不相同。我們的麻煩在于一些重疊的情況。鑒于一種分布的極高點可能與另一種分布的極低點相交,我們?nèi)绾握f這些組是否不同?在這里,我們必須再次呼吁正態(tài)分布給我們一個答案,并為統(tǒng)計和概率之間架起一座橋梁。
重溫正常
由于兩個因素,正態(tài)分布對概率和統(tǒng)計意義重大:中心極限定理和三西格瑪規(guī)則。
中心極限定理
在上一節(jié)中,我們證明了如果我們多次重復(fù)進(jìn)行10次拋擲試驗,那么所有這些試驗的平均總?cè)藬?shù)將接近理想硬幣預(yù)期的50%。通過更多的試驗,即使單個試驗本身并不完美,這些試驗的平均值也越接近真實概率。這個想法是中心極限定理的關(guān)鍵原則。在我們擲硬幣的示例中,一次嘗試10次投擲就產(chǎn)生了對應(yīng)該發(fā)生什么可能性的單個估計(5頭)。我們稱其為估算值是因為我們知道它不是完美的(即,我們每次不會獲得5個頭)。
如果我們做出許多估計,則中心極限定理指示這些估計的分布看起來像正態(tài)分布。此分布的頂點將與估算值應(yīng)采用的真實值一致。在統(tǒng)計中,正態(tài)分布的峰值與平均值一致,這正是我們觀察到的。因此,以多個“試驗”作為我們的數(shù)據(jù),中心極限定理表明即使我們不知道真實的概率,我們也可以磨練概率給出的理論理想。中心極限定理讓我們知道許多試驗均值的平均值將接近真實均值,三西格瑪規(guī)則將告訴我們圍繞該均值分布的數(shù)據(jù)量。
三西格瑪規(guī)則
三西格瑪(Triple Sigma)規(guī)則,也稱為經(jīng)驗規(guī)則或68-95-99.7規(guī)則,表達(dá)了我們有多少觀測值落在均值的一定距離內(nèi)。請記住,標(biāo)準(zhǔn)差(也稱為“ sigma”)是數(shù)據(jù)集中觀察值與平均值之間的平均距離。三西格瑪規(guī)則規(guī)定,給定正態(tài)分布,則68%的觀察值將落在平均值的一個標(biāo)準(zhǔn)偏差之間。95%將落在兩個范圍內(nèi),而99.7%將落在三個范圍內(nèi)。這些值的推導(dǎo)涉及很多復(fù)雜的數(shù)學(xué)運(yùn)算,因此不在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計討論范圍之內(nèi)。關(guān)鍵要點在于,三西格瑪規(guī)則使我們能夠知道正態(tài)分布的不同間隔下包含多少數(shù)據(jù)。下圖是“三個西格瑪規(guī)則”代表的摘要。
我們將把這些概念與我們的葡萄酒數(shù)據(jù)聯(lián)系起來。作為一名侍酒師,我們想非常有信心地知道霞多麗和黑比諾比普通葡萄酒更受歡迎。我們有成千上萬的葡萄酒評論,因此根據(jù)中央極限定理,這些評論的平均分?jǐn)?shù)應(yīng)與葡萄酒質(zhì)量的所謂“真實”表示一致(由評論者判斷)。盡管“三西格瑪”規(guī)則說明了多少數(shù)據(jù)屬于已知值,但也說明了極值的稀有性。與平均值相差超過三個標(biāo)準(zhǔn)偏差的任何值都應(yīng)謹(jǐn)慎對待。利用三西格瑪規(guī)則和Z分?jǐn)?shù),我們終于可以為霞多麗和黑比諾與普通葡萄酒的差異開出一個值。
Z分?jǐn)?shù)
Z分?jǐn)?shù)是一個簡單的計算,它回答了以下問題:“給定一個數(shù)據(jù)點,它與平均值之間有多少標(biāo)準(zhǔn)偏差?” 下面的方程式是Z分?jǐn)?shù)方程式。
就其本身而言,Z評分不會為你提供太多信息。與Z表比較時,它獲得的價值最高,該表列出了直到給定Z分?jǐn)?shù)之前標(biāo)準(zhǔn)正態(tài)分布的累積概率。標(biāo)準(zhǔn)正態(tài)是均值為0,標(biāo)準(zhǔn)偏差為1的正態(tài)分布。即使我們的正態(tài)分布不是標(biāo)準(zhǔn)分布,Z分?jǐn)?shù)也可以讓我們參考Z表。累積概率是直到給定點之前所有值出現(xiàn)的概率之和。
一個簡單的例子就是平均值。平均值是正態(tài)分布的精確中間值,因此我們知道從左側(cè)一直到平均值獲得值的所有概率之和為50%。如果你嘗試計算標(biāo)準(zhǔn)偏差之間的累積概率,則實際上會出現(xiàn)“三西格瑪規(guī)則”中的值。下圖提供了累積概率的可視化。我們知道所有概率之和必須等于100%,因此我們可以使用Z表在正態(tài)分布下計算Z分?jǐn)?shù)兩側(cè)的概率。這種計算超過某個Z分?jǐn)?shù)的概率對我們很有用。它讓我們問:從“平均值離平均值有多遠(yuǎn)”到“距平均值有這么遠(yuǎn)的值來自同一組觀察值的可能性有多大?” 因此,從Z分?jǐn)?shù)和Z表得出的概率將回答我們基于葡萄酒的問題。
這對我們朋友的推薦來說不太好!出于大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計的目的,我們將青島啤酒和哈爾濱啤酒分?jǐn)?shù)均視為正態(tài)分布。因此,每種葡萄酒的平均分?jǐn)?shù)將代表其質(zhì)量的“真實”分?jǐn)?shù)。我們將計算Z分?jǐn)?shù),并查看青島啤酒平均值與哈爾濱啤酒的距離。
答案很小,但是究竟是什么意思呢?這種可能性的無窮小需要一些仔細(xì)的解釋。假設(shè)我們相信朋友的哈爾濱啤酒和葡萄酒專家的青島啤酒之間沒有區(qū)別。也就是說,我們認(rèn)為哈爾濱啤酒和青島啤酒的質(zhì)量大致相同。同樣,由于葡萄酒之間的個體差異,這些葡萄酒的分?jǐn)?shù)也會有所不同。如果我們對青島啤酒和朗布斯科葡萄酒進(jìn)行直方圖分析,這將產(chǎn)生正態(tài)分布的分?jǐn)?shù),這要?dú)w功于中央極限定理。
現(xiàn)在,我們有了一些數(shù)據(jù),可以計算出所討論的兩種葡萄酒的均值和標(biāo)準(zhǔn)差。這些值使我們可以實際檢驗我們對哈爾濱啤酒和青島啤酒具有相似品質(zhì)的看法。我們以哈爾濱啤酒的葡萄酒得分為基礎(chǔ),并比較了青島啤酒的平均值,但反之則可以輕松實現(xiàn)。唯一的區(qū)別是Z得分為負(fù)。Z分?jǐn)?shù)是4.01!請記住,“三西格瑪規(guī)則”告訴我們,假設(shè)青島啤酒和哈爾濱啤酒相似,則99.7%的數(shù)據(jù)應(yīng)在3個標(biāo)準(zhǔn)差之內(nèi)。
在一個假設(shè)哈爾濱啤酒和青島啤酒葡萄酒相同的世界中,獲得平均得分與青島啤酒一樣極端的可能性非常小。太小了,我們不得不考慮相反的情況:青島啤酒葡萄酒不同于哈爾濱啤酒葡萄酒,并且會產(chǎn)生不同的分?jǐn)?shù)分布。我們在這里精心選擇了措辭:我注意不要說“青島啤酒葡萄酒比哈爾濱啤酒好。” 他們很有可能成為。這是因為我們計算出的概率雖然在微觀上很小,但不為零,確切地說,我們可以說哈爾濱啤酒和青島啤酒葡萄酒肯定不是來自相同的分?jǐn)?shù)分布,但是我們不能說一個比另一個更好或更差。
這種類型的推理屬于推論統(tǒng)計的領(lǐng)域,大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計僅旨在向你簡要介紹其背后的原理。我們在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計中介紹了很多概念,因此,如果你發(fā)現(xiàn)自己迷路了,請回過頭慢慢來。擁有這種思維框架非常強(qiáng)大,但是容易被濫用和誤解。
結(jié)論
我們從描述性統(tǒng)計開始,然后將它們與概率聯(lián)系起來。根據(jù)概率,我們開發(fā)了一種方法來定量顯示兩組是否來自同一分布。在這種情況下,我們比較了兩種葡萄酒建議,發(fā)現(xiàn)它們很可能并非來自相同的分?jǐn)?shù)分布。換句話說,一種葡萄酒最有可能比另一種更好。統(tǒng)計信息不必僅限于統(tǒng)計學(xué)家。作為大數(shù)據(jù)分析家,對常見的統(tǒng)計量表示具有直覺的理解將使你在開發(fā)自己的理論上具有優(yōu)勢,并且可以隨后測試這些理論。我們在這里幾乎沒有涉及推論統(tǒng)計的內(nèi)容,但這里的相同一般思想將有助于指導(dǎo)你進(jìn)行統(tǒng)計之旅。
填寫下面表單即可預(yù)約申請免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc