在研究大數(shù)據(jù)分析的統(tǒng)計(jì)數(shù)據(jù)時(shí),你不可避免地需要學(xué)習(xí)概率。在概率背后的公式和理論中很容易迷失自己,但在工作和日常生活中都有重要的用途。我們之前已經(jīng)討論了描述性統(tǒng)計(jì)中的一些基本概念;現(xiàn)在,我們將探討統(tǒng)計(jì)學(xué)與概率的關(guān)系。
先決條件:
大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)假定沒(méi)有先驗(yàn)統(tǒng)計(jì)知識(shí),但至少需要具備Python的一般知識(shí)和一般的大數(shù)據(jù)分析知識(shí)。如果你對(duì)for循環(huán)和列表不滿意,建議在繼續(xù)之前在我們的Python入門課程中簡(jiǎn)要介紹它們。
什么是概率?
在最基本的層面上,概率試圖回答以下問(wèn)題:“事件發(fā)生的機(jī)會(huì)是什么?” 一個(gè)事件是一些令人感興趣的結(jié)果。要計(jì)算事件發(fā)生的機(jī)會(huì),我們還需要考慮所有可能發(fā)生的其他事件。概率的典型代表是謙虛的拋硬幣。在拋硬幣過(guò)程中,唯一可能發(fā)生的事件是:
1)正面
2)反面
這兩個(gè)事件構(gòu)成了示例空間,即所有可能發(fā)生的事件的集合。為了計(jì)算事件發(fā)生的可能性,我們計(jì)算感興趣事件可以發(fā)生多少次(例如翻轉(zhuǎn)),并將其除以樣本空間。因此,概率將告訴我們,理想的硬幣有正面或反面的二分之一的機(jī)會(huì)。通過(guò)查看可能發(fā)生的事件,概率為我們提供了進(jìn)行預(yù)測(cè)的框架關(guān)于事件發(fā)生的頻率。但是,即使看起來(lái)很明顯,但如果我們實(shí)際上嘗試扔掉一些硬幣,偶爾也會(huì)有一次異常高或低的正面計(jì)數(shù)。如果我們不想假設(shè)硬幣是公平的,該怎么辦?我們可以收集數(shù)據(jù)!我們可以使用統(tǒng)計(jì)數(shù)據(jù)基于對(duì)現(xiàn)實(shí)世界的觀察來(lái)計(jì)算概率,并檢查其與理想情況的比較。
從統(tǒng)計(jì)到概率
我們的數(shù)據(jù)將通過(guò)擲硬幣10次并計(jì)數(shù)我們獲得多少次來(lái)生成。我們將召集一組10個(gè)拋硬幣試驗(yàn)。我們的數(shù)據(jù)點(diǎn)將是我們觀察到的磁頭數(shù)量。我們可能沒(méi)有“理想”的5位負(fù)責(zé)人,但是我們不會(huì)擔(dān)心太多,因?yàn)橐淮卧囼?yàn)只是一個(gè)數(shù)據(jù)點(diǎn)。如果我們進(jìn)行很多次試驗(yàn),我們希望所有試驗(yàn)的平均腦袋數(shù)接近50%。下面的代碼模擬10、100、1000和1000000次試驗(yàn),然后計(jì)算觀察到的頭部的平均比例。下圖也總結(jié)了我們的過(guò)程。
該coin_trial功能代表了10次拋硬幣的模擬。它使用該random()函數(shù)生成介于0和1之間的浮點(diǎn)數(shù),heads如果它在該范圍的一半以內(nèi),則增加計(jì)數(shù)。然后,simulate根據(jù)你想要的次數(shù)重復(fù)這些試驗(yàn),并返回所有試驗(yàn)中平均頭數(shù)。投幣模擬給了我們一些有趣的結(jié)果。
首先,數(shù)據(jù)證實(shí)我們的平均正面人數(shù)確實(shí)接近了應(yīng)該達(dá)到的概率。此外,隨著更多的試驗(yàn),該平均值得到提高。在10個(gè)試驗(yàn)中,有一些輕微的錯(cuò)誤,但是在進(jìn)行1,000,000次試驗(yàn)后,該錯(cuò)誤幾乎完全消失了。隨著更多的試驗(yàn),偏離平均值的偏差減小。聽起來(lái)有點(diǎn)熟?當(dāng)然,我們本來(lái)可以自己扔掉硬幣的,但是Python允許我們?cè)诖a中對(duì)該過(guò)程進(jìn)行建模,從而為我們節(jié)省了很多時(shí)間。隨著我們獲得越來(lái)越多的數(shù)據(jù),現(xiàn)實(shí)世界開始類似于理想狀態(tài)。
因此,在給定足夠的數(shù)據(jù)的情況下,統(tǒng)計(jì)數(shù)據(jù)使我們能夠使用現(xiàn)實(shí)世界的觀察來(lái)計(jì)算概率。概率提供了理論,而統(tǒng)計(jì)學(xué)提供了使用數(shù)據(jù)測(cè)試該理論的工具。描述性統(tǒng)計(jì),特別是均值和標(biāo)準(zhǔn)差,成為理論上的代理。你可能會(huì)問(wèn):“如果我僅能自己計(jì)算理論概率,那為什么需要代理?” 拋硬幣是一個(gè)簡(jiǎn)單的玩具示例,但更有趣的概率卻不那么容易計(jì)算。
隨著時(shí)間的推移,某人患上疾病的機(jī)會(huì)有多大?開車時(shí)關(guān)鍵的汽車部件發(fā)生故障的概率是多少?沒(méi)有簡(jiǎn)單的方法來(lái)計(jì)算概率,因此我們必須依靠數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)來(lái)計(jì)算它們。在提供越來(lái)越多的數(shù)據(jù)的情況下,我們可以更加放心,我們計(jì)算出的值代表了這些重要事件發(fā)生的真實(shí)概率。話雖這么說(shuō),但請(qǐng)記住,根據(jù)我們之前的統(tǒng)計(jì)信息,你是一名培訓(xùn)侍酒師。在開始購(gòu)買葡萄酒之前,你需要確定哪些葡萄酒比其他葡萄酒更好。你手頭上有很多數(shù)據(jù),因此我們將使用我們的統(tǒng)計(jì)數(shù)據(jù)來(lái)指導(dǎo)我們的決策。
數(shù)據(jù)與分布
在解決“哪種葡萄酒比平均水平更好”的問(wèn)題之前,我們必須考慮數(shù)據(jù)的性質(zhì)。直觀地講,我們想用葡萄酒的分?jǐn)?shù)來(lái)比較各組,但是有一個(gè)問(wèn)題:分?jǐn)?shù)通常在一定范圍內(nèi)。我們?nèi)绾伪容^葡萄酒類型之間的分?jǐn)?shù)組,并在一定程度上確定一種葡萄酒優(yōu)于另一種葡萄酒?輸入正態(tài)分布。正態(tài)分布是指概率和統(tǒng)計(jì)領(lǐng)域中的一個(gè)特別重要的現(xiàn)象。正態(tài)分布如下所示:
關(guān)于正態(tài)分布,要注意的最重要特征是其對(duì)稱性和形狀。我們一直稱其為分布,但是究竟分布了什么?這取決于上下文。在概率上,正態(tài)分布是所有事件之間概率的特定分布。x軸代表我們想知道概率的事件的值。y軸是與每個(gè)事件相關(guān)的概率,范圍是0到1。
我們?cè)谶@里沒(méi)有深入討論概率分布,但是知道正態(tài)分布是一種特別重要的概率分布。在統(tǒng)計(jì)數(shù)據(jù)中,是分布的數(shù)據(jù)值。在此,x軸是我們數(shù)據(jù)的值,而y軸是這些值中每個(gè)值的計(jì)數(shù)。這是正態(tài)分布的同一張圖片,但根據(jù)概率和統(tǒng)計(jì)上下文進(jìn)行了標(biāo)記:
在概率上下文中,正態(tài)分布中的最高點(diǎn)表示發(fā)生概率最高的事件。隨著你從任一端離此事件越來(lái)越遠(yuǎn),幾率迅速下降,形成了熟悉的鐘形。統(tǒng)計(jì)上下文中的最高點(diǎn)實(shí)際上代表平均值。正如概率一樣,當(dāng)你遠(yuǎn)離均值時(shí),頻率會(huì)迅速下降。也就是說(shuō),存在與平均值的極高和極低的偏差,但極為罕見。
如果你懷疑通過(guò)正態(tài)分布的概率與統(tǒng)計(jì)量之間存在其他關(guān)系,那么你是正確的!我們將在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)后面探討這種重要的關(guān)系,因此請(qǐng)緊緊抓住。由于我們將使用分?jǐn)?shù)分布來(lái)比較不同的葡萄酒,因此我們將進(jìn)行一些設(shè)置以捕獲一些我們感興趣的葡萄酒。我們將引入葡萄酒數(shù)據(jù),然后分離出一些葡萄酒的分?jǐn)?shù)對(duì)我們感興趣。要帶回?cái)?shù)據(jù),我們需要以下代碼:
數(shù)據(jù)以表格形式顯示在下面。我們需要該points列,因此我們將其提取到其自己的列表中。我們從一位葡萄酒專家那里聽說(shuō)匈牙利的青島啤酒葡萄酒非常出色,而一位朋友則建議我們從意大利哈爾濱啤酒開始。我們有數(shù)據(jù)可以比較這些葡萄酒!如果你不記得數(shù)據(jù)是什么樣子,這里有個(gè)快速的表格供你參考并重新認(rèn)識(shí)。
如果我們將每組分?jǐn)?shù)可視化為正態(tài)分布,則可以根據(jù)它們的位置立即判斷出兩個(gè)分布是否不同。但是我們將很快遇到這種方法的問(wèn)題,如下所示。由于我們擁有大量數(shù)據(jù),因此我們假設(shè)得分將呈正態(tài)分布。盡管這里的假設(shè)還可以,但是稍后我們將討論這樣做的實(shí)際風(fēng)險(xiǎn)。
當(dāng)兩個(gè)分?jǐn)?shù)分布重疊太多時(shí),最好假設(shè)你實(shí)際上來(lái)自相同的分布并且沒(méi)有不同。在另一個(gè)沒(méi)有重疊的極端情況下,可以安全地假設(shè)分布不相同。我們的麻煩在于一些重疊的情況。鑒于一種分布的極高點(diǎn)可能與另一種分布的極低點(diǎn)相交,我們?nèi)绾握f(shuō)這些組是否不同?在這里,我們必須再次呼吁正態(tài)分布給我們一個(gè)答案,并為統(tǒng)計(jì)和概率之間架起一座橋梁。
重溫正常
由于兩個(gè)因素,正態(tài)分布對(duì)概率和統(tǒng)計(jì)意義重大:中心極限定理和三西格瑪規(guī)則。
中心極限定理
在上一節(jié)中,我們證明了如果我們多次重復(fù)進(jìn)行10次拋擲試驗(yàn),那么所有這些試驗(yàn)的平均總?cè)藬?shù)將接近理想硬幣預(yù)期的50%。通過(guò)更多的試驗(yàn),即使單個(gè)試驗(yàn)本身并不完美,這些試驗(yàn)的平均值也越接近真實(shí)概率。這個(gè)想法是中心極限定理的關(guān)鍵原則。在我們擲硬幣的示例中,一次嘗試10次投擲就產(chǎn)生了對(duì)應(yīng)該發(fā)生什么可能性的單個(gè)估計(jì)(5頭)。我們稱其為估算值是因?yàn)槲覀冎浪皇峭昝赖?即,我們每次不會(huì)獲得5個(gè)頭)。
如果我們做出許多估計(jì),則中心極限定理指示這些估計(jì)的分布看起來(lái)像正態(tài)分布。此分布的頂點(diǎn)將與估算值應(yīng)采用的真實(shí)值一致。在統(tǒng)計(jì)中,正態(tài)分布的峰值與平均值一致,這正是我們觀察到的。因此,以多個(gè)“試驗(yàn)”作為我們的數(shù)據(jù),中心極限定理表明即使我們不知道真實(shí)的概率,我們也可以磨練概率給出的理論理想。中心極限定理讓我們知道許多試驗(yàn)均值的平均值將接近真實(shí)均值,三西格瑪規(guī)則將告訴我們圍繞該均值分布的數(shù)據(jù)量。
三西格瑪規(guī)則
三西格瑪(Triple Sigma)規(guī)則,也稱為經(jīng)驗(yàn)規(guī)則或68-95-99.7規(guī)則,表達(dá)了我們有多少觀測(cè)值落在均值的一定距離內(nèi)。請(qǐng)記住,標(biāo)準(zhǔn)差(也稱為“ sigma”)是數(shù)據(jù)集中觀察值與平均值之間的平均距離。三西格瑪規(guī)則規(guī)定,給定正態(tài)分布,則68%的觀察值將落在平均值的一個(gè)標(biāo)準(zhǔn)偏差之間。95%將落在兩個(gè)范圍內(nèi),而99.7%將落在三個(gè)范圍內(nèi)。這些值的推導(dǎo)涉及很多復(fù)雜的數(shù)學(xué)運(yùn)算,因此不在大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)討論范圍之內(nèi)。關(guān)鍵要點(diǎn)在于,三西格瑪規(guī)則使我們能夠知道正態(tài)分布的不同間隔下包含多少數(shù)據(jù)。下圖是“三個(gè)西格瑪規(guī)則”代表的摘要。
我們將把這些概念與我們的葡萄酒數(shù)據(jù)聯(lián)系起來(lái)。作為一名侍酒師,我們想非常有信心地知道霞多麗和黑比諾比普通葡萄酒更受歡迎。我們有成千上萬(wàn)的葡萄酒評(píng)論,因此根據(jù)中央極限定理,這些評(píng)論的平均分?jǐn)?shù)應(yīng)與葡萄酒質(zhì)量的所謂“真實(shí)”表示一致(由評(píng)論者判斷)。盡管“三西格瑪”規(guī)則說(shuō)明了多少數(shù)據(jù)屬于已知值,但也說(shuō)明了極值的稀有性。與平均值相差超過(guò)三個(gè)標(biāo)準(zhǔn)偏差的任何值都應(yīng)謹(jǐn)慎對(duì)待。利用三西格瑪規(guī)則和Z分?jǐn)?shù),我們終于可以為霞多麗和黑比諾與普通葡萄酒的差異開出一個(gè)值。
Z分?jǐn)?shù)
Z分?jǐn)?shù)是一個(gè)簡(jiǎn)單的計(jì)算,它回答了以下問(wèn)題:“給定一個(gè)數(shù)據(jù)點(diǎn),它與平均值之間有多少標(biāo)準(zhǔn)偏差?” 下面的方程式是Z分?jǐn)?shù)方程式。
就其本身而言,Z評(píng)分不會(huì)為你提供太多信息。與Z表比較時(shí),它獲得的價(jià)值最高,該表列出了直到給定Z分?jǐn)?shù)之前標(biāo)準(zhǔn)正態(tài)分布的累積概率。標(biāo)準(zhǔn)正態(tài)是均值為0,標(biāo)準(zhǔn)偏差為1的正態(tài)分布。即使我們的正態(tài)分布不是標(biāo)準(zhǔn)分布,Z分?jǐn)?shù)也可以讓我們參考Z表。累積概率是直到給定點(diǎn)之前所有值出現(xiàn)的概率之和。
一個(gè)簡(jiǎn)單的例子就是平均值。平均值是正態(tài)分布的精確中間值,因此我們知道從左側(cè)一直到平均值獲得值的所有概率之和為50%。如果你嘗試計(jì)算標(biāo)準(zhǔn)偏差之間的累積概率,則實(shí)際上會(huì)出現(xiàn)“三西格瑪規(guī)則”中的值。下圖提供了累積概率的可視化。我們知道所有概率之和必須等于100%,因此我們可以使用Z表在正態(tài)分布下計(jì)算Z分?jǐn)?shù)兩側(cè)的概率。這種計(jì)算超過(guò)某個(gè)Z分?jǐn)?shù)的概率對(duì)我們很有用。它讓我們問(wèn):從“平均值離平均值有多遠(yuǎn)”到“距平均值有這么遠(yuǎn)的值來(lái)自同一組觀察值的可能性有多大?” 因此,從Z分?jǐn)?shù)和Z表得出的概率將回答我們基于葡萄酒的問(wèn)題。
這對(duì)我們朋友的推薦來(lái)說(shuō)不太好!出于大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)的目的,我們將青島啤酒和哈爾濱啤酒分?jǐn)?shù)均視為正態(tài)分布。因此,每種葡萄酒的平均分?jǐn)?shù)將代表其質(zhì)量的“真實(shí)”分?jǐn)?shù)。我們將計(jì)算Z分?jǐn)?shù),并查看青島啤酒平均值與哈爾濱啤酒的距離。
答案很小,但是究竟是什么意思呢?這種可能性的無(wú)窮小需要一些仔細(xì)的解釋。假設(shè)我們相信朋友的哈爾濱啤酒和葡萄酒專家的青島啤酒之間沒(méi)有區(qū)別。也就是說(shuō),我們認(rèn)為哈爾濱啤酒和青島啤酒的質(zhì)量大致相同。同樣,由于葡萄酒之間的個(gè)體差異,這些葡萄酒的分?jǐn)?shù)也會(huì)有所不同。如果我們對(duì)青島啤酒和朗布斯科葡萄酒進(jìn)行直方圖分析,這將產(chǎn)生正態(tài)分布的分?jǐn)?shù),這要?dú)w功于中央極限定理。
現(xiàn)在,我們有了一些數(shù)據(jù),可以計(jì)算出所討論的兩種葡萄酒的均值和標(biāo)準(zhǔn)差。這些值使我們可以實(shí)際檢驗(yàn)我們對(duì)哈爾濱啤酒和青島啤酒具有相似品質(zhì)的看法。我們以哈爾濱啤酒的葡萄酒得分為基礎(chǔ),并比較了青島啤酒的平均值,但反之則可以輕松實(shí)現(xiàn)。唯一的區(qū)別是Z得分為負(fù)。Z分?jǐn)?shù)是4.01!請(qǐng)記住,“三西格瑪規(guī)則”告訴我們,假設(shè)青島啤酒和哈爾濱啤酒相似,則99.7%的數(shù)據(jù)應(yīng)在3個(gè)標(biāo)準(zhǔn)差之內(nèi)。
在一個(gè)假設(shè)哈爾濱啤酒和青島啤酒葡萄酒相同的世界中,獲得平均得分與青島啤酒一樣極端的可能性非常小。太小了,我們不得不考慮相反的情況:青島啤酒葡萄酒不同于哈爾濱啤酒葡萄酒,并且會(huì)產(chǎn)生不同的分?jǐn)?shù)分布。我們?cè)谶@里精心選擇了措辭:我注意不要說(shuō)“青島啤酒葡萄酒比哈爾濱啤酒好。” 他們很有可能成為。這是因?yàn)槲覀冇?jì)算出的概率雖然在微觀上很小,但不為零,確切地說(shuō),我們可以說(shuō)哈爾濱啤酒和青島啤酒葡萄酒肯定不是來(lái)自相同的分?jǐn)?shù)分布,但是我們不能說(shuō)一個(gè)比另一個(gè)更好或更差。
這種類型的推理屬于推論統(tǒng)計(jì)的領(lǐng)域,大數(shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)僅旨在向你簡(jiǎn)要介紹其背后的原理。我們?cè)诖髷?shù)據(jù)分析為什么要學(xué)習(xí)概率統(tǒng)計(jì)中介紹了很多概念,因此,如果你發(fā)現(xiàn)自己迷路了,請(qǐng)回過(guò)頭慢慢來(lái)。擁有這種思維框架非常強(qiáng)大,但是容易被濫用和誤解。
結(jié)論
我們從描述性統(tǒng)計(jì)開始,然后將它們與概率聯(lián)系起來(lái)。根據(jù)概率,我們開發(fā)了一種方法來(lái)定量顯示兩組是否來(lái)自同一分布。在這種情況下,我們比較了兩種葡萄酒建議,發(fā)現(xiàn)它們很可能并非來(lái)自相同的分?jǐn)?shù)分布。換句話說(shuō),一種葡萄酒最有可能比另一種更好。統(tǒng)計(jì)信息不必僅限于統(tǒng)計(jì)學(xué)家。作為大數(shù)據(jù)分析家,對(duì)常見的統(tǒng)計(jì)量表示具有直覺(jué)的理解將使你在開發(fā)自己的理論上具有優(yōu)勢(shì),并且可以隨后測(cè)試這些理論。我們?cè)谶@里幾乎沒(méi)有涉及推論統(tǒng)計(jì)的內(nèi)容,但這里的相同一般思想將有助于指導(dǎo)你進(jìn)行統(tǒng)計(jì)之旅。
填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc