大數(shù)據(jù)分析有很多的模型,今天我們給大家分享大數(shù)據(jù)分析線性回歸模型,我們在學(xué)校學(xué)習(xí)了許多有趣且有用的概念,但有時我們在現(xiàn)實生活中如何使用它們尚不十分清楚。
線性回歸是一種可能被廣泛低估的概念/工具。
(你可能還對一個相關(guān)主題感興趣:回歸與相關(guān))。
假設(shè)你正計劃與兩個最好的朋友一起前往鄭州。你從北京出發(fā),大約要行駛9個小時。當(dāng)你的朋友負(fù)責(zé)聚會的運作時,你將負(fù)責(zé)所有的后勤工作。你必須計劃每個細(xì)節(jié):日程安排,何時停止以及在何處,確保按時到達(dá)……
那么,你要做的第一件事是什么?你偷偷摸摸地從地球上消失了,不再接聽朋友的電話,因為當(dāng)你成為派對警察時,他們會很有趣嗎?不,你會得到一張白紙,然后開始計劃!
你清單上的第一項?預(yù)算!這是9小時(約1200英里)的有趣旅程,因此在旅途中總共需要18小時。后續(xù)問題:我應(yīng)該為汽油分配多少錢?
這是一個非常重要的問題。你不想在高速公路的中間停下來,可能只是因為汽油用盡而走了幾英里!
你應(yīng)該為汽油分配多少錢?
你以科學(xué)為導(dǎo)向的思維方式來解決此問題,認(rèn)為必須有一種方法可以根據(jù)你旅行的距離估算所需的資金量。
首先,你查看一些數(shù)據(jù)。
去年,你一直在努力跟蹤自己的汽車效率-因為誰沒有!—因此,你計算機(jī)中的某處有此電子表格
至此,這些只是數(shù)字。從此電子表格中獲取任何有價值的信息并非易事。
但是,像這樣繪制,很明顯,在不加油箱的情況下,你可以行駛多遠(yuǎn)。并不是說你還不知道,但是現(xiàn)在-有了數(shù)據(jù)-這很清楚。
你真正想知道的是:如果我行駛1200英里,我將支付多少汽油費?
為了回答這個問題,你將使用到目前為止收集的數(shù)據(jù),并使用它來預(yù)測你將花費多少。這個想法是,你可以根據(jù)過去的數(shù)據(jù)(你一直在努力記錄的數(shù)據(jù)點)對未來(前往鄭州的旅程)做出估計的猜測。
最后,你得到一個數(shù)學(xué)模型,該模型描述了行駛里程與填充油箱所花費的資金之間的關(guān)系。
定義該模型后,你可以為其提供新信息-從北京到鄭州要行駛多少英里-該模型將預(yù)測你需要多少錢。
該模型將使用過去的數(shù)據(jù)來了解行駛的總里程和支付的汽油總金額之間的關(guān)系。
當(dāng)為它提供一個新的數(shù)據(jù)點時,即你從北京到鄭州的行駛距離,該模型將利用從過去所有數(shù)據(jù)中獲得的知識并提供最佳的猜測-一個預(yù)測,即你的數(shù)據(jù)點來自未來。
回顧一下數(shù)據(jù),你通常會發(fā)現(xiàn),你在汽油上的花費越多,則在空轉(zhuǎn)之前可以行駛的時間就越長-假設(shè)汽油的價格保持不變。
如果要最好地描述 ?(或“解釋”)上圖中的關(guān)系,則該關(guān)系應(yīng)如下所示:
顯然,行駛里程與總汽油支付之間存在線性關(guān)系。由于這種關(guān)系是線性的,因此,如果你花更少/更多的錢(例如,一半vs滿油),你將能夠行駛更少/更多的里程。
而且由于這種關(guān)系是線性的,并且你知道從北京到鄭州的車程為多長時間,因此使用線性模型將有助于你預(yù)測要為汽油預(yù)算的預(yù)算。
線性回歸模型
能夠最好地描述總行駛里程與汽油總支付量之間的關(guān)系的模型類型是線性回歸模型。之所以有“回歸”位,是因為你要預(yù)測的是一個數(shù)值。
這里有一些概念需要分解:
1)因變量
2)自變量
3)截距
4)系數(shù)
你必須為汽油預(yù)算的金額取決于你要從北京到鄭州的行駛里程數(shù)。因此,支付的天然氣總費用是模型中的因變量。
在另一方面,鄭州是不會去任何地方,你需要這么多少英里從北京到鄭州開車是獨立的,你在加油站支付的金額-的行駛里程是自變量的模型。讓我們暫時假設(shè)汽油價格保持不變。
由于我們只處理一個自變量,因此可以將模型指定為:
這是線性組合的簡單版本,其中只有一個變量。如果你想更嚴(yán)格地進(jìn)行計算,則還可以在此模型中將油桶的價格作為自變量添加,因為它會影響天然氣的價格。
有了模型的所有必要部分后,剩下的唯一問題是:B0,B1和B2呢?
B0(表示為“ Beta 0”)是模型的截距,意味著它是你的自變量在每個因變量等于零時所取的值。你可以將其可視化為一條穿過軸原點的直線。
線性模型的不同截距值:y = Beta0 + 2x
“ Beta 1”和“ Beta 2”是被稱為系數(shù)。你的模型中每個自變量都有一個系數(shù)。它們確定你的回歸線(描述模型的線)的斜率。
如果我們以上面的示例為例,該模型由y = Beta0 + Beta1x指定,并使用不同的Beta 1值,我們將得到類似
線性模型的不同系數(shù)值:y = 1 + Beta1x
系數(shù)說明因變量的變化率,即你將要支付的費用,因為每個自變量以一個單位變化。
因此,在上述藍(lán)線的情況下,每當(dāng)自變量x改變單位時,因數(shù)值y就會改變1倍。
對于綠線,該影響是因變量x單位變化的4倍。
普通最小二乘
至此,我們已經(jīng)討論了線性模型,甚至嘗試對截距和系數(shù)插入不同的值。
但是,要弄清楚你要去鄭州旅行時要支付多少汽油,我們需要一種機(jī)制來估算這些值。
有多種估算模型參數(shù)的技術(shù)。最受歡迎的之一是普通最小二乘(OLS)。
普通最小二乘法的前提是最小化模型殘差的平方和。數(shù)據(jù)集中的預(yù)測值和實際值之間的差異(思考距離)。
這樣,模型將計算最佳參數(shù),以便回歸線中的每個點都盡可能靠近數(shù)據(jù)集。
在預(yù)算練習(xí)結(jié)束時,有了模型參數(shù),你可以插入預(yù)計要行駛的總里程,并估算需要分配多少汽油。
太好了,現(xiàn)在你知道應(yīng)該為汽油預(yù)算114.5美元!
你會注意到,我們的模型中沒有參數(shù)Beta0。在我們的用例中,截距-或因變量等于零時為常數(shù)是沒有意義的。為此特定型號,我們強(qiáng)迫它經(jīng)過原點,因為如果你不開車,你將不會花費任何汽油費用。
下次你遇到需要根據(jù)直線描述的多種因素來估計數(shù)量的情況時,你知道可以使用線性回歸模型。
填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc