旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習(xí)/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析線性回歸模型

大數(shù)據(jù)分析線性回歸模型

時間:2020-09-10來源:m.5wd995.cn點擊量:作者:Sissi
時間:2020-09-10點擊量:作者:Sissi



  大數(shù)據(jù)分析有很多的模型,今天我們給大家分享大數(shù)據(jù)分析線性回歸模型,我們在學(xué)校學(xué)習(xí)了許多有趣且有用的概念,但有時我們在現(xiàn)實生活中如何使用它們尚不十分清楚。
 

  線性回歸是一種可能被廣泛低估的概念/工具。
 

  (你可能還對一個相關(guān)主題感興趣:回歸與相關(guān))。
 

  假設(shè)你正計劃與兩個最好的朋友一起前往鄭州。你從北京出發(fā),大約要行駛9個小時。當(dāng)你的朋友負(fù)責(zé)聚會的運作時,你將負(fù)責(zé)所有的后勤工作。你必須計劃每個細(xì)節(jié):日程安排,何時停止以及在何處,確保按時到達(dá)……
 

  那么,你要做的第一件事是什么?你偷偷摸摸地從地球上消失了,不再接聽朋友的電話,因為當(dāng)你成為派對警察時,他們會很有趣嗎?不,你會得到一張白紙,然后開始計劃!
 

  你清單上的第一項?預(yù)算!這是9小時(約1200英里)的有趣旅程,因此在旅途中總共需要18小時。后續(xù)問題:我應(yīng)該為汽油分配多少錢?
 

  這是一個非常重要的問題。你不想在高速公路的中間停下來,可能只是因為汽油用盡而走了幾英里!
 

  你應(yīng)該為汽油分配多少錢?
 

  你以科學(xué)為導(dǎo)向的思維方式來解決此問題,認(rèn)為必須有一種方法可以根據(jù)你旅行的距離估算所需的資金量。
 

  首先,你查看一些數(shù)據(jù)。
 

  去年,你一直在努力跟蹤自己的汽車效率-因為誰沒有!—因此,你計算機(jī)中的某處有此電子表格

大數(shù)據(jù)分析線性回歸模型
 

  至此,這些只是數(shù)字。從此電子表格中獲取任何有價值的信息并非易事。

大數(shù)據(jù)分析線性回歸模型
 

  但是,像這樣繪制,很明顯,在不加油箱的情況下,你可以行駛多遠(yuǎn)。并不是說你還不知道,但是現(xiàn)在-有了數(shù)據(jù)-這很清楚。
 

  你真正想知道的是:如果我行駛1200英里,我將支付多少汽油費?
 

  為了回答這個問題,你將使用到目前為止收集的數(shù)據(jù),并使用它來預(yù)測你將花費多少。這個想法是,你可以根據(jù)過去的數(shù)據(jù)(你一直在努力記錄的數(shù)據(jù)點)對未來(前往鄭州的旅程)做出估計的猜測。
 

  最后,你得到一個數(shù)學(xué)模型,該模型描述了行駛里程與填充油箱所花費的資金之間的關(guān)系。
 

  定義該模型后,你可以為其提供新信息-從北京到鄭州要行駛多少英里-該模型將預(yù)測你需要多少錢。

大數(shù)據(jù)分析線性回歸模型
 

  該模型將使用過去的數(shù)據(jù)來了解行駛的總里程和支付的汽油總金額之間的關(guān)系。
 

  當(dāng)為它提供一個新的數(shù)據(jù)點時,即你從北京到鄭州的行駛距離,該模型將利用從過去所有數(shù)據(jù)中獲得的知識并提供最佳的猜測-一個預(yù)測,即你的數(shù)據(jù)點來自未來。
 

  回顧一下數(shù)據(jù),你通常會發(fā)現(xiàn),你在汽油上的花費越多,則在空轉(zhuǎn)之前可以行駛的時間就越長-假設(shè)汽油的價格保持不變。
 

  如果要最好地描述 ?(或“解釋”)上圖中的關(guān)系,則該關(guān)系應(yīng)如下所示:

大數(shù)據(jù)分析線性回歸模型
 

  顯然,行駛里程與總汽油支付之間存在線性關(guān)系。由于這種關(guān)系是線性的,因此,如果你花更少/更多的錢(例如,一半vs滿油),你將能夠行駛更少/更多的里程。
 

  而且由于這種關(guān)系是線性的,并且你知道從北京到鄭州的車程為多長時間,因此使用線性模型將有助于你預(yù)測要為汽油預(yù)算的預(yù)算。
 

  線性回歸模型
 

  能夠最好地描述總行駛里程與汽油總支付量之間的關(guān)系的模型類型是線性回歸模型。之所以有“回歸”位,是因為你要預(yù)測的是一個數(shù)值。
 

  這里有一些概念需要分解:
 

  1)因變量

  2)自變量

  3)截距

  4)系數(shù)
 

  你必須為汽油預(yù)算的金額取決于你要從北京到鄭州的行駛里程數(shù)。因此,支付的天然氣總費用是模型中的因變量。
 

  在另一方面,鄭州是不會去任何地方,你需要這么多少英里從北京到鄭州開車是獨立的,你在加油站支付的金額-的行駛里程是自變量的模型。讓我們暫時假設(shè)汽油價格保持不變。
 

  由于我們只處理一個自變量,因此可以將模型指定為:

大數(shù)據(jù)分析線性回歸模型
 

  這是線性組合的簡單版本,其中只有一個變量。如果你想更嚴(yán)格地進(jìn)行計算,則還可以在此模型中將油桶的價格作為自變量添加,因為它會影響天然氣的價格。

大數(shù)據(jù)分析線性回歸模型
 

  有了模型的所有必要部分后,剩下的唯一問題是:B0,B1和B2呢?
 

  B0(表示為“ Beta 0”)是模型的截距,意味著它是你的自變量在每個因變量等于零時所取的值。你可以將其可視化為一條穿過軸原點的直線。

大數(shù)據(jù)分析線性回歸模型
 

  線性模型的不同截距值:y = Beta0 + 2x
 

  “ Beta 1”和“ Beta 2”是被稱為系數(shù)。你的模型中每個自變量都有一個系數(shù)。它們確定你的回歸線(描述模型的線)的斜率。
 

  如果我們以上面的示例為例,該模型由y = Beta0 + Beta1x指定,并使用不同的Beta 1值,我們將得到類似

大數(shù)據(jù)分析線性回歸模型
 

  線性模型的不同系數(shù)值:y = 1 + Beta1x
 

  系數(shù)說明因變量的變化率,即你將要支付的費用,因為每個自變量以一個單位變化。
 

  因此,在上述藍(lán)線的情況下,每當(dāng)自變量x改變單位時,因數(shù)值y就會改變1倍。
 

  對于綠線,該影響是因變量x單位變化的4倍。
 

  普通最小二乘
 

  至此,我們已經(jīng)討論了線性模型,甚至嘗試對截距和系數(shù)插入不同的值。
 

  但是,要弄清楚你要去鄭州旅行時要支付多少汽油,我們需要一種機(jī)制來估算這些值。
 

  有多種估算模型參數(shù)的技術(shù)。最受歡迎的之一是普通最小二乘(OLS)。
 

  普通最小二乘法的前提是最小化模型殘差的平方和。數(shù)據(jù)集中的預(yù)測值和實際值之間的差異(思考距離)。
 

  這樣,模型將計算最佳參數(shù),以便回歸線中的每個點都盡可能靠近數(shù)據(jù)集。

大數(shù)據(jù)分析線性回歸模型
 

  在預(yù)算練習(xí)結(jié)束時,有了模型參數(shù),你可以插入預(yù)計要行駛的總里程,并估算需要分配多少汽油。

大數(shù)據(jù)分析線性回歸模型
 

  太好了,現(xiàn)在你知道應(yīng)該為汽油預(yù)算114.5美元!
 

  你會注意到,我們的模型中沒有參數(shù)Beta0。在我們的用例中,截距-或因變量等于零時為常數(shù)是沒有意義的。為此特定型號,我們強(qiáng)迫它經(jīng)過原點,因為如果你不開車,你將不會花費任何汽油費用。
 

  下次你遇到需要根據(jù)直線描述的多種因素來估計數(shù)量的情況時,你知道可以使用線性回歸模型。


 

預(yù)約申請免費試聽課

填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ m.5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖