旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實習(xí)/?A計劃
全國統(tǒng)一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模

時間:2020-09-20來源:m.5wd995.cn點擊量:作者:Sissi
時間:2020-09-20點擊量:作者:Sissi



  大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模?在R編程中,預(yù)測模型對于預(yù)測將來的結(jié)果和估計不可行的度量非常有用。例如,數(shù)據(jù)科學(xué)家可以使用預(yù)測模型根據(jù)降雨和溫度來預(yù)測農(nóng)作物產(chǎn)量,或者確定具有某些性狀的患者對新藥的不良反應(yīng)是否更可能。
 

  在我們專門討論線性回歸之前,讓我們提醒自己一個典型的數(shù)據(jù)科學(xué)工作流程是什么樣的。很多時候,我們會從一個要回答的問題開始,然后執(zhí)行以下操作:
 

  1)收集一些與問題相關(guān)的數(shù)據(jù)(越多越好)。

  2)如果需要,將數(shù)據(jù)清理,擴(kuò)充和預(yù)處理為方便的形式。

  3)對數(shù)據(jù)進(jìn)行探索性分析,以更好地了解數(shù)據(jù)。

  4)使用您發(fā)現(xiàn)的內(nèi)容作為指南,構(gòu)建數(shù)據(jù)某些方面的模型。

  5)使用模型來回答您開始的問題,并驗證結(jié)果。
 

  線性回歸是數(shù)據(jù)科學(xué)家用于預(yù)測建模的最簡單,最常見的監(jiān)督式機(jī)器學(xué)習(xí)算法之一。在這篇文章中,我們將使用線性回歸來構(gòu)建一個模型,該模型根據(jù)度量標(biāo)準(zhǔn)來預(yù)測櫻花樹的數(shù)量,這對于研究樹木的人們來說更容易測量。
 

  在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模文章中,我們將使用R來探索該數(shù)據(jù)集并學(xué)習(xí)線性回歸的基礎(chǔ)。如果您不熟悉R語言,我們建議您使用R Data Analyst路徑學(xué)習(xí)R基礎(chǔ)知識和R編程:中級課程。掌握一些非?;A(chǔ)的統(tǒng)計知識也將有所幫助,但是如果您知道平均數(shù)和標(biāo)準(zhǔn)差是多少,您將可以繼續(xù)進(jìn)行。如果您想練習(xí)自己構(gòu)建模型和可視化,我們將使用以下R包:
 

  1)data sets該軟件包包含各種實踐數(shù)據(jù)集。我們將使用其中的一種“樹”來學(xué)習(xí)構(gòu)建線性回歸模型。

  2)ggplot2 我們將使用這個流行的數(shù)據(jù)可視化軟件包來構(gòu)建模型圖。

  3)GGally該軟件包擴(kuò)展了的功能ggplot2。作為初始探索性??數(shù)據(jù)可視化的一部分,我們將使用它來創(chuàng)建繪圖矩陣。

  4)scatterplot3d 我們將使用此軟件包來可視化具有多個預(yù)測變量的更復(fù)雜的線性回歸模型。
 

  無論如何,他們?nèi)绾螠y量樹木的體積?
 

  該樹的數(shù)據(jù)集包括在基礎(chǔ)R的datasets包,它會幫助我們回答這個問題。由于我們正在使用現(xiàn)有的(干凈的)數(shù)據(jù)集,因此上面的步驟1和2已經(jīng)完成,因此我們可以直接跳到步驟3中的一些初步探索性分析。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  該數(shù)據(jù)集包含3個描述黑櫻桃樹的數(shù)字變量的31個觀察值:
 

  1)軀干圍長(英寸)

  2)高度(英尺)

  3)體積(英尺3)
 

  這些指標(biāo)對于研究樹木生態(tài)學(xué)的林務(wù)員和科學(xué)家是有用的信息。使用基本的林業(yè)工具來測量樹木的高度和周長是相當(dāng)簡單的,但是測量樹木的體積要困難得多。如果您不想真正砍伐和拆除樹木,則必須采取一些技術(shù)上具有挑戰(zhàn)性且耗時的活動,例如爬樹和進(jìn)行精確的測量。能夠根據(jù)高度和/或周長準(zhǔn)確預(yù)測樹木的體積將很有用。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  為了確定我們是否可以建立預(yù)測模型,第一步是查看預(yù)測變量和響應(yīng)變量(在這種情況下,周長,高度和體積)之間是否存在關(guān)系。讓我們進(jìn)行一些探索性的數(shù)據(jù)可視化。我們將使用包中的ggpairs()函數(shù)GGally創(chuàng)建一個繪圖矩陣,以查看變量之間的關(guān)系。
 

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  該ggpairs()函數(shù)為我們提供了每個變量組合的散點圖,以及每個變量的密度圖以及變量之間的相關(guān)強(qiáng)度。
 

  如果您以前使用ggplot2過,則該符號可能看起來很熟悉:GGally是該符號的擴(kuò)展,ggplot2它提供了一個簡單的界面來創(chuàng)建一些其他復(fù)雜的圖形,例如此圖形。當(dāng)我們查看這些圖時,我們可以開始了解數(shù)據(jù)并提出問題。相關(guān)系數(shù)提供有關(guān)變量與關(guān)系之間的接近程度的信息;相關(guān)系數(shù)越接近1,則關(guān)系越強(qiáng)。散點圖使我們可視化變量對之間的關(guān)??系。點具有清晰視覺圖案(而不是看起來像無形狀的云)的散點圖指示更強(qiáng)的關(guān)系。
 

  我們的問題:哪些預(yù)測變量似乎與響應(yīng)變量相關(guān)?從ggpairs()輸出看,圍長顯然與體積有關(guān):相關(guān)系數(shù)接近1,并且各點似乎具有線性模式。高度和體積之間可能存在某種關(guān)系,但似乎關(guān)系較弱:相關(guān)系數(shù)較小,并且散點圖中的點更分散。變量之間的關(guān)系的形狀是什么?
 

  該關(guān)系似乎是線性的。從散點圖可以看出,樹的體積隨著樹長的增加而持續(xù)增加。是牢固的關(guān)系,還是數(shù)據(jù)中的噪聲淹沒了信號?高度和體積之間的關(guān)系還不清楚,但是周長和體積之間的關(guān)系似乎很牢固?,F(xiàn)在,我們對數(shù)據(jù)有了全面的了解,我們可以繼續(xù)進(jìn)行第4步,并進(jìn)行一些預(yù)測性建模。
 

  形成假設(shè)
 

  假設(shè)是關(guān)于我們認(rèn)為數(shù)據(jù)正在發(fā)生什么的有根據(jù)的猜測。在這種情況下,讓我們假設(shè)櫻桃的周長和體積是相關(guān)的。我們形成的每個假設(shè)都有相反的含義:“零假設(shè)”(H 0)。在這里,我們的零假設(shè)是周長與體積無關(guān)。在統(tǒng)計中,零假設(shè)是我們使用數(shù)據(jù)來支持或拒絕的假設(shè)。我們永遠(yuǎn)不能說我們“證明”了一個假設(shè)。我們稱周長和體積與假說相關(guān)的假說(H a)。總結(jié):H 0:周長與體積H a之間沒有關(guān)系:圍長與體積之間存在某些關(guān)系。我們將使用線性回歸模型來檢驗假設(shè)。如果我們找到足夠有力的證據(jù)拒絕H 0,則可以使用該模型根據(jù)周長預(yù)測櫻桃樹的體積。
 

  線性回歸模型的構(gòu)建塊
 

  線性回歸描述了目標(biāo)響應(yīng)變量(或因變量)與一個或多個預(yù)測變量(或自變量)之間的關(guān)系。它有助于我們從噪聲(無法從預(yù)測變量中獲知響應(yīng)變量)中分離出信號(我們可以從預(yù)測變量中獲知響應(yīng)變量)。我們將繼續(xù)研究模型如何做到這一點。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  讓我們深入研究,并建立一個將樹木體積與周長相關(guān)聯(lián)的線性模型。R通過基本函數(shù)使這一過程變得簡單lm()。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  該lm()函數(shù)使一條線適合我們的數(shù)據(jù),該線盡可能接近我們所有的31個觀測值。更具體地說,它以使點和線之間的平方差之和最小的方式擬合線。這種方法被稱為“最小化最小二乘”。即使線性回歸模型很好地擬合數(shù)據(jù),擬合也不是完美的。我們的觀測值與其模型預(yù)測值之間的距離稱為殘差。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  在數(shù)學(xué)上,我們可以寫為線性回歸為等式:ÿ聽,說:β0 + β1 X + ε
 

  1)該ÿ和X變量是從我們的數(shù)據(jù),我們正在與海誓山盟的響應(yīng)和預(yù)測變量

  2)β0是代表模型截距或與y軸交叉的模型系數(shù)

  3)β1是代表模型斜率的模型系數(shù),該數(shù)字是有關(guān)線的陡度及其方向(正或負(fù))的信息

  4)ε是包含我們無法在模型中捕獲的可變性的誤差項(X不能告訴我們有關(guān)Y的信息)
 

  在我們的示例中:樹體積≈ 截距 + 坡度(樹長)+ 錯誤

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  該lm()函數(shù)估計它適合我們的數(shù)據(jù)的線性模型的截距和斜率系數(shù)。有了模型,我們可以繼續(xù)進(jìn)行第5步,請記住,我們?nèi)匀恍枰鲆恍┕ぷ鱽眚炞C這種模型實際上適合于數(shù)據(jù)的想法。
 

  我們可以使用該模型進(jìn)行預(yù)測嗎?
 

  我們是否可以使用我們的模型進(jìn)行預(yù)測取決于:
 

  1)是否可以拒絕變量之間沒有關(guān)系的原假設(shè)。

  2)該模型是否適合我們的數(shù)據(jù)。
 

  讓我們使用來調(diào)用模型的輸出summary()。模型輸出將為我們提供檢驗假設(shè)并評估模型與數(shù)據(jù)擬合程度所需的信息。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  讓我們遍歷輸出以回答每個問題。
 

  支持該假設(shè)嗎?
 

  系數(shù):估計和標(biāo)準(zhǔn)。錯誤:
 

  1)如果圍長值為零,則本例中的截距是預(yù)期的樹體積。當(dāng)然,我們不能有一棵體積為負(fù)的樹,但稍后會有更多。

  2)在我們的示例中,坡度是樹木周長對樹木體積的影響。我們看到,每增加一英寸的周長,樹木的體積就會增加5.0659英尺3。

  3)系數(shù)標(biāo)準(zhǔn)誤差告訴我們估計系數(shù)與響應(yīng)變量的實際平均值的平均變化。
 

  t值:
 

  這是一項測試統(tǒng)計數(shù)據(jù),用于測量估計系數(shù)從零開始有多少標(biāo)準(zhǔn)偏差。
 

  Pr(> | t |):
 

  該數(shù)字是p值,定義為在H 0為true時觀察等于或大于t的任何值的概率。t統(tǒng)計量越大,p值越小。通常,我們使用0.05作為顯著性的臨界值;當(dāng)p值小于0.05時,我們拒絕H 0。
 

  我們可以拒絕原假設(shè),而相信樹的寬度和體積之間存在某種關(guān)系。
 

  模型對數(shù)據(jù)的擬合程度如何?
 

  殘留物:
 

  輸出的這一部分為我們提供了殘差的摘要(請記住,這是我們的觀測值與模型之間的距離),這告訴我們有關(guān)模型如何擬合數(shù)據(jù)的一些信息。殘差應(yīng)該在零附近具有相當(dāng)對稱的分布。通常,我們正在尋找殘差正態(tài)分布在零附近(即鐘形曲線分布)的方法,但重要的是它們在視覺上沒有明顯的模式,這表明線性模型不適合數(shù)據(jù)。
 

  我們可以制作一個直方圖以可視化ggplot2。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  我們的殘差在0附近看起來很對稱,這表明我們的模型很好地擬合了數(shù)據(jù)。殘留標(biāo)準(zhǔn)誤差:
 

  該術(shù)語表示我們的響應(yīng)變量測量值偏離擬合線性模型的平均值(模型誤差項)。
 

  自由度(DoF):
 

  關(guān)于自由度的討論可能變得相當(dāng)技術(shù)性。就大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模的目的而言,將它們視為用于計算估算值的獨立信息的數(shù)量就足夠了。自由度與測量次數(shù)有關(guān),但不相同。
 

  多個R平方:
 

  的- [R 2值是我們的數(shù)據(jù)有多接近線性回歸模型的度量。R 2值始終在0和1之間;接近1的數(shù)字表示擬合模型。隨著模型中包含更多的變量,R 2始終會增加,因此包含調(diào)整后的R 2來說明用于創(chuàng)建模型的自變量的數(shù)量。
 

  F統(tǒng)計:
 

  該測試統(tǒng)計信息告訴我們正在測試的因變量和自變量之間是否存在關(guān)系。通常,大的F表示更強(qiáng)的關(guān)系。
 

  p值:
 

  此p值與F統(tǒng)計量相關(guān)聯(lián),用于解釋整個模型與我們的數(shù)據(jù)擬合的顯著性。
 

  讓我們來看看適合我們的寬度和體積數(shù)據(jù)的模型。我們可以通過使用ggplot()線性模型擬合數(shù)據(jù)的散點圖來做到這一點:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  線條周圍的灰色陰影表示該stat_smooth()功能的默認(rèn)置信區(qū)間為0.95,該置信區(qū)間使數(shù)據(jù)平滑以使圖案更易于可視化。這個0.95的置信區(qū)間是所有黑櫻桃樹的周長和體積的真實線性模型位于擬合到我們的數(shù)據(jù)的回歸模型的置信區(qū)間內(nèi)的概率。盡管此模型非常適合我們的數(shù)據(jù),但我們的觀察結(jié)果仍然存在差異。
 

  這是因為世界通常是不整潔的。在我們的模型中,樹木的體積不僅是樹木的周長的函數(shù),而且還包含我們不一定要量化的數(shù)據(jù)(樹干形狀之間的個體差異,林農(nóng)的樹干周長測量技術(shù)的微小差異)。有時,這種可變性掩蓋了響應(yīng)變量和預(yù)測變量之間可能存在的任何關(guān)系。但是在這里,我們數(shù)據(jù)中的信號足夠強(qiáng)大,可以讓我們開發(fā)一個有用的模型來進(jìn)行預(yù)測。
 

  使用我們的簡單線性模型進(jìn)行預(yù)測
 

  我們的模型適合進(jìn)行預(yù)測!各地的樹木科學(xué)家欣喜若狂。假設(shè)我們有數(shù)據(jù)集之外的一棵樹的周長,高度和體積數(shù)據(jù)。我們可以使用這棵樹來測試我們的模型。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  我們的模型根據(jù)樹長預(yù)測樹的體積效果如何?我們將使用該predict()函數(shù),這是一個通用的R函數(shù),用于根據(jù)模型擬合函數(shù)的模數(shù)進(jìn)行預(yù)測。predict()以我們的線性回歸模型和我們想要響應(yīng)變量值的預(yù)測變量的值作為參數(shù)。
 

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  我們的體積預(yù)測為55.2 ft 3。這接近于我們的實際值,但是有可能在模型中增加高度(我們的其他預(yù)測變量)可以使我們做出更好的預(yù)測。
 

  添加更多預(yù)測變量:多元線性回歸
 

  如果我們使用所有可用的信息(寬度和高度)來預(yù)測樹的體積,也許可以提高模型的預(yù)測能力。從帖子開始的五步過程確實是一個迭代過程,這一點很重要–在現(xiàn)實世界中,您將獲得一些數(shù)據(jù),構(gòu)建一個模型,根據(jù)需要調(diào)整模型以進(jìn)行改進(jìn),然后添加更多數(shù)據(jù)并建立一個新模型,依此類推,直到您對結(jié)果感到滿意和/或確信自己無法做得更好為止。我們可以建立兩個單獨的回歸模型并對其進(jìn)行評估,但是這種方法存在一些問題。首先,想象一下如果我們有5個,10個甚至50個預(yù)測變量,那將是多么麻煩。其次,兩個預(yù)測模型將為我們提供兩個單獨的體積預(yù)測,而不是我們所追求的單個預(yù)測。也許最重要的是建立兩個單獨的模型并不能讓我們在估計模型系數(shù)時考慮預(yù)測變量之間的關(guān)系。在我們的數(shù)據(jù)集中,我們懷疑基于我們的初步數(shù)據(jù)探索,樹的高度和周長是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模中更清楚地看到的那樣,忽略預(yù)測變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個預(yù)測變量的線性模型。為此,我們可以為模型中的每個其他感興趣的獨立變量添加一個斜率系數(shù)。根據(jù)我們的初步數(shù)據(jù)探索,我們懷疑樹的高度和周長是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模中更清楚地看到的那樣,忽略預(yù)測變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個預(yù)測變量的線性模型。為此,我們可以為模型中的每個其他感興趣的獨立變量添加一個斜率系數(shù)。根據(jù)我們的初步數(shù)據(jù)探索,我們懷疑樹的高度和周長是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模中更清楚地看到的那樣,忽略預(yù)測變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個預(yù)測變量的線性模型。為此,我們可以為模型中的每個其他感興趣的獨立變量添加一個斜率系數(shù)。
 

  樹體積≈ 截距 + SLOPE1(樹周長)+ SLOPE2(樹高度)+ 錯誤
 

  使用lm()函數(shù)很容易做到這一點:我們只需要添加其他預(yù)測變量即可。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  從模型輸出中可以看到,周長和高度都與體積顯著相關(guān),并且該模型很好地擬合了我們的數(shù)據(jù)。我們調(diào)整后的R 2值也略高于模型調(diào)整后的R 2fit_1。由于此模型中有兩個預(yù)測變量,因此我們需要第三維來對其進(jìn)行可視化。我們可以使用包創(chuàng)建一個漂亮的3d散點圖scatterplot3d:首先,為預(yù)測變量(在數(shù)據(jù)范圍內(nèi))創(chuàng)建值網(wǎng)??格。該expand.grid()函數(shù)根據(jù)因子變量的所有組合創(chuàng)建一個數(shù)據(jù)框。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  接下來,我們根據(jù)預(yù)測變量網(wǎng)格對體積進(jìn)行預(yù)測:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  現(xiàn)在,我們可以根據(jù)預(yù)測變量網(wǎng)格和預(yù)測體積制作3d散點圖:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  最后疊加我們的實際觀察結(jié)果,以了解它們的適合程度:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  讓我們看看該模型如何預(yù)測樹的體積。這次,由于我們的模型將Height用作預(yù)測變量,因此我們包括了樹的高度:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  這次,我們得到了52.13 ft 3的預(yù)測體積。與僅使用周長作為預(yù)測因子的簡單模型所獲得的預(yù)測相比,該預(yù)測更接近于我們的真實樹體積,但是,正如我們將要看到的,我們可能能夠進(jìn)行改進(jìn)。
 

  互動互動
 

  盡管我們進(jìn)行了改進(jìn),但我們剛剛構(gòu)建的模型仍然無法說明全部情況。假設(shè)樹木的圍長對體積的影響?yīng)毩⒂跇淠镜母叨葘w積的影響。顯然不是這樣,因為樹的高度和周長是相關(guān)的。高大的樹木往往更寬,我們的探索性數(shù)據(jù)可視化結(jié)果也表明了這一點。換句話說,周長的斜率應(yīng)隨高度的斜率增加而增加。為了解決模型中預(yù)測變量的這種非獨立性,我們可以指定一個交互項,該項被計算為預(yù)測變量的乘積。
 

  樹體積≈ 截距 + SLOPE1(樹周長)+ SLOPE2(樹高度)+ SLOPE3(樹周長X樹高度)+ 錯誤
 

  再一次,使用lm()以下命令構(gòu)建此模型很容易:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  請注意,在我們的模型中,“周長*高度”是“周長+高度+周長*高度”的簡寫。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  正如我們所懷疑的,周長和高度的相互作用很明顯,這表明我們應(yīng)該在用于預(yù)測樹木體積的模型中包括相互作用項。調(diào)整后的R 2值接近1,F(xiàn)的大值和p的小值也支持此決策,這表明我們的模型非常適合數(shù)據(jù)。讓我們看一下散點圖,以可視化使用此模型的樹木體積的預(yù)測值。我們可以使用為fit_2可視化生成的相同的預(yù)測值網(wǎng)格:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  類似于我們?nèi)绾慰梢暬痜it_2模型,我們將使用fit_3帶有交互項的模型從預(yù)測變量的網(wǎng)格中預(yù)測體積值:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模

 

  現(xiàn)在,我們繪制預(yù)測變量網(wǎng)格和預(yù)測體積的散點圖:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  最后,我們疊加觀察到的數(shù)據(jù):

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  在這張圖片中很難看到,但是這次我們的預(yù)測是在某個曲面而不是平面上進(jìn)行的。現(xiàn)在,關(guān)鍵時刻:讓我們使用此模型來預(yù)測樹的體積。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  使用該第三種模型的預(yù)測值是45.89,最接近我們的真實值46.2 ft 3。
 

  有關(guān)預(yù)測模型的一些注意事項
 

  記住您的數(shù)據(jù)范圍
 

  使用模型進(jìn)行預(yù)測時,最好避免嘗試外推到遠(yuǎn)遠(yuǎn)超出用于構(gòu)建模型的值范圍。為了說明這一點,讓我們嘗試估計一棵小樹苗(一棵幼樹)的體積:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模
 

  我們得到的預(yù)測體積為62.88 ft 3,比數(shù)據(jù)集中的高大樹木更大。當(dāng)然,這沒有意義。請記住,我們進(jìn)行準(zhǔn)確預(yù)測的能力受到我們用于構(gòu)建模型的數(shù)據(jù)范圍的限制。
 

  避免建立過于針對您的數(shù)據(jù)集的模型
 

  在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模中我們研究的簡單示例數(shù)據(jù)集中,向模型添加第二個變量似乎可以提高我們的預(yù)測能力。但是,當(dāng)嘗試使用具有多個差異變量的多種多元線性回歸模型時,選擇最佳模型變得更具挑戰(zhàn)性。如果添加了太多不能改善模型預(yù)測能力的術(shù)語,我們將冒著使模型過度“適應(yīng)”特定數(shù)據(jù)集的風(fēng)險。
 

  過度適合特定數(shù)據(jù)集的模型失去了預(yù)測未來事件或擬合不同數(shù)據(jù)集的功能,因此并不是十分有用。雖然我們在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模中用于評估模型有效性的方法(調(diào)整后的R 2,殘差分布)對于了解模型對數(shù)據(jù)的擬合程度很有用,但將模型應(yīng)用于數(shù)據(jù)集的不同子集可以提供有關(guān)模型將如何擬合的信息在實踐中表現(xiàn)。
 

  這種稱為“交叉驗證”的方法通常用于測試預(yù)測模型。在我們的示例中,我們使用了三個模型中的每個模型來預(yù)測單個樹的數(shù)量。但是,如果我們要構(gòu)建更復(fù)雜的模型,則需要撤消部分?jǐn)?shù)據(jù)以進(jìn)行交叉驗證。
 

  下一步
 

  我們使用線性回歸來構(gòu)建用于根據(jù)兩個連續(xù)預(yù)測變量來預(yù)測連續(xù)響應(yīng)變量的模型,但是線性回歸對于許多其他常見場景是有用的預(yù)測建模工具。
 

  下一步,嘗試建立線性回歸模型,以從兩個以上的預(yù)測變量中預(yù)測響應(yīng)變量??紤]一下您如何決定將哪些變量包括在回歸模型中;您如何分辨哪些是重要的預(yù)測指標(biāo)?預(yù)測變量之間的關(guān)系如何影響該決策?
 

  數(shù)據(jù)組中的R是用于在多個線性回歸問題的工作有用包括:airquality,iris,和mtcars。根據(jù)數(shù)據(jù)構(gòu)建模型的另一個重要概念是,使用從現(xiàn)有預(yù)測變量中計算出的新預(yù)測變量來擴(kuò)充數(shù)據(jù)。這稱為功能工程,在這里您可以使用自己的專家知識來了解與該問題有關(guān)的其他方面。
 

  例如,如果您正在查看將時間戳記作為變量之一的銀行交易數(shù)據(jù)庫,則一周中的某天可能與您要回答的問題有關(guān),因此您可以從時間戳記中進(jìn)行計算并將其添加作為新變量添加到數(shù)據(jù)庫中。這是一個復(fù)雜的主題,添加更多的預(yù)測變量并不總是一個好主意,但是在學(xué)習(xí)更多有關(guān)建模的知識時,您應(yīng)該牢記這一點。在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測建模中使用的樹木數(shù)據(jù)集中,您能想到可以從周長和高度計算出的任何其他量來幫助您預(yù)測體積嗎?(提示:回想一下當(dāng)您學(xué)習(xí)各種幾何形狀的體積的公式時,請考慮一棵樹的樣子。)
 

  最后,盡管我們專注于連續(xù)數(shù)據(jù),但線性回歸也可以擴(kuò)展以根據(jù)類別變量做出預(yù)測。嘗試使用線性回歸模型來預(yù)測分類變量和連續(xù)預(yù)測變量的響應(yīng)變量。有跡象表明,借給自己特別好這個練習(xí)幾個數(shù)據(jù)集R: ,ToothGrowth,PlantGrowth和npk。



 

預(yù)約申請免費試聽課

填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動者教育科技有限公司版權(quán)所有
備案號:京ICP備12034770號

?2007-2022/ m.5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號

網(wǎng)站地圖