旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁(yè) > 熱門文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

時(shí)間:2020-09-20來(lái)源:lb577.com點(diǎn)擊量:作者:Sissi
時(shí)間:2020-09-20點(diǎn)擊量:作者:Sissi



  大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模?在R編程中,預(yù)測(cè)模型對(duì)于預(yù)測(cè)將來(lái)的結(jié)果和估計(jì)不可行的度量非常有用。例如,數(shù)據(jù)科學(xué)家可以使用預(yù)測(cè)模型根據(jù)降雨和溫度來(lái)預(yù)測(cè)農(nóng)作物產(chǎn)量,或者確定具有某些性狀的患者對(duì)新藥的不良反應(yīng)是否更可能。
 

  在我們專門討論線性回歸之前,讓我們提醒自己一個(gè)典型的數(shù)據(jù)科學(xué)工作流程是什么樣的。很多時(shí)候,我們會(huì)從一個(gè)要回答的問(wèn)題開(kāi)始,然后執(zhí)行以下操作:
 

  1)收集一些與問(wèn)題相關(guān)的數(shù)據(jù)(越多越好)。

  2)如果需要,將數(shù)據(jù)清理,擴(kuò)充和預(yù)處理為方便的形式。

  3)對(duì)數(shù)據(jù)進(jìn)行探索性分析,以更好地了解數(shù)據(jù)。

  4)使用您發(fā)現(xiàn)的內(nèi)容作為指南,構(gòu)建數(shù)據(jù)某些方面的模型。

  5)使用模型來(lái)回答您開(kāi)始的問(wèn)題,并驗(yàn)證結(jié)果。
 

  線性回歸是數(shù)據(jù)科學(xué)家用于預(yù)測(cè)建模的最簡(jiǎn)單,最常見(jiàn)的監(jiān)督式機(jī)器學(xué)習(xí)算法之一。在這篇文章中,我們將使用線性回歸來(lái)構(gòu)建一個(gè)模型,該模型根據(jù)度量標(biāo)準(zhǔn)來(lái)預(yù)測(cè)櫻花樹(shù)的數(shù)量,這對(duì)于研究樹(shù)木的人們來(lái)說(shuō)更容易測(cè)量。
 

  在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模文章中,我們將使用R來(lái)探索該數(shù)據(jù)集并學(xué)習(xí)線性回歸的基礎(chǔ)。如果您不熟悉R語(yǔ)言,我們建議您使用R Data Analyst路徑學(xué)習(xí)R基礎(chǔ)知識(shí)和R編程:中級(jí)課程。掌握一些非常基礎(chǔ)的統(tǒng)計(jì)知識(shí)也將有所幫助,但是如果您知道平均數(shù)和標(biāo)準(zhǔn)差是多少,您將可以繼續(xù)進(jìn)行。如果您想練習(xí)自己構(gòu)建模型和可視化,我們將使用以下R包:
 

  1)data sets該軟件包包含各種實(shí)踐數(shù)據(jù)集。我們將使用其中的一種“樹(shù)”來(lái)學(xué)習(xí)構(gòu)建線性回歸模型。

  2)ggplot2 我們將使用這個(gè)流行的數(shù)據(jù)可視化軟件包來(lái)構(gòu)建模型圖。

  3)GGally該軟件包擴(kuò)展了的功能ggplot2。作為初始探索性??數(shù)據(jù)可視化的一部分,我們將使用它來(lái)創(chuàng)建繪圖矩陣。

  4)scatterplot3d 我們將使用此軟件包來(lái)可視化具有多個(gè)預(yù)測(cè)變量的更復(fù)雜的線性回歸模型。
 

  無(wú)論如何,他們?nèi)绾螠y(cè)量樹(shù)木的體積?
 

  該樹(shù)的數(shù)據(jù)集包括在基礎(chǔ)R的datasets包,它會(huì)幫助我們回答這個(gè)問(wèn)題。由于我們正在使用現(xiàn)有的(干凈的)數(shù)據(jù)集,因此上面的步驟1和2已經(jīng)完成,因此我們可以直接跳到步驟3中的一些初步探索性分析。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  該數(shù)據(jù)集包含3個(gè)描述黑櫻桃樹(shù)的數(shù)字變量的31個(gè)觀察值:
 

  1)軀干圍長(zhǎng)(英寸)

  2)高度(英尺)

  3)體積(英尺3)
 

  這些指標(biāo)對(duì)于研究樹(shù)木生態(tài)學(xué)的林務(wù)員和科學(xué)家是有用的信息。使用基本的林業(yè)工具來(lái)測(cè)量樹(shù)木的高度和周長(zhǎng)是相當(dāng)簡(jiǎn)單的,但是測(cè)量樹(shù)木的體積要困難得多。如果您不想真正砍伐和拆除樹(shù)木,則必須采取一些技術(shù)上具有挑戰(zhàn)性且耗時(shí)的活動(dòng),例如爬樹(shù)和進(jìn)行精確的測(cè)量。能夠根據(jù)高度和/或周長(zhǎng)準(zhǔn)確預(yù)測(cè)樹(shù)木的體積將很有用。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  為了確定我們是否可以建立預(yù)測(cè)模型,第一步是查看預(yù)測(cè)變量和響應(yīng)變量(在這種情況下,周長(zhǎng),高度和體積)之間是否存在關(guān)系。讓我們進(jìn)行一些探索性的數(shù)據(jù)可視化。我們將使用包中的ggpairs()函數(shù)GGally創(chuàng)建一個(gè)繪圖矩陣,以查看變量之間的關(guān)系。
 

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  該ggpairs()函數(shù)為我們提供了每個(gè)變量組合的散點(diǎn)圖,以及每個(gè)變量的密度圖以及變量之間的相關(guān)強(qiáng)度。
 

  如果您以前使用ggplot2過(guò),則該符號(hào)可能看起來(lái)很熟悉:GGally是該符號(hào)的擴(kuò)展,ggplot2它提供了一個(gè)簡(jiǎn)單的界面來(lái)創(chuàng)建一些其他復(fù)雜的圖形,例如此圖形。當(dāng)我們查看這些圖時(shí),我們可以開(kāi)始了解數(shù)據(jù)并提出問(wèn)題。相關(guān)系數(shù)提供有關(guān)變量與關(guān)系之間的接近程度的信息;相關(guān)系數(shù)越接近1,則關(guān)系越強(qiáng)。散點(diǎn)圖使我們可視化變量對(duì)之間的關(guān)??系。點(diǎn)具有清晰視覺(jué)圖案(而不是看起來(lái)像無(wú)形狀的云)的散點(diǎn)圖指示更強(qiáng)的關(guān)系。
 

  我們的問(wèn)題:哪些預(yù)測(cè)變量似乎與響應(yīng)變量相關(guān)?從ggpairs()輸出看,圍長(zhǎng)顯然與體積有關(guān):相關(guān)系數(shù)接近1,并且各點(diǎn)似乎具有線性模式。高度和體積之間可能存在某種關(guān)系,但似乎關(guān)系較弱:相關(guān)系數(shù)較小,并且散點(diǎn)圖中的點(diǎn)更分散。變量之間的關(guān)系的形狀是什么?
 

  該關(guān)系似乎是線性的。從散點(diǎn)圖可以看出,樹(shù)的體積隨著樹(shù)長(zhǎng)的增加而持續(xù)增加。是牢固的關(guān)系,還是數(shù)據(jù)中的噪聲淹沒(méi)了信號(hào)?高度和體積之間的關(guān)系還不清楚,但是周長(zhǎng)和體積之間的關(guān)系似乎很牢固。現(xiàn)在,我們對(duì)數(shù)據(jù)有了全面的了解,我們可以繼續(xù)進(jìn)行第4步,并進(jìn)行一些預(yù)測(cè)性建模。
 

  形成假設(shè)
 

  假設(shè)是關(guān)于我們認(rèn)為數(shù)據(jù)正在發(fā)生什么的有根據(jù)的猜測(cè)。在這種情況下,讓我們假設(shè)櫻桃的周長(zhǎng)和體積是相關(guān)的。我們形成的每個(gè)假設(shè)都有相反的含義:“零假設(shè)”(H 0)。在這里,我們的零假設(shè)是周長(zhǎng)與體積無(wú)關(guān)。在統(tǒng)計(jì)中,零假設(shè)是我們使用數(shù)據(jù)來(lái)支持或拒絕的假設(shè)。我們永遠(yuǎn)不能說(shuō)我們“證明”了一個(gè)假設(shè)。我們稱周長(zhǎng)和體積與假說(shuō)相關(guān)的假說(shuō)(H a)??偨Y(jié):H 0:周長(zhǎng)與體積H a之間沒(méi)有關(guān)系:圍長(zhǎng)與體積之間存在某些關(guān)系。我們將使用線性回歸模型來(lái)檢驗(yàn)假設(shè)。如果我們找到足夠有力的證據(jù)拒絕H 0,則可以使用該模型根據(jù)周長(zhǎng)預(yù)測(cè)櫻桃樹(shù)的體積。
 

  線性回歸模型的構(gòu)建塊
 

  線性回歸描述了目標(biāo)響應(yīng)變量(或因變量)與一個(gè)或多個(gè)預(yù)測(cè)變量(或自變量)之間的關(guān)系。它有助于我們從噪聲(無(wú)法從預(yù)測(cè)變量中獲知響應(yīng)變量)中分離出信號(hào)(我們可以從預(yù)測(cè)變量中獲知響應(yīng)變量)。我們將繼續(xù)研究模型如何做到這一點(diǎn)。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  讓我們深入研究,并建立一個(gè)將樹(shù)木體積與周長(zhǎng)相關(guān)聯(lián)的線性模型。R通過(guò)基本函數(shù)使這一過(guò)程變得簡(jiǎn)單lm()。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  該lm()函數(shù)使一條線適合我們的數(shù)據(jù),該線盡可能接近我們所有的31個(gè)觀測(cè)值。更具體地說(shuō),它以使點(diǎn)和線之間的平方差之和最小的方式擬合線。這種方法被稱為“最小化最小二乘”。即使線性回歸模型很好地?cái)M合數(shù)據(jù),擬合也不是完美的。我們的觀測(cè)值與其模型預(yù)測(cè)值之間的距離稱為殘差。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  在數(shù)學(xué)上,我們可以寫為線性回歸為等式:ÿ聽(tīng),說(shuō):β0 + β1 X + ε
 

  1)該ÿ和X變量是從我們的數(shù)據(jù),我們正在與海誓山盟的響應(yīng)和預(yù)測(cè)變量

  2)β0是代表模型截距或與y軸交叉的模型系數(shù)

  3)β1是代表模型斜率的模型系數(shù),該數(shù)字是有關(guān)線的陡度及其方向(正或負(fù))的信息

  4)ε是包含我們無(wú)法在模型中捕獲的可變性的誤差項(xiàng)(X不能告訴我們有關(guān)Y的信息)
 

  在我們的示例中:樹(shù)體積≈ 截距 + 坡度(樹(shù)長(zhǎng))+ 錯(cuò)誤

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  該lm()函數(shù)估計(jì)它適合我們的數(shù)據(jù)的線性模型的截距和斜率系數(shù)。有了模型,我們可以繼續(xù)進(jìn)行第5步,請(qǐng)記住,我們?nèi)匀恍枰鲆恍┕ぷ鱽?lái)驗(yàn)證這種模型實(shí)際上適合于數(shù)據(jù)的想法。
 

  我們可以使用該模型進(jìn)行預(yù)測(cè)嗎?
 

  我們是否可以使用我們的模型進(jìn)行預(yù)測(cè)取決于:
 

  1)是否可以拒絕變量之間沒(méi)有關(guān)系的原假設(shè)。

  2)該模型是否適合我們的數(shù)據(jù)。
 

  讓我們使用來(lái)調(diào)用模型的輸出summary()。模型輸出將為我們提供檢驗(yàn)假設(shè)并評(píng)估模型與數(shù)據(jù)擬合程度所需的信息。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  讓我們遍歷輸出以回答每個(gè)問(wèn)題。
 

  支持該假設(shè)嗎?
 

  系數(shù):估計(jì)和標(biāo)準(zhǔn)。錯(cuò)誤:
 

  1)如果圍長(zhǎng)值為零,則本例中的截距是預(yù)期的樹(shù)體積。當(dāng)然,我們不能有一棵體積為負(fù)的樹(shù),但稍后會(huì)有更多。

  2)在我們的示例中,坡度是樹(shù)木周長(zhǎng)對(duì)樹(shù)木體積的影響。我們看到,每增加一英寸的周長(zhǎng),樹(shù)木的體積就會(huì)增加5.0659英尺3。

  3)系數(shù)標(biāo)準(zhǔn)誤差告訴我們估計(jì)系數(shù)與響應(yīng)變量的實(shí)際平均值的平均變化。
 

  t值:
 

  這是一項(xiàng)測(cè)試統(tǒng)計(jì)數(shù)據(jù),用于測(cè)量估計(jì)系數(shù)從零開(kāi)始有多少標(biāo)準(zhǔn)偏差。
 

  Pr(> | t |):
 

  該數(shù)字是p值,定義為在H 0為true時(shí)觀察等于或大于t的任何值的概率。t統(tǒng)計(jì)量越大,p值越小。通常,我們使用0.05作為顯著性的臨界值;當(dāng)p值小于0.05時(shí),我們拒絕H 0。
 

  我們可以拒絕原假設(shè),而相信樹(shù)的寬度和體積之間存在某種關(guān)系。
 

  模型對(duì)數(shù)據(jù)的擬合程度如何?
 

  殘留物:
 

  輸出的這一部分為我們提供了殘差的摘要(請(qǐng)記住,這是我們的觀測(cè)值與模型之間的距離),這告訴我們有關(guān)模型如何擬合數(shù)據(jù)的一些信息。殘差應(yīng)該在零附近具有相當(dāng)對(duì)稱的分布。通常,我們正在尋找殘差正態(tài)分布在零附近(即鐘形曲線分布)的方法,但重要的是它們?cè)谝曈X(jué)上沒(méi)有明顯的模式,這表明線性模型不適合數(shù)據(jù)。
 

  我們可以制作一個(gè)直方圖以可視化ggplot2。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  我們的殘差在0附近看起來(lái)很對(duì)稱,這表明我們的模型很好地?cái)M合了數(shù)據(jù)。殘留標(biāo)準(zhǔn)誤差:
 

  該術(shù)語(yǔ)表示我們的響應(yīng)變量測(cè)量值偏離擬合線性模型的平均值(模型誤差項(xiàng))。
 

  自由度(DoF):
 

  關(guān)于自由度的討論可能變得相當(dāng)技術(shù)性。就大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模的目的而言,將它們視為用于計(jì)算估算值的獨(dú)立信息的數(shù)量就足夠了。自由度與測(cè)量次數(shù)有關(guān),但不相同。
 

  多個(gè)R平方:
 

  的- [R 2值是我們的數(shù)據(jù)有多接近線性回歸模型的度量。R 2值始終在0和1之間;接近1的數(shù)字表示擬合模型。隨著模型中包含更多的變量,R 2始終會(huì)增加,因此包含調(diào)整后的R 2來(lái)說(shuō)明用于創(chuàng)建模型的自變量的數(shù)量。
 

  F統(tǒng)計(jì):
 

  該測(cè)試統(tǒng)計(jì)信息告訴我們正在測(cè)試的因變量和自變量之間是否存在關(guān)系。通常,大的F表示更強(qiáng)的關(guān)系。
 

  p值:
 

  此p值與F統(tǒng)計(jì)量相關(guān)聯(lián),用于解釋整個(gè)模型與我們的數(shù)據(jù)擬合的顯著性。
 

  讓我們來(lái)看看適合我們的寬度和體積數(shù)據(jù)的模型。我們可以通過(guò)使用ggplot()線性模型擬合數(shù)據(jù)的散點(diǎn)圖來(lái)做到這一點(diǎn):

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  線條周圍的灰色陰影表示該stat_smooth()功能的默認(rèn)置信區(qū)間為0.95,該置信區(qū)間使數(shù)據(jù)平滑以使圖案更易于可視化。這個(gè)0.95的置信區(qū)間是所有黑櫻桃樹(shù)的周長(zhǎng)和體積的真實(shí)線性模型位于擬合到我們的數(shù)據(jù)的回歸模型的置信區(qū)間內(nèi)的概率。盡管此模型非常適合我們的數(shù)據(jù),但我們的觀察結(jié)果仍然存在差異。
 

  這是因?yàn)槭澜缤ǔJ遣徽麧嵉?。在我們的模型中,?shù)木的體積不僅是樹(shù)木的周長(zhǎng)的函數(shù),而且還包含我們不一定要量化的數(shù)據(jù)(樹(shù)干形狀之間的個(gè)體差異,林農(nóng)的樹(shù)干周長(zhǎng)測(cè)量技術(shù)的微小差異)。有時(shí),這種可變性掩蓋了響應(yīng)變量和預(yù)測(cè)變量之間可能存在的任何關(guān)系。但是在這里,我們數(shù)據(jù)中的信號(hào)足夠強(qiáng)大,可以讓我們開(kāi)發(fā)一個(gè)有用的模型來(lái)進(jìn)行預(yù)測(cè)。
 

  使用我們的簡(jiǎn)單線性模型進(jìn)行預(yù)測(cè)
 

  我們的模型適合進(jìn)行預(yù)測(cè)!各地的樹(shù)木科學(xué)家欣喜若狂。假設(shè)我們有數(shù)據(jù)集之外的一棵樹(shù)的周長(zhǎng),高度和體積數(shù)據(jù)。我們可以使用這棵樹(shù)來(lái)測(cè)試我們的模型。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  我們的模型根據(jù)樹(shù)長(zhǎng)預(yù)測(cè)樹(shù)的體積效果如何?我們將使用該predict()函數(shù),這是一個(gè)通用的R函數(shù),用于根據(jù)模型擬合函數(shù)的模數(shù)進(jìn)行預(yù)測(cè)。predict()以我們的線性回歸模型和我們想要響應(yīng)變量值的預(yù)測(cè)變量的值作為參數(shù)。
 

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  我們的體積預(yù)測(cè)為55.2 ft 3。這接近于我們的實(shí)際值,但是有可能在模型中增加高度(我們的其他預(yù)測(cè)變量)可以使我們做出更好的預(yù)測(cè)。
 

  添加更多預(yù)測(cè)變量:多元線性回歸
 

  如果我們使用所有可用的信息(寬度和高度)來(lái)預(yù)測(cè)樹(shù)的體積,也許可以提高模型的預(yù)測(cè)能力。從帖子開(kāi)始的五步過(guò)程確實(shí)是一個(gè)迭代過(guò)程,這一點(diǎn)很重要–在現(xiàn)實(shí)世界中,您將獲得一些數(shù)據(jù),構(gòu)建一個(gè)模型,根據(jù)需要調(diào)整模型以進(jìn)行改進(jìn),然后添加更多數(shù)據(jù)并建立一個(gè)新模型,依此類推,直到您對(duì)結(jié)果感到滿意和/或確信自己無(wú)法做得更好為止。我們可以建立兩個(gè)單獨(dú)的回歸模型并對(duì)其進(jìn)行評(píng)估,但是這種方法存在一些問(wèn)題。首先,想象一下如果我們有5個(gè),10個(gè)甚至50個(gè)預(yù)測(cè)變量,那將是多么麻煩。其次,兩個(gè)預(yù)測(cè)模型將為我們提供兩個(gè)單獨(dú)的體積預(yù)測(cè),而不是我們所追求的單個(gè)預(yù)測(cè)。也許最重要的是建立兩個(gè)單獨(dú)的模型并不能讓我們?cè)诠烙?jì)模型系數(shù)時(shí)考慮預(yù)測(cè)變量之間的關(guān)系。在我們的數(shù)據(jù)集中,我們懷疑基于我們的初步數(shù)據(jù)探索,樹(shù)的高度和周長(zhǎng)是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中更清楚地看到的那樣,忽略預(yù)測(cè)變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹(shù)體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個(gè)預(yù)測(cè)變量的線性模型。為此,我們可以為模型中的每個(gè)其他感興趣的獨(dú)立變量添加一個(gè)斜率系數(shù)。根據(jù)我們的初步數(shù)據(jù)探索,我們懷疑樹(shù)的高度和周長(zhǎng)是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中更清楚地看到的那樣,忽略預(yù)測(cè)變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹(shù)體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個(gè)預(yù)測(cè)變量的線性模型。為此,我們可以為模型中的每個(gè)其他感興趣的獨(dú)立變量添加一個(gè)斜率系數(shù)。根據(jù)我們的初步數(shù)據(jù)探索,我們懷疑樹(shù)的高度和周長(zhǎng)是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中更清楚地看到的那樣,忽略預(yù)測(cè)變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹(shù)體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個(gè)預(yù)測(cè)變量的線性模型。為此,我們可以為模型中的每個(gè)其他感興趣的獨(dú)立變量添加一個(gè)斜率系數(shù)。
 

  樹(shù)體積≈ 截距 + SLOPE1(樹(shù)周長(zhǎng))+ SLOPE2(樹(shù)高度)+ 錯(cuò)誤
 

  使用lm()函數(shù)很容易做到這一點(diǎn):我們只需要添加其他預(yù)測(cè)變量即可。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  從模型輸出中可以看到,周長(zhǎng)和高度都與體積顯著相關(guān),并且該模型很好地?cái)M合了我們的數(shù)據(jù)。我們調(diào)整后的R 2值也略高于模型調(diào)整后的R 2fit_1。由于此模型中有兩個(gè)預(yù)測(cè)變量,因此我們需要第三維來(lái)對(duì)其進(jìn)行可視化。我們可以使用包創(chuàng)建一個(gè)漂亮的3d散點(diǎn)圖scatterplot3d:首先,為預(yù)測(cè)變量(在數(shù)據(jù)范圍內(nèi))創(chuàng)建值網(wǎng)??格。該expand.grid()函數(shù)根據(jù)因子變量的所有組合創(chuàng)建一個(gè)數(shù)據(jù)框。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  接下來(lái),我們根據(jù)預(yù)測(cè)變量網(wǎng)格對(duì)體積進(jìn)行預(yù)測(cè):

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  現(xiàn)在,我們可以根據(jù)預(yù)測(cè)變量網(wǎng)格和預(yù)測(cè)體積制作3d散點(diǎn)圖:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  最后疊加我們的實(shí)際觀察結(jié)果,以了解它們的適合程度:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  讓我們看看該模型如何預(yù)測(cè)樹(shù)的體積。這次,由于我們的模型將Height用作預(yù)測(cè)變量,因此我們包括了樹(shù)的高度:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  這次,我們得到了52.13 ft 3的預(yù)測(cè)體積。與僅使用周長(zhǎng)作為預(yù)測(cè)因子的簡(jiǎn)單模型所獲得的預(yù)測(cè)相比,該預(yù)測(cè)更接近于我們的真實(shí)樹(shù)體積,但是,正如我們將要看到的,我們可能能夠進(jìn)行改進(jìn)。
 

  互動(dòng)互動(dòng)
 

  盡管我們進(jìn)行了改進(jìn),但我們剛剛構(gòu)建的模型仍然無(wú)法說(shuō)明全部情況。假設(shè)樹(shù)木的圍長(zhǎng)對(duì)體積的影響?yīng)毩⒂跇?shù)木的高度對(duì)體積的影響。顯然不是這樣,因?yàn)闃?shù)的高度和周長(zhǎng)是相關(guān)的。高大的樹(shù)木往往更寬,我們的探索性數(shù)據(jù)可視化結(jié)果也表明了這一點(diǎn)。換句話說(shuō),周長(zhǎng)的斜率應(yīng)隨高度的斜率增加而增加。為了解決模型中預(yù)測(cè)變量的這種非獨(dú)立性,我們可以指定一個(gè)交互項(xiàng),該項(xiàng)被計(jì)算為預(yù)測(cè)變量的乘積。
 

  樹(shù)體積≈ 截距 + SLOPE1(樹(shù)周長(zhǎng))+ SLOPE2(樹(shù)高度)+ SLOPE3(樹(shù)周長(zhǎng)X樹(shù)高度)+ 錯(cuò)誤
 

  再一次,使用lm()以下命令構(gòu)建此模型很容易:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  請(qǐng)注意,在我們的模型中,“周長(zhǎng)*高度”是“周長(zhǎng)+高度+周長(zhǎng)*高度”的簡(jiǎn)寫。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  正如我們所懷疑的,周長(zhǎng)和高度的相互作用很明顯,這表明我們應(yīng)該在用于預(yù)測(cè)樹(shù)木體積的模型中包括相互作用項(xiàng)。調(diào)整后的R 2值接近1,F(xiàn)的大值和p的小值也支持此決策,這表明我們的模型非常適合數(shù)據(jù)。讓我們看一下散點(diǎn)圖,以可視化使用此模型的樹(shù)木體積的預(yù)測(cè)值。我們可以使用為fit_2可視化生成的相同的預(yù)測(cè)值網(wǎng)格:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  類似于我們?nèi)绾慰梢暬痜it_2模型,我們將使用fit_3帶有交互項(xiàng)的模型從預(yù)測(cè)變量的網(wǎng)格中預(yù)測(cè)體積值:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

 

  現(xiàn)在,我們繪制預(yù)測(cè)變量網(wǎng)格和預(yù)測(cè)體積的散點(diǎn)圖:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  最后,我們疊加觀察到的數(shù)據(jù):

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  在這張圖片中很難看到,但是這次我們的預(yù)測(cè)是在某個(gè)曲面而不是平面上進(jìn)行的?,F(xiàn)在,關(guān)鍵時(shí)刻:讓我們使用此模型來(lái)預(yù)測(cè)樹(shù)的體積。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  使用該第三種模型的預(yù)測(cè)值是45.89,最接近我們的真實(shí)值46.2 ft 3。
 

  有關(guān)預(yù)測(cè)模型的一些注意事項(xiàng)
 

  記住您的數(shù)據(jù)范圍
 

  使用模型進(jìn)行預(yù)測(cè)時(shí),最好避免嘗試外推到遠(yuǎn)遠(yuǎn)超出用于構(gòu)建模型的值范圍。為了說(shuō)明這一點(diǎn),讓我們嘗試估計(jì)一棵小樹(shù)苗(一棵幼樹(shù))的體積:

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模
 

  我們得到的預(yù)測(cè)體積為62.88 ft 3,比數(shù)據(jù)集中的高大樹(shù)木更大。當(dāng)然,這沒(méi)有意義。請(qǐng)記住,我們進(jìn)行準(zhǔn)確預(yù)測(cè)的能力受到我們用于構(gòu)建模型的數(shù)據(jù)范圍的限制。
 

  避免建立過(guò)于針對(duì)您的數(shù)據(jù)集的模型
 

  在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中我們研究的簡(jiǎn)單示例數(shù)據(jù)集中,向模型添加第二個(gè)變量似乎可以提高我們的預(yù)測(cè)能力。但是,當(dāng)嘗試使用具有多個(gè)差異變量的多種多元線性回歸模型時(shí),選擇最佳模型變得更具挑戰(zhàn)性。如果添加了太多不能改善模型預(yù)測(cè)能力的術(shù)語(yǔ),我們將冒著使模型過(guò)度“適應(yīng)”特定數(shù)據(jù)集的風(fēng)險(xiǎn)。
 

  過(guò)度適合特定數(shù)據(jù)集的模型失去了預(yù)測(cè)未來(lái)事件或擬合不同數(shù)據(jù)集的功能,因此并不是十分有用。雖然我們?cè)?a href="http://lb577.com/data/2706.html" target="_blank">大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中用于評(píng)估模型有效性的方法(調(diào)整后的R 2,殘差分布)對(duì)于了解模型對(duì)數(shù)據(jù)的擬合程度很有用,但將模型應(yīng)用于數(shù)據(jù)集的不同子集可以提供有關(guān)模型將如何擬合的信息在實(shí)踐中表現(xiàn)。
 

  這種稱為“交叉驗(yàn)證”的方法通常用于測(cè)試預(yù)測(cè)模型。在我們的示例中,我們使用了三個(gè)模型中的每個(gè)模型來(lái)預(yù)測(cè)單個(gè)樹(shù)的數(shù)量。但是,如果我們要構(gòu)建更復(fù)雜的模型,則需要撤消部分?jǐn)?shù)據(jù)以進(jìn)行交叉驗(yàn)證。
 

  下一步
 

  我們使用線性回歸來(lái)構(gòu)建用于根據(jù)兩個(gè)連續(xù)預(yù)測(cè)變量來(lái)預(yù)測(cè)連續(xù)響應(yīng)變量的模型,但是線性回歸對(duì)于許多其他常見(jiàn)場(chǎng)景是有用的預(yù)測(cè)建模工具。
 

  下一步,嘗試建立線性回歸模型,以從兩個(gè)以上的預(yù)測(cè)變量中預(yù)測(cè)響應(yīng)變量。考慮一下您如何決定將哪些變量包括在回歸模型中;您如何分辨哪些是重要的預(yù)測(cè)指標(biāo)?預(yù)測(cè)變量之間的關(guān)系如何影響該決策?
 

  數(shù)據(jù)組中的R是用于在多個(gè)線性回歸問(wèn)題的工作有用包括:airquality,iris,和mtcars。根據(jù)數(shù)據(jù)構(gòu)建模型的另一個(gè)重要概念是,使用從現(xiàn)有預(yù)測(cè)變量中計(jì)算出的新預(yù)測(cè)變量來(lái)擴(kuò)充數(shù)據(jù)。這稱為功能工程,在這里您可以使用自己的專家知識(shí)來(lái)了解與該問(wèn)題有關(guān)的其他方面。
 

  例如,如果您正在查看將時(shí)間戳記作為變量之一的銀行交易數(shù)據(jù)庫(kù),則一周中的某天可能與您要回答的問(wèn)題有關(guān),因此您可以從時(shí)間戳記中進(jìn)行計(jì)算并將其添加作為新變量添加到數(shù)據(jù)庫(kù)中。這是一個(gè)復(fù)雜的主題,添加更多的預(yù)測(cè)變量并不總是一個(gè)好主意,但是在學(xué)習(xí)更多有關(guān)建模的知識(shí)時(shí),您應(yīng)該牢記這一點(diǎn)。在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中使用的樹(shù)木數(shù)據(jù)集中,您能想到可以從周長(zhǎng)和高度計(jì)算出的任何其他量來(lái)幫助您預(yù)測(cè)體積嗎?(提示:回想一下當(dāng)您學(xué)習(xí)各種幾何形狀的體積的公式時(shí),請(qǐng)考慮一棵樹(shù)的樣子。)
 

  最后,盡管我們專注于連續(xù)數(shù)據(jù),但線性回歸也可以擴(kuò)展以根據(jù)類別變量做出預(yù)測(cè)。嘗試使用線性回歸模型來(lái)預(yù)測(cè)分類變量和連續(xù)預(yù)測(cè)變量的響應(yīng)變量。有跡象表明,借給自己特別好這個(gè)練習(xí)幾個(gè)數(shù)據(jù)集R: ,ToothGrowth,PlantGrowth和npk。



 

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ lb577.com 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖