亚洲欧美经典,日韩精品第124页在线播放网站

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

時(shí)間：2020-09-20來(lái)源：lb577.com點(diǎn)擊量：次作者：Sissi

時(shí)間：2020-09-20點(diǎn)擊量：次作者：Sissi

　　大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模?在R編程中，預(yù)測(cè)模型對(duì)于預(yù)測(cè)將來(lái)的結(jié)果和估計(jì)不可行的度量非常有用。例如，數(shù)據(jù)科學(xué)家可以使用預(yù)測(cè)模型根據(jù)降雨和溫度來(lái)預(yù)測(cè)農(nóng)作物產(chǎn)量，或者確定具有某些性狀的患者對(duì)新藥的不良反應(yīng)是否更可能。

　　在我們專門(mén)討論線性回歸之前，讓我們提醒自己一個(gè)典型的數(shù)據(jù)科學(xué)工作流程是什么樣的。很多時(shí)候，我們會(huì)從一個(gè)要回答的問(wèn)題開(kāi)始，然后執(zhí)行以下操作：

　　1)收集一些與問(wèn)題相關(guān)的數(shù)據(jù)(越多越好)。

　　2)如果需要，將數(shù)據(jù)清理，擴(kuò)充和預(yù)處理為方便的形式。

　　3)對(duì)數(shù)據(jù)進(jìn)行探索性分析，以更好地了解數(shù)據(jù)。

　　4)使用您發(fā)現(xiàn)的內(nèi)容作為指南，構(gòu)建數(shù)據(jù)某些方面的模型。

　　5)使用模型來(lái)回答您開(kāi)始的問(wèn)題，并驗(yàn)證結(jié)果。

　　線性回歸是數(shù)據(jù)科學(xué)家用于預(yù)測(cè)建模的最簡(jiǎn)單，最常見(jiàn)的監(jiān)督式機(jī)器學(xué)習(xí)算法之一。在這篇文章中，我們將使用線性回歸來(lái)構(gòu)建一個(gè)模型，該模型根據(jù)度量標(biāo)準(zhǔn)來(lái)預(yù)測(cè)櫻花樹(shù)的數(shù)量，這對(duì)于研究樹(shù)木的人們來(lái)說(shuō)更容易測(cè)量。

　　在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模文章中，我們將使用R來(lái)探索該數(shù)據(jù)集并學(xué)習(xí)線性回歸的基礎(chǔ)。如果您不熟悉R語(yǔ)言，我們建議您使用R Data Analyst路徑學(xué)習(xí)R基礎(chǔ)知識(shí)和R編程：中級(jí)課程。掌握一些非?；A(chǔ)的統(tǒng)計(jì)知識(shí)也將有所幫助，但是如果您知道平均數(shù)和標(biāo)準(zhǔn)差是多少，您將可以繼續(xù)進(jìn)行。如果您想練習(xí)自己構(gòu)建模型和可視化，我們將使用以下R包：

　　1)data sets該軟件包包含各種實(shí)踐數(shù)據(jù)集。我們將使用其中的一種“樹(shù)”來(lái)學(xué)習(xí)構(gòu)建線性回歸模型。

　　2)ggplot2 我們將使用這個(gè)流行的數(shù)據(jù)可視化軟件包來(lái)構(gòu)建模型圖。

　　3)GGally該軟件包擴(kuò)展了的功能ggplot2。作為初始探索性??數(shù)據(jù)可視化的一部分，我們將使用它來(lái)創(chuàng)建繪圖矩陣。

　　4)scatterplot3d 我們將使用此軟件包來(lái)可視化具有多個(gè)預(yù)測(cè)變量的更復(fù)雜的線性回歸模型。

　　無(wú)論如何，他們?nèi)绾螠y(cè)量樹(shù)木的體積?

　　該樹(shù)的數(shù)據(jù)集包括在基礎(chǔ)R的datasets包，它會(huì)幫助我們回答這個(gè)問(wèn)題。由于我們正在使用現(xiàn)有的(干凈的)數(shù)據(jù)集，因此上面的步驟1和2已經(jīng)完成，因此我們可以直接跳到步驟3中的一些初步探索性分析。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　該數(shù)據(jù)集包含3個(gè)描述黑櫻桃樹(shù)的數(shù)字變量的31個(gè)觀察值：

　　1)軀干圍長(zhǎng)(英寸)

　　2)高度(英尺)

　　3)體積(英尺3)

　　這些指標(biāo)對(duì)于研究樹(shù)木生態(tài)學(xué)的林務(wù)員和科學(xué)家是有用的信息。使用基本的林業(yè)工具來(lái)測(cè)量樹(shù)木的高度和周長(zhǎng)是相當(dāng)簡(jiǎn)單的，但是測(cè)量樹(shù)木的體積要困難得多。如果您不想真正砍伐和拆除樹(shù)木，則必須采取一些技術(shù)上具有挑戰(zhàn)性且耗時(shí)的活動(dòng)，例如爬樹(shù)和進(jìn)行精確的測(cè)量。能夠根據(jù)高度和/或周長(zhǎng)準(zhǔn)確預(yù)測(cè)樹(shù)木的體積將很有用。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　為了確定我們是否可以建立預(yù)測(cè)模型，第一步是查看預(yù)測(cè)變量和響應(yīng)變量(在這種情況下，周長(zhǎng)，高度和體積)之間是否存在關(guān)系。讓我們進(jìn)行一些探索性的數(shù)據(jù)可視化。我們將使用包中的ggpairs()函數(shù)GGally創(chuàng)建一個(gè)繪圖矩陣，以查看變量之間的關(guān)系。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　該ggpairs()函數(shù)為我們提供了每個(gè)變量組合的散點(diǎn)圖，以及每個(gè)變量的密度圖以及變量之間的相關(guān)強(qiáng)度。

　　如果您以前使用ggplot2過(guò)，則該符號(hào)可能看起來(lái)很熟悉：GGally是該符號(hào)的擴(kuò)展，ggplot2它提供了一個(gè)簡(jiǎn)單的界面來(lái)創(chuàng)建一些其他復(fù)雜的圖形，例如此圖形。當(dāng)我們查看這些圖時(shí)，我們可以開(kāi)始了解數(shù)據(jù)并提出問(wèn)題。相關(guān)系數(shù)提供有關(guān)變量與關(guān)系之間的接近程度的信息;相關(guān)系數(shù)越接近1，則關(guān)系越強(qiáng)。散點(diǎn)圖使我們可視化變量對(duì)之間的關(guān)??系。點(diǎn)具有清晰視覺(jué)圖案(而不是看起來(lái)像無(wú)形狀的云)的散點(diǎn)圖指示更強(qiáng)的關(guān)系。

　　我們的問(wèn)題：哪些預(yù)測(cè)變量似乎與響應(yīng)變量相關(guān)?從ggpairs()輸出看，圍長(zhǎng)顯然與體積有關(guān)：相關(guān)系數(shù)接近1，并且各點(diǎn)似乎具有線性模式。高度和體積之間可能存在某種關(guān)系，但似乎關(guān)系較弱：相關(guān)系數(shù)較小，并且散點(diǎn)圖中的點(diǎn)更分散。變量之間的關(guān)系的形狀是什么?

　　該關(guān)系似乎是線性的。從散點(diǎn)圖可以看出，樹(shù)的體積隨著樹(shù)長(zhǎng)的增加而持續(xù)增加。是牢固的關(guān)系，還是數(shù)據(jù)中的噪聲淹沒(méi)了信號(hào)?高度和體積之間的關(guān)系還不清楚，但是周長(zhǎng)和體積之間的關(guān)系似乎很牢固?，F(xiàn)在，我們對(duì)數(shù)據(jù)有了全面的了解，我們可以繼續(xù)進(jìn)行第4步，并進(jìn)行一些預(yù)測(cè)性建模。

　　形成假設(shè)

　　假設(shè)是關(guān)于我們認(rèn)為數(shù)據(jù)正在發(fā)生什么的有根據(jù)的猜測(cè)。在這種情況下，讓我們假設(shè)櫻桃的周長(zhǎng)和體積是相關(guān)的。我們形成的每個(gè)假設(shè)都有相反的含義：“零假設(shè)”(H 0)。在這里，我們的零假設(shè)是周長(zhǎng)與體積無(wú)關(guān)。在統(tǒng)計(jì)中，零假設(shè)是我們使用數(shù)據(jù)來(lái)支持或拒絕的假設(shè)。我們永遠(yuǎn)不能說(shuō)我們“證明”了一個(gè)假設(shè)。我們稱周長(zhǎng)和體積與假說(shuō)相關(guān)的假說(shuō)(H a)。總結(jié)：H 0：周長(zhǎng)與體積H a之間沒(méi)有關(guān)系：圍長(zhǎng)與體積之間存在某些關(guān)系。我們將使用線性回歸模型來(lái)檢驗(yàn)假設(shè)。如果我們找到足夠有力的證據(jù)拒絕H 0，則可以使用該模型根據(jù)周長(zhǎng)預(yù)測(cè)櫻桃樹(shù)的體積。

　　線性回歸模型的構(gòu)建塊

　　線性回歸描述了目標(biāo)響應(yīng)變量(或因變量)與一個(gè)或多個(gè)預(yù)測(cè)變量(或自變量)之間的關(guān)系。它有助于我們從噪聲(無(wú)法從預(yù)測(cè)變量中獲知響應(yīng)變量)中分離出信號(hào)(我們可以從預(yù)測(cè)變量中獲知響應(yīng)變量)。我們將繼續(xù)研究模型如何做到這一點(diǎn)。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　讓我們深入研究，并建立一個(gè)將樹(shù)木體積與周長(zhǎng)相關(guān)聯(lián)的線性模型。R通過(guò)基本函數(shù)使這一過(guò)程變得簡(jiǎn)單lm()。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　該lm()函數(shù)使一條線適合我們的數(shù)據(jù)，該線盡可能接近我們所有的31個(gè)觀測(cè)值。更具體地說(shuō)，它以使點(diǎn)和線之間的平方差之和最小的方式擬合線。這種方法被稱為“最小化最小二乘”。即使線性回歸模型很好地?cái)M合數(shù)據(jù)，擬合也不是完美的。我們的觀測(cè)值與其模型預(yù)測(cè)值之間的距離稱為殘差。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　在數(shù)學(xué)上，我們可以寫(xiě)為線性回歸為等式：ÿ聽(tīng)，說(shuō)：β0 + β1 X + ε

　　1)該ÿ和X變量是從我們的數(shù)據(jù)，我們正在與海誓山盟的響應(yīng)和預(yù)測(cè)變量

　　2)β0是代表模型截距或與y軸交叉的模型系數(shù)

　　3)β1是代表模型斜率的模型系數(shù)，該數(shù)字是有關(guān)線的陡度及其方向(正或負(fù))的信息

　　4)ε是包含我們無(wú)法在模型中捕獲的可變性的誤差項(xiàng)(X不能告訴我們有關(guān)Y的信息)

　　在我們的示例中：樹(shù)體積≈ 截距 + 坡度(樹(shù)長(zhǎng))+ 錯(cuò)誤

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　該lm()函數(shù)估計(jì)它適合我們的數(shù)據(jù)的線性模型的截距和斜率系數(shù)。有了模型，我們可以繼續(xù)進(jìn)行第5步，請(qǐng)記住，我們?nèi)匀恍枰鲆恍┕ぷ鱽?lái)驗(yàn)證這種模型實(shí)際上適合于數(shù)據(jù)的想法。

　　我們可以使用該模型進(jìn)行預(yù)測(cè)嗎?

　　我們是否可以使用我們的模型進(jìn)行預(yù)測(cè)取決于：

　　1)是否可以拒絕變量之間沒(méi)有關(guān)系的原假設(shè)。

　　2)該模型是否適合我們的數(shù)據(jù)。

　　讓我們使用來(lái)調(diào)用模型的輸出summary()。模型輸出將為我們提供檢驗(yàn)假設(shè)并評(píng)估模型與數(shù)據(jù)擬合程度所需的信息。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　讓我們遍歷輸出以回答每個(gè)問(wèn)題。

　　支持該假設(shè)嗎?

　　系數(shù)：估計(jì)和標(biāo)準(zhǔn)。錯(cuò)誤：

　　1)如果圍長(zhǎng)值為零，則本例中的截距是預(yù)期的樹(shù)體積。當(dāng)然，我們不能有一棵體積為負(fù)的樹(shù)，但稍后會(huì)有更多。

　　2)在我們的示例中，坡度是樹(shù)木周長(zhǎng)對(duì)樹(shù)木體積的影響。我們看到，每增加一英寸的周長(zhǎng)，樹(shù)木的體積就會(huì)增加5.0659英尺3。

　　3)系數(shù)標(biāo)準(zhǔn)誤差告訴我們估計(jì)系數(shù)與響應(yīng)變量的實(shí)際平均值的平均變化。

　　t值：

　　這是一項(xiàng)測(cè)試統(tǒng)計(jì)數(shù)據(jù)，用于測(cè)量估計(jì)系數(shù)從零開(kāi)始有多少標(biāo)準(zhǔn)偏差。

　　Pr(> | t |)：

　　該數(shù)字是p值，定義為在H 0為true時(shí)觀察等于或大于t的任何值的概率。t統(tǒng)計(jì)量越大，p值越小。通常，我們使用0.05作為顯著性的臨界值;當(dāng)p值小于0.05時(shí)，我們拒絕H 0。

　　我們可以拒絕原假設(shè)，而相信樹(shù)的寬度和體積之間存在某種關(guān)系。

　　模型對(duì)數(shù)據(jù)的擬合程度如何?

　　殘留物：

　　輸出的這一部分為我們提供了殘差的摘要(請(qǐng)記住，這是我們的觀測(cè)值與模型之間的距離)，這告訴我們有關(guān)模型如何擬合數(shù)據(jù)的一些信息。殘差應(yīng)該在零附近具有相當(dāng)對(duì)稱的分布。通常，我們正在尋找殘差正態(tài)分布在零附近(即鐘形曲線分布)的方法，但重要的是它們?cè)谝曈X(jué)上沒(méi)有明顯的模式，這表明線性模型不適合數(shù)據(jù)。

　　我們可以制作一個(gè)直方圖以可視化ggplot2。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　我們的殘差在0附近看起來(lái)很對(duì)稱，這表明我們的模型很好地?cái)M合了數(shù)據(jù)。殘留標(biāo)準(zhǔn)誤差：

　　該術(shù)語(yǔ)表示我們的響應(yīng)變量測(cè)量值偏離擬合線性模型的平均值(模型誤差項(xiàng))。

　　自由度(DoF)：

　　關(guān)于自由度的討論可能變得相當(dāng)技術(shù)性。就大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模的目的而言，將它們視為用于計(jì)算估算值的獨(dú)立信息的數(shù)量就足夠了。自由度與測(cè)量次數(shù)有關(guān)，但不相同。

　　多個(gè)R平方：

　　的- [R 2值是我們的數(shù)據(jù)有多接近線性回歸模型的度量。R 2值始終在0和1之間;接近1的數(shù)字表示擬合模型。隨著模型中包含更多的變量，R 2始終會(huì)增加，因此包含調(diào)整后的R 2來(lái)說(shuō)明用于創(chuàng)建模型的自變量的數(shù)量。

　　F統(tǒng)計(jì)：

　　該測(cè)試統(tǒng)計(jì)信息告訴我們正在測(cè)試的因變量和自變量之間是否存在關(guān)系。通常，大的F表示更強(qiáng)的關(guān)系。

　　p值：

　　此p值與F統(tǒng)計(jì)量相關(guān)聯(lián)，用于解釋整個(gè)模型與我們的數(shù)據(jù)擬合的顯著性。

　　讓我們來(lái)看看適合我們的寬度和體積數(shù)據(jù)的模型。我們可以通過(guò)使用ggplot()線性模型擬合數(shù)據(jù)的散點(diǎn)圖來(lái)做到這一點(diǎn)：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　線條周?chē)幕疑幱氨硎驹搒tat_smooth()功能的默認(rèn)置信區(qū)間為0.95，該置信區(qū)間使數(shù)據(jù)平滑以使圖案更易于可視化。這個(gè)0.95的置信區(qū)間是所有黑櫻桃樹(shù)的周長(zhǎng)和體積的真實(shí)線性模型位于擬合到我們的數(shù)據(jù)的回歸模型的置信區(qū)間內(nèi)的概率。盡管此模型非常適合我們的數(shù)據(jù)，但我們的觀察結(jié)果仍然存在差異。

　　這是因?yàn)槭澜缤ǔＪ遣徽麧嵉摹Ｔ谖覀兊哪Ｐ椭?，?shù)木的體積不僅是樹(shù)木的周長(zhǎng)的函數(shù)，而且還包含我們不一定要量化的數(shù)據(jù)(樹(shù)干形狀之間的個(gè)體差異，林農(nóng)的樹(shù)干周長(zhǎng)測(cè)量技術(shù)的微小差異)。有時(shí)，這種可變性掩蓋了響應(yīng)變量和預(yù)測(cè)變量之間可能存在的任何關(guān)系。但是在這里，我們數(shù)據(jù)中的信號(hào)足夠強(qiáng)大，可以讓我們開(kāi)發(fā)一個(gè)有用的模型來(lái)進(jìn)行預(yù)測(cè)。

　　使用我們的簡(jiǎn)單線性模型進(jìn)行預(yù)測(cè)

　　我們的模型適合進(jìn)行預(yù)測(cè)!各地的樹(shù)木科學(xué)家欣喜若狂。假設(shè)我們有數(shù)據(jù)集之外的一棵樹(shù)的周長(zhǎng)，高度和體積數(shù)據(jù)。我們可以使用這棵樹(shù)來(lái)測(cè)試我們的模型。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　我們的模型根據(jù)樹(shù)長(zhǎng)預(yù)測(cè)樹(shù)的體積效果如何?我們將使用該predict()函數(shù)，這是一個(gè)通用的R函數(shù)，用于根據(jù)模型擬合函數(shù)的模數(shù)進(jìn)行預(yù)測(cè)。predict()以我們的線性回歸模型和我們想要響應(yīng)變量值的預(yù)測(cè)變量的值作為參數(shù)。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　我們的體積預(yù)測(cè)為55.2 ft 3。這接近于我們的實(shí)際值，但是有可能在模型中增加高度(我們的其他預(yù)測(cè)變量)可以使我們做出更好的預(yù)測(cè)。

　　添加更多預(yù)測(cè)變量：多元線性回歸

　　如果我們使用所有可用的信息(寬度和高度)來(lái)預(yù)測(cè)樹(shù)的體積，也許可以提高模型的預(yù)測(cè)能力。從帖子開(kāi)始的五步過(guò)程確實(shí)是一個(gè)迭代過(guò)程，這一點(diǎn)很重要–在現(xiàn)實(shí)世界中，您將獲得一些數(shù)據(jù)，構(gòu)建一個(gè)模型，根據(jù)需要調(diào)整模型以進(jìn)行改進(jìn)，然后添加更多數(shù)據(jù)并建立一個(gè)新模型，依此類推，直到您對(duì)結(jié)果感到滿意和/或確信自己無(wú)法做得更好為止。我們可以建立兩個(gè)單獨(dú)的回歸模型并對(duì)其進(jìn)行評(píng)估，但是這種方法存在一些問(wèn)題。首先，想象一下如果我們有5個(gè)，10個(gè)甚至50個(gè)預(yù)測(cè)變量，那將是多么麻煩。其次，兩個(gè)預(yù)測(cè)模型將為我們提供兩個(gè)單獨(dú)的體積預(yù)測(cè)，而不是我們所追求的單個(gè)預(yù)測(cè)。也許最重要的是建立兩個(gè)單獨(dú)的模型并不能讓我們?cè)诠烙?jì)模型系數(shù)時(shí)考慮預(yù)測(cè)變量之間的關(guān)系。在我們的數(shù)據(jù)集中，我們懷疑基于我們的初步數(shù)據(jù)探索，樹(shù)的高度和周長(zhǎng)是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中更清楚地看到的那樣，忽略預(yù)測(cè)變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹(shù)體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個(gè)預(yù)測(cè)變量的線性模型。為此，我們可以為模型中的每個(gè)其他感興趣的獨(dú)立變量添加一個(gè)斜率系數(shù)。根據(jù)我們的初步數(shù)據(jù)探索，我們懷疑樹(shù)的高度和周長(zhǎng)是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中更清楚地看到的那樣，忽略預(yù)測(cè)變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹(shù)體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個(gè)預(yù)測(cè)變量的線性模型。為此，我們可以為模型中的每個(gè)其他感興趣的獨(dú)立變量添加一個(gè)斜率系數(shù)。根據(jù)我們的初步數(shù)據(jù)探索，我們懷疑樹(shù)的高度和周長(zhǎng)是否相關(guān)。正如我們將在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中更清楚地看到的那樣，忽略預(yù)測(cè)變量之間的這種相關(guān)性可能導(dǎo)致有關(guān)其與樹(shù)體積的關(guān)系的誤導(dǎo)性結(jié)論。更好的解決方案是構(gòu)建包含多個(gè)預(yù)測(cè)變量的線性模型。為此，我們可以為模型中的每個(gè)其他感興趣的獨(dú)立變量添加一個(gè)斜率系數(shù)。

　　樹(shù)體積≈ 截距 + SLOPE1(樹(shù)周長(zhǎng))+ SLOPE2(樹(shù)高度)+ 錯(cuò)誤

　　使用lm()函數(shù)很容易做到這一點(diǎn)：我們只需要添加其他預(yù)測(cè)變量即可。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　從模型輸出中可以看到，周長(zhǎng)和高度都與體積顯著相關(guān)，并且該模型很好地?cái)M合了我們的數(shù)據(jù)。我們調(diào)整后的R 2值也略高于模型調(diào)整后的R 2fit_1。由于此模型中有兩個(gè)預(yù)測(cè)變量，因此我們需要第三維來(lái)對(duì)其進(jìn)行可視化。我們可以使用包創(chuàng)建一個(gè)漂亮的3d散點(diǎn)圖scatterplot3d：首先，為預(yù)測(cè)變量(在數(shù)據(jù)范圍內(nèi))創(chuàng)建值網(wǎng)??格。該expand.grid()函數(shù)根據(jù)因子變量的所有組合創(chuàng)建一個(gè)數(shù)據(jù)框。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　接下來(lái)，我們根據(jù)預(yù)測(cè)變量網(wǎng)格對(duì)體積進(jìn)行預(yù)測(cè)：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　現(xiàn)在，我們可以根據(jù)預(yù)測(cè)變量網(wǎng)格和預(yù)測(cè)體積制作3d散點(diǎn)圖：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　最后疊加我們的實(shí)際觀察結(jié)果，以了解它們的適合程度：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　讓我們看看該模型如何預(yù)測(cè)樹(shù)的體積。這次，由于我們的模型將Height用作預(yù)測(cè)變量，因此我們包括了樹(shù)的高度：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　這次，我們得到了52.13 ft 3的預(yù)測(cè)體積。與僅使用周長(zhǎng)作為預(yù)測(cè)因子的簡(jiǎn)單模型所獲得的預(yù)測(cè)相比，該預(yù)測(cè)更接近于我們的真實(shí)樹(shù)體積，但是，正如我們將要看到的，我們可能能夠進(jìn)行改進(jìn)。

　　互動(dòng)互動(dòng)

　　盡管我們進(jìn)行了改進(jìn)，但我們剛剛構(gòu)建的模型仍然無(wú)法說(shuō)明全部情況。假設(shè)樹(shù)木的圍長(zhǎng)對(duì)體積的影響?yīng)毩⒂跇?shù)木的高度對(duì)體積的影響。顯然不是這樣，因?yàn)闃?shù)的高度和周長(zhǎng)是相關(guān)的。高大的樹(shù)木往往更寬，我們的探索性數(shù)據(jù)可視化結(jié)果也表明了這一點(diǎn)。換句話說(shuō)，周長(zhǎng)的斜率應(yīng)隨高度的斜率增加而增加。為了解決模型中預(yù)測(cè)變量的這種非獨(dú)立性，我們可以指定一個(gè)交互項(xiàng)，該項(xiàng)被計(jì)算為預(yù)測(cè)變量的乘積。

　　樹(shù)體積≈ 截距 + SLOPE1(樹(shù)周長(zhǎng))+ SLOPE2(樹(shù)高度)+ SLOPE3(樹(shù)周長(zhǎng)X樹(shù)高度)+ 錯(cuò)誤

　　再一次，使用lm()以下命令構(gòu)建此模型很容易：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　請(qǐng)注意，在我們的模型中，“周長(zhǎng)*高度”是“周長(zhǎng)+高度+周長(zhǎng)*高度”的簡(jiǎn)寫(xiě)。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　正如我們所懷疑的，周長(zhǎng)和高度的相互作用很明顯，這表明我們應(yīng)該在用于預(yù)測(cè)樹(shù)木體積的模型中包括相互作用項(xiàng)。調(diào)整后的R 2值接近1，F(xiàn)的大值和p的小值也支持此決策，這表明我們的模型非常適合數(shù)據(jù)。讓我們看一下散點(diǎn)圖，以可視化使用此模型的樹(shù)木體積的預(yù)測(cè)值。我們可以使用為fit_2可視化生成的相同的預(yù)測(cè)值網(wǎng)格：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　類似于我們?nèi)绾慰梢暬痜it_2模型，我們將使用fit_3帶有交互項(xiàng)的模型從預(yù)測(cè)變量的網(wǎng)格中預(yù)測(cè)體積值：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　現(xiàn)在，我們繪制預(yù)測(cè)變量網(wǎng)格和預(yù)測(cè)體積的散點(diǎn)圖：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　最后，我們疊加觀察到的數(shù)據(jù)：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　在這張圖片中很難看到，但是這次我們的預(yù)測(cè)是在某個(gè)曲面而不是平面上進(jìn)行的。現(xiàn)在，關(guān)鍵時(shí)刻：讓我們使用此模型來(lái)預(yù)測(cè)樹(shù)的體積。

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　使用該第三種模型的預(yù)測(cè)值是45.89，最接近我們的真實(shí)值46.2 ft 3。

　　有關(guān)預(yù)測(cè)模型的一些注意事項(xiàng)

　　記住您的數(shù)據(jù)范圍

　　使用模型進(jìn)行預(yù)測(cè)時(shí)，最好避免嘗試外推到遠(yuǎn)遠(yuǎn)超出用于構(gòu)建模型的值范圍。為了說(shuō)明這一點(diǎn)，讓我們嘗試估計(jì)一棵小樹(shù)苗(一棵幼樹(shù))的體積：

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

　　我們得到的預(yù)測(cè)體積為62.88 ft 3，比數(shù)據(jù)集中的高大樹(shù)木更大。當(dāng)然，這沒(méi)有意義。請(qǐng)記住，我們進(jìn)行準(zhǔn)確預(yù)測(cè)的能力受到我們用于構(gòu)建模型的數(shù)據(jù)范圍的限制。

　　避免建立過(guò)于針對(duì)您的數(shù)據(jù)集的模型

　　在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中我們研究的簡(jiǎn)單示例數(shù)據(jù)集中，向模型添加第二個(gè)變量似乎可以提高我們的預(yù)測(cè)能力。但是，當(dāng)嘗試使用具有多個(gè)差異變量的多種多元線性回歸模型時(shí)，選擇最佳模型變得更具挑戰(zhàn)性。如果添加了太多不能改善模型預(yù)測(cè)能力的術(shù)語(yǔ)，我們將冒著使模型過(guò)度“適應(yīng)”特定數(shù)據(jù)集的風(fēng)險(xiǎn)。

　　過(guò)度適合特定數(shù)據(jù)集的模型失去了預(yù)測(cè)未來(lái)事件或擬合不同數(shù)據(jù)集的功能，因此并不是十分有用。雖然我們?cè)?a href="http://lb577.com/data/2706.html" target="_blank">大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中用于評(píng)估模型有效性的方法(調(diào)整后的R 2，殘差分布)對(duì)于了解模型對(duì)數(shù)據(jù)的擬合程度很有用，但將模型應(yīng)用于數(shù)據(jù)集的不同子集可以提供有關(guān)模型將如何擬合的信息在實(shí)踐中表現(xiàn)。

　　這種稱為“交叉驗(yàn)證”的方法通常用于測(cè)試預(yù)測(cè)模型。在我們的示例中，我們使用了三個(gè)模型中的每個(gè)模型來(lái)預(yù)測(cè)單個(gè)樹(shù)的數(shù)量。但是，如果我們要構(gòu)建更復(fù)雜的模型，則需要撤消部分?jǐn)?shù)據(jù)以進(jìn)行交叉驗(yàn)證。

　　下一步

　　我們使用線性回歸來(lái)構(gòu)建用于根據(jù)兩個(gè)連續(xù)預(yù)測(cè)變量來(lái)預(yù)測(cè)連續(xù)響應(yīng)變量的模型，但是線性回歸對(duì)于許多其他常見(jiàn)場(chǎng)景是有用的預(yù)測(cè)建模工具。

　　下一步，嘗試建立線性回歸模型，以從兩個(gè)以上的預(yù)測(cè)變量中預(yù)測(cè)響應(yīng)變量?？紤]一下您如何決定將哪些變量包括在回歸模型中;您如何分辨哪些是重要的預(yù)測(cè)指標(biāo)?預(yù)測(cè)變量之間的關(guān)系如何影響該決策?

　　數(shù)據(jù)組中的R是用于在多個(gè)線性回歸問(wèn)題的工作有用包括：airquality，iris，和mtcars。根據(jù)數(shù)據(jù)構(gòu)建模型的另一個(gè)重要概念是，使用從現(xiàn)有預(yù)測(cè)變量中計(jì)算出的新預(yù)測(cè)變量來(lái)擴(kuò)充數(shù)據(jù)。這稱為功能工程，在這里您可以使用自己的專家知識(shí)來(lái)了解與該問(wèn)題有關(guān)的其他方面。

　　例如，如果您正在查看將時(shí)間戳記作為變量之一的銀行交易數(shù)據(jù)庫(kù)，則一周中的某天可能與您要回答的問(wèn)題有關(guān)，因此您可以從時(shí)間戳記中進(jìn)行計(jì)算并將其添加作為新變量添加到數(shù)據(jù)庫(kù)中。這是一個(gè)復(fù)雜的主題，添加更多的預(yù)測(cè)變量并不總是一個(gè)好主意，但是在學(xué)習(xí)更多有關(guān)建模的知識(shí)時(shí)，您應(yīng)該牢記這一點(diǎn)。在大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模中使用的樹(shù)木數(shù)據(jù)集中，您能想到可以從周長(zhǎng)和高度計(jì)算出的任何其他量來(lái)幫助您預(yù)測(cè)體積嗎?(提示：回想一下當(dāng)您學(xué)習(xí)各種幾何形狀的體積的公式時(shí)，請(qǐng)考慮一棵樹(shù)的樣子。)

　　最后，盡管我們專注于連續(xù)數(shù)據(jù)，但線性回歸也可以擴(kuò)展以根據(jù)類別變量做出預(yù)測(cè)。嘗試使用線性回歸模型來(lái)預(yù)測(cè)分類變量和連續(xù)預(yù)測(cè)變量的響應(yīng)變量。有跡象表明，借給自己特別好這個(gè)練習(xí)幾個(gè)數(shù)據(jù)集R：，ToothGrowth，PlantGrowth和npk。

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)！怕錢(qián)不夠？可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)！怕學(xué)不會(huì)？助教全程陪讀，隨時(shí)解惑！擔(dān)心就業(yè)？一地學(xué)習(xí)，可推薦就業(yè)！

?2007-2022/ lb577.com 北京漫動(dòng)者數(shù)字科技有限公司備案號(hào)：京ICP備12034770號(hào) 監(jiān)督電話：010-53672995 郵箱：bjaaa@aaaedu.cc

AAA教育

大數(shù)據(jù)分析如何使用線性回歸進(jìn)行預(yù)測(cè)建模

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

AAA教育官方微信

視頻學(xué)習(xí)群