午夜激成人免费视频在线观看,亚洲综合在线视频

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

時(shí)間：2020-09-26來(lái)源：lb577.com點(diǎn)擊量：次作者：Sissi

時(shí)間：2020-09-26點(diǎn)擊量：次作者：Sissi

　　在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí)，我們希望將誤差保持在盡可能低的水平。對(duì)于任何打算學(xué)習(xí)Python進(jìn)行大數(shù)據(jù)分析的人來(lái)說(shuō)，這都是一項(xiàng)關(guān)鍵技能。誤差的兩個(gè)主要來(lái)源是偏差和方差。如果我們?cè)O(shè)法減少這兩個(gè)，那么我們可以建立更準(zhǔn)確的模型。

　　但是，我們?nèi)绾问紫仍\斷偏差和方差?當(dāng)我們檢測(cè)到某些東西時(shí)應(yīng)該采取什么行動(dòng)?

　　在如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型中，我們將學(xué)習(xí)如何使用學(xué)習(xí)曲線來(lái)回答這兩個(gè)問(wèn)題。我們將使用現(xiàn)實(shí)世界的數(shù)據(jù)集，并嘗試預(yù)測(cè)電廠的電能輸出。

　　假定你對(duì)scikit學(xué)習(xí)和機(jī)器學(xué)習(xí)理論有所了解。如果在我說(shuō)交叉驗(yàn)證或監(jiān)督學(xué)習(xí)時(shí)你不皺眉，那么你就很好了。如果你是機(jī)器學(xué)習(xí)的新手，并且從未嘗試過(guò)scikit，那么如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型是一個(gè)不錯(cuò)的起點(diǎn)。

　　我們首先簡(jiǎn)要介紹偏差和方差。

　　偏差方差的權(quán)衡

　　在監(jiān)督學(xué)習(xí)中，我們假設(shè)特征與目標(biāo)之間存在真實(shí)關(guān)系，并使用模型估算這種未知關(guān)系。如果假設(shè)是正確的，那么確實(shí)存在一個(gè)模型，我們將其稱(chēng)為\(f \)，該模型可以完美描述要素與目標(biāo)之間的關(guān)系。

　　實(shí)際上，\(f \)幾乎總是完全未知，我們嘗試使用模型\(\ hat {f} \)對(duì)其進(jìn)行估計(jì)(注意\(f \)和\(\ hat之間的符號(hào)略有不同{F}\))。我們使用特定的訓(xùn)練集并獲得特定的 \(\ hat {f} \)。如果我們使用不同的訓(xùn)練集，我們很可能會(huì)得到不同的\(\ hat {f} \)。隨著我們不斷更改訓(xùn)練集，我們得到\(\ hat {f} \)的不同輸出。\(\ hat {f} \)隨著我們更改訓(xùn)練集而變化的量稱(chēng)為方差。

　　要估算真實(shí)的\(f \)，我們使用不同的方法，例如線性回歸或隨機(jī)森林。例如，線性回歸假設(shè)特征和目標(biāo)之間是線性的。但是，對(duì)于大多數(shù)現(xiàn)實(shí)生活場(chǎng)景而言，要素與目標(biāo)之間的真實(shí)關(guān)系非常復(fù)雜，而且并非線性關(guān)系。簡(jiǎn)化的假設(shè)會(huì)使模型產(chǎn)生偏差。關(guān)于真實(shí)關(guān)系的假設(shè)越錯(cuò)誤，偏差就越大，反之亦然。

　　通常，對(duì)某些測(cè)試數(shù)據(jù)進(jìn)行測(cè)試時(shí)，模型\(\ hat {f} \)會(huì)出現(xiàn)一些錯(cuò)誤。從數(shù)學(xué)上可以證明，偏差和方差都只會(huì)增加模型的誤差。我們希望誤差很小，因此我們需要將偏差和方差保持在最小。但是，這不太可能。偏差和方差之間需要權(quán)衡。

　　低偏方法非常適合訓(xùn)練數(shù)據(jù)。如果我們更改訓(xùn)練集，我們將獲得截然不同的模型\(\ hat {f} \)。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　你可以看到，低偏差方法可以捕獲不同訓(xùn)練集之間的大多數(shù)差異(甚至較小的差異)。\(\ hat {f} \)隨我們更改訓(xùn)練集而變化很大，這表明差異很大。

　　方法的偏見(jiàn)程度越小，其數(shù)據(jù)擬合能力越強(qiáng)。此能力越大，方差越大。因此，偏差越小，方差越大。

　　反之亦成立：偏差越大，方差越小。高偏差方法會(huì)建立簡(jiǎn)單的模型，這些模型通常不適合訓(xùn)練數(shù)據(jù)。當(dāng)我們更改訓(xùn)練集時(shí)，通常從高偏置算法獲得的模型\(\ hat {f} \)彼此之間并沒(méi)有太大差異。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　如果在更改訓(xùn)練集時(shí)\(\ hat {f} \)的變化不大，則方差很小，這證明了我們的觀點(diǎn)：偏差越大，方差越小。

　　從數(shù)學(xué)上講，很明顯為什么我們要低偏差和低方差。如上所述，偏差和方差只會(huì)增加模型的誤差。但是，從更直觀的角度來(lái)看，我們希望低偏差以避免構(gòu)建過(guò)于簡(jiǎn)單的模型。在大多數(shù)情況下，簡(jiǎn)單的模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)不佳，并且極有可能在測(cè)試數(shù)據(jù)上重復(fù)表現(xiàn)不佳的情況。

　　同樣，我們希望方差較小，以避免構(gòu)建過(guò)于復(fù)雜的模型。這樣的模型幾乎完全適合訓(xùn)練集中的所有數(shù)據(jù)點(diǎn)。但是，訓(xùn)練數(shù)據(jù)通常包含噪聲，僅是來(lái)自大量人口的樣本。過(guò)于復(fù)雜的模型會(huì)捕獲該噪聲。當(dāng)對(duì)樣本外數(shù)據(jù)進(jìn)行測(cè)試時(shí)，性能通常很差。那是因?yàn)槟Ｐ蛯?duì)樣本訓(xùn)練數(shù)據(jù)的學(xué)習(xí)太好了。它對(duì)某事了解很多，而對(duì)其他事情則一無(wú)所知。

　　但是實(shí)際上，我們需要權(quán)衡取舍。我們不能同時(shí)擁有低偏見(jiàn)和低方差，因此我們希望瞄準(zhǔn)中間的東西。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　當(dāng)我們?cè)谙旅嫔珊徒忉寣W(xué)習(xí)曲線時(shí)，我們將嘗試為此折衷建立一些實(shí)用的直覺(jué)。

　　學(xué)習(xí)曲線–基本思想

　　假設(shè)我們有一些數(shù)據(jù)，并將其分為訓(xùn)練集和驗(yàn)證集。我們從訓(xùn)練集中獲取一個(gè)實(shí)例(是的，一個(gè)!)，并使用它來(lái)估計(jì)模型。然后，我們?cè)隍?yàn)證集和單個(gè)訓(xùn)練實(shí)例上測(cè)量模型的誤差。訓(xùn)練實(shí)例上的錯(cuò)誤將為0，因?yàn)橥昝罃M合單個(gè)數(shù)據(jù)點(diǎn)非常容易。但是，驗(yàn)證集上的錯(cuò)誤將非常大。

　　這是因?yàn)樵撃Ｐ褪菄@單個(gè)實(shí)例構(gòu)建的，并且?guī)缀蹩梢钥隙ǖ氖?，該模型無(wú)法準(zhǔn)確地概括以前未見(jiàn)過(guò)的數(shù)據(jù)。現(xiàn)在讓我們說(shuō)，代替一個(gè)訓(xùn)練實(shí)例，我們?nèi)∈畟€(gè)并重復(fù)誤差測(cè)量。然后我們需要五十，一百，五百，直到我們使用了整個(gè)訓(xùn)練集。當(dāng)我們更改訓(xùn)練集時(shí)，錯(cuò)誤分?jǐn)?shù)或多或少會(huì)有所不同。因此，我們需要監(jiān)控兩個(gè)錯(cuò)誤評(píng)分：一個(gè)用于驗(yàn)證集，一個(gè)用于訓(xùn)練集。如果我們繪制兩個(gè)誤差分?jǐn)?shù)隨訓(xùn)練集的變化而變化的演變，我們將得到兩條曲線。這些稱(chēng)為學(xué)習(xí)曲線。簡(jiǎn)而言之，學(xué)習(xí)曲線顯示了錯(cuò)誤隨著訓(xùn)練集大小的增加而如何變化。

　　下圖應(yīng)幫助你可視化到目前為止描述的過(guò)程。在訓(xùn)練集列上，你可以看到我們不斷增加訓(xùn)練集的大小。這會(huì)導(dǎo)致我們的模型\(\ hat {f} \)稍有變化。在第一行，其中n = 1(n是訓(xùn)練實(shí)例的數(shù)量)，該模型非常適合單個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)。但是，完全相同的模型非常適合20個(gè)不同數(shù)據(jù)點(diǎn)的驗(yàn)證集。因此，模型的訓(xùn)練集誤差為0，而驗(yàn)證集的誤差更高。隨著我們?cè)黾佑?xùn)練集的大小，模型不再能夠完美地適合訓(xùn)練集。因此訓(xùn)練誤差變得更大。但是，該模型接受了更多數(shù)據(jù)的訓(xùn)練，因此可以更好地?cái)M合驗(yàn)證集。因此，驗(yàn)證誤差減小。提醒你，在所有三種情況下，驗(yàn)證集均保持不變。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　如果我們繪制每種訓(xùn)練量的錯(cuò)誤分?jǐn)?shù)，我們將獲得兩條與這些相似的學(xué)習(xí)曲線：

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　學(xué)習(xí)曲線為我們提供了在監(jiān)督學(xué)習(xí)模型中診斷偏差和方差的機(jī)會(huì)。我們將在接下來(lái)的內(nèi)容中看到這種可能性。

　　數(shù)據(jù)介紹

　　上面繪制的學(xué)習(xí)曲線已理想用于教學(xué)目的。但是，實(shí)際上，它們通常看起來(lái)大不相同。因此，讓我們通過(guò)使用一些實(shí)際數(shù)據(jù)在實(shí)際環(huán)境中進(jìn)行討論。我們將嘗試建立回歸模型來(lái)預(yù)測(cè)電廠的每小時(shí)電能輸出。我們使用的數(shù)據(jù)來(lái)自土耳其研究人員P?narTüfekci和Heysem Kaya，可以從此處下載。由于數(shù)據(jù)存儲(chǔ)在.xlsx文件中，因此我們使用pandas read_excel() 函數(shù)讀取數(shù)據(jù)：

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　讓我們快速解讀每個(gè)列名稱(chēng)：

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　該P(yáng)E列是目標(biāo)變量，它描述了每小時(shí)的凈電能輸出。所有其他變量都是潛在特征，每個(gè)變量的值實(shí)際上是每小時(shí)平均值(不是凈值，例如PE)。電力由燃?xì)廨啓C(jī)，蒸汽輪機(jī)和熱回收蒸汽發(fā)生器產(chǎn)生。根據(jù)數(shù)據(jù)集的文檔，真空度會(huì)影響蒸汽輪機(jī)，而其他三個(gè)變量會(huì)影響燃?xì)廨啓C(jī)。因此，我們將在回歸模型中使用所有特征列。在這一步中，我們通常會(huì)放置一個(gè)測(cè)試集，徹底探究訓(xùn)練數(shù)據(jù)，刪除任何異常值，測(cè)量相關(guān)性等。但是，出于教學(xué)目的，我們假設(shè)已經(jīng)完成并直接跳出一些學(xué)習(xí)曲線。在開(kāi)始之前，需要注意的是沒(méi)有缺失的值。同樣，數(shù)字是未縮放的，但我們將避免使用無(wú)法縮放數(shù)據(jù)的模型。

　　確定訓(xùn)練集的大小

　　首先讓我們決定我們要用于生成學(xué)習(xí)曲線的訓(xùn)練集大小。最小值為1。最大值由訓(xùn)練集中的實(shí)例數(shù)給出。我們的訓(xùn)練集有9568個(gè)實(shí)例，因此最大值為9568。但是，我們尚未預(yù)留驗(yàn)證集。我們將使用80:20的比例進(jìn)行此操作，最后得到7654個(gè)實(shí)例的訓(xùn)練集(80%)和1914個(gè)實(shí)例的驗(yàn)證集(20%)。假設(shè)我們的訓(xùn)練集將有7654個(gè)實(shí)例，則可用于生成學(xué)習(xí)曲線的最大值為7654。對(duì)于我們的情況，在這里，我們使用以下六個(gè)大?。?/p>

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　要意識(shí)到的重要一點(diǎn)是，對(duì)于每個(gè)指定的大小，都會(huì)訓(xùn)練一個(gè)新模型。如果你正在使用交叉驗(yàn)證(我們將在如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型中進(jìn)行此操作)，則將針對(duì)每種訓(xùn)練大小訓(xùn)練k個(gè)模型(其中k由用于交叉驗(yàn)證的折疊數(shù)給出)。為了節(jié)省代碼運(yùn)行時(shí)間，最好將自己限制為5至10個(gè)培訓(xùn)大小。

　　scikit-learn中的learning_curve()函數(shù)

　　我們將使用scikit-learn庫(kù)中的learning_curve() 函數(shù)為回歸模型生成學(xué)習(xí)曲線。我們沒(méi)有必要將驗(yàn)證集放在一邊，因?yàn)檫@learning_curve()會(huì)解決這個(gè)問(wèn)題。在下面的代碼單元中，我們：

　　1)從進(jìn)行所需的進(jìn)口sklearn。

　　2)聲明功能和目標(biāo)。

　　3)使用learning_curve()生成繪制學(xué)習(xí)曲線所需的數(shù)據(jù)。該函數(shù)返回一個(gè)包含三個(gè)元素的元組：訓(xùn)練集大小，以及驗(yàn)證集和訓(xùn)練集上的錯(cuò)誤分?jǐn)?shù)。在函數(shù)內(nèi)部，我們使用以下參數(shù)：

　　a)estimator —表示我們用于估算真實(shí)模型的學(xué)習(xí)算法;

　　b)X —包含要素的數(shù)據(jù);

　　c)y —包含目標(biāo)的數(shù)據(jù);

　　d)train_sizes —指定要使用的訓(xùn)練集大小;

　　e)cv —確定交叉驗(yàn)證拆分策略(我們將立即討論);

　　f)scoring—指示要使用的錯(cuò)誤度量;目的是使用均方誤差(MSE)度量，但這不是的可能參數(shù)scoring;我們將使用最接近的代理服務(wù)器(負(fù)MSE)，并且稍后只需要翻轉(zhuǎn)標(biāo)志即可。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　我們已經(jīng)知道里面有什么train_sizes。讓我們檢查其他兩個(gè)變量以查看learning_curve()返回的結(jié)果：

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　由于我們指定了六個(gè)訓(xùn)練集大小，因此你可能希望每種分?jǐn)?shù)都有六個(gè)值。相反，我們每行有六行，每行有五個(gè)錯(cuò)誤分?jǐn)?shù)。發(fā)生這種情況是因?yàn)閘earning_curve()在k后臺(tái)運(yùn)行了-fold交叉驗(yàn)證，其中的值k由我們?yōu)閏v參數(shù)指定的值給出。在我們的示例中，cv = 5將有五個(gè)拆分。對(duì)于每個(gè)分割，針對(duì)指定的每個(gè)訓(xùn)練集大小訓(xùn)練一個(gè)估計(jì)量。上面兩個(gè)數(shù)組中的每一列都指定一個(gè)拆分，每一行對(duì)應(yīng)一個(gè)測(cè)試大小。下表是訓(xùn)練錯(cuò)誤分?jǐn)?shù)的表格，可幫助你更好地了解過(guò)程：

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　要繪制學(xué)習(xí)曲線，我們只需要每個(gè)訓(xùn)練集大小的單個(gè)錯(cuò)誤評(píng)分，而不是5。因此，在下一個(gè)代碼單元中，我們?nèi)∶恳恍械钠骄?，并翻轉(zhuǎn)錯(cuò)誤評(píng)分的符號(hào)(如前所述)以上)。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　現(xiàn)在，我們擁有繪制學(xué)習(xí)曲線所需的所有數(shù)據(jù)。但是，在進(jìn)行繪制之前，我們需要停下來(lái)并進(jìn)行重要觀察。你可能已經(jīng)注意到，訓(xùn)練集上的某些錯(cuò)誤分?jǐn)?shù)是相同的。對(duì)于對(duì)應(yīng)于訓(xùn)練集大小為1的行，這是預(yù)期的，但是其他行呢?除了最后一行，我們有很多相同的值。例如，取第二行，從第二個(gè)分割開(kāi)始，我們具有相同的值。為什么?這是由于未對(duì)每個(gè)分組隨機(jī)分配訓(xùn)練數(shù)據(jù)引起的。讓我們借助下圖瀏覽一個(gè)示例。當(dāng)訓(xùn)練大小為500時(shí)，將選擇訓(xùn)練集中的前500個(gè)實(shí)例。

　　對(duì)于第一次拆分，將從第二個(gè)塊中獲取這500個(gè)實(shí)例。從第二個(gè)分割開(kāi)始，這500個(gè)實(shí)例將從第一塊中取出。因?yàn)槲覀儧](méi)有隨機(jī)化訓(xùn)練集，所以用于第二次分割的500個(gè)訓(xùn)練實(shí)例是相同的。這說(shuō)明了從500次訓(xùn)練實(shí)例情況的第二次分割開(kāi)始的相同值。相同的推理適用于100個(gè)實(shí)例情況，類(lèi)似的推理適用于其他情況。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　要停止這種行為，我們需要在函數(shù)中將shuffle參數(shù)設(shè)置為。這將使每個(gè)分組的訓(xùn)練數(shù)據(jù)的索引隨機(jī)化。由于以下兩個(gè)原因，我們尚未進(jìn)行隨機(jī)分組：Truelearning_curve()

　　1)數(shù)據(jù)經(jīng)過(guò)了五次預(yù)混洗(如文檔中所述)，因此不再需要隨機(jī)化。

　　2)我想讓你知道這個(gè)怪癖，以防你在實(shí)踐中偶然發(fā)現(xiàn)它。

　　最后，讓我們作圖。

　　學(xué)習(xí)曲線–高偏差和低方差

　　我們使用常規(guī)的matplotlib工作流程繪制學(xué)習(xí)曲線：

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　我們可以從該圖中提取很多信息。讓我們繼續(xù)進(jìn)行。當(dāng)訓(xùn)練集大小為1時(shí)，我們可以看到訓(xùn)練集的MSE為0。這是正?，F(xiàn)象，因?yàn)樵撃Ｐ屯耆m合單個(gè)數(shù)據(jù)點(diǎn)時(shí)沒(méi)有問(wèn)題。因此，當(dāng)在同一數(shù)據(jù)點(diǎn)上進(jìn)行測(cè)試時(shí)，預(yù)測(cè)是完美的。但是，當(dāng)在驗(yàn)證集(具有1914個(gè)實(shí)例)上進(jìn)行測(cè)試時(shí)，MSE會(huì)猛增至大約423.4。此相對(duì)較高的值是我們將y軸范圍限制在0到40之間的原因。這使我們能夠精確讀取大多數(shù)MSE值。預(yù)期會(huì)有如此之高的價(jià)值，因?yàn)樵趩蝹€(gè)數(shù)據(jù)點(diǎn)上訓(xùn)練的模型不太可能能夠準(zhǔn)確地推廣到訓(xùn)練中未見(jiàn)的1914個(gè)新實(shí)例。當(dāng)訓(xùn)練集大小增加到100時(shí)，訓(xùn)練MSE急劇增加，

　　線性回歸模型無(wú)法完美預(yù)測(cè)所有100個(gè)訓(xùn)練點(diǎn)，因此訓(xùn)練MSE大于0。但是，由于使用更多數(shù)據(jù)進(jìn)行估算，該模型現(xiàn)在在驗(yàn)證集上的表現(xiàn)要好得多。從500個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)開(kāi)始，驗(yàn)證MSE大致保持不變。這告訴我們一些非常重要的事情：添加更多的訓(xùn)練數(shù)據(jù)點(diǎn)不會(huì)導(dǎo)致明顯更好的模型。因此，除了浪費(fèi)時(shí)間(可能是金錢(qián))來(lái)收集更多數(shù)據(jù)之外，我們還需要嘗試其他事情，例如切換到可以構(gòu)建更復(fù)雜模型的算法。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　為了避免在這里產(chǎn)生誤解，請(qǐng)務(wù)必注意，真正無(wú)濟(jì)于事的是向訓(xùn)練數(shù)據(jù)中添加更多實(shí)例(行)。但是，添加更多功能是另一回事，并且很有可能會(huì)有所幫助，因?yàn)檫@將增加當(dāng)前模型的復(fù)雜性?，F(xiàn)在讓我們開(kāi)始診斷偏差和方差。偏差問(wèn)題的主要指標(biāo)是較高的驗(yàn)證誤差。在我們的案例中，驗(yàn)證MSE停滯在大約20的值。但是，這有多好?我們將從某些領(lǐng)域的知識(shí)(在這種情況下可能是物理或工程學(xué))中受益來(lái)回答這個(gè)問(wèn)題，但讓我們嘗試一下。

　　從技術(shù)上講，該值20具有MW \(^ 2 \)(兆瓦平方)作為單位(當(dāng)我們計(jì)算MSE時(shí)，單位也將平方)。但是我們的目標(biāo)列中的值以MW為單位(根據(jù)文檔)。取20 MW \(^ 2 \)的平方根可得出大約4.5 MW。每個(gè)目標(biāo)值代表每小時(shí)凈輸出電能。因此，每小時(shí)我們的模型平均減少4.5 MW。根據(jù)Quora的回答，4.5 MW相當(dāng)于4500臺(tái)手持式吹風(fēng)機(jī)產(chǎn)生的熱能。如果我們?cè)噲D預(yù)測(cè)一天或更長(zhǎng)時(shí)間的總能量輸出，這將加起來(lái)。我們可以得出結(jié)論，MSE為20 MW \(^ 2 \)很大。因此我們的模型存在偏差問(wèn)題。

　　但這是低偏差問(wèn)題還是高偏差問(wèn)題?為了找到答案，我們需要查看訓(xùn)練錯(cuò)誤。如果訓(xùn)練誤差非常低，則意味著訓(xùn)練數(shù)據(jù)非常適合估計(jì)模型。如果模型非常適合訓(xùn)練數(shù)據(jù)，則意味著該模型相對(duì)于該組數(shù)據(jù)具有較低的偏差。如果訓(xùn)練誤差高，則意味著估計(jì)模型無(wú)法很好地?cái)M合訓(xùn)練數(shù)據(jù)。如果模型不能很好地?cái)M合訓(xùn)練數(shù)據(jù)，則意味著它對(duì)該數(shù)據(jù)集有很高的偏見(jiàn)。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　在我們的特定情況下，訓(xùn)練的MSE穩(wěn)定在大約20 MW \(^ 2 \)的值。正如我們已經(jīng)確定的那樣，這是一個(gè)很高的錯(cuò)誤評(píng)分。因?yàn)轵?yàn)證MSE高，并且訓(xùn)練MSE也高，所以我們的模型存在高偏差問(wèn)題。現(xiàn)在讓我們開(kāi)始診斷最終的方差問(wèn)題。估計(jì)方差可以通過(guò)至少兩種方式完成：

　　1)通過(guò)檢查驗(yàn)證學(xué)習(xí)曲線和訓(xùn)練學(xué)習(xí)曲線之間的差距。

　　2)通過(guò)檢查訓(xùn)練錯(cuò)誤：隨著訓(xùn)練集大小的增加，它的價(jià)值及其演變。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　狹窄的差距表明低方差。通常，間隙越窄，方差越小。反之亦然：差距越大，差異越大?，F(xiàn)在讓我們解釋為什么會(huì)這樣。正如我們之前討論的，如果方差很大，則該模型非常適合訓(xùn)練數(shù)據(jù)。當(dāng)訓(xùn)練數(shù)據(jù)擬合得太好時(shí)，模型將難以推廣訓(xùn)練中未見(jiàn)的數(shù)據(jù)。當(dāng)在訓(xùn)練集上然后在驗(yàn)證集上測(cè)試這種模型時(shí)，訓(xùn)練誤差將很低，并且驗(yàn)證誤差通常會(huì)很高。隨著我們更改訓(xùn)練集大小，這種模式將繼續(xù)，并且訓(xùn)練和驗(yàn)證錯(cuò)誤之間的差異將確定兩條學(xué)習(xí)曲線之間的差距。

　　訓(xùn)練和驗(yàn)證錯(cuò)誤之間的關(guān)系以及差距可以用以下方式總結(jié)：\(差距=驗(yàn)證\錯(cuò)誤–訓(xùn)練\錯(cuò)誤\)因此，兩個(gè)錯(cuò)誤之間的差異越大，差距就越大。差距越大，差異越大。在我們的情況下，差距非常狹窄，因此我們可以安全地得出結(jié)論，方差很小。訓(xùn)練有素的 MSE分?jǐn)?shù)高也是檢測(cè)低方差的快速方法。如果學(xué)習(xí)算法的方差很小，那么當(dāng)我們更改訓(xùn)練集時(shí)，該算法將提供簡(jiǎn)單且相似的模型。由于模型過(guò)于簡(jiǎn)單，他們甚至不能滿足訓(xùn)練數(shù)據(jù)以及(他們underfit數(shù)據(jù))。因此，我們應(yīng)該期待訓(xùn)練有素的MSE。因此，訓(xùn)練有素的MSE可用作低方差的指標(biāo)。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　在我們的案例中，MSE訓(xùn)練的高峰期約為20，而我們已經(jīng)得出結(jié)論，這是很高的價(jià)值。因此，除了狹窄的差距之外，我們現(xiàn)在還有另一個(gè)確認(rèn)，那就是我們有一個(gè)低方差問(wèn)題。到目前為止，我們可以得出以下結(jié)論：

　　1)我們的學(xué)習(xí)算法存在高偏差和低方差的問(wèn)題，不適合訓(xùn)練數(shù)據(jù)。

　　2)在當(dāng)前的學(xué)習(xí)算法下，向訓(xùn)練數(shù)據(jù)中添加更多實(shí)例(行)的可能性極小，無(wú)法導(dǎo)致更好的模型。

　　此時(shí)的一種解決方案是更改為更復(fù)雜的學(xué)習(xí)算法。這將減少偏差并增加方差。一個(gè)錯(cuò)誤是嘗試增加訓(xùn)練實(shí)例的數(shù)量。通常，在解決高偏差和低方差問(wèn)題時(shí)，這兩個(gè)其他修復(fù)程序也起作用：

　　1)在更多特征上訓(xùn)練當(dāng)前的學(xué)習(xí)算法(為避免收集新數(shù)據(jù)，你可以輕松生成多項(xiàng)式特征)。這應(yīng)該通過(guò)增加模型的復(fù)雜性來(lái)降低偏差。

　　2)如果是這樣的話，請(qǐng) 減少當(dāng)前學(xué)習(xí)算法的規(guī)則化。簡(jiǎn)而言之，正則化會(huì)阻止算法很好地?cái)M合訓(xùn)練數(shù)據(jù)。如果減少正則化，則該模型將更好地?cái)M合訓(xùn)練數(shù)據(jù)，結(jié)果，方差將增加且偏差將減小。

　　學(xué)習(xí)曲線–低偏差和高方差

　　讓我們看看這里的非正規(guī)隨機(jī)森林回歸器的價(jià)格。我們將使用與上述相同的工作流程來(lái)生成學(xué)習(xí)曲線。這次，我們將所有內(nèi)容捆綁到一個(gè)函數(shù)中，以便以后使用。為了進(jìn)行比較，我們還將顯示上面的線性回歸模型的學(xué)習(xí)曲線。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　現(xiàn)在，讓我們嘗試應(yīng)用剛剛學(xué)到的知識(shí)。最好暫時(shí)停止閱讀，然后嘗試自己解釋新的學(xué)習(xí)曲線。查看驗(yàn)證曲線，我們可以看到我們已經(jīng)減少了偏差。仍然存在一些明顯的偏見(jiàn)，但沒(méi)有以前那么多。觀察訓(xùn)練曲線，我們可以推斷出這次存在一個(gè)低偏差問(wèn)題。

　　兩條學(xué)習(xí)曲線之間的新差距表明方差顯著增加。低訓(xùn)練水平的MSE證實(shí)了這種高方差的診斷。較大的差距和較低的訓(xùn)練誤差也表示過(guò)度擬合的問(wèn)題。當(dāng)模型在訓(xùn)練集上表現(xiàn)良好但在測(cè)試(或驗(yàn)證)集上表現(xiàn)較差時(shí)，就會(huì)發(fā)生過(guò)度擬合。我們?cè)谶@里可以得出的一個(gè)更重要的觀察結(jié)果是，添加新的訓(xùn)練實(shí)例很可能會(huì)產(chǎn)生更好的模型。驗(yàn)證曲線不會(huì)穩(wěn)定在所使用的最大訓(xùn)練集大小上。它仍然有可能減小并收斂到訓(xùn)練曲線，類(lèi)似于我們?cè)诰€性回歸情況下看到的收斂。到目前為止，我們可以得出以下結(jié)論：

　　1)我們的學(xué)習(xí)算法(隨機(jī)森林)具有較高的方差和相當(dāng)?shù)偷钠睿虼诉^(guò)度擬合了訓(xùn)練數(shù)據(jù)。

　　2)在當(dāng)前的學(xué)習(xí)算法下，添加更多的訓(xùn)練實(shí)例很可能會(huì)導(dǎo)致更好的模型。

　　在這一點(diǎn)上，我們可以做一些事情來(lái)改善我們的模型：

　　1)添加更多的訓(xùn)練實(shí)例。

　　2)增加我們當(dāng)前學(xué)習(xí)算法的正則化。這將減少方差并增加偏差。

　　3)減少我們當(dāng)前使用的訓(xùn)練數(shù)據(jù)中的特征數(shù)量。該算法仍將很好地?cái)M合訓(xùn)練數(shù)據(jù)，但是由于特征數(shù)量的減少，它將建立較簡(jiǎn)單的模型。這將增加偏差并減小方差。

　　在我們的情況下，我們沒(méi)有任何其他隨時(shí)可用的數(shù)據(jù)。我們可以去電廠進(jìn)行一些測(cè)量，但是我們將其保存在另一個(gè)帖子中(只是在開(kāi)玩笑)。讓我們嘗試規(guī)范化我們的隨機(jī)森林算法。一種方法是調(diào)整每個(gè)決策樹(shù)中葉節(jié)點(diǎn)的最大數(shù)量。這可以通過(guò)使用max_leaf_nodes參數(shù)來(lái)完成RandomForestRegressor()。你不一定必須了解這種正則化技術(shù)。對(duì)于我們這里的目的，你需要關(guān)注的是這種正則化對(duì)學(xué)習(xí)曲線的影響。

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　不錯(cuò)!差距現(xiàn)在更窄了，因此變化也更少了。偏見(jiàn)似乎有所增加，這就是我們想要的。但是我們的工作還遠(yuǎn)遠(yuǎn)沒(méi)有結(jié)束!驗(yàn)證的MSE仍顯示出很大的降低潛力。你可以為實(shí)現(xiàn)該目標(biāo)而采取的一些步驟包括：

　　1)添加更多的訓(xùn)練實(shí)例。

　　2)添加更多功能。

　　3)功能選擇。

　　4)超參數(shù)優(yōu)化。

　　理想的學(xué)習(xí)曲線和不可減少的誤差

　　學(xué)習(xí)曲線是在機(jī)器學(xué)習(xí)工作流程的每個(gè)點(diǎn)快速檢查我們的模型的好工具。但是我們?cè)趺粗朗裁磿r(shí)候停止?我們?nèi)绾巫R(shí)別完美的學(xué)習(xí)曲線?對(duì)于我們之前的回歸案例，你可能會(huì)認(rèn)為理想的情況是兩條曲線都朝著MSE 0收斂。這確實(shí)是理想的情況，但不幸的是，這是不可能的。既沒(méi)有實(shí)踐，也沒(méi)有理論。這是由于某種不可減少的錯(cuò)誤。當(dāng)我們構(gòu)建模型以映射特征\(X \)與目標(biāo)\(Y \)之間的關(guān)系時(shí)，我們假設(shè)首先存在這種關(guān)系。

　　如果假設(shè)為真，則存在一個(gè)真實(shí)模型\(f \)，該模型完美地描述了\(X \)和\(Y \)之間的關(guān)系，如下所示：

　　Y = F(X)+束縛\錯(cuò)誤\標(biāo)簽{1}

　　但是為什么會(huì)有錯(cuò)誤呢?我們不是剛剛說(shuō)\(f \)完美地描述了X和Y之間的關(guān)系嗎?出現(xiàn)錯(cuò)誤是因?yàn)閈(Y \)不僅是我們有限數(shù)量的功能\(X \)的函數(shù)?？赡苓€有許多其他因素會(huì)影響\(Y \)的值。我們沒(méi)有的功能。\(X \)也可能包含測(cè)量錯(cuò)誤。因此，除了\(X \)，\(Y \)也是\(irreducible \ error \)的函數(shù)?，F(xiàn)在，讓我們解釋一下為什么該錯(cuò)誤是不可減少的。當(dāng)我們使用模型\(\ hat {f}(X)\)估算\(f(X)\)時(shí)，我們引入了另一種誤差，稱(chēng)為可歸約誤差：

　　f(X)= \ hat {f}(X)+可歸約\錯(cuò)誤\ tag {2}

　　將\(f(X)\)替換為\((1)\)，我們得到：

　　Y = \ hat {f}(X)+可歸約\錯(cuò)誤+不可約\錯(cuò)誤\ tag {3}

　　通過(guò)建立更好的模型可以減少可減少的誤差。查看方程\((2)\)我們可以看到，如果\(reducible \ error \)為0，則我們的估計(jì)模型\(\ hat {f}(X)\)等于真實(shí)模型\(f (X)\)。

　　但是，從\((3)\)可以看出，即使\(reducible \ error \)為0，方程中也仍然存在\(irreducible \ error \)。由此得出的結(jié)論是，無(wú)論模型估算值多么好，，通常仍然存在一些我們無(wú)法減少的錯(cuò)誤。這就是為什么這個(gè)錯(cuò)誤被認(rèn)為是不可減少的。這告訴我們，在實(shí)踐中，我們可以看到的最佳學(xué)習(xí)曲線是收斂于某些不可減少誤差的值，而不是收斂于某些理想誤差值的曲線(對(duì)于MSE，理想誤差分?jǐn)?shù)為0;我們將立即看到其他錯(cuò)誤指標(biāo)具有不同的理想錯(cuò)誤

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　實(shí)際上，不可減少誤差的確切值幾乎總是未知的。我們還假設(shè)不可約誤差與\(X \)無(wú)關(guān)。這意味著我們不能使用\(X \)來(lái)找到真正的不可約錯(cuò)誤。用更精確的數(shù)學(xué)語(yǔ)言表達(dá)同一件事，沒(méi)有函數(shù)\(g \)映射\(X \)到不可約誤差的真實(shí)值：

　　不可約\錯(cuò)誤\ neq g(X)

　　因此，無(wú)法根據(jù)我們擁有的數(shù)據(jù)知道不可減少誤差的真實(shí)值。在實(shí)踐中，一個(gè)好的解決方法是嘗試盡可能降低錯(cuò)誤分?jǐn)?shù)，同時(shí)要記住，限制是由一些不可減少的錯(cuò)誤所給定的。

　　那分類(lèi)呢?

　　到目前為止，我們已經(jīng)了解了在回歸設(shè)置中學(xué)習(xí)曲線的知識(shí)。對(duì)于分類(lèi)任務(wù)，工作流程幾乎相同。主要區(qū)別在于，我們將不得不選擇另一種錯(cuò)誤度量標(biāo)準(zhǔn)-一種適合評(píng)估分類(lèi)器性能的度量標(biāo)準(zhǔn)。讓我們來(lái)看一個(gè)例子：

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

　　與到目前為止我們所看到的不同，請(qǐng)注意，訓(xùn)練錯(cuò)誤的學(xué)習(xí)曲線高于驗(yàn)證錯(cuò)誤的學(xué)習(xí)曲線。這是因?yàn)樗褂玫姆謹(jǐn)?shù)(準(zhǔn)確性)描述了模型的良好程度。精度越高，越好。另一方面，MSE描述了模型的嚴(yán)重程度。MSE越低越好。這對(duì)于不可減少的錯(cuò)誤也有影響。對(duì)于描述模型有多糟糕的錯(cuò)誤度量標(biāo)準(zhǔn)，不可減少的錯(cuò)誤給出了一個(gè)下限：你不能低于這個(gè)范圍。對(duì)于描述模型的好壞的度量指標(biāo)，不可減少的誤差給出了一個(gè)上限：你無(wú)法獲得更高的誤差。在此附帶說(shuō)明，在更多的技術(shù)著作中，術(shù)語(yǔ)貝葉斯錯(cuò)誤率通常用于指代分類(lèi)器的最佳錯(cuò)誤評(píng)分。這個(gè)概念類(lèi)似于不可減少的誤差。

　　下一步

　　學(xué)習(xí)曲線構(gòu)成了一種在任何監(jiān)督學(xué)習(xí)算法中診斷偏差和方差的好工具。我們已經(jīng)學(xué)習(xí)了如何使用scikit-learn和matplotlib生成它們，以及如何使用它們來(lái)診斷模型中的偏差和方差。為了鞏固你所學(xué)的內(nèi)容，請(qǐng)考慮以下一些步驟：

　　1)使用不同的數(shù)據(jù)集為回歸任務(wù)生成學(xué)習(xí)曲線。

　　2)生成分類(lèi)任務(wù)的學(xué)習(xí)曲線。

　　3)通過(guò)從頭開(kāi)始編寫(xiě)所有內(nèi)容來(lái)生成監(jiān)督學(xué)習(xí)任務(wù)的學(xué)習(xí)曲線(請(qǐng)勿learning_curve()從scikit-learn中使用)。使用交叉驗(yàn)證是可選的。

　　4)將沒(méi)有交叉驗(yàn)證的學(xué)習(xí)曲線與使用交叉驗(yàn)證的曲線進(jìn)行比較。兩種曲線應(yīng)用于相同的學(xué)習(xí)算法。

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)！怕錢(qián)不夠？可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)！怕學(xué)不會(huì)？助教全程陪讀，隨時(shí)解惑！擔(dān)心就業(yè)？一地學(xué)習(xí)，可推薦就業(yè)！

?2007-2022/ lb577.com 北京漫動(dòng)者數(shù)字科技有限公司備案號(hào)：京ICP備12034770號(hào) 監(jiān)督電話：010-53672995 郵箱：bjaaa@aaaedu.cc

AAA教育

如何使用Python構(gòu)建機(jī)器學(xué)習(xí)模型

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

AAA教育官方微信

視頻學(xué)習(xí)群