過度配適

過度配適是指建立模型 相符 (「記憶」) 訓練集, 因此模型無法對新資料進行正確預測。 過度配適模型類似於在研究室中表現不錯,但 實際上是毫無意義的事

在圖 11 中,假設每個幾何形狀都代表樹狀結構的位置 所創造的科學成就藍色菱形代表健康樹木的位置 橘色圓圈則標示了病樹的位置。

圖 11.這個圖包含約 60 個點,一半是
            健康的樹和其他半生病的樹。
            健康的樹木主要位於東北象限,但只有少數
            健康的樹木逐漸潛入西北象限。有病樹
            主要位於東南象象限,但有一些生病的樹
            浸入其他像限中
圖 11. 訓練集:平方森林中的健康與生病樹木。

 

練習畫出任何形狀 (線條、曲線、橢圓形等) 來區分 健康的樹木。然後展開下一行來檢視 其中一種可能的區隔

圖 12 所示的複雜形狀只成功分類,但其中兩個 樹木如果我們將這些形狀視為模型,就會發現 模型

還是這樣?非常優秀的模型成功分類樣本。 圖 13 顯示該模型對新的預測 測試集的範例:

圖 13.新一批健康與生病的樹木覆蓋在一起
            如圖 12 所示模型中的
            樹木
圖 13.測試集:這個複雜的模型能夠區分視病和健康的樹木。

 

因此,圖 12 中顯示的複雜模型在訓練集上做得很好 但測試集的表現還不錯這是模型的典型案例 過度配適至訓練集資料。

貼合、過度配適和配適不足

模型必須對「新資料」做出良好的預測。 您的目標是建立一套「完美」的模型新的資料

如您所見,過度配適模型在訓練過程中做出極佳的預測 但新資料的預測結果不佳一個 低配適配模型 甚至針對訓練資料做出良好的預測如果過度調適模式 像是在研究室中表現不錯,但在現實生活中表現較差的產品 未成熟的模型就如同 這在研究室中會提到

圖 14.笛卡兒圖。X 軸標示為
            訓練集。Y 軸會標示為
            與實際資料相同曲線從原始開始並逐漸上升
            但後來很快就退縮了曲線左下角
            (預測功能在實際資料上欠缺品質,但
            訓練集的預測結果) 會加上「附不足的模型」標籤
            曲線的右下角 (開啟預測時的低品質預測)
            實際資料,但以訓練集達到高品質預測)
            都會加上「過度配適的模型」標籤曲線的頂峰 (高品質
            預測結果 - 根據實際資料所得的結果與中等品質預測結果
            都會加上「fit model」標籤
圖 14。 適配、適配和過度配適的模特兒。

 

一般化是指 與過度配適的情況也就是說,「一般化」模型對成效的助益 預測結果您的目標是建立 遠離新資料

偵測過度配適

以下曲線可協助您偵測過度配適:

  • 損失曲線
  • 一般化曲線

損失曲線會顯示模型的損失 與訓練疊代次數相比的結果 顯示兩條以上流失曲線的圖表稱為一般化 曲線。下列 一般化曲線顯示兩個損失曲線:

圖 15.訓練集的損失函式漸進式
            拒絕。驗證集的損失函式也會下降
            但經過特定幾次疊代後才會開始上升
圖 15。 強而有力的曲線,明顯表示過度配適。

 

請注意,這兩條損失曲線最初的運作方式很相似,隨後不同。 也就是經過一定次數的疊代後 訓練集保持穩定 (對話),但增加 以供驗證集使用這表示過度配適。

相反地,完善擬合模型的通用化曲線則顯示兩條損失曲線 模型則會使用類似的形狀

造成過度配適的原因為何?

大致來說,過度配適是由以下一或兩種原因造成 問題:

  • 訓練集對真實生活的資料 (或 驗證集或測試集)。
  • 模型太複雜。

一般化條件

模型會以訓練集進行訓練,但真正測試的模型價值 因此能根據新的樣本做出預測,特別是在實際資料上。 開發模型時,測試集可做為實際資料的 Proxy。 訓練模型明確隱含下列資料集條件:

  • 範例必須是 獨立且均勻分佈 清楚地說 這些範例無法相互影響
  • 資料集是 「stationary」: 而且資料集不會隨時間大幅變動
  • 資料集分區的分佈相同。 也就是說,訓練集中的範例在統計上類似於 驗證集、測試集和實際資料中的範例。

請透過下列練習探索上述條件。

練習:隨堂測驗

請考慮下列資料集分區。
水平條劃分成三個部分:70% 的長條
                     是訓練集,驗證集 15%,驗證集為 15%
                     測試集
您該如何確保訓練集內的範例 的統計分佈情形與 驗證集和測試集?
大量重組資料集中的樣本 或加以分割
可以。良好地隨機排列,可讓分區發揮更大效用 具有統計顯著性的結果
將範例從最早到最新排序。
如果資料集中的範例並非靜止不動,則 排序作業可讓分區變少
不採取任何行動。只要考慮到足夠的範例,平均值的定律 因此能自然確保分佈 具有統計顯著性
但事實並非如此。範例 資料集的某些部分可能與其他資料集不同 專區。
影視串流服務正在開發可預測熱門程度的模型 在未來三年內吸引最多的新電視節目 使用串流服務計畫,以資料集訓練模型 包含數億個範例,範圍涵蓋 10 年。這個模型會發生問題嗎?
有可能。觀看者顧客的喜好改變了,而過往的行為則無法改變 預測結果
可以。觀眾的喜好並非一蹴可幾。而是日新月異。
當然不行,資料集大小已足夠, 預測結果
可惜的是味道並不平凡。
別緊張。觀看者品味的變化有可預測的週期性。 需要 10 年的資料,模型才能做出準確的預測 決定未來趨勢
雖然娛樂的某些部分有點週期性 以過往的娛樂史訓練而成 無法預測未來幾年的情況
模型的目標在於預測人們步行一英里所需的時間 根據天氣資料 (溫度、露點和 降水量)。 。您是否能透過這些內容 雖然天氣讀數會大幅改變 季節?
可以,您可以從這個資料集建構及測試模型。 您只需確保資料皆平均地分配,因此 這四季的資料平均會平均分配到 不同的分區
假設這個資料集內含足夠的溫度樣本 然後根據這些原則建構及測試模型 這個資料集您只需要確保資料已分區 因此能平均分配四季的資料 複製到不同的分區

挑戰運動

您正在建立模型,用於預測乘客的理想購買日期 特定路線的火車票舉例來說,模型可能會建議 使用者購買了 7 月 8 日出發的火車票。 火車公司每小時會更新價格,並依據各式各樣的異動內容更新價格。 主要取決於目前空位數量也就是:

  • 如果空位很多,票價通常會較低。
  • 如果空位不多,票價通常會偏高。
您的模型量偏低 驗證集和測試集的損失 無法預測實際資料。為什麼?
按一下這裡查看解答