變數重要性

變數重要性 (也稱為「特徵重要性」) 是一個分數,用於表示特徵對模型的「重要」程度。舉例來說,如果指定模型具有「f1」和「f2」兩個輸入特徵,則變數重要性為 {f1=5.8, f2=2.5},那麼「f1」特徵比特徵「f2」更重要。與其他機器學習模型一樣,「變數重要性」是瞭解決策樹運作方式的簡單方式。

您可以將模型通用的變數重要性 (例如「異動變數重要性」) 套用至決策樹狀圖。

決策樹狀圖也有特定的變數重要性,例如:

  • 指定變數的分割分數總和。
  • 具有指定變數的節點數量。
  • 地圖項目首次發生在所有樹狀結構路徑中的平均深度。

變數重要性可能因品質而異,例如:

  • 語意
  • 的保護
  • 資源

此外,變數重要性提供了以下不同類型的資訊:

  • 模型
  • 資料集
  • 透過訓練程序學習

例如,包含特定特徵的條件數量代表決策樹查看這項特定特徵的程度,其中可能代表這項變數的重要性。畢竟,如果某項特徵不重要,學習演算法就不會在多個條件中使用該功能。不過,出現在多個條件中的相同特徵可能也指出模型正在嘗試,但無法將特徵的模式一般化。舉例來說,如果地圖項目只是範例 ID,但沒有可一般化的資訊,就可能發生這種情況。

另一方面,如果值高的排列變數重要性偏高,表示移除特徵會對模型造成負面影響,這是表示變數重要性的指標。然而,如果模型完善,移除任何一項特徵或許不會影響模型。

由於不同的變數重要性會影響模型的不同層面,因此同時查看幾個變數重要性十分有用。舉例來說,如果根據所有變數重要性,特徵至關重要,這項功能可能就很重要。再舉一個例子,如果特徵的「節點數量」變數重要性很高,但重要性微不足道,那麼這個特徵可能就難以一般化,且可能影響模型品質。

YDF 代碼
在 YDF 中,您可以呼叫 model.describe() 並查看「變數重要性」分頁標籤,藉此瞭解模型的變數重要性。詳情請參閱 模型理解教學課程