適合用於決策樹的資料

決策樹在您擁有表格資料集 (您可能會在試算表、CSV 檔案或資料庫資料表中呈現的資料) 時最有效。表格資料是最常見的資料格式之一,而決策樹應是建模的「首選」解決方案。

表 1. 表格式資料集的範例。

航段數 眼睛數量 體重 (磅) 物種 (標籤)
2 2 12 企鵝
8 6 0.1 蜘蛛
4 2 44
⋯⋯ ⋯⋯ ⋯⋯ ⋯⋯

與神經網路不同,決策樹會原生使用模型表格資料。開發決策樹時,您不必執行下列任務:

  • 執行預先處理作業,例如特徵規格化或 one-hot 編碼。
  • 執行推論 (例如,將缺少的值替換為 -1)。

不過,決策樹不太適合直接使用非表格資料 (也稱為非結構化資料),例如圖片或文字。是的,確實有解決這個限制的因應措施,但神經網路通常可更妥善地處理非結構化資料。

成效

決策樹可有效利用樣本,也就是說,決策樹非常適合用於訓練小型資料集,或是特徵數量 / 樣本數量比率較高的資料集 (可能大於 1)。雖然決策樹可有效運用樣本,但與所有機器學習模型一樣,決策樹的最佳成效是在大量資料可用時。

決策樹的推論速度通常比類似的神經網路快。舉例來說,中型決策樹在現代 CPU 上執行推論的時間只需幾微秒。