如果您有表格式資料集 (可能是您在試算表、CSV 檔案或資料庫資料表中所代表的資料),決策資料庫就能發揮最佳效用。表格資料是最常見的資料格式之一,而決策樹系應為「模擬」的解決方案。
表 1. 表格式資料集範例。
路段數量 | 眼睛數量 | 體重 (磅) | 物種 (標籤) |
---|---|---|---|
2 | 2 | 12 | 企鵝 |
8 | 6 | 0.1 | 蜘蛛 |
4 | 2 | 44 | 狗 |
⋯⋯ | ⋯⋯ | ⋯⋯ | ⋯⋯ |
與類神經網路不同,決策樹會以原生方式使用模型表格資料。開發決策樹系時,您無須執行下列工作:
- 執行預先處理作業,例如特徵正規化或 One-hot 編碼。
- 執行估算作業 (例如將缺少的值替換為
-1
)。
不過,決策森林不適合用來直接使用非表格型資料 (也稱為非結構化資料),例如圖片或文字。沒錯,這項限制的解決方法確實存在,但類神經網路通常能夠更妥善地處理非結構化資料。
效能
Decision Forest 的樣本效率極佳。也就是說,決策森林相當適合用於小型資料集的訓練作業,或是針對特徵數量和範例數的比例較高的資料集 (可能大於 1) 提供訓練。儘管決策樹係是有效的樣本,就像所有機器學習模型一樣,但由於有大量資料可用,決策樹的成效最佳。
Decision Forest 的推論速度通常比同等類神經網路更快。舉例來說,中型決策森林在現代 CPU 上應以微秒為單位執行推論。