以下簡要說明您在課程中學到的內容:
- 決策樹是一種模型,由一組條件組成,並以樹狀圖的形式進行階層式排序。條件可分為以下幾類:
- 訓練決策樹時,系統會在每個節點中搜尋最佳條件。splitter 例程會使用資訊增益或Gini等指標,判斷最佳條件。
- 決策樹是一種由多個決策樹組成的模式。決策樹的預測結果是決策樹預測結果的匯總。
- 隨機森林是決策樹的集合,其中每個決策樹都會使用特定的隨機雜訊進行訓練。
- Bagging 是一種技術,可針對隨機森林中的每個決策樹,分別訓練不同的範例子集。
- 隨機森林不需要驗證資料集。相反地,大多數隨機森林會使用稱為out-of-bag-evaluation的技術來評估模型品質。
- 梯度提升 (決策) 樹狀圖是一種決策樹狀圖,透過輸入決策樹的迭代調整進行訓練。名為「收縮」的值會控制梯度提升 (決策) 樹的學習速度,以及過度擬合程度。
參考資料
- 貪婪函式近似法:梯度提升機器,J. Friedman。
- The Elements of Statistical Learning,Trevor Hastie 著。第 10 章。
- Generalized Boosted Models: A guide to the gbm package,G. Ridgeway