สรุปสั้นๆ เกี่ยวกับสิ่งที่คุณได้เรียนรู้ในหลักสูตรมีดังนี้
- แผนภูมิการตัดสินใจคือโมเดลที่ประกอบด้วยคอลเล็กชันเงื่อนไขที่จัดระเบียบตามลําดับชั้นในลักษณะของแผนภูมิต้นไม้ เงื่อนไขต่างๆ แบ่งออกเป็นหมวดหมู่ต่อไปนี้
- เงื่อนไขที่สอดคล้องกับแกนเกี่ยวข้องกับฟีเจอร์เดียวเท่านั้น เงื่อนไขแบบเฉียงเกี่ยวข้องกับฟีเจอร์หลายรายการ
- เงื่อนไขแบบ 2 ค่ามีผลลัพธ์ที่เป็นไปได้ 2 รายการ เงื่อนไขที่ไม่ใช่แบบไบนารีมีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ
- การฝึกแผนผังการตัดสินใจเกี่ยวข้องกับการค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด รูทีน splitter ใช้เมตริกต่างๆ เช่น Information گین หรือ Gini เพื่อระบุเงื่อนไขที่ดีที่สุด
- ป่าการตัดสินใจคือโหมดที่สร้างจากต้นไม้การตัดสินใจหลายต้น การคาดการณ์ของป่าการตัดสินใจคือการรวมการคาดการณ์ของต้นไม้การตัดสินใจ
- Random Forest คือชุดของต้นไม้การตัดสินใจที่ต้นไม้แต่ละต้นได้รับการฝึกด้วยสัญญาณรบกวนแบบสุ่มที่เฉพาะเจาะจง
- Bagging เป็นเทคนิคที่ฝึกแผนผังการตัดสินใจแต่ละแผนภูมิใน Random Forest ด้วยชุดตัวอย่างย่อยที่แตกต่างกัน
- ป่าแบบสุ่มไม่จําเป็นต้องใช้ชุดข้อมูลที่ใช้ตรวจสอบ แต่ Random Forest ส่วนใหญ่จะใช้เทคนิคที่เรียกว่า out-of-bag-evaluation เพื่อประเมินคุณภาพของโมเดล
- ต้นไม้ (การตัดสินใจ) ที่เพิ่มประสิทธิภาพด้วย Gradient เป็น Decision Forest ประเภทหนึ่งที่ผ่านการฝึกผ่านการปรับซ้ำๆ จากต้นไม้การตัดสินใจอินพุต ค่าที่เรียกว่าการหดตัวจะควบคุมอัตราที่ต้นไม้เพิ่มประสิทธิภาพด้วย Gradient (ต้นไม้การตัดสินใจ) เรียนรู้และระดับที่อาจปรับให้พอดีมากเกินไป
ข้อมูลอ้างอิง
- การประมาณฟังก์ชันแบบโลภ: แมชชีนการเรียนรู้แบบเพิ่มประสิทธิภาพด้วย Gradient, J. Friedman
- The Elements of Statistical Learning โดย Trevor Hastie บทที่ 10
- Generalized Boosted Models: A guide to the gbm package, G. Ridgeway