ข้อมูลสรุปสั้นๆ เกี่ยวกับสิ่งที่คุณได้เรียนรู้ในหลักสูตรมีดังนี้
- แผนผังการตัดสินใจเป็นโมเดลที่ประกอบด้วยคอลเล็กชันของเงื่อนไขที่มีการจัดลำดับชั้นตามรูปร่างของต้นไม้ เงื่อนไขจะแบ่งออกเป็น
หมวดหมู่ต่างๆ ดังนี้
- เงื่อนไขที่สอดคล้องกับแกนมีเพียงฟีเจอร์เดียว เงื่อนไขแบบตายตัวจะมีหลายฟีเจอร์
- เงื่อนไขไบนารีมีผลลัพธ์ที่เป็นไปได้ 2 ประการ เงื่อนไขนอนไบนารีมีผลลัพธ์ที่เป็นไปได้มากกว่า 2 รายการ
- การฝึกโครงสร้างการตัดสินใจเกี่ยวข้องกับการค้นหาเงื่อนไขที่ดีที่สุดในแต่ละโหนด กิจวัตร splitter จะใช้เมตริกอย่าง information gain หรือ Gini เพื่อหาเงื่อนไขที่ดีที่สุด
- ฟอเรสต์การตัดสินใจคือโหมดที่ประกอบด้วยแผนผังการตัดสินใจหลายต้นไม้ การคาดการณ์ป่าการตัดสินใจเป็นการรวม การคาดการณ์ของแผนผังการตัดสินใจ
- ป่าแบบสุ่มคือชุดของแผนผังการตัดสินใจที่มีการฝึกต้นไม้การตัดสินใจแต่ละต้นด้วยเสียงแบบสุ่มที่เฉพาะเจาะจง
- การทำเครื่องหมายคือเทคนิคที่ต้นไม้การตัดสินใจแต่ละรายการในฟอเรสต์แบบสุ่มจะได้รับการฝึกจากตัวอย่างชุดย่อยที่แตกต่างกัน
- ฟอเรสต์แบบสุ่มไม่ต้องใช้ชุดข้อมูลการตรวจสอบ แต่ป่าแบบสุ่มส่วนใหญ่จะใช้เทคนิคที่เรียกว่าout-of-bag-evaluationเพื่อประเมินคุณภาพของโมเดล
- ต้นไม้ที่เพิ่มการไล่ระดับสี (การตัดสินใจ) คือฟอเรสต์การตัดสินใจประเภทหนึ่งที่ฝึกผ่านการปรับแบบวนซ้ำจากแผนผังการตัดสินใจอินพุต ค่าที่เรียกว่าการหดตัวจะควบคุมอัตราการเรียนรู้ของต้นไม้ที่เพิ่มการไล่ระดับสี (การตัดสินใจ) และระดับที่จะใช้มากเกินไป
รายการอ้างอิง
- การประมาณฟังก์ชันอย่างเลวร้าย: เครื่องเพิ่มระดับไล่ระดับสี, ฟรีดแมน
- องค์ประกอบของการเรียนรู้เชิงสถิติ, Trevor Hastie. บทที่ 10
- รูปแบบทั่วไปที่ได้รับการสนับสนุน: คู่มือเกี่ยวกับแพ็กเกจ gbm, G. สันเขา