การประเมินนอกชุดข้อมูล
ป่าแบบสุ่มไม่จําเป็นต้องใช้ชุดข้อมูลที่ใช้ตรวจสอบ ป่าสุ่มส่วนใหญ่ใช้เทคนิคที่เรียกว่าการประเมินนอกกลุ่ม (การประเมิน OOB) เพื่อประเมินคุณภาพของโมเดล การประเมิน OOB จะถือว่าชุดการฝึกเป็นชุดทดสอบของการตรวจสอบไขว้
ตามที่อธิบายไว้ก่อนหน้านี้ โดยทั่วไปแล้ว ต้นไม้การตัดสินใจแต่ละต้นใน Random Forest จะได้รับการเทรนจากตัวอย่างการฝึกประมาณ 67% ดังนั้น ต้นไม้การตัดสินใจแต่ละต้นจึงเห็นตัวอย่างการฝึกประมาณ 33% แนวคิดหลักของการประเมิน OOB มีดังนี้
- เพื่อประเมิน Random Forest ในชุดข้อมูลการฝึก
- สําหรับแต่ละตัวอย่าง ให้ใช้เฉพาะแผนผังการตัดสินใจที่ไม่ได้เห็นตัวอย่างนั้นในระหว่างการฝึก
ตารางต่อไปนี้แสดงการประเมิน OOB ของ Random Forest ที่มี Decision Tree 3 ต้นซึ่งได้รับการฝึกจากตัวอย่าง 6 รายการ (ใช่ ตารางนี้เหมือนกับในส่วนการบรรจุ) ตารางแสดงว่าใช้แผนผังการตัดสินใจใดกับตัวอย่างใดในระหว่างการประเมิน OOB
ตาราง 7 การประเมิน OOB - ตัวเลขแสดงจํานวนครั้งที่ใช้ตัวอย่างการฝึกหนึ่งๆ ในระหว่างการฝึกตัวอย่างนั้นๆ
ตัวอย่างการฝึก | ตัวอย่างการประเมิน OOB | ||||||
---|---|---|---|---|---|---|---|
#1 | #2 | #3 | #4 | #5 | #6 | ||
ชุดข้อมูลต้นฉบับ | 1 | 1 | 1 | 1 | 1 | 1 | |
แผนภูมิการตัดสินใจ 1 | 1 | 1 | 0 | 2 | 1 | 1 | #3 |
แผนภูมิการตัดสินใจ 2 | 3 | 0 | 1 | 0 | 2 | 0 | #2, #4 และ #6 |
แผนภูมิการตัดสินใจ 3 | 0 | 1 | 3 | 1 | 0 | 1 | #1 และ #5 |
ในตัวอย่างที่แสดงในตาราง 7 การคาดการณ์ OOB สําหรับตัวอย่างที่ 1 ของการฝึกจะคํานวณด้วยต้นไม้การตัดสินใจ #3 (เนื่องจากต้นไม้การตัดสินใจ #1 และ #2 ใช้ตัวอย่างนี้สําหรับการฝึก) ในทางปฏิบัติ ชุดข้อมูลขนาดพอเหมาะและต้นไม้การตัดสินใจ 2-3 ต้นจะทำให้ตัวอย่างทั้งหมดมีการคาดการณ์ OOB
compute_oob_performances=True
นอกจากนี้ การประเมิน OOB ยังมีประสิทธิภาพในการคํานวณความสําคัญของตัวแปรการสับเปลี่ยนสําหรับรูปแบบ Random Forest ด้วย โปรดทราบว่าจากความสำคัญของตัวแปร ความสำคัญของตัวแปรการสับเปลี่ยนจะวัดความสำคัญของตัวแปรโดยวัดการลดลงของคุณภาพโมเดลเมื่อมีการสับเปลี่ยนตัวแปรนี้ "ความสำคัญของตัวแปรการสับเปลี่ยน OOB" ของ Random Forest คือความสำคัญของตัวแปรการสับเปลี่ยนที่คำนวณโดยใช้การประเมิน OOB
compute_oob_variable_importances=True