หน่วยนี้จะสำรวจหัวข้อต่อไปนี้
- ล่ามป่าแบบสุ่ม
- ฝึกป่าจำลอง
- ข้อดีและข้อเสียของป่าทึบ
การตีความป่าแบบสุ่ม
ป่าจำลองมีความซับซ้อนในการตีความมากกว่าต้นไม้การตัดสินใจ ป่าทึบ มีแผนผังการตัดสินใจที่ได้รับการฝึกด้วยความผันผวนแบบสุ่ม ดังนั้น จึงยากที่ ตัดสินโครงสร้างแผนผังการตัดสินใจ อย่างไรก็ตาม เราสามารถตีความการสุ่ม รูปแบบต่างๆ ของป่าไม้ใน 2-3 ลักษณะ
วิธีการหนึ่งในการตีความป่าแบบสุ่มก็คือการฝึกและตีความ แผนผังการตัดสินใจด้วยอัลกอริทึม CART เพราะทั้งสุ่มป่าและ CART ที่ได้รับการฝึกด้วยอัลกอริทึมหลักเดียวกัน พวกเขา "แบ่งปันมุมมองทั่วโลกแบบเดียวกัน" ของ ชุดข้อมูล ตัวเลือกนี้จะใช้ได้ดีสำหรับชุดข้อมูลอย่างง่ายและเพื่อทำความเข้าใจ การตีความโดยรวมของโมเดล
ความสำคัญของตัวแปรเป็นอีกรูปแบบหนึ่งในการตีความที่ดี ของเรา ตัวอย่างเช่น ตารางต่อไปนี้จัดอันดับความสำคัญที่ตัวแปรของ รูปแบบต่างๆ สำหรับโมเดลป่าแบบสุ่มที่ได้รับการฝึกใน ชุดข้อมูลการทำสำมะโนประชากร (รวมถึง หรือที่เรียกว่าผู้ใหญ่)
ตาราง 8. ความสำคัญที่ตัวแปรของฟีเจอร์ 14 อย่าง
ฟีเจอร์ | คะแนนรวม | ค่าเฉลี่ยความแม่นยำลดลง | การลดลงเฉลี่ยของ AUC | ความลึกขั้นต่ำโดยเฉลี่ย | จำนวนโหนด | ค่าเฉลี่ยลดลงของ PR-AUC | จำนวนเป็นราก |
---|---|---|---|---|---|---|---|
ความสัมพันธ์ | 4203592.6 |
0.0045 |
0.0172 |
4.970 |
57040 |
0.0093 |
1095 |
capital_gain | 3363045.1 |
0.0199 |
0.0194 |
2.852 |
56468 |
0.0655 |
457 |
marital_status | 3128996.3 |
0.0018 |
0.0230 |
6.633 |
52391 |
0.0107 |
750 |
อายุ | 2520658.8 |
0.0065 |
0.0074 |
4.969 |
356784 |
0.0033 |
200 |
การศึกษา | 2015905.4 |
0.0018 |
-0.0080 |
5.266 |
115751 |
-0.0129 |
205 |
อาชีพ | 1939409.3 |
0.0063 |
-0.0040 |
5.017 |
221935 |
-0.0060 |
62 |
education_num | 1673648.4 |
0.0023 |
-0.0066 |
6.009 |
58303 |
-0.0080 |
197 |
fnlwgt | 1564189.0 |
-0.0002 |
-0.0038 |
9.969 |
431987 |
-0.0049 |
0 |
hours_per_week | 1333976.3 |
0.0030 |
0.0007 |
6.393 |
206526 |
-0.0031 |
20 |
capital_loss | 866863.8 |
0.0060 |
0.0020 |
8.076 |
58531 |
0.0118 |
1 |
คลาสการทำงาน | 644208.4 |
0.0025 |
-0.0019 |
9.898 |
132196 |
-0.0023 |
0 |
native_country | 538841.2 |
0.0001 |
-0.0016 |
9.434 |
67211 |
-0.0058 |
0 |
เพศ | 226049.3 |
0.0002 |
0.0002 |
10.911 |
37754 |
-0.0011 |
13 |
เชื้อชาติ | 168180.9 |
-0.0006 |
-0.0004 |
11.571 |
42262 |
-0.0031 |
0 |
คุณจะเห็นได้ว่าคำจำกัดความที่ต่างกันสำหรับความสำคัญของตัวแปรจะมีระดับคะแนนที่ต่างกัน และอาจทำให้เกิดความแตกต่างในการจัดอันดับฟีเจอร์
ความสำคัญของตัวแปรที่มาจากโครงสร้างโมเดล (เช่น ผลรวม คะแนน หมายถึงความลึกขั้นต่ำ จำนวนโหนด และตัวเลขที่เท่ากับรากในตารางด้านบน) คือ คำนวณในทำนองเดียวกันสำหรับแผนผังการตัดสินใจ (ดูส่วน "รถเข็นช็อปปิ้ง | ความสำคัญตัวแปร") และป่าแบบสุ่ม
ความสำคัญของตัวแปรการเรียงสับเปลี่ยน (เช่น ค่าเฉลี่ยการลดลงของ {accuracy, auc, pr-auc} ในตารางด้านบน) เป็นมาตรการที่เข้าใจได้ของโมเดลซึ่งสามารถนำไปคำนวณ โมเดลแมชชีนเลิร์นนิง ที่มีชุดข้อมูลการตรวจสอบความถูกต้อง ท่ามกลางป่าทึบ อย่างไรก็ตาม แทนที่จะใช้ชุดข้อมูลการตรวจสอบ คุณสามารถประมวลผลการเรียงสับเปลี่ยน ตัวแปรที่สำคัญโดยมีการประเมินนอกขอบเขต
SHAP (SHapley Additive exPlanations) เป็นวิธีการที่ไม่ขึ้นอยู่กับโมเดลของ อธิบายการคาดคะเนของแต่ละบุคคลหรือการตีความ ตามโมเดล (โปรดดู แมชชีนเลิร์นนิงที่ตีความได้ โดย MoLNar เพื่อเป็นข้อมูลเบื้องต้นเกี่ยวกับโมเดลการตีความที่เข้าใจได้โดยไม่จำเป็นต้องเข้าใจสิ่งอื่น) SHAP คือ การประมวลผลจะมีราคาแพงตามปกติ แต่สามารถ เพิ่มขึ้นอย่างมากสำหรับการตัดสินใจ ป่า ดังนั้นเป็นวิธีที่ดีในการตีความป่าการตัดสินใจ
ตัวอย่างการใช้งาน
ในบทเรียนก่อนหน้านี้ เราได้ฝึกแผนผังการตัดสินใจเกี่ยวกับ CART ด้วยชุดข้อมูลขนาดเล็ก
โดยโทรไปที่ tfdf.keras.CartModel
หากต้องการฝึกโมเดลป่าแบบสุ่ม
เพียงแทนที่ tfdf.keras.CartModel
ด้วย tfdf.keras.RandomForestModel
:
model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)
ข้อดีและข้อเสีย
ส่วนนี้ประกอบด้วยสรุปสั้นๆ เกี่ยวกับข้อดีและข้อเสียของป่าแบบสุ่ม
ข้อดี:
- ป่าที่สุ่มมารองรับตัวเลขและ ฟีเจอร์เชิงหมวดหมู่และมักจะไม่จำเป็นต้องมีการประมวลผลฟีเจอร์ล่วงหน้า
- เนื่องจากต้นไม้การตัดสินใจเป็นอิสระจากกัน ป่าสุ่มจึงฝึกในป่าได้ พร้อมกัน คุณจึงสามารถฝึกป่าแบบสุ่มได้อย่างรวดเร็ว
- ป่าสุ่มมีพารามิเตอร์เริ่มต้นซึ่งมักให้ผลลัพธ์ที่ยอดเยี่ยม การปรับแต่ง พารามิเตอร์เหล่านั้นมักมีผลกับโมเดลเพียงเล็กน้อย
ข้อเสีย:
- เนื่องจากต้นไม้การตัดสินใจจะไม่ถูกตัดออก จึงมีขนาดใหญ่ โมเดลที่มีมากกว่า มากกว่า 1 ล้านโหนด ขนาด (และความเร็วในการอนุมาน) ของ ป่าไม้ที่สุ่มขึ้นมา อาจเป็นปัญหาได้ในบางครั้ง
- ป่าแบบสุ่มไม่สามารถเรียนรู้และนำสิ่งที่นำเสนอภายในมาใช้ซ้ำได้ ชิ้น แผนผังการตัดสินใจ (และแต่ละสาขาของแผนผังการตัดสินใจแต่ละอัน) จะต้องเรียนรู้ รูปแบบชุดข้อมูล ในบางชุดข้อมูล โดยเฉพาะชุดข้อมูลที่ไม่ใช่ตาราง (เช่น รูปภาพ ข้อความ) จะทำให้ระบบสุ่มไม่สร้างป่าซึ่งให้ผลลัพธ์ที่แย่กว่าวิธีอื่นๆ