หน้านี้ได้รับการแปลโดย Cloud Translation API

หัวข้ออื่นๆ

หน่วยนี้จะสำรวจหัวข้อต่อไปนี้

ล่ามป่าแบบสุ่ม
ฝึกป่าจำลอง
ข้อดีและข้อเสียของป่าทึบ

การตีความป่าแบบสุ่ม

ป่าจำลองมีความซับซ้อนในการตีความมากกว่าต้นไม้การตัดสินใจ ป่าทึบ มีแผนผังการตัดสินใจที่ได้รับการฝึกด้วยความผันผวนแบบสุ่ม ดังนั้น จึงยากที่ ตัดสินโครงสร้างแผนผังการตัดสินใจ อย่างไรก็ตาม เราสามารถตีความการสุ่ม รูปแบบต่างๆ ของป่าไม้ใน 2-3 ลักษณะ

วิธีการหนึ่งในการตีความป่าแบบสุ่มก็คือการฝึกและตีความ แผนผังการตัดสินใจด้วยอัลกอริทึม CART เพราะทั้งสุ่มป่าและ CART ที่ได้รับการฝึกด้วยอัลกอริทึมหลักเดียวกัน พวกเขา "แบ่งปันมุมมองทั่วโลกแบบเดียวกัน" ของ ชุดข้อมูล ตัวเลือกนี้จะใช้ได้ดีสำหรับชุดข้อมูลอย่างง่ายและเพื่อทำความเข้าใจ การตีความโดยรวมของโมเดล

ความสำคัญของตัวแปรเป็นอีกรูปแบบหนึ่งในการตีความที่ดี ของเรา ตัวอย่างเช่น ตารางต่อไปนี้จัดอันดับความสำคัญที่ตัวแปรของ รูปแบบต่างๆ สำหรับโมเดลป่าแบบสุ่มที่ได้รับการฝึกใน ชุดข้อมูลการทำสำมะโนประชากร (รวมถึง หรือที่เรียกว่าผู้ใหญ่)

ตาราง 8. ความสำคัญที่ตัวแปรของฟีเจอร์ 14 อย่าง

ฟีเจอร์	คะแนนรวม	ค่าเฉลี่ยความแม่นยำลดลง	การลดลงเฉลี่ยของ AUC	ความลึกขั้นต่ำโดยเฉลี่ย	จำนวนโหนด	ค่าเฉลี่ยลดลงของ PR-AUC	จำนวนเป็นราก
ความสัมพันธ์	4203592.6	0.0045	0.0172	4.970	57040	0.0093	1095
capital_gain	3363045.1	0.0199	0.0194	2.852	56468	0.0655	457
marital_status	3128996.3	0.0018	0.0230	6.633	52391	0.0107	750
อายุ	2520658.8	0.0065	0.0074	4.969	356784	0.0033	200
การศึกษา	2015905.4	0.0018	-0.0080	5.266	115751	-0.0129	205
อาชีพ	1939409.3	0.0063	-0.0040	5.017	221935	-0.0060	62
education_num	1673648.4	0.0023	-0.0066	6.009	58303	-0.0080	197
fnlwgt	1564189.0	-0.0002	-0.0038	9.969	431987	-0.0049	0
hours_per_week	1333976.3	0.0030	0.0007	6.393	206526	-0.0031	20
capital_loss	866863.8	0.0060	0.0020	8.076	58531	0.0118	1
คลาสการทำงาน	644208.4	0.0025	-0.0019	9.898	132196	-0.0023	0
native_country	538841.2	0.0001	-0.0016	9.434	67211	-0.0058	0
เพศ	226049.3	0.0002	0.0002	10.911	37754	-0.0011	13
เชื้อชาติ	168180.9	-0.0006	-0.0004	11.571	42262	-0.0031	0

คุณจะเห็นได้ว่าคำจำกัดความที่ต่างกันสำหรับความสำคัญของตัวแปรจะมีระดับคะแนนที่ต่างกัน และอาจทำให้เกิดความแตกต่างในการจัดอันดับฟีเจอร์

ความสำคัญของตัวแปรที่มาจากโครงสร้างโมเดล (เช่น ผลรวม คะแนน หมายถึงความลึกขั้นต่ำ จำนวนโหนด และตัวเลขที่เท่ากับรากในตารางด้านบน) คือ คำนวณในทำนองเดียวกันสำหรับแผนผังการตัดสินใจ (ดูส่วน "รถเข็นช็อปปิ้ง | ความสำคัญตัวแปร") และป่าแบบสุ่ม

ความสำคัญของตัวแปรการเรียงสับเปลี่ยน (เช่น ค่าเฉลี่ยการลดลงของ {accuracy, auc, pr-auc} ในตารางด้านบน) เป็นมาตรการที่เข้าใจได้ของโมเดลซึ่งสามารถนำไปคำนวณ โมเดลแมชชีนเลิร์นนิง ที่มีชุดข้อมูลการตรวจสอบความถูกต้อง ท่ามกลางป่าทึบ อย่างไรก็ตาม แทนที่จะใช้ชุดข้อมูลการตรวจสอบ คุณสามารถประมวลผลการเรียงสับเปลี่ยน ตัวแปรที่สำคัญโดยมีการประเมินนอกขอบเขต

SHAP (SHapley Additive exPlanations) เป็นวิธีการที่ไม่ขึ้นอยู่กับโมเดลของ อธิบายการคาดคะเนของแต่ละบุคคลหรือการตีความ ตามโมเดล (โปรดดู แมชชีนเลิร์นนิงที่ตีความได้ โดย MoLNar เพื่อเป็นข้อมูลเบื้องต้นเกี่ยวกับโมเดลการตีความที่เข้าใจได้โดยไม่จำเป็นต้องเข้าใจสิ่งอื่น) SHAP คือ การประมวลผลจะมีราคาแพงตามปกติ แต่สามารถ เพิ่มขึ้นอย่างมากสำหรับการตัดสินใจ ป่า ดังนั้นเป็นวิธีที่ดีในการตีความป่าการตัดสินใจ

ตัวอย่างการใช้งาน

ในบทเรียนก่อนหน้านี้ เราได้ฝึกแผนผังการตัดสินใจเกี่ยวกับ CART ด้วยชุดข้อมูลขนาดเล็ก โดยโทรไปที่ tfdf.keras.CartModel หากต้องการฝึกโมเดลป่าแบบสุ่ม เพียงแทนที่ tfdf.keras.CartModel ด้วย tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

ข้อดีและข้อเสีย

ส่วนนี้ประกอบด้วยสรุปสั้นๆ เกี่ยวกับข้อดีและข้อเสียของป่าแบบสุ่ม

ข้อดี:

ป่าที่สุ่มมารองรับตัวเลขและ ฟีเจอร์เชิงหมวดหมู่และมักจะไม่จำเป็นต้องมีการประมวลผลฟีเจอร์ล่วงหน้า
เนื่องจากต้นไม้การตัดสินใจเป็นอิสระจากกัน ป่าสุ่มจึงฝึกในป่าได้ พร้อมกัน คุณจึงสามารถฝึกป่าแบบสุ่มได้อย่างรวดเร็ว
ป่าสุ่มมีพารามิเตอร์เริ่มต้นซึ่งมักให้ผลลัพธ์ที่ยอดเยี่ยม การปรับแต่ง พารามิเตอร์เหล่านั้นมักมีผลกับโมเดลเพียงเล็กน้อย

ข้อเสีย:

เนื่องจากต้นไม้การตัดสินใจจะไม่ถูกตัดออก จึงมีขนาดใหญ่ โมเดลที่มีมากกว่า มากกว่า 1 ล้านโหนด ขนาด (และความเร็วในการอนุมาน) ของ ป่าไม้ที่สุ่มขึ้นมา อาจเป็นปัญหาได้ในบางครั้ง
ป่าแบบสุ่มไม่สามารถเรียนรู้และนำสิ่งที่นำเสนอภายในมาใช้ซ้ำได้ ชิ้น แผนผังการตัดสินใจ (และแต่ละสาขาของแผนผังการตัดสินใจแต่ละอัน) จะต้องเรียนรู้ รูปแบบชุดข้อมูล ในบางชุดข้อมูล โดยเฉพาะชุดข้อมูลที่ไม่ใช่ตาราง (เช่น รูปภาพ ข้อความ) จะทำให้ระบบสุ่มไม่สร้างป่าซึ่งให้ผลลัพธ์ที่แย่กว่าวิธีอื่นๆ

การประเมินความพร้อมสัมภาระ

แนะนำตัว