หัวข้ออื่นๆ

หน่วยนี้จะสำรวจหัวข้อต่อไปนี้

  • ล่ามป่าแบบสุ่ม
  • ฝึกป่าจำลอง
  • ข้อดีและข้อเสียของป่าทึบ

การตีความป่าแบบสุ่ม

ป่าจำลองมีความซับซ้อนในการตีความมากกว่าต้นไม้การตัดสินใจ ป่าทึบ มีแผนผังการตัดสินใจที่ได้รับการฝึกด้วยความผันผวนแบบสุ่ม ดังนั้น จึงยากที่ ตัดสินโครงสร้างแผนผังการตัดสินใจ อย่างไรก็ตาม เราสามารถตีความการสุ่ม รูปแบบต่างๆ ของป่าไม้ใน 2-3 ลักษณะ

วิธีการหนึ่งในการตีความป่าแบบสุ่มก็คือการฝึกและตีความ แผนผังการตัดสินใจด้วยอัลกอริทึม CART เพราะทั้งสุ่มป่าและ CART ที่ได้รับการฝึกด้วยอัลกอริทึมหลักเดียวกัน พวกเขา "แบ่งปันมุมมองทั่วโลกแบบเดียวกัน" ของ ชุดข้อมูล ตัวเลือกนี้จะใช้ได้ดีสำหรับชุดข้อมูลอย่างง่ายและเพื่อทำความเข้าใจ การตีความโดยรวมของโมเดล

ความสำคัญของตัวแปรเป็นอีกรูปแบบหนึ่งในการตีความที่ดี ของเรา ตัวอย่างเช่น ตารางต่อไปนี้จัดอันดับความสำคัญที่ตัวแปรของ รูปแบบต่างๆ สำหรับโมเดลป่าแบบสุ่มที่ได้รับการฝึกใน ชุดข้อมูลการทำสำมะโนประชากร (รวมถึง หรือที่เรียกว่าผู้ใหญ่)

ตาราง 8. ความสำคัญที่ตัวแปรของฟีเจอร์ 14 อย่าง

ฟีเจอร์ คะแนนรวม ค่าเฉลี่ยความแม่นยำลดลง การลดลงเฉลี่ยของ AUC ความลึกขั้นต่ำโดยเฉลี่ย จำนวนโหนด ค่าเฉลี่ยลดลงของ PR-AUC จำนวนเป็นราก
ความสัมพันธ์

4203592.6

0.0045

0.0172

4.970

57040

0.0093

1095

capital_gain

3363045.1

0.0199

0.0194

2.852

56468

0.0655

457

marital_status

3128996.3

0.0018

0.0230

6.633

52391

0.0107

750

อายุ

2520658.8

0.0065

0.0074

4.969

356784

0.0033

200

การศึกษา

2015905.4

0.0018

-0.0080

5.266

115751

-0.0129

205

อาชีพ

1939409.3

0.0063

-0.0040

5.017

221935

-0.0060

62

education_num

1673648.4

0.0023

-0.0066

6.009

58303

-0.0080

197

fnlwgt

1564189.0

-0.0002

-0.0038

9.969

431987

-0.0049

0

hours_per_week

1333976.3

0.0030

0.0007

6.393

206526

-0.0031

20

capital_loss

866863.8

0.0060

0.0020

8.076

58531

0.0118

1

คลาสการทำงาน

644208.4

0.0025

-0.0019

9.898

132196

-0.0023

0

native_country

538841.2

0.0001

-0.0016

9.434

67211

-0.0058

0

เพศ

226049.3

0.0002

0.0002

10.911

37754

-0.0011

13

เชื้อชาติ

168180.9

-0.0006

-0.0004

11.571

42262

-0.0031

0

คุณจะเห็นได้ว่าคำจำกัดความที่ต่างกันสำหรับความสำคัญของตัวแปรจะมีระดับคะแนนที่ต่างกัน และอาจทำให้เกิดความแตกต่างในการจัดอันดับฟีเจอร์

ความสำคัญของตัวแปรที่มาจากโครงสร้างโมเดล (เช่น ผลรวม คะแนน หมายถึงความลึกขั้นต่ำ จำนวนโหนด และตัวเลขที่เท่ากับรากในตารางด้านบน) คือ คำนวณในทำนองเดียวกันสำหรับแผนผังการตัดสินใจ (ดูส่วน "รถเข็นช็อปปิ้ง | ความสำคัญตัวแปร") และป่าแบบสุ่ม

ความสำคัญของตัวแปรการเรียงสับเปลี่ยน (เช่น ค่าเฉลี่ยการลดลงของ {accuracy, auc, pr-auc} ในตารางด้านบน) เป็นมาตรการที่เข้าใจได้ของโมเดลซึ่งสามารถนำไปคำนวณ โมเดลแมชชีนเลิร์นนิง ที่มีชุดข้อมูลการตรวจสอบความถูกต้อง ท่ามกลางป่าทึบ อย่างไรก็ตาม แทนที่จะใช้ชุดข้อมูลการตรวจสอบ คุณสามารถประมวลผลการเรียงสับเปลี่ยน ตัวแปรที่สำคัญโดยมีการประเมินนอกขอบเขต

SHAP (SHapley Additive exPlanations) เป็นวิธีการที่ไม่ขึ้นอยู่กับโมเดลของ อธิบายการคาดคะเนของแต่ละบุคคลหรือการตีความ ตามโมเดล (โปรดดู แมชชีนเลิร์นนิงที่ตีความได้ โดย MoLNar เพื่อเป็นข้อมูลเบื้องต้นเกี่ยวกับโมเดลการตีความที่เข้าใจได้โดยไม่จำเป็นต้องเข้าใจสิ่งอื่น) SHAP คือ การประมวลผลจะมีราคาแพงตามปกติ แต่สามารถ เพิ่มขึ้นอย่างมากสำหรับการตัดสินใจ ป่า ดังนั้นเป็นวิธีที่ดีในการตีความป่าการตัดสินใจ

ตัวอย่างการใช้งาน

ในบทเรียนก่อนหน้านี้ เราได้ฝึกแผนผังการตัดสินใจเกี่ยวกับ CART ด้วยชุดข้อมูลขนาดเล็ก โดยโทรไปที่ tfdf.keras.CartModel หากต้องการฝึกโมเดลป่าแบบสุ่ม เพียงแทนที่ tfdf.keras.CartModel ด้วย tfdf.keras.RandomForestModel:

model = tfdf.keras.RandomForestModel()
model.fit(tf_train_dataset)

ข้อดีและข้อเสีย

ส่วนนี้ประกอบด้วยสรุปสั้นๆ เกี่ยวกับข้อดีและข้อเสียของป่าแบบสุ่ม

ข้อดี:

  • ป่าที่สุ่มมารองรับตัวเลขและ ฟีเจอร์เชิงหมวดหมู่และมักจะไม่จำเป็นต้องมีการประมวลผลฟีเจอร์ล่วงหน้า
  • เนื่องจากต้นไม้การตัดสินใจเป็นอิสระจากกัน ป่าสุ่มจึงฝึกในป่าได้ พร้อมกัน คุณจึงสามารถฝึกป่าแบบสุ่มได้อย่างรวดเร็ว
  • ป่าสุ่มมีพารามิเตอร์เริ่มต้นซึ่งมักให้ผลลัพธ์ที่ยอดเยี่ยม การปรับแต่ง พารามิเตอร์เหล่านั้นมักมีผลกับโมเดลเพียงเล็กน้อย

ข้อเสีย:

  • เนื่องจากต้นไม้การตัดสินใจจะไม่ถูกตัดออก จึงมีขนาดใหญ่ โมเดลที่มีมากกว่า มากกว่า 1 ล้านโหนด ขนาด (และความเร็วในการอนุมาน) ของ ป่าไม้ที่สุ่มขึ้นมา อาจเป็นปัญหาได้ในบางครั้ง
  • ป่าแบบสุ่มไม่สามารถเรียนรู้และนำสิ่งที่นำเสนอภายในมาใช้ซ้ำได้ ชิ้น แผนผังการตัดสินใจ (และแต่ละสาขาของแผนผังการตัดสินใจแต่ละอัน) จะต้องเรียนรู้ รูปแบบชุดข้อมูล ในบางชุดข้อมูล โดยเฉพาะชุดข้อมูลที่ไม่ใช่ตาราง (เช่น รูปภาพ ข้อความ) จะทำให้ระบบสุ่มไม่สร้างป่าซึ่งให้ผลลัพธ์ที่แย่กว่าวิธีอื่นๆ