ป่าการตัดสินใจจะมีประสิทธิภาพสูงสุดเมื่อคุณมีชุดข้อมูลตาราง (ข้อมูลที่คุณอาจแสดงในสเปรดชีต ไฟล์ CSV หรือตารางฐานข้อมูล) ข้อมูลแบบตารางเป็นหนึ่งในรูปแบบข้อมูลที่พบบ่อยที่สุด และป่าการตัดสินใจควรเป็นโซลูชัน "ที่ต้องใช้" ในการสร้างโมเดล
ตารางที่ 1 ตัวอย่างชุดข้อมูลตาราง
จำนวนขา | จำนวนดวงตา | น้ำหนัก (ปอนด์) | สายพันธุ์ (ป้ายกำกับ) |
---|---|---|---|
2 | 2 | 12 | เพนกวิน |
8 | 6 | 0.1 | แมงมุม |
4 | 2 | 44 | สุนัข |
… | … | … | … |
ต่างจากเครือข่ายประสาท Decision Forest ใช้ข้อมูลตารางของโมเดลโดยค่าเริ่มต้น เมื่อพัฒนาป่าการตัดสินใจ คุณไม่จําเป็นต้องทํางานต่อไปนี้
- ดำเนินการเตรียมข้อมูล เช่น การทำให้ค่าของฟีเจอร์เป็นมาตรฐานหรือการเข้ารหัสแบบฮอตเวิร์ก
- ทำการประมาณ (เช่น แทนที่ค่าที่ขาดหายไปด้วย
-1
)
อย่างไรก็ตาม ป่าการตัดสินใจไม่เหมาะที่จะใช้กับข้อมูลที่ไม่ใช่ตาราง (หรือที่เรียกว่าข้อมูลที่ไม่มีโครงสร้าง) เช่น รูปภาพหรือข้อความโดยตรง มีวิธีแก้ปัญหาข้อจำกัดนี้ แต่โดยทั่วไปแล้ว เครือข่ายประสาทจะจัดการข้อมูลที่ไม่มีโครงสร้างได้ดีกว่า
ประสิทธิภาพ
ป่าการตัดสินใจใช้ตัวอย่างอย่างมีประสิทธิภาพ กล่าวคือ ป่าการตัดสินใจเหมาะสําหรับการฝึกชุดข้อมูลขนาดเล็ก หรือชุดข้อมูลที่มีอัตราส่วนจํานวนฟีเจอร์ / จํานวนตัวอย่างสูง (อาจมากกว่า 1) แม้ว่าป่าการตัดสินใจจะใช้ตัวอย่างข้อมูลอย่างมีประสิทธิภาพ แต่ก็ทํางานได้ดีที่สุดเมื่อมีข้อมูลจํานวนมาก เช่นเดียวกับโมเดลแมชชีนเลิร์นนิงทั้งหมด
โดยปกติแล้ว ป่าการตัดสินใจจะอนุมานได้เร็วกว่าเครือข่ายประสาทที่เปรียบเทียบได้ เช่น ป่าการตัดสินใจขนาดกลางจะทำการอนุมานในไม่กี่ไมโครวินาทีบน CPU สมัยใหม่