ป่าการตัดสินใจจะมีประสิทธิภาพมากที่สุดเมื่อคุณมีชุดข้อมูลแบบตาราง (ข้อมูลที่คุณอาจเป็นตัวแทนในสเปรดชีต ไฟล์ CSV หรือตารางฐานข้อมูล) ข้อมูลแบบตารางคือรูปแบบข้อมูลที่พบได้บ่อยที่สุดรูปแบบหนึ่ง และป่าการตัดสินใจควรเป็น "โซลูชันที่ดีที่สุด" สําหรับการจําลองรูปแบบ
ตาราง 1 ตัวอย่างชุดข้อมูลแบบตาราง
จํานวนขา | จํานวนดวงตา | น้ําหนัก (ปอนด์) | สายพันธุ์ (ป้ายกํากับ) |
---|---|---|---|
2 | 2 | 12 | เพนกวิน |
8 | 6 | 0.1 | แมงมุม |
4 | 2 | 44 | สุนัข |
… | … | … | … |
ซึ่งต่างจากเครือข่ายประสาทเทียม ป่าการตัดสินใจจึงใช้ข้อมูลแบบตารางเป็นหลัก คุณไม่จําเป็นต้องทําสิ่งต่างๆ ดังต่อไปนี้ขณะพัฒนาฟลัดไลท์การตัดสินใจ
- ประมวลผลล่วงหน้า เช่น การปรับฟีเจอร์ให้สอดคล้องตามมาตรฐาน หรือการเข้ารหัสแบบ Hot-hot
- ประเมินค่า (เช่น แทนที่ค่าที่ขาดหายไปด้วย
-1
)
อย่างไรก็ตาม ป่าการตัดสินใจไม่เหมาะสําหรับการใช้ข้อมูลที่ไม่ใช่ตารางโดยตรง (หรือที่เรียกว่าข้อมูลที่ไม่มีโครงสร้าง) เช่น รูปภาพหรือข้อความ ได้ วิธีแก้ปัญหานี้จํากัดไว้อยู่แล้ว แต่เครือข่ายประสาทเทียมมักจะจัดการข้อมูลที่ไม่มีโครงสร้างดีกว่า
ประสิทธิภาพ
ป่าการตัดสินใจเป็นตัวอย่างที่มีประสิทธิภาพ กล่าวคือ ป่าการตัดสินใจเหมาะสําหรับการฝึกอบรมชุดข้อมูลขนาดเล็ก หรือชุดข้อมูลที่มีอัตราส่วนจํานวนฟีเจอร์ / ตัวอย่างสูง (อาจมากกว่า 1) แม้ว่าป่าแห่งการตัดสินใจจะเป็นตัวอย่างที่มีประสิทธิภาพ เช่น โมเดลแมชชีนเลิร์นนิงทั้งหมด แต่ป่าแห่งการตัดสินใจจะทํางานได้ดีที่สุดเมื่อมีข้อมูลจํานวนมาก
ป่าแห่งการตัดสินใจมักอนุมานเร็วกว่าเครือข่ายระบบประสาทแบบเทียบเคียง เช่น ป่าแห่งการตัดสินใจขนาดกลางต้องอาศัยการอนุมาน ในระดับไมโครวินาทีใน CPU สมัยใหม่