ข้อมูลที่เหมาะสมสําหรับป่าการตัดสินใจ

ป่าการตัดสินใจจะมีประสิทธิภาพสูงสุดเมื่อคุณมีชุดข้อมูลตาราง (ข้อมูลที่คุณอาจแสดงในสเปรดชีต ไฟล์ CSV หรือตารางฐานข้อมูล) ข้อมูลแบบตารางเป็นหนึ่งในรูปแบบข้อมูลที่พบบ่อยที่สุด และป่าการตัดสินใจควรเป็นโซลูชัน "ที่ต้องใช้" ในการสร้างโมเดล

ตารางที่ 1 ตัวอย่างชุดข้อมูลตาราง

จำนวนขา	จำนวนดวงตา	น้ำหนัก (ปอนด์)	สายพันธุ์ (ป้ายกำกับ)
2	2	12	เพนกวิน
8	6	0.1	แมงมุม
4	2	44	สุนัข
…	…	…	…

ต่างจากเครือข่ายประสาท Decision Forest ใช้ข้อมูลตารางของโมเดลโดยค่าเริ่มต้น เมื่อพัฒนาป่าการตัดสินใจ คุณไม่จําเป็นต้องทํางานต่อไปนี้

ดำเนินการเตรียมข้อมูล เช่น การทำให้ค่าของฟีเจอร์เป็นมาตรฐานหรือการเข้ารหัสแบบฮอตเวิร์ก
ทำการประมาณ (เช่น แทนที่ค่าที่ขาดหายไปด้วย -1)

อย่างไรก็ตาม ป่าการตัดสินใจไม่เหมาะที่จะใช้กับข้อมูลที่ไม่ใช่ตาราง (หรือที่เรียกว่าข้อมูลที่ไม่มีโครงสร้าง) เช่น รูปภาพหรือข้อความโดยตรง มีวิธีแก้ปัญหาข้อจำกัดนี้ แต่โดยทั่วไปแล้ว เครือข่ายประสาทจะจัดการข้อมูลที่ไม่มีโครงสร้างได้ดีกว่า

ประสิทธิภาพ

ป่าการตัดสินใจใช้ตัวอย่างอย่างมีประสิทธิภาพ กล่าวคือ ป่าการตัดสินใจเหมาะสําหรับการฝึกชุดข้อมูลขนาดเล็ก หรือชุดข้อมูลที่มีอัตราส่วนจํานวนฟีเจอร์ / จํานวนตัวอย่างสูง (อาจมากกว่า 1) แม้ว่าป่าการตัดสินใจจะใช้ตัวอย่างข้อมูลอย่างมีประสิทธิภาพ แต่ก็ทํางานได้ดีที่สุดเมื่อมีข้อมูลจํานวนมาก เช่นเดียวกับโมเดลแมชชีนเลิร์นนิงทั้งหมด

โดยปกติแล้ว ป่าการตัดสินใจจะอนุมานได้เร็วกว่าเครือข่ายประสาทที่เปรียบเทียบได้ เช่น ป่าการตัดสินใจขนาดกลางจะทำการอนุมานในไม่กี่ไมโครวินาทีบน CPU สมัยใหม่

ข้อมูลเบื้องต้นเกี่ยวกับหลักสูตร

ภาพรวม