ข้อมูลที่เหมาะสมสําหรับป่าการตัดสินใจ

ป่าการตัดสินใจจะมีประสิทธิภาพสูงสุดเมื่อคุณมีชุดข้อมูลตาราง (ข้อมูลที่คุณอาจแสดงในสเปรดชีต ไฟล์ CSV หรือตารางฐานข้อมูล) ข้อมูลแบบตารางเป็นหนึ่งในรูปแบบข้อมูลที่พบบ่อยที่สุด และป่าการตัดสินใจควรเป็นโซลูชัน "ที่ต้องใช้" ในการสร้างโมเดล

ตารางที่ 1 ตัวอย่างชุดข้อมูลตาราง

จำนวนขา จำนวนดวงตา น้ำหนัก (ปอนด์) สายพันธุ์ (ป้ายกำกับ)
2 2 12 เพนกวิน
8 6 0.1 แมงมุม
4 2 44 สุนัข

ต่างจากเครือข่ายประสาท Decision Forest ใช้ข้อมูลตารางของโมเดลโดยค่าเริ่มต้น เมื่อพัฒนาป่าการตัดสินใจ คุณไม่จําเป็นต้องทํางานต่อไปนี้

  • ดำเนินการเตรียมข้อมูล เช่น การทำให้ค่าของฟีเจอร์เป็นมาตรฐานหรือการเข้ารหัสแบบฮอตเวิร์ก
  • ทำการประมาณ (เช่น แทนที่ค่าที่ขาดหายไปด้วย -1)

อย่างไรก็ตาม ป่าการตัดสินใจไม่เหมาะที่จะใช้กับข้อมูลที่ไม่ใช่ตาราง (หรือที่เรียกว่าข้อมูลที่ไม่มีโครงสร้าง) เช่น รูปภาพหรือข้อความโดยตรง มีวิธีแก้ปัญหาข้อจำกัดนี้ แต่โดยทั่วไปแล้ว เครือข่ายประสาทจะจัดการข้อมูลที่ไม่มีโครงสร้างได้ดีกว่า

ประสิทธิภาพ

ป่าการตัดสินใจใช้ตัวอย่างอย่างมีประสิทธิภาพ กล่าวคือ ป่าการตัดสินใจเหมาะสําหรับการฝึกชุดข้อมูลขนาดเล็ก หรือชุดข้อมูลที่มีอัตราส่วนจํานวนฟีเจอร์ / จํานวนตัวอย่างสูง (อาจมากกว่า 1) แม้ว่าป่าการตัดสินใจจะใช้ตัวอย่างข้อมูลอย่างมีประสิทธิภาพ แต่ก็ทํางานได้ดีที่สุดเมื่อมีข้อมูลจํานวนมาก เช่นเดียวกับโมเดลแมชชีนเลิร์นนิงทั้งหมด

โดยปกติแล้ว ป่าการตัดสินใจจะอนุมานได้เร็วกว่าเครือข่ายประสาทที่เปรียบเทียบได้ เช่น ป่าการตัดสินใจขนาดกลางจะทำการอนุมานในไม่กี่ไมโครวินาทีบน CPU สมัยใหม่