โมเดลป่าการตัดสินใจประกอบด้วยต้นไม้การตัดสินใจ อัลกอริทึมการเรียนรู้แบบป่าการตัดสินใจ (เช่น ป่าแบบสุ่ม) อาศัยการเรียนรู้แผนผังการตัดสินใจอย่างน้อยก็บางส่วน
ในส่วนนี้ของหลักสูตร คุณจะได้ศึกษาชุดข้อมูลตัวอย่างขนาดเล็กและเรียนรู้วิธีฝึกต้นไม้การตัดสินใจต้นเดียว ในส่วนถัดไป คุณจะได้เรียนรู้วิธีรวมแผนผังการตัดสินใจเพื่อฝึกฝนป่าการตัดสินใจ
ใน YDF ให้ใช้โปรแกรมเรียนรู้ CART เพื่อฝึกโมเดลต้นไม้การตัดสินใจแต่ละรายการ ดังนี้
# https://ydf.readthedocs.io/en/latest/py_api/CartLearner import ydf model = ydf.CartLearner(label="my_label").train(dataset)
โมเดล
แผนภูมิการตัดสินใจคือรูปแบบที่ประกอบด้วยคอลเล็กชัน "คําถาม" ซึ่งจัดระเบียบตามลําดับชั้นในรูปทรงของต้นไม้ โดยทั่วไปคำถามเหล่านี้เรียกว่าเงื่อนไข การแยก หรือการทดสอบ เราจะใช้คำว่า "เงื่อนไข" ในคลาสนี้ โหนดที่ไม่ใช่โหนดใบแต่ละโหนดจะมีเงื่อนไข และโหนดใบแต่ละโหนดจะมีการคาดการณ์
โดยทั่วไปแล้ว ต้นไม้จะเติบโตโดยมีรากอยู่ด้านล่าง แต่แผนภูมิการตัดสินใจมักจะแสดงด้วยรูท (โหนดแรก) ที่ด้านบน
รูปที่ 1 แผนผังการตัดสินใจแบบง่ายสำหรับการแยกประเภท ตำนานสีเขียวไม่ได้เป็นส่วนหนึ่งของแผนภูมิการตัดสินใจ
ระบบจะคํานวณการอนุมานของโมเดลต้นไม้การตัดสินใจโดยการกําหนดเส้นทางตัวอย่างจากรูท (ที่ด้านบน) ไปยังโหนดใบ (ที่ด้านล่าง) รายการใดรายการหนึ่งตามเงื่อนไข ค่าของใบที่ไปถึงคือการคาดการณ์ของต้นไม้การตัดสินใจ ชุดโหนดที่เข้าชมเรียกว่าเส้นทางการอนุมาน ตัวอย่างเช่น ลองพิจารณาค่าฟีเจอร์ต่อไปนี้
num_legs | num_eyes |
---|---|
4 | 2 |
คำที่ระบบคาดการณ์คือ dog เส้นทางการอนุมานจะเป็นดังนี้
- num_legs ≥ 3 → ใช่
- num_eyes ≥ 3 → ไม่ใช่
รูปที่ 2 เส้นทางการอนุมานที่สิ้นสุดที่ใบ *dog* ในตัวอย่าง *{num_legs : 4, num_eyes : 2}*
ในตัวอย่างก่อนหน้านี้ ใบของต้นไม้การตัดสินใจมีการคาดการณ์การจัดประเภท กล่าวคือ แต่ละใบมีสัตว์สายพันธุ์หนึ่งๆ จากชุดสายพันธุ์ที่เป็นไปได้
ในทํานองเดียวกัน ต้นไม้การตัดสินใจสามารถคาดการณ์ค่าตัวเลขได้โดยติดป้ายกํากับใบด้วยการคาดการณ์แบบถดถอย (ค่าตัวเลข) เช่น แผนภูมิการตัดสินใจต่อไปนี้จะคาดคะเนคะแนนความน่ารักของสัตว์เป็นตัวเลขระหว่าง 0 ถึง 10
รูปที่ 3 ต้นไม้การตัดสินใจที่ทําการคาดการณ์เชิงตัวเลข