โมเดลป่าการตัดสินใจประกอบด้วยต้นไม้การตัดสินใจ ป่าการตัดสินใจ อัลกอริทึมการเรียนรู้ต่างๆ (เช่น ป่าที่สุ่มขึ้นมา) ต้องอาศัย การเรียนรู้เกี่ยวกับต้นไม้การตัดสินใจ
ในส่วนนี้ของหลักสูตร คุณจะได้ศึกษาชุดข้อมูลตัวอย่างสั้นๆ และ วิธีฝึกแผนผังการตัดสินใจเดี่ยว ในส่วนถัดไป คุณจะได้ดูวิธีการ ต้นไม้การตัดสินใจรวมกันเพื่อฝึกป่าการตัดสินใจ
ใน YDF ให้ใช้เครื่องมือเรียนรู้ CART เพื่อฝึกโมเดลแผนผังการตัดสินใจแต่ละรายการ
# https://ydf.readthedocs.io/en/latest/py_api/CartLearner import ydf model = ydf.CartLearner(label="my_label").train(dataset)
โมเดล
แผนผังการตัดสินใจเป็นโมเดลที่ประกอบด้วยชุด "คำถาม" เป็นระเบียบ ตามลำดับชั้นในรูปร่างของต้นไม้ คำถามมักจะเรียกว่า สภาพสินค้า การแยก หรือการทดสอบ เราจะใช้คำว่า "condition" ใน ชั้นเรียนนี้ แต่ละโหนดที่ไม่ใช่ Leaf จะมีเงื่อนไข และแต่ละโหนด Leaf จะมี การคาดคะเน
โดยทั่วไปแล้วต้นไม้พฤกษชาติจะมีรากอยู่ด้านล่าง แต่การตัดสินใจ ต้นไม้มักแสดงด้วยราก (โหนดแรก) ที่ด้านบน
รูปที่ 1 แผนผังการตัดสินใจสำหรับการแยกประเภทแบบง่าย คำอธิบายสีเขียวไม่ได้เป็นส่วนหนึ่งของ ของแผนผังการตัดสินใจ
การอนุมานของโมเดลแผนผังการตัดสินใจจะคำนวณโดยการกำหนดเส้นทางตัวอย่างจาก ราก (ที่ด้านบนสุด) กับโหนดใดโหนดหนึ่ง (ด้านล่าง) ตาม ค่าของ Leaf ที่เข้าถึงคือการคาดการณ์ของแผนผังการตัดสินใจ ชุดของโหนดที่เข้าชมจะเรียกว่าเส้นทางการอนุมาน ตัวอย่างเช่น ให้พิจารณาค่าฟีเจอร์ต่อไปนี้
num_legs | num_eyes |
---|---|
4 | 2 |
การคาดคะเนจะเป็น dog เส้นทางการอนุมานจะมีลักษณะดังนี้
- num_legs ≥ 3 → ใช่
- num_eyes ≥ 3 → ไม่ใช่
รูปที่ 2 เส้นทางอนุมานที่มาถึงบนใบ *สุนัข* ตามตัวอย่าง *{num_legs : 4, num_eyes : 2}*
ในตัวอย่างก่อนหน้านี้ ใบของแผนผังการตัดสินใจมีการจำแนกประเภท การคาดการณ์ กล่าวคือใบไม้แต่ละใบจะมีสัตว์ชนิดหนึ่งอยู่ในชุด จากสายพันธุ์ต่างๆ ที่เป็นไปได้
ในทำนองเดียวกัน ต้นไม้การตัดสินใจสามารถคาดคะเนค่าตัวเลขโดยการติดป้ายกำกับใบไม้ที่มี การคาดการณ์เชิงถดถอย (ค่าตัวเลข) ตัวอย่างเช่น การตัดสินใจต่อไปนี้ ต้นไม้คาดคะเนคะแนนความน่ารักของสัตว์ที่เป็นตัวเลขระหว่าง 0 ถึง 10
รูปที่ 3 แผนผังการตัดสินใจที่ทำการคาดคะเนด้วยตัวเลข