ต้นไม้ตัดสินใจ

โมเดลป่าการตัดสินใจประกอบด้วยต้นไม้การตัดสินใจ อัลกอริทึมการเรียนรู้แบบป่าการตัดสินใจ (เช่น ป่าแบบสุ่ม) อาศัยการเรียนรู้แผนผังการตัดสินใจอย่างน้อยก็บางส่วน

ในส่วนนี้ของหลักสูตร คุณจะได้ศึกษาชุดข้อมูลตัวอย่างขนาดเล็กและเรียนรู้วิธีฝึกต้นไม้การตัดสินใจต้นเดียว ในส่วนถัดไป คุณจะได้เรียนรู้วิธีรวมแผนผังการตัดสินใจเพื่อฝึกฝนป่าการตัดสินใจ

รหัส YDF

ใน YDF ให้ใช้โปรแกรมเรียนรู้ CART เพื่อฝึกโมเดลต้นไม้การตัดสินใจแต่ละรายการ ดังนี้

# https://ydf.readthedocs.io/en/latest/py_api/CartLearner
import ydf
model = ydf.CartLearner(label="my_label").train(dataset)

โมเดล

แผนภูมิการตัดสินใจคือรูปแบบที่ประกอบด้วยคอลเล็กชัน "คําถาม" ซึ่งจัดระเบียบตามลําดับชั้นในรูปทรงของต้นไม้ โดยทั่วไปคำถามเหล่านี้เรียกว่าเงื่อนไข การแยก หรือการทดสอบ เราจะใช้คำว่า "เงื่อนไข" ในคลาสนี้ โหนดที่ไม่ใช่โหนดใบแต่ละโหนดจะมีเงื่อนไข และโหนดใบแต่ละโหนดจะมีการคาดการณ์

โดยทั่วไปแล้ว ต้นไม้จะเติบโตโดยมีรากอยู่ด้านล่าง แต่แผนภูมิการตัดสินใจมักจะแสดงด้วยรูท (โหนดแรก) ที่ด้านบน

แผนภูมิการตัดสินใจที่มี 2 เงื่อนไขและ 3 ใบ เงื่อนไขแรก (รูท) คือ num_legs >= 3 ส่วนเงื่อนไขที่ 2 คือ num_eyes >= 3 ใบไม้ 3 ใบคือนกเพนกวิน แมงมุม และสุนัข

รูปที่ 1 แผนผังการตัดสินใจแบบง่ายสำหรับการแยกประเภท ตำนานสีเขียวไม่ได้เป็นส่วนหนึ่งของแผนภูมิการตัดสินใจ

 

ระบบจะคํานวณการอนุมานของโมเดลต้นไม้การตัดสินใจโดยการกําหนดเส้นทางตัวอย่างจากรูท (ที่ด้านบน) ไปยังโหนดใบ (ที่ด้านล่าง) รายการใดรายการหนึ่งตามเงื่อนไข ค่าของใบที่ไปถึงคือการคาดการณ์ของต้นไม้การตัดสินใจ ชุดโหนดที่เข้าชมเรียกว่าเส้นทางการอนุมาน ตัวอย่างเช่น ลองพิจารณาค่าฟีเจอร์ต่อไปนี้

num_legs num_eyes
4 2

คำที่ระบบคาดการณ์คือ dog เส้นทางการอนุมานจะเป็นดังนี้

  1. num_legs ≥ 3 → ใช่
  2. num_eyes ≥ 3 → ไม่ใช่

ภาพเดียวกับรูปที่ 1 แต่ภาพนี้แสดงเส้นทางการอนุมานใน 2 เงื่อนไข ซึ่งสิ้นสุดที่ใบสำหรับสุนัข

รูปที่ 2 เส้นทางการอนุมานที่สิ้นสุดที่ใบ *dog* ในตัวอย่าง *{num_legs : 4, num_eyes : 2}*

 

ในตัวอย่างก่อนหน้านี้ ใบของต้นไม้การตัดสินใจมีการคาดการณ์การจัดประเภท กล่าวคือ แต่ละใบมีสัตว์สายพันธุ์หนึ่งๆ จากชุดสายพันธุ์ที่เป็นไปได้

ในทํานองเดียวกัน ต้นไม้การตัดสินใจสามารถคาดการณ์ค่าตัวเลขได้โดยติดป้ายกํากับใบด้วยการคาดการณ์แบบถดถอย (ค่าตัวเลข) เช่น แผนภูมิการตัดสินใจต่อไปนี้จะคาดคะเนคะแนนความน่ารักของสัตว์เป็นตัวเลขระหว่าง 0 ถึง 10

ต้นไม้การตัดสินใจที่แต่ละใบมีตัวเลขทศนิยมต่างกัน

รูปที่ 3 ต้นไม้การตัดสินใจที่ทําการคาดการณ์เชิงตัวเลข