Cây quyết định

Mô hình rừng quyết định bao gồm các cây quyết định. Các thuật toán học rừng quyết định (như rừng ngẫu nhiên) dựa ít nhất một phần vào việc học các cây quyết định.

Trong phần này của khoá học, bạn sẽ nghiên cứu một tập dữ liệu mẫu nhỏ và tìm hiểu cách huấn luyện một cây quyết định đơn lẻ. Trong phần tiếp theo, bạn sẽ tìm hiểu cách kết hợp cây quyết định để huấn luyện rừng quyết định.

Mã YDF

Trong YDF, hãy sử dụng mô hình học hệ thống quản lý học tập (CART) để huấn luyện từng mô hình cây quyết định:

# https://ydf.readthedocs.io/en/latest/py_api/CartLearner
import ydf
model = ydf.CartLearner(label="my_label").train(dataset)

Mô hình

Cây quyết định là một mô hình bao gồm một tập hợp các "câu hỏi" được sắp xếp theo hình thức phân cấp theo hình cây. Các câu hỏi thường được gọi là điều kiện, phân chia hoặc kiểm thử. Chúng tôi sẽ sử dụng từ "condition" (điều kiện) trong lớp này. Mỗi nút không phải lá chứa một điều kiện và mỗi nút lá chứa một thông tin dự đoán.

Cây thực vật thường phát triển với gốc ở dưới cùng; tuy nhiên, cây quyết định thường được biểu thị bằng gốc (nút đầu tiên) ở trên cùng.

Cây quyết định có 2 điều kiện và 3 lá. Điều kiện đầu tiên (gốc) là num_legs >= 3; điều kiện thứ hai là num_eyes >= 3. Ba chiếc lá là chim cánh cụt, nhện và chó.

Hình 1. Cây quyết định phân loại đơn giản. Chú giải màu xanh lục không phải là một phần của cây quyết định.

 

Tính toán suy luận của mô hình cây quyết định bằng cách định tuyến một mẫu từ gốc (ở trên cùng) đến một trong các nút lá (ở dưới cùng) theo các điều kiện. Giá trị của lá đạt đến là thông tin dự đoán của cây quyết định. Tập hợp các nút đã truy cập được gọi là đường dẫn suy luận. Ví dụ: hãy xem xét các giá trị tính năng sau đây:

num_legs num_eyes
4 2

Cụm từ gợi ý sẽ là chó. Lộ trình suy luận sẽ là:

  1. num_legs ≥ 3 → Có
  2. num_eyes ≥ 3 → Không

Hình minh hoạ tương tự như Hình 1, nhưng hình minh hoạ này cho thấy đường dẫn suy luận giữa hai điều kiện, kết thúc ở lá đối với chó.

Hình 2. Lộ trình suy luận đạt kết quả cao nhất là biểu tượng lá *chó* trong ví dụ *{num_legs : 4, num_eyes : 2}*.

 

Trong ví dụ trước, lá của cây quyết định chứa các dự đoán phân loại; tức là mỗi lá chứa một loài động vật trong số một nhóm các loài có thể có.

Tương tự, cây quyết định có thể dự đoán các giá trị số bằng cách gắn nhãn lá bằng thông tin dự đoán hồi quy (giá trị số). Ví dụ: cây quyết định sau đây dự đoán điểm dễ thương bằng số của một con vật trong khoảng từ 0 đến 10.

Cây quyết định, trong đó mỗi lá chứa một số dấu phẩy động khác nhau.

Hình 3. Cây quyết định đưa ra thông tin dự đoán dạng số.