Cây quyết định

Mô hình rừng quyết định bao gồm các cây quyết định. Các thuật toán học rừng quyết định (như rừng ngẫu nhiên) dựa vào, ít nhất là một phần, việc học cây quyết định.

Trong phần này của khoá học, bạn sẽ nghiên cứu một tập dữ liệu mẫu nhỏ và tìm hiểu cách huấn luyện một cây quyết định. Trong các phần tiếp theo, bạn sẽ tìm hiểu cách kết hợp cây quyết định để huấn luyện rừng quyết định.

Mã YDF

Trong YDF, hãy sử dụng trình học CART để huấn luyện từng mô hình cây quyết định:

# https://ydf.readthedocs.io/en/latest/py_api/CartLearner
import ydf
model = ydf.CartLearner(label="my_label").train(dataset)

Mô hình

Cây quyết định là một mô hình bao gồm một tập hợp "câu hỏi" được sắp xếp theo hệ phân cấp ở dạng cây. Các câu hỏi này thường được gọi là điều kiện, phân tách hoặc kiểm thử. Chúng ta sẽ sử dụng thuật ngữ "điều kiện" trong lớp này. Mỗi nút không phải lá chứa một điều kiện và mỗi nút lá chứa một dự đoán.

Cây thực vật thường phát triển với phần gốc ở dưới cùng; tuy nhiên, cây quyết định thường được biểu thị bằng gốc (nút đầu tiên) ở trên cùng.

Cây quyết định chứa hai điều kiện và ba lá. Điều kiện đầu tiên (gốc) là num_legs >= 3; điều kiện thứ hai là num_eyes >= 3. Ba chiếc lá là hình chim cánh cụt, nhện và chó.

Hình 1. Cây quyết định phân loại đơn giản. Chú giải màu xanh lục không phải là một phần của cây quyết định.

 

Kết luận của mô hình cây quyết định được tính toán bằng cách định tuyến một ví dụ từ gốc (ở trên cùng) đến một trong các nút lá (ở dưới cùng) theo các điều kiện. Giá trị của lá đã đạt được là dự đoán của cây quyết định. Tập hợp các nút đã truy cập được gọi là đường dẫn suy luận. Ví dụ: hãy xem xét các giá trị đặc điểm sau:

num_legs num_eyes
4 2

Kết quả dự đoán sẽ là chó. Đường dẫn suy luận sẽ là:

  1. num_legs ≥ 3 → Có
  2. num_eyes ≥ 3 → Không

Hình minh hoạ tương tự như Hình 1, nhưng hình minh hoạ này cho thấy đường dẫn suy luận qua hai điều kiện, kết thúc ở lá cho chó.

Hình 2. Đường dẫn suy luận kết thúc bằng lá *dog* trong ví dụ *{num_legs : 4, num_eyes : 2}*.

 

Trong ví dụ trước, các lá của cây quyết định chứa các dự đoán phân loại; tức là mỗi lá chứa một loài động vật trong một tập hợp các loài có thể có.

Tương tự, cây quyết định có thể dự đoán các giá trị số bằng cách gắn nhãn cho các lá bằng các giá trị dự đoán hồi quy (giá trị số). Ví dụ: cây quyết định sau đây dự đoán điểm số về độ dễ thương của một con vật trong khoảng từ 0 đến 10.

Cây quyết định trong đó mỗi lá chứa một số dấu phẩy động khác nhau.

Hình 3. Cây quyết định đưa ra dự đoán bằng số.