Mô hình rừng quyết định bao gồm các cây quyết định. Các thuật toán học rừng quyết định (như rừng ngẫu nhiên) dựa vào, ít nhất là một phần, việc học cây quyết định.
Trong phần này của khoá học, bạn sẽ nghiên cứu một tập dữ liệu mẫu nhỏ và tìm hiểu cách huấn luyện một cây quyết định. Trong các phần tiếp theo, bạn sẽ tìm hiểu cách kết hợp cây quyết định để huấn luyện rừng quyết định.
Trong YDF, hãy sử dụng trình học CART để huấn luyện từng mô hình cây quyết định:
# https://ydf.readthedocs.io/en/latest/py_api/CartLearner import ydf model = ydf.CartLearner(label="my_label").train(dataset)
Mô hình
Cây quyết định là một mô hình bao gồm một tập hợp "câu hỏi" được sắp xếp theo hệ phân cấp ở dạng cây. Các câu hỏi này thường được gọi là điều kiện, phân tách hoặc kiểm thử. Chúng ta sẽ sử dụng thuật ngữ "điều kiện" trong lớp này. Mỗi nút không phải lá chứa một điều kiện và mỗi nút lá chứa một dự đoán.
Cây thực vật thường phát triển với phần gốc ở dưới cùng; tuy nhiên, cây quyết định thường được biểu thị bằng gốc (nút đầu tiên) ở trên cùng.
Hình 1. Cây quyết định phân loại đơn giản. Chú giải màu xanh lục không phải là một phần của cây quyết định.
Kết luận của mô hình cây quyết định được tính toán bằng cách định tuyến một ví dụ từ gốc (ở trên cùng) đến một trong các nút lá (ở dưới cùng) theo các điều kiện. Giá trị của lá đã đạt được là dự đoán của cây quyết định. Tập hợp các nút đã truy cập được gọi là đường dẫn suy luận. Ví dụ: hãy xem xét các giá trị đặc điểm sau:
num_legs | num_eyes |
---|---|
4 | 2 |
Kết quả dự đoán sẽ là chó. Đường dẫn suy luận sẽ là:
- num_legs ≥ 3 → Có
- num_eyes ≥ 3 → Không
Hình 2. Đường dẫn suy luận kết thúc bằng lá *dog* trong ví dụ *{num_legs : 4, num_eyes : 2}*.
Trong ví dụ trước, các lá của cây quyết định chứa các dự đoán phân loại; tức là mỗi lá chứa một loài động vật trong một tập hợp các loài có thể có.
Tương tự, cây quyết định có thể dự đoán các giá trị số bằng cách gắn nhãn cho các lá bằng các giá trị dự đoán hồi quy (giá trị số). Ví dụ: cây quyết định sau đây dự đoán điểm số về độ dễ thương của một con vật trong khoảng từ 0 đến 10.
Hình 3. Cây quyết định đưa ra dự đoán bằng số.