Cây quyết định

Mô hình rừng quyết định bao gồm các cây quyết định. Rừng quyết định các thuật toán học (như các khu rừng ngẫu nhiên) dựa, ít nhất một phần, vào học tập về cây quyết định.

Trong phần này của khoá học, bạn sẽ nghiên cứu một tập dữ liệu mẫu nhỏ và tìm hiểu cách huấn luyện cây quyết định đơn lẻ. Trong các phần tiếp theo, bạn sẽ tìm hiểu cách cây quyết định được kết hợp để huấn luyện rừng quyết định.

Mã YDF

Trong YDF, hãy sử dụng trình học CART để huấn luyện các mô hình cây quyết định riêng lẻ:

# https://ydf.readthedocs.io/en/latest/py_api/CartLearner
import ydf
model = ydf.CartLearner(label="my_label").train(dataset)

Mô hình

Cây quyết định là một mô hình bao gồm tập hợp các "câu hỏi" đã sắp xếp có hệ thống phân cấp dưới hình dạng cái cây. Các câu hỏi thường được gọi là điều kiện, phần phân chia hoặc kiểm thử. Chúng tôi sẽ sử dụng thuật ngữ "điều kiện" inch lớp này. Mỗi nút không phải là nút lá chứa một điều kiện và mỗi nút lá chứa một dự đoán.

Cây bách thảo thường phát triển với phần rễ ở phía dưới; tuy nhiên, quyết định cây thường được biểu thị bằng gốc (nút đầu tiên) ở trên cùng.

Cây quyết định có chứa 2 điều kiện và 3 lá. Đầu tiên
điều kiện (gốc) là num_legs >= 3; điều kiện thứ hai là
số_mắt >= 3. Ba lá là chim cánh cụt, nhện,
và chó.

Hình 1. Cây quyết định phân loại đơn giản. Chú giải màu xanh lục không phải là một phần của cây quyết định.

 

Suy luận của mô hình cây quyết định được tính toán bằng cách định tuyến một ví dụ từ gốc (ở trên cùng) đến một trong các nút lá (ở dưới cùng) theo . Giá trị của lá đã tiếp cận là thông tin dự đoán của cây quyết định. Tập hợp các nút đã truy cập được gọi là đường dẫn suy luận. Ví dụ: hãy cân nhắc các giá trị tính năng sau:

num_legs num_eyes
4 2

Dự đoán sẽ là chó. Đường dẫn suy luận sẽ là:

  1. num_legs ≥ 3 → Có
  2. số_mắt ≥ 3 → Không

Hình minh hoạ tương tự như Hình 1, nhưng hình minh hoạ này cho thấy
  đường dẫn suy luận giữa hai điều kiện, kết thúc ở lá là chó.

Hình 2. Trong ví dụ này, lộ trình suy luận mà lên đến cực điểm là *chó* chiếc lá *{num_legs : 4, số_mắt : 2}*.

 

Trong ví dụ trước, lá của cây quyết định chứa thông tin phân loại các dự đoán; tức là mỗi lá chứa một loài động vật trong số một tập hợp các loài có thể có.

Tương tự như vậy, cây quyết định có thể dự đoán các giá trị số bằng cách gắn nhãn lá bằng các dự đoán hồi quy (giá trị số). Ví dụ: quyết định sau đây cây dự đoán một điểm số về độ dễ thương của một con vật từ 0 đến 10.

Cây quyết định trong đó mỗi lá chứa một dấu phẩy động khác nhau
  số.

Hình 3. Cây quyết định đưa ra dự đoán dạng số.