Các loại điều kiện

Bài này tập trung vào các loại conditions khác nhau dùng để xây dựng cây quyết định.

Điều kiện căn chỉnh trục so với điều kiện xiên

Điều kiện được căn chỉnh theo trục chỉ liên quan đến một tính năng duy nhất. Điều kiện xiên liên quan đến nhiều tính năng. Ví dụ: sau đây là một điều kiện được căn chỉnh theo trục:

num_legs ≥ 2

Trong khi sau đây là điều kiện xiên:

num_legs ≥ num_fingers

Thông thường, cây quyết định được huấn luyện chỉ với các điều kiện được căn chỉnh theo trục. Tuy nhiên, phương pháp phân tách xiên hiệu quả hơn vì chúng có thể thể hiện các mẫu phức tạp hơn. Việc phân tách xiên đôi khi sẽ tạo ra kết quả tốt hơn nhưng chi phí đào tạo và dự đoán sẽ cao hơn.

Mã YDF
Trong YDF, cây quyết định được huấn luyện với điều kiện căn chỉnh trục theo mặc định. Bạn có thể bật cây xiên quyết định bằng tham số split_axis="SPARSE_OBLIQUE".

Điều kiện căn chỉnh trục là "num_legs >= 3". Điều kiện xiên là "num_legs + weight * 5 >= 12".

Hình 4. Ví dụ về điều kiện căn chỉnh trục và điều kiện xiên.

 

Vẽ đồ thị 2 điều kiện trước đó mang lại sự phân tách không gian tính năng sau:

Biểu đồ về cân nặng so với số_chân. Điều kiện căn chỉnh trục không bỏ qua trọng số và do đó chỉ là một đường dọc. Điều kiện xiên cho thấy một đường thẳng có độ dốc âm.

Hình 5. Phân tách không gian tính năng cho các điều kiện trong Hình 4.

 

Điều kiện nhị phân so với điều kiện phi nhị phân

Các điều kiện có hai kết quả có thể xảy ra (ví dụ: true hoặc false) được gọi là điều kiện nhị phân. Cây quyết định chỉ chứa các điều kiện nhị phân được gọi là cây quyết định nhị phân.

Điều kiện phi nhị phân có nhiều hơn hai kết quả có thể xảy ra. Do đó, các điều kiện phi nhị phân có khả năng phân biệt cao hơn các điều kiện nhị phân. Các quyết định có chứa một hoặc nhiều điều kiện phi nhị phân được gọi là cây quyết định phi nhị phân.

So sánh cây quyết định nhị phân với cây quyết định phi nhị phân. Cây quyết định nhị phân chứa hai điều kiện nhị phân; cây quyết định phi nhị phân chứa một điều kiện phi nhị phân.

Hình 6: Cây quyết định nhị phân và phi nhị phân.

 

Các điều kiện có quá nhiều năng lượng cũng có nhiều khả năng sẽ dư thừa. Vì lý do này, rừng quyết định thường sử dụng cây quyết định nhị phân. Vì vậy, khoá học này sẽ tập trung vào chúng.

Loại điều kiện phổ biến nhất là điều kiện ngưỡng được biểu thị như sau:

featurethreshold

Ví dụ:

num_legs ≥ 2

Tồn tại các loại điều kiện khác. Sau đây là các loại điều kiện nhị phân thường dùng khác:

 

Bảng 2. Các loại điều kiện nhị phân phổ biến.

Tên Điều kiện Ví dụ
điều kiện về ngưỡng $\mathrm{feature}_i \geq \mathrm{threshold}$ $\mathrm{num\_legs} \geq 2$
điều kiện bằng $\mathrm{feature}_i = \mathrm{value}$ $\mathrm{species} = ``cat"$
điều kiện cố định $\mathrm{feature}_i \in \mathrm{collection}$ $\mathrm{species} \in \{``mèo", ``chó", ``bird"\}$
điều kiện xiên $\sum_{i} \mathrm{weight}_i \mathrm{feature}_i \geq \mathrm{threshold}$ $5 \ \mathrm{num\_legs} + 2 \ \mathrm{num\_eyes} \geq 10$
thiếu tính năng $\mathrm{feature}_i \mathrm{is} \mathrm{Missing}$ $\mathrm{num\_legs} \mathrm{is} \mathrm{Missing}$