Các loại điều kiện

Bài này tập trung vào các loại điều kiện dùng để tạo cây quyết định.

Điều kiện được căn chỉnh theo trục so với điều kiện xiên

Điều kiện được căn chỉnh theo trục chỉ liên quan đến một đặc điểm duy nhất. Điều kiện nghiêng liên quan đến nhiều đặc điểm. Ví dụ: sau đây là điều kiện căn chỉnh theo trục:

num_legs ≥ 2

Còn sau đây là một điều kiện xiên:

num_legs ≥ num_fingers

Thông thường, cây quyết định chỉ được huấn luyện bằng các điều kiện được căn chỉnh theo trục. Tuy nhiên, các phần phân tách xiên lại mạnh mẽ hơn vì có thể thể hiện các mẫu phức tạp hơn. Đôi khi, các phần phân tách xiên sẽ mang lại kết quả tốt hơn nhưng chi phí huấn luyện và suy luận sẽ cao hơn.

Mã YDF
Trong YDF, cây quyết định được huấn luyện bằng điều kiện căn chỉnh theo trục theo mặc định. Bạn có thể bật cây quyết định xiên bằng tham số split_axis="SPARSE_OBLIQUE".

Điều kiện căn chỉnh theo trục là "num_legs >= 3". Điều kiện xiên là "num_legs + weight * 5 >= 12".

Hình 4. Ví dụ về điều kiện căn chỉnh theo trục và điều kiện xiên.

 

Việc lập biểu đồ cho hai điều kiện trước đó sẽ tạo ra sự phân tách không gian tính năng sau:

Biểu đồ về weight so với num_legs. Điều kiện căn chỉnh theo trục không bỏ qua trọng số và do đó chỉ là một đường dọc. Điều kiện xiên cho thấy một đường dốc âm.

Hình 5. Phân tách không gian đặc điểm cho các điều kiện trong Hình 4.

 

Điều kiện nhị phân so với điều kiện không nhị phân

Các điều kiện có thể có hai kết quả (ví dụ: đúng hoặc sai) được gọi là điều kiện nhị phân. Cây quyết định chỉ chứa các điều kiện nhị phân được gọi là cây quyết định nhị phân.

Điều kiện không nhị phân có nhiều hơn hai kết quả có thể xảy ra. Do đó, điều kiện không nhị phân có khả năng phân biệt cao hơn so với điều kiện nhị phân. Các quyết định chứa một hoặc nhiều điều kiện không nhị phân được gọi là cây quyết định không nhị phân.

So sánh cây quyết định nhị phân với cây quyết định không nhị phân. Cây quyết định nhị phân chứa hai điều kiện nhị phân; cây quyết định không nhị phân chứa một điều kiện không nhị phân.

Hình 6: Cây quyết định nhị phân so với cây quyết định không nhị phân.

 

Các điều kiện có quá nhiều quyền cũng có nhiều khả năng sẽ phù hợp quá mức. Vì lý do này, rừng quyết định thường sử dụng cây quyết định nhị phân, vì vậy, khoá học này sẽ tập trung vào các cây quyết định nhị phân.

Loại điều kiện phổ biến nhất là điều kiện ngưỡng được biểu thị dưới dạng:

featurethreshold

Ví dụ:

num_legs ≥ 2

Ngoài ra còn có các loại điều kiện khác. Dưới đây là các loại điều kiện nhị phân phổ biến khác:

 

Bảng 2. Các loại điều kiện nhị phân phổ biến.

Tên Tình trạng Ví dụ
điều kiện ngưỡng $\mathrm{feature}_i \geq \mathrm{threshold}$ $\mathrm{num\_legs} \geq 2$
điều kiện bằng nhau $\mathrm{feature}_i = \mathrm{value}$ $\mathrm{species} = ``cat"$
điều kiện trong tập hợp $\mathrm{feature}_i \in \mathrm{collection}$ $\mathrm{species} \in \{``cat", ``dog", ``bird"\}$
điều kiện xiên $\sum_{i} \mathrm{weight}_i \mathrm{feature}_i \geq \mathrm{threshold}$ $5 \ \mathrm{num\_legs} + 2 \ \mathrm{num\_eyes} \geq 10$
thiếu tính năng $\mathrm{feature}_i \mathrm{is} \mathrm{Missing}$ $\mathrm{num\_legs} \mathrm{is} \mathrm{Missing}$