Giới hạn

Hãy bắt đầu bằng cách xem nhanh một ý tưởng chính trong Khoá học máy học. Hãy xem hàm phân phối trong biểu đồ ở bên dưới.

Số lô nhà trên mỗi vĩ độ. Biểu đồ cực kỳ không đều, có chứa các trục trặc xung quanh vĩ độ 36 và các đợt tăng đột biến xung quanh vĩ độ 34 và 38. Hình 1: Giá nhà so với vĩ độ.

 

Đối với câu hỏi sau, hãy nhấp vào mũi tên mong muốn để kiểm tra câu trả lời của bạn:

Hình 1. Nếu bạn nghĩ vĩ độ có thể là một dự báo tốt về giá trị nhà ở, bạn có nên để vĩ độ làm giá trị dấu phẩy động không? Vì sao? (Giả sử đây là mô hình tuyến tính.)
Có – nếu vĩ độ là một giá trị dấu phẩy động trong tập dữ liệu, thì bạn không nên thay đổi giá trị này.
Nếu bạn cung cấp các giá trị dấu phẩy động đó cho mạng của mình, thì hệ thống sẽ cố gắng tìm hiểu mối quan hệ tuyến tính giữa tính năng và nhãn. Nhưng mối quan hệ tuyến tính không có khả năng áp dụng vĩ độ. Vĩ độ tăng một độ (ví dụ: từ 34 đến 35 độ) có thể tạo ra một số thay đổi đối với đầu ra của mô hình, trong khi mức tăng một độ khác (ví dụ: từ 35 lên 36 độ) có thể tạo ra một mức độ thay đổi khác. Đó là hành vi phi tuyến tính.
Không – không có mối quan hệ tuyến tính giữa vĩ độ và giá trị nhà ở.
Bạn nghi ngờ rằng các vĩ độ và giá trị nhà ở riêng lẻ có liên quan đến nhau, nhưng mối quan hệ này không tuyến tính.

Trong trường hợp như ví dụ về vĩ độ, bạn cần chia các vĩ độ thành các nhóm để tìm hiểu thông tin về giá trị nhà ở cho mỗi nhóm. Việc chuyển đổi các tính năng dạng số thành các tính năng theo danh mục (sử dụng một nhóm các ngưỡng), được gọi là phân nhóm (hoặc kết hợp). Trong ví dụ về bộ chứa này, các ranh giới sẽ được cách đều nhau.

Cùng một lô vĩ độ so với giá nhà ở như hình trước. Tuy nhiên, lần này, đồ thị được chia thành 11 "bins" giữa toàn bộ các vĩ độ.

 

Hình 2: Giá nhà so với vĩ độ, hiện được chia thành các nhóm.

Xô đựng quan tài

Hãy cùng xem lại tập dữ liệu về giá xe ô tô của chúng ta kèm theo bộ chứa. Với một tính năng cho mỗi nhóm, mô hình sẽ sử dụng nhiều công suất cho một ví dụ trong dải ô > 45000 như đối với tất cả ví dụ trong dải ô 5000-10000. Việc này có vẻ lãng phí. Chúng tôi có thể làm gì để cải thiện tình hình này?

Biểu đồ giá ô tô trên số lượng xe được bán ở mức giá đó. Lô đất được chia thành 10 nhóm có kích thước bằng nhau với phạm vi 5.000 (giá ô tô). Ba nhóm đầu tiên chứa nhiều ví dụ, nhưng 7 nhóm cuối cùng chứa rất ít ví dụ.

Hình 3: Số lượng ô tô được bán ra ở nhiều mức giá.

 

Vấn đề là các nhóm được phân cách bằng nhau không nắm bắt được sự phân bổ này. Giải pháp nằm trong việc tạo các nhóm, mỗi nhóm có cùng số điểm. Kỹ thuật này được gọi là phân nhóm lượng tử. Ví dụ: hình sau đây chia giá xe thành các nhóm số lượng. Để nhận được cùng một số ví dụ trong mỗi nhóm, một số nhóm chứa một khoảng giá hẹp trong khi những nhóm khác bao gồm một khoảng giá rất rộng.

Giống như Hình 3, ngoại trừ các nhóm số lượng tử. Tức là các nhóm hiện có các kích thước khác nhau. Bộ chứa nhỏ nhất có phạm vi khoảng 1000 đô la và bộ chứa lớn nhất có khoảng 25000 đô la.
Hiện tại, số lượng ô tô trong mỗi nhóm là tương đương nhau.

Hình 4: Bộ chứa phân tử cung cấp cho mỗi nhóm một số lượng xe giống nhau.

Tóm tắt nhóm

Nếu bạn chọn nhóm các tính năng dạng số của mình, hãy nêu rõ cách bạn đặt ranh giới và loại nhóm mà bạn đang áp dụng:

  • Các nhóm có ranh giới bằng nhau: các ranh giới cố định và bao gồm cùng một phạm vi (ví dụ: 0-4 độ, 5-9 độ và 10-14 độ, hoặc 5.000$-9.999$, 10.000$-14.999$ và 15.000$-19.999$). Một số nhóm có thể chứa nhiều điểm, trong khi những nhóm khác có thể có ít hoặc không có điểm nào.
  • Nhóm có ranh giới hữu hạn: mỗi nhóm có cùng số điểm. Ranh giới không cố định và có thể bao gồm một khoảng giá trị hẹp hoặc rộng.