Hãy bắt đầu bằng cách xem nhanh một ý tưởng chính trong Khoá học máy học. Hãy xem hàm phân phối trong biểu đồ ở bên dưới.
Hình 1: Giá nhà so với vĩ độ.
Đối với câu hỏi sau, hãy nhấp vào mũi tên mong muốn để kiểm tra câu trả lời của bạn:
Trong trường hợp như ví dụ về vĩ độ, bạn cần chia các vĩ độ thành các nhóm để tìm hiểu thông tin về giá trị nhà ở cho mỗi nhóm. Việc chuyển đổi các tính năng dạng số thành các tính năng theo danh mục (sử dụng một nhóm các ngưỡng), được gọi là phân nhóm (hoặc kết hợp). Trong ví dụ về bộ chứa này, các ranh giới sẽ được cách đều nhau.
Hình 2: Giá nhà so với vĩ độ, hiện được chia thành các nhóm.
Xô đựng quan tài
Hãy cùng xem lại tập dữ liệu về giá xe ô tô của chúng ta kèm theo bộ chứa. Với một tính năng cho mỗi nhóm, mô hình sẽ sử dụng nhiều công suất cho một ví dụ trong dải ô > 45000 như đối với tất cả ví dụ trong dải ô 5000-10000. Việc này có vẻ lãng phí. Chúng tôi có thể làm gì để cải thiện tình hình này?
Hình 3: Số lượng ô tô được bán ra ở nhiều mức giá.
Vấn đề là các nhóm được phân cách bằng nhau không nắm bắt được sự phân bổ này. Giải pháp nằm trong việc tạo các nhóm, mỗi nhóm có cùng số điểm. Kỹ thuật này được gọi là phân nhóm lượng tử. Ví dụ: hình sau đây chia giá xe thành các nhóm số lượng. Để nhận được cùng một số ví dụ trong mỗi nhóm, một số nhóm chứa một khoảng giá hẹp trong khi những nhóm khác bao gồm một khoảng giá rất rộng.
Hình 4: Bộ chứa phân tử cung cấp cho mỗi nhóm một số lượng xe giống nhau.
Tóm tắt nhóm
Nếu bạn chọn nhóm các tính năng dạng số của mình, hãy nêu rõ cách bạn đặt ranh giới và loại nhóm mà bạn đang áp dụng:
- Các nhóm có ranh giới bằng nhau: các ranh giới cố định và bao gồm cùng một phạm vi (ví dụ: 0-4 độ, 5-9 độ và 10-14 độ, hoặc 5.000$-9.999$, 10.000$-14.999$ và 15.000$-19.999$). Một số nhóm có thể chứa nhiều điểm, trong khi những nhóm khác có thể có ít hoặc không có điểm nào.
- Nhóm có ranh giới hữu hạn: mỗi nhóm có cùng số điểm. Ranh giới không cố định và có thể bao gồm một khoảng giá trị hẹp hoặc rộng.