Bài tập sau đây sẽ hướng dẫn bạn thực hiện quy trình tạo số đo tương tự theo cách thủ công.
Hãy tưởng tượng bạn có một tập dữ liệu đơn giản về các ngôi nhà như sau:
Tính năng | Loại |
---|---|
Giá | Số nguyên dương |
Kích thước | Giá trị dấu phẩy động dương tính bằng đơn vị mét vuông |
Mã bưu chính | Số nguyên |
Số lượng phòng ngủ | Số nguyên |
Loại nhà | Một giá trị văn bản từ "single_family", "multi-family", "apartment", "condo" |
Nhà để xe | 0/1 nếu không/có |
Màu sắc | Phân loại đa biến: một hoặc nhiều giá trị trong các màu tiêu chuẩn là "trắng", "vàng", "xanh lục", v.v. |
Xử lý trước
Bước đầu tiên là xử lý trước các tính năng dạng số: giá, kích thước, số phòng ngủ và mã bưu chính. Đối với mỗi tính năng trong số này, bạn sẽ phải thực hiện một thao tác khác. Ví dụ: trong trường hợp này, giả sử rằng dữ liệu giá được phân phối theo hai chiều. Bạn nên làm gì tiếp theo?
Trong trường bên dưới, hãy thử giải thích cách bạn sẽ xử lý dữ liệu kích thước.
Trong trường bên dưới, hãy thử giải thích cách bạn sẽ xử lý dữ liệu về số lượng phòng ngủ.
Bạn sẽ đại diện cho mã bưu chính như thế nào? Chuyển đổi mã bưu chính thành kinh độ và vĩ độ. Sau đó, hãy xử lý các giá trị đó giống như cách xử lý các giá trị số khác.
Tính toán mức độ tương đồng trên mỗi tính năng
Giờ là lúc tính toán mức độ tương đồng của mỗi tính năng. Đối với các tính năng dạng số, bạn chỉ cần tìm ra điểm khác biệt. Đối với các tính năng nhị phân, chẳng hạn như nếu một ngôi nhà có mái nhà, bạn cũng có thể thấy sự khác biệt để lấy 0 hoặc 1. Thế còn tính năng phân loại thì sao? Hãy trả lời các câu hỏi dưới đây để tìm hiểu.
Tính toán mức độ tương đồng tổng thể
Bạn đã tính toán sự tương đồng về mặt số học cho mỗi tính năng. Tuy nhiên, thuật toán phân nhóm yêu cầu giống nhau tổng thể đối với các cụm nhà. Tính toán mức độ tương đồng tổng thể giữa một cặp ngôi nhà bằng cách kết hợp các điểm tương đồng của mỗi tính năng sử dụng lỗi bình phương trung bình gốc (RMSE). Tức là trong đó \(s_1,s_2,\ldots,s_N\) đại diện cho sự tương đồng cho \(N\) các tính năng:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
Các giới hạn của việc đo lường mức độ tương đồng theo cách thủ công
Như bài tập này đã chứng minh, khi dữ liệu trở nên phức tạp, việc xử lý và kết hợp dữ liệu sẽ ngày càng khó khăn hơn để đo lường mức độ tương đồng một cách chính xác theo cách có ý nghĩa về mặt ngữ nghĩa. Hãy xem xét dữ liệu màu. Màu sắc có thực sự nên được phân loại không? Hay chúng ta nên chỉ định các màu như màu đỏ và màu hạt dẻ để có độ tương đồng cao hơn màu đen và trắng? Và về việc kết hợp dữ liệu, chúng tôi chỉ tính trọng số của nhà để xe bằng với giá nhà. Tuy nhiên, giá nhà quan trọng hơn nhiều so với việc có nhà để xe. Thực sự có hợp lý khi cân bằng chúng không?
Nếu bạn tạo một phép đo tương tự không thực sự phản ánh điểm tương đồng giữa các ví dụ, thì các cụm dẫn xuất của bạn sẽ không có ý nghĩa. Trường hợp này thường xảy ra với dữ liệu được phân loại và đưa chúng ta đến một biện pháp được giám sát.