Bài tập đo lường mức độ tương đồng theo cách thủ công

Bài tập sau đây sẽ hướng dẫn bạn thực hiện quy trình tạo số đo tương tự theo cách thủ công.

Hãy tưởng tượng bạn có một tập dữ liệu đơn giản về các ngôi nhà như sau:

Tính năngLoại
GiáSố nguyên dương
Kích thước Giá trị dấu phẩy động dương tính bằng đơn vị mét vuông
Mã bưu chínhSố nguyên
Số lượng phòng ngủSố nguyên
Loại nhàMột giá trị văn bản từ "single_family", "multi-family", "apartment", "condo"
Nhà để xe0/1 nếu không/có
Màu sắcPhân loại đa biến: một hoặc nhiều giá trị trong các màu tiêu chuẩn là "trắng", "vàng", "xanh lục", v.v.

Xử lý trước

Bước đầu tiên là xử lý trước các tính năng dạng số: giá, kích thước, số phòng ngủ và mã bưu chính. Đối với mỗi tính năng trong số này, bạn sẽ phải thực hiện một thao tác khác. Ví dụ: trong trường hợp này, giả sử rằng dữ liệu giá được phân phối theo hai chiều. Bạn nên làm gì tiếp theo?

Bạn nên thực hiện hành động nào nếu dữ liệu của bạn tuân theo mô hình phân phối hai phương thức?
Tạo các số lượng từ dữ liệu và tỷ lệ đến [0,1].
Đây là bước chính xác mà bạn cần thực hiện khi dữ liệu tuân theo mô hình phân phối hai phương thức.
Chuyển đổi nhật ký và chia tỷ lệ thành [0,1].
Đây thực sự là bước cần thực hiện khi dữ liệu tuân theo quy trình phân phối Quyền lực.
Chuẩn hóa và mở rộng quy mô thành [0,1].
Đây là bước bạn sẽ thực hiện khi dữ liệu tuân theo phân phối Gaussian.

Trong trường bên dưới, hãy thử giải thích cách bạn sẽ xử lý dữ liệu kích thước.

Trong trường bên dưới, hãy thử giải thích cách bạn sẽ xử lý dữ liệu về số lượng phòng ngủ.

Bạn sẽ đại diện cho mã bưu chính như thế nào? Chuyển đổi mã bưu chính thành kinh độ và vĩ độ. Sau đó, hãy xử lý các giá trị đó giống như cách xử lý các giá trị số khác.

Tính toán mức độ tương đồng trên mỗi tính năng

Giờ là lúc tính toán mức độ tương đồng của mỗi tính năng. Đối với các tính năng dạng số, bạn chỉ cần tìm ra điểm khác biệt. Đối với các tính năng nhị phân, chẳng hạn như nếu một ngôi nhà có mái nhà, bạn cũng có thể thấy sự khác biệt để lấy 0 hoặc 1. Thế còn tính năng phân loại thì sao? Hãy trả lời các câu hỏi dưới đây để tìm hiểu.

Tính năng nào sau đây là đa giá trị (có thể có nhiều giá trị)?
Màu
Một cơ sở lưu trú có thể có nhiều màu sắc, ví dụ như màu xanh dương với màu trắng. Do đó, màu sắc là một tính năng đa giá trị.
Mã bưu chính
Nhà ở chỉ có thể có một mã bưu chính. Đây là tính năng chưa phát hành.
Loại
Nhà của bạn chỉ có thể là một loại nhà, căn hộ, căn hộ, v.v., có nghĩa là đó là một tính năng đơn lẻ.
Bạn nên sử dụng loại biện pháp tương tự nào để tính toán mức độ tương đồng cho một tính năng đa dạng?
Tính tương đồng của Jaccard
Giả sử nhà được gán màu cho một tập hợp màu cố định. Sau đó, hãy tính toán độ tương đồng bằng cách sử dụng tỷ lệ giá trị chung (mức độ tương đồng của Jaccard).
Khoảng cách Euclide
Đối với các tính năng “mã bưu chính” và “loại” chỉ có một giá trị (tính năng đơn giá trị), nếu tính năng này khớp, thì chỉ số đo mức độ tương tự là 0; nếu không, số liệu đo độ tương đồng là 1.

Tính toán mức độ tương đồng tổng thể

Bạn đã tính toán sự tương đồng về mặt số học cho mỗi tính năng. Tuy nhiên, thuật toán phân nhóm yêu cầu giống nhau tổng thể đối với các cụm nhà. Tính toán mức độ tương đồng tổng thể giữa một cặp ngôi nhà bằng cách kết hợp các điểm tương đồng của mỗi tính năng sử dụng lỗi bình phương trung bình gốc (RMSE). Tức là trong đó \(s_1,s_2,\ldots,s_N\) đại diện cho sự tương đồng cho \(N\) các tính năng:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Các giới hạn của việc đo lường mức độ tương đồng theo cách thủ công

Như bài tập này đã chứng minh, khi dữ liệu trở nên phức tạp, việc xử lý và kết hợp dữ liệu sẽ ngày càng khó khăn hơn để đo lường mức độ tương đồng một cách chính xác theo cách có ý nghĩa về mặt ngữ nghĩa. Hãy xem xét dữ liệu màu. Màu sắc có thực sự nên được phân loại không? Hay chúng ta nên chỉ định các màu như màu đỏ và màu hạt dẻ để có độ tương đồng cao hơn màu đen và trắng? Và về việc kết hợp dữ liệu, chúng tôi chỉ tính trọng số của nhà để xe bằng với giá nhà. Tuy nhiên, giá nhà quan trọng hơn nhiều so với việc có nhà để xe. Thực sự có hợp lý khi cân bằng chúng không?

Nếu bạn tạo một phép đo tương tự không thực sự phản ánh điểm tương đồng giữa các ví dụ, thì các cụm dẫn xuất của bạn sẽ không có ý nghĩa. Trường hợp này thường xảy ra với dữ liệu được phân loại và đưa chúng ta đến một biện pháp được giám sát.