Phần này xem xét các bước chuẩn bị dữ liệu có liên quan nhất đến việc phân cụm từ Làm việc với dữ liệu số trong Khoá học nhanh về máy học.
Trong phân cụm, bạn tính toán sự tương đồng giữa hai ví dụ bằng cách kết hợp tất cả dữ liệu đối tượng cho các ví dụ đó thành một giá trị số. Điều này đòi hỏi các tính năng có cùng quy mô, có thể đạt được bằng cách chuẩn hoá, chuyển đổi hoặc tạo số phân vị. Nếu bạn muốn chuyển đổi mà không cần kiểm tra hoạt động phân phối của dữ liệu đó, bạn có thể đặt mặc định thành số phân vị.
Chuẩn hoá dữ liệu
Bạn có thể chuyển đổi dữ liệu của nhiều đối tượng sang cùng một tỷ lệ bằng cách chuẩn hoá dữ liệu.
Điểm Z
Bất cứ khi nào bạn nhìn thấy một tập dữ liệu có hình dạng gần như Phân phối Gaussian, bạn nên tính chỉ số z cho dữ liệu. Điểm Z là số độ lệch chuẩn của một giá trị từ trung bình. Bạn cũng có thể sử dụng điểm z khi tập dữ liệu không đủ lớn cho số phân vị.
Xem Thang điểm điểm Z để xem các bước.
Dưới đây là hình ảnh trực quan về hai tính năng của tập dữ liệu trước và sau tỷ lệ điểm z:
Trong tập dữ liệu không được chuẩn hoá ở bên trái, Tính năng 1 và Tính năng 2, được vẽ tương ứng trên trục x và y, không có cùng tỷ lệ. Trên bên trái, ví dụ màu đỏ có vẻ gần hoặc giống màu xanh hơn so với màu vàng. Ở bên phải, sau thang điểm z, Tính năng 1 và Tính năng 2 có cùng tỷ lệ và màu đỏ xuất hiện gần hơn với ví dụ màu vàng. Tập dữ liệu chuẩn hoá cho đo lường chính xác hơn về sự tương đồng giữa các điểm.
Ghi nhật ký biến đổi
Khi một tập dữ liệu hoàn toàn phù hợp với Phân phối định luật năng lượng, trong đó dữ liệu bị thu gọn nhiều ở các giá trị thấp nhất, hãy sử dụng biến đổi nhật ký. Xem Điều chỉnh tỷ lệ nhật ký để xem các bước.
Dưới đây là hình ảnh minh hoạ tập dữ liệu định luật luỹ thừa trước và sau khi biến đổi nhật ký:
Trước khi chuyển tỷ lệ nhật ký (Hình 2), ví dụ màu đỏ có vẻ giống với màu vàng hơn. Sau khi chia tỷ lệ nhật ký (Hình 3), màu đỏ có vẻ giống màu xanh hơn.
Phân tử
Việc kết hợp dữ liệu vào các số phân vị sẽ hoạt động tốt khi tập dữ liệu không tuân theo phân phối đã biết. Hãy lấy tập dữ liệu này làm ví dụ:
Theo trực giác, hai ví dụ giống nhau hơn nếu chỉ có một vài ví dụ nằm trong khoảng chúng, bất kể giá trị của chúng và ít tương đồng hơn nếu có nhiều ví dụ rơi vào giữa chúng. Hình ảnh trực quan ở trên khiến bạn khó xem tổng số một số ví dụ có màu đỏ và màu vàng hoặc giữa màu đỏ và màu xanh dương.
Bạn có thể hiểu rõ sự tương đồng này bằng cách chia tập dữ liệu thành lượng tử hoặc khoảng mỗi khoảng chứa số lượng ví dụ bằng nhau và gán chỉ số phân vị cho mỗi ví dụ. Xem Phân giỏ vị trí để xem các bước.
Đây là hàm phân phối trước được chia thành các số phân vị, cho thấy màu đỏ là một số phân vị cách xa màu vàng và ba số phân vị cách màu xanh lam:
Bạn có thể chọn bất kỳ số \(n\) số phân vị nào. Tuy nhiên, đối với số phân vị thể hiện có ý nghĩa dữ liệu cơ bản, thì tập dữ liệu của bạn phải có ít nhất \(10n\) ví dụ. Nếu bạn không có đủ dữ liệu, hãy chuẩn hoá.
Kiểm tra kiến thức
Đối với các câu hỏi sau, giả sử bạn có đủ dữ liệu để tạo số phân vị.
Câu hỏi số 1
- Phân phối dữ liệu là Gaussian.
- Bạn sẽ có được thông tin chi tiết về nội dung mà dữ liệu này thể hiện trong thực tế để cho thấy không nên biến đổi dữ liệu theo cách phi tuyến tính.
Câu hỏi 2
Thiếu dữ liệu
Nếu tập dữ liệu của bạn có các ví dụ thiếu giá trị cho một tính năng nhất định, nhưng các ví dụ đó hiếm khi xảy ra, bạn có thể loại bỏ các ví dụ này. Nếu những ví dụ đó xảy ra thường xuyên, bạn có thể loại bỏ hoàn toàn tính năng đó, hoặc bạn có thể dùng máy để dự đoán các giá trị còn thiếu trong các ví dụ khác mô hình học tập. Ví dụ: bạn có thể đề xuất dữ liệu số bị thiếu bằng cách sử dụng mô hình hồi quy được huấn luyện dựa trên dữ liệu tính năng hiện có.