Chuẩn bị dữ liệu

Phần này xem xét các bước chuẩn bị dữ liệu có liên quan nhất đến việc phân cụm từ Làm việc với dữ liệu số trong Khoá học nhanh về máy học.

Trong phân cụm, bạn tính toán sự tương đồng giữa hai ví dụ bằng cách kết hợp tất cả dữ liệu đối tượng cho các ví dụ đó thành một giá trị số. Điều này đòi hỏi các tính năng có cùng quy mô, có thể đạt được bằng cách chuẩn hoá, chuyển đổi hoặc tạo số phân vị. Nếu bạn muốn chuyển đổi mà không cần kiểm tra hoạt động phân phối của dữ liệu đó, bạn có thể đặt mặc định thành số phân vị.

Chuẩn hoá dữ liệu

Bạn có thể chuyển đổi dữ liệu của nhiều đối tượng sang cùng một tỷ lệ bằng cách chuẩn hoá dữ liệu.

Điểm Z

Bất cứ khi nào bạn nhìn thấy một tập dữ liệu có hình dạng gần như Phân phối Gaussian, bạn nên tính chỉ số z cho dữ liệu. Điểm Z là số độ lệch chuẩn của một giá trị từ trung bình. Bạn cũng có thể sử dụng điểm z khi tập dữ liệu không đủ lớn cho số phân vị.

Xem Thang điểm điểm Z để xem các bước.

Dưới đây là hình ảnh trực quan về hai tính năng của tập dữ liệu trước và sau tỷ lệ điểm z:

Hai biểu đồ so sánh dữ liệu tính năng trước và sau khi chuẩn hoá
Hình 1: So sánh dữ liệu tính năng trước và sau khi chuẩn hoá.

Trong tập dữ liệu không được chuẩn hoá ở bên trái, Tính năng 1 và Tính năng 2, được vẽ tương ứng trên trục x và y, không có cùng tỷ lệ. Trên bên trái, ví dụ màu đỏ có vẻ gần hoặc giống màu xanh hơn so với màu vàng. Ở bên phải, sau thang điểm z, Tính năng 1 và Tính năng 2 có cùng tỷ lệ và màu đỏ xuất hiện gần hơn với ví dụ màu vàng. Tập dữ liệu chuẩn hoá cho đo lường chính xác hơn về sự tương đồng giữa các điểm.

Ghi nhật ký biến đổi

Khi một tập dữ liệu hoàn toàn phù hợp với Phân phối định luật năng lượng, trong đó dữ liệu bị thu gọn nhiều ở các giá trị thấp nhất, hãy sử dụng biến đổi nhật ký. Xem Điều chỉnh tỷ lệ nhật ký để xem các bước.

Dưới đây là hình ảnh minh hoạ tập dữ liệu định luật luỹ thừa trước và sau khi biến đổi nhật ký:

Biểu đồ thanh với phần lớn dữ liệu ở cấp thấp
Hình 2: Sự phân phối theo định luật công suất.
Biểu đồ thể hiện phân phối bình thường (Gaussian)
Hình 3: Biến đổi nhật ký của Hình 2.

Trước khi chuyển tỷ lệ nhật ký (Hình 2), ví dụ màu đỏ có vẻ giống với màu vàng hơn. Sau khi chia tỷ lệ nhật ký (Hình 3), màu đỏ có vẻ giống màu xanh hơn.

Phân tử

Việc kết hợp dữ liệu vào các số phân vị sẽ hoạt động tốt khi tập dữ liệu không tuân theo phân phối đã biết. Hãy lấy tập dữ liệu này làm ví dụ:

Một biểu đồ thể hiện quá trình phân phối dữ liệu trước khi xử lý trước
Hình 4: Hoạt động phân phối chưa được phân loại trước khi xử lý trước.

Theo trực giác, hai ví dụ giống nhau hơn nếu chỉ có một vài ví dụ nằm trong khoảng chúng, bất kể giá trị của chúng và ít tương đồng hơn nếu có nhiều ví dụ rơi vào giữa chúng. Hình ảnh trực quan ở trên khiến bạn khó xem tổng số một số ví dụ có màu đỏ và màu vàng hoặc giữa màu đỏ và màu xanh dương.

Bạn có thể hiểu rõ sự tương đồng này bằng cách chia tập dữ liệu thành lượng tử hoặc khoảng mỗi khoảng chứa số lượng ví dụ bằng nhau và gán chỉ số phân vị cho mỗi ví dụ. Xem Phân giỏ vị trí để xem các bước.

Đây là hàm phân phối trước được chia thành các số phân vị, cho thấy màu đỏ là một số phân vị cách xa màu vàng và ba số phân vị cách màu xanh lam:

Biểu đồ hiển thị dữ liệu sau khi chuyển đổi
  thành số phân vị. Đường này đại diện cho 20 khoảng thời gian.]
Hình 5: Sự phân phối trong Hình 4 sau khi chuyển đổi thành 20 số phân vị.

Bạn có thể chọn bất kỳ số \(n\) số phân vị nào. Tuy nhiên, đối với số phân vị thể hiện có ý nghĩa dữ liệu cơ bản, thì tập dữ liệu của bạn phải có ít nhất \(10n\) ví dụ. Nếu bạn không có đủ dữ liệu, hãy chuẩn hoá.

Kiểm tra kiến thức

Đối với các câu hỏi sau, giả sử bạn có đủ dữ liệu để tạo số phân vị.

Câu hỏi số 1

Biểu đồ thể hiện ba mức phân phối dữ liệu
Bạn nên xử lý như thế nào về việc phân phối dữ liệu được trình bày trong biểu đồ?
Tạo số phân vị.
Chính xác. Do phân phối không khớp với Bạn nên đặt mặc định tạo số phân vị.
Chuẩn hoá.
Bạn thường chuẩn hoá dữ liệu nếu:
  • Phân phối dữ liệu là Gaussian.
  • Bạn sẽ có được thông tin chi tiết về nội dung mà dữ liệu này thể hiện trong thực tế để cho thấy không nên biến đổi dữ liệu theo cách phi tuyến tính.
Không có trường hợp nào áp dụng ở đây. Quá trình phân phối dữ liệu không phải là Gaussian không đối xứng. Và bạn không biết những giá trị này thể hiện trong thế giới thực.
Ghi nhật ký biến đổi.
Đây không phải là cách phân phối định luật công suất hoàn hảo, vì vậy, đừng sử dụng nhật ký biến đổi.

Câu hỏi 2

Biểu đồ thể hiện ba mức phân phối dữ liệu
Bạn sẽ xử lý việc phân phối dữ liệu này như thế nào?
Chuẩn hoá.
Chính xác. Đây là phân phối Gaussian.
Tạo số phân vị.
Sai. Vì đây là phân phối Gaussian, nên phương thức biến đổi là chuẩn hoá.
Ghi nhật ký biến đổi.
Sai. Chỉ áp dụng biến đổi nhật ký cho phân phối định luật công suất.

Thiếu dữ liệu

Nếu tập dữ liệu của bạn có các ví dụ thiếu giá trị cho một tính năng nhất định, nhưng các ví dụ đó hiếm khi xảy ra, bạn có thể loại bỏ các ví dụ này. Nếu những ví dụ đó xảy ra thường xuyên, bạn có thể loại bỏ hoàn toàn tính năng đó, hoặc bạn có thể dùng máy để dự đoán các giá trị còn thiếu trong các ví dụ khác mô hình học tập. Ví dụ: bạn có thể đề xuất dữ liệu số bị thiếu bằng cách sử dụng mô hình hồi quy được huấn luyện dựa trên dữ liệu tính năng hiện có.