Dữ liệu số: Kết luận

Tình trạng của mô hình học máy (ML) được xác định bằng dữ liệu của mô hình đó. Cung cấp dữ liệu lập mô hình dữ liệu lành mạnh và dữ liệu đó sẽ phát triển mạnh mẽ; cho mô hình của bạn và các dự đoán sẽ không có giá trị.

Các phương pháp hay nhất để làm việc với dữ liệu số:

  • Hãy nhớ rằng mô hình ML tương tác với dữ liệu trong vectơ đối tượng, chứ không phải dữ liệu trong dataset.
  • Chuẩn hoá nhiều nhất tính năng bằng số.
  • Nếu chiến lược chuẩn hoá đầu tiên không thành công, hãy cân nhắc một cách khác để chuẩn hoá dữ liệu.
  • Kết hợp, còn gọi là phân giỏ đôi khi là tốt hơn so với chuẩn hoá.
  • Xem xét dữ liệu của bạn nên trông như thế nào, hãy viết mã xác minh thử nghiệm để xác thực những kỳ vọng đó. Ví dụ:
    • Giá trị tuyệt đối của vĩ độ không được vượt quá 90. Bạn có thể viết một chương trình kiểm thử để kiểm tra xem dữ liệu của bạn có giá trị vĩ độ lớn hơn 90 hay không.
    • Nếu dữ liệu của bạn bị hạn chế ở tiểu bang Florida, bạn có thể viết mã kiểm thử để kiểm tra xem vĩ độ có nằm trong khoảng từ 24 đến 31 hay không.
  • Trực quan hoá dữ liệu của bạn bằng biểu đồ tán xạ và biểu đồ tần suất. Tìm điểm bất thường.
  • Thu thập số liệu thống kê không chỉ trên toàn bộ tập dữ liệu mà còn trên các tập dữ liệu nhỏ hơn các tập con của tập dữ liệu. Đó là do số liệu thống kê tổng hợp đôi khi che khuất vấn đề trong các phần nhỏ hơn của tập dữ liệu.
  • Ghi lại tất cả các phép biến đổi dữ liệu.

Dữ liệu là tài nguyên quý giá nhất của bạn, vì vậy, hãy xử lý dữ liệu một cách cẩn thận.

Thông tin bổ sung

Các bước tiếp theo

Chúc mừng bạn đã hoàn thành học phần này!

Bạn nên khám phá các mô-đun MLCC theo tốc độ và mối quan tâm của riêng mình. Nếu muốn làm theo thứ tự được đề xuất, bạn nên chuyển sang mô-đun sau: Đại diện cho dữ liệu dạng danh mục.