Tình trạng của mô hình học máy (ML) được quyết định bằng dữ liệu của mô hình đó. Cung cấp dữ liệu lập mô hình dữ liệu lành mạnh và dữ liệu đó sẽ phát triển mạnh mẽ; cho mô hình của bạn và các dự đoán sẽ không có giá trị.
Các phương pháp hay nhất để làm việc với dữ liệu số:
- Hãy nhớ rằng mô hình ML tương tác với dữ liệu trong vectơ đối tượng, chứ không phải dữ liệu trong tập dữ liệu.
- Chuẩn hoá nhiều nhất tính năng bằng số.
- Nếu chiến lược chuẩn hoá đầu tiên của bạn không thành công, hãy cân nhắc một chiến lược khác để chuẩn hoá dữ liệu.
- Kết hợp, còn gọi là phân giỏ đôi khi là tốt hơn so với chuẩn hoá.
- Xem xét dữ liệu của bạn nên trông như thế nào, hãy viết mã xác minh
thử nghiệm để xác thực những kỳ vọng đó. Ví dụ:
- Giá trị tuyệt đối của vĩ độ không được vượt quá 90. Bạn có thể viết kiểm tra để kiểm tra xem giá trị vĩ độ lớn hơn 90 có xuất hiện trong dữ liệu của bạn hay không.
- Nếu dữ liệu của bạn bị hạn chế ở tiểu bang Florida, bạn có thể viết mã kiểm thử để kiểm tra xem vĩ độ có nằm trong khoảng từ 24 đến 31 hay không.
- Trực quan hoá dữ liệu của bạn bằng biểu đồ tán xạ và biểu đồ tần suất. Tìm điểm bất thường.
- Thu thập số liệu thống kê không chỉ trên toàn bộ tập dữ liệu mà còn trên các tập dữ liệu nhỏ hơn các tập con của tập dữ liệu. Đó là do số liệu thống kê tổng hợp đôi khi che khuất vấn đề trong các phần nhỏ hơn của tập dữ liệu.
- Ghi lại tất cả các lượt chuyển đổi dữ liệu.
Dữ liệu là tài nguyên có giá trị nhất của bạn, vì vậy, hãy cẩn thận khi sử dụng dữ liệu.
Thông tin bổ sung
- Hướng dẫn về Quy tắc học máy chứa thông tin có giá trị Kỹ thuật tính năng.
Các bước tiếp theo
Chúc mừng bạn đã hoàn thành học phần này!
Bạn nên khám phá nhiều mô-đun MLCC theo tốc độ và mối quan tâm của riêng bạn. Nếu bạn muốn làm theo đơn đặt hàng được đề xuất, bạn nên chuyển sang mô-đun sau đây tiếp theo: Trình bày dữ liệu phân loại.