Trước khi tạo vectơ đặc trưng, bạn nên nghiên cứu dữ liệu số theo hai cách:
- Hình ảnh hoá dữ liệu của bạn trong biểu đồ hoặc đồ thị.
- Xem số liệu thống kê về dữ liệu của bạn.
Trình bày trực quan dữ liệu của bạn
Biểu đồ có thể giúp bạn tìm thấy các điểm bất thường hoặc mẫu ẩn trong dữ liệu. Do đó, trước khi đi sâu vào phân tích, hãy xem dữ liệu của bạn dưới dạng đồ thị, dưới dạng biểu đồ tán xạ hoặc biểu đồ tần suất. Xem biểu đồ không chỉ ở đầu quy trình dữ liệu mà còn trong suốt quá trình chuyển đổi dữ liệu. Hình ảnh trực quan giúp bạn liên tục kiểm tra các giả định của mình.
Bạn nên sử dụng pandas để tạo hình ảnh:
Xin lưu ý rằng một số công cụ trực quan hoá được tối ưu hoá cho một số định dạng dữ liệu nhất định. Công cụ trực quan hoá giúp bạn đánh giá vùng đệm giao thức có thể hoặc không thể giúp bạn đánh giá dữ liệu CSV.
Đánh giá dữ liệu của bạn theo số liệu thống kê
Ngoài việc phân tích hình ảnh, bạn cũng nên đánh giá các tính năng và nhãn tiềm năng theo toán học, thu thập số liệu thống kê cơ bản như:
- trung bình và trung vị
- độ lệch chuẩn
- các giá trị tại các điểm phân chia tứ phân vị: bách phân vị thứ 0, 25, 50, 75 và 100. Bách phân vị thứ 0 là giá trị tối thiểu của cột này; bách phân vị thứ 100 là giá trị tối đa của cột này. (Phân vị thứ 50 là giá trị trung bình.)
Tìm điểm ngoại lai
Điểm ngoại lai là một giá trị xa cách với hầu hết các giá trị khác trong một đặc điểm hoặc nhãn. Giá trị ngoại lai thường gây ra vấn đề trong quá trình huấn luyện mô hình, vì vậy, việc tìm giá trị ngoại lai là rất quan trọng.
Khi delta giữa bách phân vị thứ 0 và thứ 25 khác biệt đáng kể với delta giữa bách phân vị thứ 75 và thứ 100, thì tập dữ liệu có thể chứa giá trị ngoại lai.
Giá trị ngoại lai có thể thuộc bất kỳ danh mục nào sau đây:
- Giá trị ngoại lai là do lỗi. Ví dụ: có thể người thử nghiệm đã nhập nhầm một số 0, hoặc có thể một thiết bị thu thập dữ liệu đã bị trục trặc. Thông thường, bạn sẽ xoá các ví dụ chứa lỗi ngoại lai.
- Giá trị ngoại lai là một điểm dữ liệu hợp lệ, không phải là lỗi.
Trong trường hợp này, liệu mô hình đã huấn luyện của bạn có cần suy luận chính xác về các giá trị ngoại lai này không?
- Nếu có, hãy giữ lại các giá trị ngoại lai này trong tập huấn luyện. Xét cho cùng, các giá trị ngoại lai trong một số tính năng nhất định đôi khi phản ánh các giá trị ngoại lai trong nhãn, vì vậy, các giá trị ngoại lai thực sự có thể giúp mô hình của bạn đưa ra dự đoán chính xác hơn. Hãy cẩn thận, các giá trị ngoại lai cực đoan vẫn có thể làm hỏng mô hình của bạn.
- Nếu không, hãy xoá các điểm ngoại lai hoặc áp dụng các kỹ thuật kỹ thuật tính năng mang tính xâm phạm hơn, chẳng hạn như cắt phần.