Dữ liệu số: Các bước đầu tiên

Trước khi tạo vectơ đối tượng, chúng tôi khuyên bạn nên nghiên cứu dữ liệu số theo hai cách:

  • Trực quan hoá dữ liệu dưới dạng biểu đồ hoặc đồ thị.
  • Xem số liệu thống kê về dữ liệu của bạn.

Trình bày trực quan dữ liệu của bạn

Biểu đồ có thể giúp bạn tìm những điểm bất thường hoặc mẫu ẩn trong dữ liệu. Do đó, trước khi đi sâu vào phân tích, hãy xem xét dữ liệu bằng đồ thị, dưới dạng biểu đồ tán xạ hoặc biểu đồ. Không xem được biểu đồ chỉ ở thời điểm bắt đầu của quy trình dữ liệu, mà còn trong suốt toàn bộ dữ liệu phép biến đổi. Hình ảnh trực quan giúp bạn liên tục kiểm tra các giả định của mình.

Bạn nên dùng gấu trúc để trình bày trực quan:

Xin lưu ý rằng một số công cụ tạo hình ảnh được tối ưu hoá cho một số định dạng dữ liệu nhất định. Một công cụ trực quan hoá giúp bạn đánh giá vùng đệm giao thức có thể hoặc không giúp bạn đánh giá dữ liệu CSV.

Đánh giá dữ liệu của bạn theo cách thống kê

Ngoài việc phân tích trực quan, bạn cũng nên đánh giá các tính năng và theo phương pháp toán học, thu thập các số liệu thống kê cơ bản như:

  • trung bình và trung vị
  • độ lệch chuẩn
  • giá trị tại các phân vị tứ phân vị: 0, 25, 50, 75 và 100 phân vị. Phân vị thứ 0 là giá trị nhỏ nhất của cột này; thời gian Phân vị thứ 100 là giá trị lớn nhất của cột này. (Phân vị 50% là trung vị.)

Tìm điểm ngoại lai

Giá trị ngoại lai là một giá trị cách xa từ hầu hết các giá trị khác trong một tính năng hoặc nhãn. Các giá trị ngoại lai thường gây ra sự cố trong quá trình huấn luyện mô hình, nên việc tìm các điểm ngoại lai là rất quan trọng.

Khi delta giữa phân vị thứ 0 và phân vị thứ 25 chênh lệch đáng kể từ đồng bằng giữa phân vị thứ 75 và phân vị thứ 100, tập dữ liệu có thể có chứa các điểm ngoại lai.

Các điểm ngoại lai có thể thuộc bất kỳ danh mục nào sau đây:

  • Trường hợp ngoại lệ là do nhầm lẫn. Ví dụ: có thể người thử nghiệm đã nhập nhầm số 0, hoặc có thể là công cụ thu thập dữ liệu bị trục trặc. Thông thường, bạn sẽ xoá các ví dụ có chứa các trường hợp ngoại lệ.
  • Trường hợp ngoại lệ là một điểm dữ liệu hợp lệ, không phải là nhầm lẫn. Trong trường hợp này, mô hình đã huấn luyện của bạn cuối cùng có cần suy ra dự đoán tốt về những ngoại lệ này không?
    • Nếu có, hãy đưa những điểm ngoại lai này vào bộ bài tập huấn luyện của bạn. Suy cho cùng, những điểm ngoại lai trong một số tính năng, đôi khi phản ánh những điểm ngoại lai trong nhãn, do đó các điểm ngoại lai thực sự có thể giúp mô hình của bạn đưa ra dự đoán chính xác hơn. Hãy cẩn thận, những điểm ngoại lai quá lớn vẫn có thể ảnh hưởng đến mô hình của bạn.
    • Nếu không, hãy xoá các điểm ngoại lai hoặc áp dụng kỹ thuật trích xuất tính năng xâm phạm hơn kỹ thuật khác, chẳng hạn như cắt đoạn.