Giới thiệu về việc chuyển đổi dữ liệu

Kỹ thuật tính năng là quá trình xác định tính năng nào có thể hữu ích trong quá trình huấn luyện mô hình, sau đó tạo các tính năng đó bằng cách biến đổi dữ liệu thô có trong tệp nhật ký và các nguồn khác. Trong phần này, chúng tôi tập trung vào thời điểm và cách chuyển đổi dữ liệu số và phân loại cũng như sự cân bằng của nhiều phương pháp.

Lý do chuyển đổi dữ liệu

Chúng tôi chủ yếu chuyển đổi các tính năng vì những lý do sau:

  1. Các biến đổi bắt buộc để đảm bảo khả năng tương thích với dữ liệu. Ví dụ:

    • Chuyển đổi các đối tượng địa lý không phải dạng số thành số. Bạn không thể nhân ma trận trên một chuỗi, vì vậy, chúng ta phải chuyển đổi chuỗi thành một cách biểu diễn số.
    • Đang đổi kích thước dữ liệu đầu vào thành kích thước cố định. Các mô hình tuyến tính và mạng nơron chuyển tiếp nguồn cấp dữ liệu có số lượng nút đầu vào cố định, vì vậy, dữ liệu đầu vào phải luôn có cùng kích thước. Ví dụ: các mô hình hình ảnh cần định hình lại hình ảnh trong tập dữ liệu để có kích thước cố định.
  2. Các biến đổi chất lượng không bắt buộc có thể giúp mô hình hoạt động hiệu quả hơn. Ví dụ:

    • Mã hoá hoặc viết hoa các tính năng văn bản.
    • Các đối tượng địa lý dạng số được chuẩn hóa (hầu hết các mô hình đều hoạt động tốt hơn sau đó).
    • Cho phép các mô hình tuyến tính đưa các tính năng phi tuyến tính vào không gian của đối tượng.

Nói một cách chính xác, chuyển đổi chất lượng là không cần thiết--mô hình của bạn vẫn có thể chạy mà không cần chúng. Tuy nhiên, việc sử dụng những kỹ thuật này có thể giúp mô hình mang lại kết quả tốt hơn.

Nơi chuyển đổi?

Bạn có thể áp dụng các phép biến đổi trong khi tạo dữ liệu trên đĩa hoặc trong mô hình.

Chuyển đổi trước khi đào tạo

Trong phương pháp này, chúng tôi sẽ chuyển đổi trước khi đào tạo. Mã này tách biệt với mô hình máy học.

Ưu điểm

  • Tính toán chỉ được thực hiện một lần.
  • Tính toán có thể xem xét toàn bộ tập dữ liệu để xác định chuyển đổi.

Nhược điểm

  • Các phép biến đổi cần được tái tạo vào thời điểm dự đoán. Chú ý tới độ lệch!
  • Mọi thay đổi về chuyển đổi cần phải chạy lại quá trình tạo dữ liệu, dẫn đến việc lặp lại chậm hơn.

Skew nguy hiểm hơn đối với các trường hợp liên quan đến phân phối trực tuyến. Trong quá trình phân phát ngoại tuyến, bạn có thể sử dụng lại mã tạo dữ liệu huấn luyện. Trong hoạt động phân phát trực tuyến, mã tạo tập dữ liệu và mã dùng để xử lý lưu lượng truy cập trực tiếp hầu như khác nhau, điều này giúp bạn dễ dàng giới thiệu về định dạng sai lệch.

Chuyển đổi trong mô hình

Trong phương pháp này, phép biến đổi là một phần của mã mô hình. Mô hình này sẽ lấy dữ liệu chưa được biến đổi làm dữ liệu đầu vào và sẽ biến đổi dữ liệu đó trong mô hình.

Ưu điểm

  • Lặp lại dễ dàng. Nếu thay đổi các phép biến đổi, bạn vẫn có thể sử dụng các tệp dữ liệu đó.
  • Bạn được đảm bảo các biến đổi giống nhau vào thời gian đào tạo và dự đoán.

Nhược điểm

  • Các biến đổi tốn kém có thể làm tăng độ trễ của mô hình.
  • Chuyển đổi là mỗi lô.

Có nhiều yếu tố cần cân nhắc để chuyển đổi theo lô. Giả sử bạn muốn chuẩn hoá một đối tượng theo giá trị trung bình – tức là bạn muốn thay đổi các giá trị của đối tượng để có 0 trung bình và độ lệch chuẩn 1. Khi chuyển đổi bên trong mô hình, hoạt động chuẩn hoá này sẽ chỉ có quyền truy cập vào một lô dữ liệu, chứ không phải tập dữ liệu đầy đủ. Bạn có thể chuẩn hóa theo giá trị trung bình trong một lô (nguy hiểm nếu các lô có nhiều biến thể) hoặc tính trước giá trị trung bình và sửa dưới dạng hằng số trong mô hình. Chúng ta sẽ khám phá quá trình chuẩn hóa trong phần tiếp theo.

Khám phá, dọn dẹp và trực quan hóa dữ liệu của bạn

Hãy khám phá và làm sạch dữ liệu của bạn trước khi thực hiện bất kỳ biến đổi nào đối với dữ liệu đó. Bạn có thể đã thực hiện một số tác vụ sau đây khi thu thập và tạo tập dữ liệu:

  • Kiểm tra một số hàng dữ liệu.
  • Kiểm tra thống kê cơ bản.
  • Sửa các mục số bị thiếu.

Thường xuyên trực quan hoá dữ liệu. Biểu đồ có thể giúp tìm các điểm bất thường hoặc mẫu mà không rõ ràng từ thống kê số. Do đó, trước khi đi sâu vào phân tích, hãy xem dữ liệu của bạn bằng đồ thị, thông qua các biểu đồ tán xạ hoặc biểu đồ. Xem biểu đồ không chỉ ở đầu quy trình mà còn trong suốt quá trình chuyển đổi. Hình ảnh trực quan sẽ giúp bạn liên tục kiểm tra các giả định của mình và xem tác động của bất kỳ thay đổi lớn nào.