Tập dữ liệu: Chuyển đổi dữ liệu

Mô hình học máy chỉ có thể huấn luyện trên các giá trị dấu phẩy động. Tuy nhiên, nhiều đặc điểm của tập dữ liệu không phải là giá trị dấu phẩy động. Do đó, một phần quan trọng của công nghệ học máy là chuyển đổi các tính năng không phải dấu phẩy động thành các đại diện dấu phẩy động.

Ví dụ: giả sử street names là một tính năng. Hầu hết tên đường đều là chuỗi, chẳng hạn như "Broadway" hoặc "Vilakazi". Mô hình của bạn không thể huấn luyện trên "Broadway", vì vậy, bạn phải chuyển đổi "Broadway" thành số dấu phẩy động. Mô-đun Dữ liệu phân loại giải thích cách thực hiện việc này.

Ngoài ra, bạn thậm chí nên biến đổi hầu hết các tính năng dấu phẩy động. Quá trình biến đổi này, được gọi là chuẩn hoá, chuyển đổi số dấu phẩy động thành một phạm vi bị ràng buộc giúp cải thiện quá trình huấn luyện mô hình. Mô-đun dữ liệu số giải thích cách thực hiện việc này.

Lấy mẫu dữ liệu khi bạn có quá nhiều dữ liệu

Một số tổ chức có rất nhiều dữ liệu. Khi tập dữ liệu chứa quá nhiều ví dụ, bạn phải chọn một nhóm con các ví dụ để huấn luyện. Khi có thể, hãy chọn tập hợp con phù hợp nhất với dự đoán của mô hình.

Ví dụ về bộ lọc chứa thông tin nhận dạng cá nhân

Tập dữ liệu tốt sẽ bỏ qua các ví dụ chứa Thông tin nhận dạng cá nhân (PII). Chính sách này giúp bảo vệ quyền riêng tư nhưng có thể ảnh hưởng đến mô hình.

Hãy xem mô-đun An toàn và quyền riêng tư trong phần sau của khoá học để biết thêm về các chủ đề này.