Các mô hình học máy chỉ có thể huấn luyện dựa trên các giá trị dấu phẩy động. Tuy nhiên, nhiều đối tượng của tập dữ liệu không phải là giá trị dấu phẩy động tự nhiên. Do đó, một phần quan trọng của công nghệ học máy là chuyển đổi đối tượng không dấu phẩy động đến biểu diễn dấu phẩy động.
Ví dụ: giả sử street names
là một tính năng. Hầu hết tên đường phố
là các chuỗi, chẳng hạn như "Broadway" hoặc "Vilakazi".
Mô hình của bạn không thể huấn luyện theo " Broadway", nên bạn phải chuyển đổi sang "Broadway"
thành số dấu phẩy động. Dữ liệu danh mục
mô-đun
sẽ giải thích cách thực hiện việc này.
Ngoài ra, bạn thậm chí nên chuyển đổi hầu hết các đối tượng dấu phẩy động. Quá trình chuyển đổi này được gọi là chuẩn hoá, chuyển đổi dấu phẩy động thành một phạm vi giới hạn giúp cải thiện việc huấn luyện mô hình. Dữ liệu số mô-đun sẽ giải thích cách thực hiện việc này.
Dữ liệu mẫu khi bạn có quá nhiều dữ liệu
Một số tổ chức được ưu tiên cung cấp lượng dữ liệu dồi dào. Khi tập dữ liệu chứa quá nhiều ví dụ, bạn phải chọn một tập hợp con ví dụ để huấn luyện. Khi có thể, hãy chọn tập hợp con quan trọng nhất có liên quan đến dự đoán của mô hình.
Lọc các ví dụ có chứa PII
Tập dữ liệu tốt bỏ qua các ví dụ chứa Thông tin nhận dạng cá nhân (PII). Chính sách này giúp đảm bảo quyền riêng tư nhưng có thể ảnh hưởng đến mô hình.
Hãy xem học phần An toàn và quyền riêng tư trong phần sau của khoá học để tìm hiểu thêm về các chủ đề này.