Quy trình chuẩn bị dữ liệu và kỹ thuật tính năng

Quy trình như thế nào?

Như đã đề cập trước đó, khoá học này tập trung vào việc xây dựng tập dữ liệu và biến đổi dữ liệu.

Quá trình tạo tập dữ liệu bao gồm các tác vụ sau: 1. Thu thập dữ liệu thô.  2. Xác định nguồn tính năng và nhãn. 3. Chọn chiến lược lấy mẫu.
4. Phân chia dữ liệu. Việc chuyển đổi dữ liệu bao gồm các nhiệm vụ sau: 1. Khám phá và dọn dẹp dữ liệu của bạn. 2. Thực hiện kỹ thuật
tính năng.

Lưu ý:

  • Hình bên dưới cho thấy một quy trình bình thường, có thể không lý tưởng cho mọi dự án. Khoá học này chủ yếu áp dụng cho hồi quy tuyến tính và mạng nơron.
  • Quá trình được hiển thị không phải lúc nào cũng tuần tự. Ví dụ: bạn có thể phân tách dữ liệu sau khi chuyển đổi. Bạn có thể cần thu thập thêm dữ liệu. Bạn có thể cần phải sửa đổi bộ tính năng, ngay cả sau khi huấn luyện bắt đầu, khi bạn tìm hiểu theo kinh nghiệm về những tính năng hoạt động và những tính năng không hoạt động.

Thời gian xử lý?

Đối với câu hỏi sau, hãy nhấp vào mũi tên mong muốn để kiểm tra câu trả lời của bạn:

Hãy đoán: Trong dự án máy học, bạn thường dành bao nhiêu thời gian để chuẩn bị và biến đổi dữ liệu?
Hơn một nửa thời gian của dự án
Chính xác: bạn sẽ dành phần lớn thời gian cho một dự án máy học để xây dựng tập dữ liệu và biến đổi dữ liệu.
Ít hơn một nửa thời gian dự án
Hãy lập kế hoạch để tìm hiểu thêm! Thông thường, 80% thời gian cho một dự án máy học là dành để xây dựng tập dữ liệu và biến đổi dữ liệu.