Tập dữ liệu, khái quát hoá và điều chỉnh quá mức

Mục tiêu học tập

Xác định 4 đặc điểm khác nhau của dữ liệu và tập dữ liệu.
Xác định ít nhất 4 nguyên nhân khiến dữ liệu không đáng tin cậy.
Xác định thời điểm loại bỏ dữ liệu bị thiếu và thời điểm áp dụng dữ liệu đó.
Phân biệt giữa nhãn trực tiếp và nhãn phái sinh.
Hãy xác định hai cách khác nhau để cải thiện chất lượng của nhãn do con người phân loại.
Giải thích lý do chia nhỏ tập dữ liệu thành tập huấn luyện, tập xác thực và tập kiểm thử; xác định vấn đề tiềm ẩn trong việc phân tách dữ liệu.
Giải thích việc sử dụng quá mức và xác định ba nguyên nhân có thể gây ra tình trạng này.
Giải thích khái niệm chuẩn hoá. Cụ thể, hãy giải thích những nội dung sau:
- Độ lệch so với phương sai (điều chỉnh cho các giá trị ngoại lai…)
- Quy trình điều chỉnh L₂, bao gồm cả Lambda (chính quy hoá) tỷ lệ)
- Dừng sớm
Diễn giải các loại đường cong tổn thất; phát hiện sự hội tụ và tình trạng phù hợp quá mức trong các đường cong tổn thất.

Giới thiệu

Học phần này bắt đầu với một câu hỏi dẫn đầu. Chọn một trong các câu trả lời sau:

Nếu bạn phải ưu tiên cải thiện một trong những khía cạnh sau đây trong dự án học máy, khía cạnh nào sẽ có tác động nhiều nhất?

Cải thiện chất lượng tập dữ liệu

Dữ liệu chiếm ưu thế hơn tất cả. Chất lượng và kích thước của tập dữ liệu quan trọng hơn nhiều so với việc bạn sử dụng thuật toán nào trong Shiny để xây dựng mô hình.

Áp dụng hàm mất thông minh hơn để huấn luyện mô hình

Đúng là một hàm tổn thất tốt hơn có thể giúp mô hình huấn luyện nhanh hơn, nhưng hàm này vẫn còn kém xa một mục khác trong danh sách này.

Và đây là một câu hỏi dẫn dắt hơn nữa:

Thử đoán: Trong dự án học máy của bạn, bạn cần bao nhiêu thời gian bạn thường dành cho việc chuẩn bị và chuyển đổi dữ liệu?

Hơn một nửa thời gian dự án

Có, chuyên viên công nghệ học máy dành phần lớn thời gian của họ xây dựng tập dữ liệu và thực hiện kỹ thuật đối tượng.

Dưới một nửa thời gian của dự án

Hãy lên kế hoạch để làm nhiều việc hơn! Thông thường, 80% thời gian của một dự án học máy là dành cho việc tạo tập dữ liệu và chuyển đổi dữ liệu.

Trong học phần này, bạn sẽ tìm hiểu thêm về các đặc điểm của công nghệ học máy và cách chuẩn bị dữ liệu nhằm đảm bảo kết quả chất lượng cao khi huấn luyện và đánh giá mô hình của bạn.

Kiểm tra kiến thức (10 phút)

Tiếp

Đặc điểm dữ liệu (10 phút)

Tập dữ liệu, khái quát hoá và điều chỉnh quá mức Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Giới thiệu

Tập dữ liệu, khái quát hoá và điều chỉnh quá mức