Học phần này bắt đầu với một câu hỏi dẫn đầu.
Chọn một trong các câu trả lời sau:
Nếu bạn phải ưu tiên cải thiện một trong những khía cạnh sau
trong dự án học máy của bạn, đây là công cụ sẽ mang lại
ảnh hưởng đến bạn như thế nào?
Cải thiện chất lượng của tập dữ liệu
Dữ liệu chiếm ưu thế hơn tất cả.
Chất lượng và kích thước của tập dữ liệu đóng vai trò quan trọng hơn nhiều so với
thuật toán sáng tạo mà bạn sử dụng để xây dựng mô hình của mình.
Áp dụng hàm mất thông minh hơn để huấn luyện mô hình
Đúng, hàm mất hiệu quả hơn có thể giúp mô hình huấn luyện nhanh hơn, nhưng
vẫn còn cách xa mục khác trong danh sách này.
Và sau đây là một câu hỏi quan trọng hơn nữa:
Thử đoán: Trong dự án học máy của bạn, bạn cần bao nhiêu thời gian
bạn thường dành cho việc chuẩn bị và chuyển đổi dữ liệu?
Hơn một nửa thời gian của dự án
Có, chuyên viên công nghệ học máy dành phần lớn thời gian của họ
xây dựng tập dữ liệu và thực hiện kỹ thuật đối tượng.
Dưới một nửa thời gian của dự án
Hãy lập kế hoạch để tìm hiểu nhiều hơn! Thông thường, 80% thời gian của công nghệ học máy
dành cho việc xây dựng tập dữ liệu và chuyển đổi dữ liệu.
Trong học phần này, bạn sẽ tìm hiểu thêm về các đặc điểm của công nghệ học máy
và cách chuẩn bị dữ liệu nhằm đảm bảo kết quả chất lượng cao khi
huấn luyện và đánh giá mô hình của bạn.
[null,null,["Cập nhật lần gần đây nhất: 2024-08-13 UTC."],[[["This module emphasizes the critical role of data quality in machine learning projects, highlighting that it significantly impacts model performance more than algorithm choice."],["Machine learning practitioners typically dedicate a substantial portion of their project time (around 80%) to data preparation and transformation, including tasks like dataset construction and feature engineering."],["The module covers key concepts in data preparation, such as identifying data characteristics, handling unreliable data, understanding data labels, and splitting datasets for training and evaluation."],["Learners will gain insights into techniques for improving data quality, mitigating issues like overfitting, and interpreting loss curves to assess model performance."],["This module builds upon foundational machine learning concepts, assuming familiarity with topics like linear regression, numerical and categorical data handling, and basic machine learning principles."]]],[]]