Những câu hỏi sau đây sẽ giúp bạn củng cố kiến thức về các khái niệm chính của công nghệ học máy.
Nguồn dự đoán
Mô hình học máy có giám sát được huấn luyện bằng cách sử dụng tập dữ liệu có các ví dụ được gắn nhãn. Mô hình này sẽ tìm hiểu cách dự đoán nhãn dựa trên các tính năng. Tuy nhiên, không phải tính năng nào trong tập dữ liệu cũng có khả năng dự đoán. Trong một số trường hợp, chỉ một vài tính năng đóng vai trò là thông tin dự đoán nhãn. Trong tập dữ liệu dưới đây, hãy sử dụng giá làm nhãn và các cột còn lại làm đối tượng.
Bạn nghĩ ba tính năng nào có khả năng là yếu tố dự đoán tốt nhất cho giá của một chiếc ô tô?
Make_model, năm, dặm.
Nhà sản xuất/mẫu xe, năm sản xuất và số dặm xe có khả năng là một trong những yếu tố dự đoán chính xác nhất để đưa ra giá bán.
Màu sắc, chiều cao, kiểu máy.
Chiều cao và màu sắc của ô tô không phải là yếu tố dự đoán mạnh mẽ giá của ô tô.
Dặm, hộp số, kiểu_mẫu.
Hộp số không phải là yếu tố dự đoán chính về giá.
Kích thước lốp, chiều dài_cơ sở, năm.
Kích thước lốp và đế bánh không phải là các yếu tố dự đoán mạnh mẽ giá của ô tô.
Học có giám sát và không giám sát
Dựa trên vấn đề, bạn sẽ sử dụng phương pháp có giám sát hoặc không có sự giám sát.
Ví dụ: nếu biết trước giá trị hoặc danh mục mà bạn muốn dự đoán, bạn sẽ sử dụng công nghệ học có giám sát. Tuy nhiên, nếu muốn tìm hiểu xem tập dữ liệu của bạn có chứa phân đoạn hoặc nhóm ví dụ có liên quan nào hay không, bạn sẽ sử dụng công nghệ học không được giám sát.
Giả sử bạn đã có tập dữ liệu người dùng cho trang web mua sắm trực tuyến và tập dữ liệu đó chứa các cột sau:
Nếu muốn biết các kiểu người dùng truy cập trang web, bạn sẽ sử dụng phương pháp học có giám sát hay không có giám sát?
Học không giám sát.
Vì muốn mô hình này nhóm các nhóm khách hàng có liên quan,
nên chúng tôi sẽ sử dụng công nghệ học không có giám sát. Sau khi mô hình này nhóm người dùng lại, chúng tôi sẽ tạo tên riêng cho từng cụm, ví dụ: "người tìm kiếm ưu đãi giảm giá", "người săn ưu đãi", "người lướt sóng", "người trung thành" và "người lang thang".
Phương pháp học có giám sát vì tôi đang cố gắng dự đoán người dùng thuộc lớp nào.
Trong chế độ học có giám sát, tập dữ liệu phải chứa nhãn mà bạn đang cố gắng dự đoán. Trong tập dữ liệu, không có nhãn nào tham chiếu đến một danh mục người dùng.
Giả sử bạn có một tập dữ liệu về mức sử dụng năng lượng của nhà với các cột sau:
Bạn sẽ dùng loại công nghệ học máy nào để dự đoán số kilowatt giờ sử dụng mỗi năm cho một ngôi nhà mới xây?
Học có giám sát.
Công nghệ học có giám sát sẽ luyện tập qua các ví dụ có gắn nhãn. Trong tập dữ liệu này, "số giờ calo sử dụng mỗi năm" sẽ là nhãn vì đây là giá trị mà bạn muốn mô hình dự đoán. Các đối tượng này sẽ là "theo phút vuông", "vị trí" và "năm xây dựng".
Học không giám sát.
Tính năng học tập không giám sát sử dụng các ví dụ chưa gắn nhãn. Trong ví dụ này, "số giờ calo sử dụng mỗi năm" sẽ là nhãn vì đây là giá trị mà bạn muốn mô hình dự đoán.
Giả sử bạn đã có tập dữ liệu chuyến bay với các cột sau:
Nếu muốn dự đoán chi phí của một vé huấn luyện viên, bạn sẽ sử dụng phương pháp hồi quy hay phân loại?
Hồi quy
Kết quả đầu ra của mô hình hồi quy là một giá trị số.
Phân loại
Kết quả của mô hình phân loại là một giá trị rời rạc, thường là một từ. Trong trường hợp này, giá vé tàu là một giá trị số.
Dựa trên tập dữ liệu, bạn có thể huấn luyện mô hình phân loại
để phân loại chi phí của vé xe khách là
"cao", "trung bình" hoặc "thấp" không?
Có, nhưng trước tiên chúng tôi cần chuyển đổi các giá trị số trong cột coach_ticket_cost
thành giá trị phân loại.
Bạn có thể tạo một mô hình phân loại từ tập dữ liệu.
Bạn sẽ làm như sau:
- Tính chi phí trung bình của vé từ sân bay khởi hành đến
sân bay đích.
- Xác định các ngưỡng sẽ cấu thành "cao", "trung bình" và "thấp".
- So sánh chi phí dự đoán với các ngưỡng và xuất danh mục tương ứng với giá trị đó.
Không. Không thể tạo mô hình phân loại. Các giá trị coach_ticket_cost
là số không phân loại.
Chỉ cần bỏ ra một chút công sức là bạn có thể tạo mô hình phân loại.
Không. Các mô hình phân loại chỉ dự đoán 2 danh mục, như spam
hoặc not_spam
. Mô hình này cần dự đoán 3 danh mục.
Các mô hình phân loại có thể dự đoán nhiều danh mục. Những mô hình này được gọi là mô hình phân loại nhiều lớp.
Đào tạo và đánh giá
Sau khi huấn luyện một mô hình, chúng tôi sẽ đánh giá mô hình đó bằng cách sử dụng tập dữ liệu có các ví dụ được gắn nhãn và so sánh giá trị dự đoán của mô hình với giá trị thực tế của nhãn.
Hãy chọn hai câu trả lời đúng nhất cho câu hỏi này.
Nếu dự đoán của mô hình xa hơn, bạn có thể làm gì để cải thiện chúng?
Đào tạo lại mô hình, nhưng chỉ sử dụng những tính năng mà bạn cho rằng có khả năng dự đoán mạnh mẽ nhất đối với nhãn.
Việc huấn luyện lại mô hình có ít tính năng hơn nhưng có khả năng dự đoán cao hơn có thể tạo ra một mô hình đưa ra dự đoán tốt hơn.
Bạn không thể sửa mô hình có các dự đoán ở xa.
Bạn có thể sửa mô hình có dự đoán bị tắt. Hầu hết các mô hình yêu cầu nhiều vòng huấn luyện cho đến khi đưa ra dự đoán hữu ích.
Đào tạo lại mô hình bằng cách sử dụng tập dữ liệu lớn hơn và đa dạng hơn.
Các mô hình được huấn luyện trên tập dữ liệu có nhiều ví dụ hơn và phạm vi giá trị rộng hơn có thể đưa ra dự đoán tốt hơn vì mô hình có giải pháp tổng quát hơn cho mối quan hệ giữa các đối tượng và nhãn.
Hãy thử một phương pháp đào tạo khác. Ví dụ: nếu bạn sử dụng phương pháp được giám sát, hãy thử phương pháp không được giám sát.
Phương pháp huấn luyện khác sẽ không đưa ra dự đoán tốt hơn.
Giờ đây, bạn đã sẵn sàng thực hiện bước tiếp theo trong hành trình học máy của mình:
Sách hướng dẫn về con người và AI (trí tuệ nhân tạo). Nếu bạn đang tìm một tập hợp các phương pháp, phương pháp hay nhất và ví dụ do nhân viên của Google, chuyên gia trong ngành và nghiên cứu học thuật giới thiệu về việc sử dụng công nghệ học máy.
Sự cố khi lập khung hình. Nếu bạn đang tìm kiếm một phương pháp thử nghiệm tại hiện trường để tạo mô hình học máy và tránh các lỗi thường gặp trong quá trình này.
Khoá học máy học nhanh. Nếu bạn đã sẵn sàng áp dụng phương pháp chuyên sâu và thiết thực để tìm hiểu thêm về công nghệ học máy.