Kiểm tra kiến thức

Những câu hỏi sau đây giúp bạn củng cố kiến thức về các khái niệm cốt lõi của công nghệ học máy.

Sức mạnh dự đoán

Các mô hình học máy có giám sát được huấn luyện bằng cách sử dụng tập dữ liệu có các ví dụ được gắn nhãn. Mô hình này học cách dự đoán nhãn từ các đặc điểm. Tuy nhiên, không phải đặc điểm nào trong tập dữ liệu cũng có sức mạnh dự đoán. Trong một số trường hợp, chỉ có một vài đặc điểm đóng vai trò là yếu tố dự đoán nhãn. Trong tập dữ liệu bên dưới, hãy sử dụng giá làm nhãn và các cột còn lại làm đặc điểm.

Ví dụ được gắn nhãn về các thuộc tính của ô tô.

Bạn cho rằng 3 đặc điểm nào có khả năng là yếu tố dự đoán mạnh nhất cho giá của một chiếc xe?
Make_model, year, miles.
Thương hiệu/mẫu xe, năm sản xuất và số dặm đi được có khả năng là những yếu tố dự đoán mạnh nhất cho giá của chiếc xe.
Color, height, make_model.
Chiều cao và màu sắc của xe không phải là yếu tố dự đoán mạnh cho giá của xe.
Miles, gearbox, make_model.
Hộp số không phải là yếu tố dự đoán chính cho giá.
Tire_size, wheel_base, year.
Kích thước lốp và chiều dài cơ sở không phải là yếu tố dự đoán mạnh cho giá của xe.

Học có giám sát và học không có giám sát

Dựa trên vấn đề, bạn sẽ sử dụng phương pháp có giám sát hoặc không có giám sát. Ví dụ: nếu biết trước giá trị hoặc danh mục mà bạn muốn dự đoán, bạn sẽ sử dụng phương pháp học có giám sát. Tuy nhiên, nếu muốn tìm hiểu xem tập dữ liệu của bạn có chứa bất kỳ phân đoạn hoặc nhóm ví dụ liên quan nào hay không, bạn sẽ sử dụng phương pháp học không có giám sát.

Giả sử bạn có một tập dữ liệu người dùng cho một trang web mua sắm trực tuyến và tập dữ liệu đó chứa các cột sau:

Hình ảnh một hàng thuộc tính khách hàng.

Nếu muốn hiểu rõ các loại người dùng truy cập vào trang web, bạn sẽ sử dụng phương pháp học có giám sát hay không có giám sát?
Học không có giám sát.
Vì chúng tôi muốn mô hình này nhóm các nhóm khách hàng liên quan, chúng tôi sẽ sử dụng phương pháp học không có giám sát. Sau khi mô hình nhóm người dùng, chúng tôi sẽ tự tạo tên cho từng nhóm, ví dụ: "người tìm kiếm chiết khấu", "người săn ưu đãi", "người lướt web", "khách hàng trung thành" và "người mua sắm ngẫu hứng".
Học có giám sát vì tôi đang cố gắng dự đoán lớp mà người dùng thuộc về.
Trong phương pháp học có giám sát, tập dữ liệu phải chứa nhãn mà bạn đang cố gắng dự đoán. Trong tập dữ liệu, không có nhãn nào đề cập đến a danh mục người dùng.

Giả sử bạn có một tập dữ liệu về mức sử dụng năng lượng cho các ngôi nhà có các cột sau:

Hình ảnh một hàng thuộc tính của nhà.

Bạn sẽ sử dụng loại học máy nào để dự đoán số ki-lô-oát giờ sử dụng mỗi năm cho một ngôi nhà mới xây?
Học có giám sát.
Phương pháp học có giám sát huấn luyện dựa trên các ví dụ được gắn nhãn. Trong tập dữ liệu này, "số ki-lô-oát giờ sử dụng mỗi năm" sẽ là nhãn vì đây là giá trị mà bạn muốn mô hình dự đoán. Các đặc điểm sẽ là "diện tích sàn", "vị trí" và "năm xây dựng".
Học không có giám sát.
Phương pháp học không có giám sát sử dụng các ví dụ không được gắn nhãn. Trong ví dụ này, "số ki-lô-oát giờ sử dụng mỗi năm" sẽ là nhãn vì đây là giá trị mà bạn muốn mô hình dự đoán.

Giả sử bạn có một tập dữ liệu chuyến bay có các cột sau:

Hình ảnh một hàng dữ liệu chuyến bay.

Nếu muốn dự đoán chi phí của vé máy bay, bạn sẽ sử dụng phương pháp hồi quy hay phân loại?
Hồi quy
Đầu ra của mô hình hồi quy là một giá trị số.
Phân loại
Đầu ra của mô hình phân loại là một giá trị rời rạc, thường là một từ. Trong trường hợp này, chi phí của vé máy bay là một giá trị số.
Dựa trên tập dữ liệu, bạn có thể huấn luyện mô hình phân loại để phân loại chi phí của vé máy bay là "cao," "trung bình" hoặc "thấp" không?
Có, nhưng trước tiên, chúng ta cần chuyển đổi các giá trị số trong cột airplane_ticket_cost thành giá trị phân loại.
Bạn có thể tạo mô hình phân loại từ tập dữ liệu. Bạn sẽ thực hiện như sau:
  1. Tìm chi phí trung bình của vé từ sân bay khởi hành đến sân bay đến.
  2. Xác định các ngưỡng sẽ tạo thành "cao," "trung bình," và "thấp".
  3. So sánh chi phí dự đoán với các ngưỡng và xuất danh mục mà giá trị thuộc về.
Không. Bạn không thể tạo mô hình phân loại. Các giá trị airplane_ticket_cost là giá trị số chứ không phải giá trị phân loại.
Chỉ cần bỏ ra một chút công sức, bạn có thể tạo mô hình phân loại.
Không. Mô hình phân loại chỉ dự đoán 2 danh mục, chẳng hạn như spam hoặc not_spam. Mô hình này cần dự đoán 3 danh mục.
Mô hình phân loại có thể dự đoán nhiều danh mục. Chúng được gọi là mô hình phân loại đa lớp.

Huấn luyện và đánh giá

Sau khi huấn luyện mô hình, chúng ta sẽ đánh giá mô hình đó bằng cách sử dụng tập dữ liệu có các ví dụ được gắn nhãn và so sánh giá trị dự đoán của mô hình với giá trị thực tế của nhãn.

Chọn 2 câu trả lời hay nhất cho câu hỏi.

Nếu kết quả dự đoán của mô hình khác xa so với thực tế, bạn có thể làm gì để cải thiện kết quả dự đoán?
Huấn luyện lại mô hình, nhưng chỉ sử dụng những đặc điểm mà bạn tin rằng có sức mạnh dự đoán mạnh nhất cho nhãn.
Việc huấn luyện lại mô hình với ít đặc điểm hơn nhưng có sức mạnh dự đoán cao hơn có thể tạo ra một mô hình đưa ra kết quả dự đoán tốt hơn.
Bạn không thể sửa một mô hình có kết quả dự đoán khác xa so với thực tế.
Bạn có thể sửa một mô hình có kết quả dự đoán không chính xác. Hầu hết các mô hình cần nhiều vòng huấn luyện cho đến khi đưa ra kết quả dự đoán hữu ích.
Huấn luyện lại mô hình bằng cách sử dụng tập dữ liệu lớn hơn và đa dạng hơn.
Các mô hình được huấn luyện trên tập dữ liệu có nhiều ví dụ hơn và phạm vi giá trị rộng hơn có thể đưa ra kết quả dự đoán tốt hơn vì mô hình có giải pháp tổng quát tốt hơn cho mối quan hệ giữa các đặc điểm và nhãn.
Hãy thử một phương pháp huấn luyện khác. Ví dụ: nếu bạn sử dụng phương pháp có giám sát, hãy thử phương pháp không có giám sát.
Một phương pháp huấn luyện khác sẽ không tạo ra kết quả dự đoán tốt hơn dự đoán.

Bây giờ, bạn đã sẵn sàng thực hiện bước tiếp theo trong hành trình học máy: