Kiểm tra kiến thức

Những câu hỏi sau đây giúp bạn củng cố kiến thức về các khái niệm cốt lõi của học máy.

Sức mạnh dự đoán

Mô hình học máy có giám sát được huấn luyện bằng các tập dữ liệu có ví dụ được gắn nhãn. Mô hình học cách dự đoán nhãn từ các đặc điểm. Tuy nhiên, không phải mọi đặc điểm trong một tập dữ liệu đều có khả năng dự đoán. Trong một số trường hợp, chỉ một vài tính năng đóng vai trò là yếu tố dự đoán nhãn. Trong tập dữ liệu bên dưới, hãy sử dụng giá làm nhãn và các cột còn lại làm đặc điểm.

Ví dụ được gắn nhãn về các thuộc tính của ô tô.

Theo bạn, 3 đặc điểm nào có thể là yếu tố dự đoán chính xác nhất về giá của một chiếc xe?
Make_model, year, miles.
Thương hiệu/mẫu xe, năm sản xuất và quãng đường đã đi có thể là những yếu tố dự đoán mạnh nhất về giá của xe.
Color, height, make_model.
Chiều cao và màu sắc của ô tô không phải là những yếu tố dự đoán chính xác về giá của ô tô.
Dặm, hộp số, make_model.
Hộp số không phải là yếu tố dự đoán chính về giá.
Tire_size, wheel_base, year.
Kích thước lốp và trục bánh xe không phải là những yếu tố dự đoán chính xác về giá của ô tô.

Học có giám sát và không giám sát

Dựa trên vấn đề, bạn sẽ sử dụng phương pháp có giám sát hoặc không có giám sát. Ví dụ: nếu biết trước giá trị hoặc danh mục mà bạn muốn dự đoán, bạn sẽ sử dụng phương pháp học có giám sát. Tuy nhiên, nếu muốn tìm hiểu xem tập dữ liệu của bạn có chứa bất kỳ phân đoạn hoặc nhóm ví dụ liên quan nào hay không, bạn sẽ sử dụng phương pháp học không có giám sát.

Giả sử bạn có một tập dữ liệu về người dùng cho một trang web mua sắm trực tuyến và tập dữ liệu này chứa các cột sau:

Hình ảnh một hàng thuộc tính khách hàng.

Nếu muốn tìm hiểu các loại người dùng truy cập vào trang web, bạn sẽ sử dụng phương pháp học có giám sát hay không giám sát?
Học không giám sát.
Vì muốn mô hình này phân cụm các nhóm khách hàng có liên quan, nên chúng ta sẽ sử dụng phương pháp học không giám sát. Sau khi mô hình phân cụm người dùng, chúng ta sẽ tạo tên riêng cho từng cụm, ví dụ: "người tìm kiếm chiết khấu", "người săn ưu đãi", "người lướt web", "người trung thành" và "người lang thang".
Học có giám sát vì tôi đang cố gắng dự đoán người dùng thuộc lớp nào.
Trong phương pháp học có giám sát, tập dữ liệu phải chứa nhãn mà bạn đang cố gắng dự đoán. Trong tập dữ liệu, không có nhãn nào đề cập đến một danh mục người dùng.

Giả sử bạn có một tập dữ liệu về mức sử dụng năng lượng cho các hộ gia đình với các cột sau:

Hình ảnh một hàng thuộc tính nhà.

Bạn sẽ sử dụng loại công nghệ học máy nào để dự đoán số kilowatt giờ được sử dụng mỗi năm cho một ngôi nhà mới xây?
Học có giám sát.
Học có giám sát huấn luyện dựa trên các ví dụ được gắn nhãn. Trong tập dữ liệu này, "kilowatt giờ sử dụng mỗi năm" sẽ là nhãn vì đây là giá trị mà bạn muốn mô hình dự đoán. Các tính năng này sẽ là "diện tích nhà", "vị trí" và "năm xây dựng".
Học không giám sát.
Phương pháp học không giám sát sử dụng các ví dụ không được gắn nhãn. Trong ví dụ này, "kilowatt giờ sử dụng mỗi năm" sẽ là nhãn vì đây là giá trị mà bạn muốn mô hình dự đoán.

Giả sử bạn có một tập dữ liệu về chuyến bay với các cột sau:

Hình ảnh một hàng dữ liệu chuyến bay.

Nếu muốn dự đoán chi phí của một vé xe khách, bạn sẽ sử dụng phương pháp hồi quy hay phân loại?
Hồi quy
Đầu ra của mô hình hồi quy là một giá trị số.
Phân loại
Đầu ra của mô hình phân loại là một giá trị rời rạc, thường là một từ. Trong trường hợp này, chi phí của vé xe khách là một giá trị dạng số.
Dựa trên tập dữ liệu này, bạn có thể huấn luyện một mô hình phân loại để phân loại chi phí của vé xe khách là "cao", "trung bình" hoặc "thấp" không?
Có, nhưng trước tiên, chúng ta cần chuyển đổi các giá trị số trong cột coach_ticket_cost thành giá trị phân loại.
Bạn có thể tạo một mô hình phân loại từ tập dữ liệu này. Bạn sẽ làm những việc như sau:
  1. Tìm chi phí trung bình của một vé từ sân bay khởi hành đến sân bay đến.
  2. Xác định các ngưỡng sẽ tạo thành "cao", "trung bình" và "thấp".
  3. So sánh chi phí dự đoán với các ngưỡng và xuất ra danh mục mà giá trị nằm trong đó.
Không. Bạn không thể tạo mô hình phân loại. Giá trị coach_ticket_cost là số, không phải danh mục.
Chỉ cần một chút nỗ lực, bạn có thể tạo một mô hình phân loại.
Không. Mô hình phân loại chỉ dự đoán hai danh mục, chẳng hạn như spam hoặc not_spam. Mô hình này cần dự đoán 3 danh mục.
Mô hình phân loại có thể dự đoán nhiều danh mục. Chúng được gọi là mô hình phân loại đa lớp.

Đào tạo và đánh giá

Sau khi huấn luyện một mô hình, chúng ta sẽ đánh giá mô hình đó bằng cách sử dụng một tập dữ liệu có các ví dụ được gắn nhãn và so sánh giá trị dự đoán của mô hình với giá trị thực tế của nhãn.

Chọn hai câu trả lời đúng nhất cho câu hỏi.

Nếu kết quả dự đoán của mô hình không chính xác, bạn có thể làm gì để cải thiện kết quả đó?
Huấn luyện lại mô hình, nhưng chỉ sử dụng những đặc điểm mà bạn cho là có khả năng dự đoán mạnh nhất cho nhãn.
Việc huấn luyện lại mô hình với ít đặc điểm hơn nhưng có khả năng dự đoán cao hơn có thể tạo ra một mô hình dự đoán tốt hơn.
Bạn không thể khắc phục một mô hình có kết quả dự đoán sai lệch nhiều.
Bạn có thể khắc phục một mô hình có kết quả dự đoán không chính xác. Hầu hết các mô hình đều yêu cầu nhiều vòng huấn luyện cho đến khi đưa ra kết quả dự đoán hữu ích.
Huấn luyện lại mô hình bằng một tập dữ liệu lớn hơn và đa dạng hơn.
Các mô hình được huấn luyện trên tập dữ liệu có nhiều ví dụ hơn và phạm vi giá trị rộng hơn có thể đưa ra kết quả dự đoán tốt hơn vì mô hình có giải pháp tổng quát tốt hơn cho mối quan hệ giữa các đặc điểm và nhãn.
Thử một phương pháp huấn luyện khác. Ví dụ: nếu bạn đã sử dụng phương pháp có giám sát, hãy thử phương pháp không giám sát.
Một phương pháp huấn luyện khác sẽ không tạo ra kết quả dự đoán tốt hơn.

Giờ đây, bạn đã sẵn sàng thực hiện bước tiếp theo trong hành trình học máy:

  • Hướng dẫn về con người và AI. Nếu bạn đang tìm kiếm một bộ phương pháp, các phương pháp hay nhất và ví dụ do nhân viên Google, chuyên gia trong ngành và nghiên cứu học thuật trình bày để sử dụng công nghệ học máy.

  • Xác định vấn đề. Nếu bạn đang tìm kiếm một phương pháp đã được kiểm thử thực tế để tạo mô hình học máy và tránh các lỗi thường gặp trong quá trình này.

  • Khoá học cấp tốc về học máy. Nếu bạn đã sẵn sàng tìm hiểu sâu và thực hành để tìm hiểu thêm về học máy.