Học tập có giám sát

Các nhiệm vụ của công nghệ học có giám sát được xác định rõ và có thể áp dụng cho nhiều tình huống, chẳng hạn như xác định nội dung rác hoặc dự đoán lượng mưa.

Các khái niệm cơ bản về học tập có giám sát

Công nghệ học máy có giám sát dựa trên các khái niệm chính sau:

  • Dữ liệu
  • Mẫu
  • Đào tạo
  • Đang đánh giá
  • Suy luận

Dữ liệu

Dữ liệu là động lực của công nghệ học máy. Dữ liệu đến dưới dạng các từ và số được lưu trữ trong bảng hoặc dưới dạng các giá trị của pixel và dạng sóng được ghi lại trong tệp hình ảnh và âm thanh. Chúng tôi lưu trữ dữ liệu liên quan trong tập dữ liệu. Ví dụ: chúng tôi có thể có một tập dữ liệu như sau:

  • Hình ảnh về mèo
  • Giá nhà ở
  • Thông tin thời tiết

Các tập dữ liệu được tạo thành từ các ví dụ riêng lẻ chứa các tính năng và một nhãn. Bạn có thể coi một ví dụ tương tự như một hàng trong bảng tính. Tính năng là các giá trị mà mô hình được giám sát sử dụng để dự đoán nhãn. Nhãn này là "câu trả lời" hoặc giá trị mà chúng ta muốn mô hình dự đoán. Trong mô hình thời tiết dự đoán lượng mưa, các đặc điểm có thể là vĩ độ, kinh độ, nhiệt độ, độ ẩm, độ che phủ của đám mây, hướng gióáp suất khí quyển. Nhãn sẽ là lượng mưa.

Các ví dụ có chứa cả tính năng và một nhãn được gọi là ví dụ có gắn nhãn.

Ví dụ về 2 nhãn

Hình ảnh dùng để giữ chỗ.

Ngược lại, ví dụ không được gắn nhãn chứa tính năng nhưng không có nhãn. Sau khi bạn tạo một mô hình, mô hình đó sẽ dự đoán nhãn từ các tính năng.

Hai ví dụ không được gắn nhãn

Hình ảnh dùng để giữ chỗ.

Đặc điểm của tập dữ liệu

Một tập dữ liệu được đặc trưng bởi kích thước và tính đa dạng của nó. Kích thước cho biết số lượng ví dụ. Tính đa dạng cho biết phạm vi mà các ví dụ đó đề cập. Các tập dữ liệu tốt thường lớn và rất đa dạng.

Một số tập dữ liệu khá lớn và đa dạng. Tuy nhiên, một số tập dữ liệu lớn nhưng có tính đa dạng thấp, một số tập dữ liệu nhỏ nhưng có tính đa dạng cao. Nói cách khác, một tập dữ liệu lớn không đảm bảo có đủ tính đa dạng, và một tập dữ liệu có tính đa dạng cao không đảm bảo có đủ ví dụ.

Ví dụ: một tập dữ liệu có thể chứa dữ liệu trong 100 năm, nhưng chỉ trong tháng 7. Việc sử dụng tập dữ liệu này để dự đoán lượng mưa vào tháng 1 sẽ đưa ra các dự đoán kém. Ngược lại, một tập dữ liệu có thể chỉ bao gồm một vài năm nhưng chứa mỗi tháng. Tập dữ liệu này có thể đưa ra các dự đoán kém vì nó không có đủ số năm để tính đến sự biến đổi.

Kiểm tra kiến thức

Những thuộc tính nào của một tập dữ liệu sẽ là lựa chọn lý tưởng để dùng cho công nghệ học máy?
Quy mô lớn / Tính đa dạng cao
Có rất nhiều ví dụ về nhiều trường hợp sử dụng là điều cần thiết để hệ thống học máy hiểu được các mẫu cơ bản trong dữ liệu. Mô hình được huấn luyện dựa trên loại tập dữ liệu này có nhiều khả năng đưa ra dự đoán chính xác hơn đối với dữ liệu mới.
Quy mô lớn / Tính đa dạng thấp
Các mô hình học máy chỉ hiệu quả bằng các ví dụ dùng để huấn luyện chúng. Một mô hình sẽ đưa ra các dự đoán kém hơn về dữ liệu mới mà mô hình đó chưa từng huấn luyện.
Quy mô nhỏ / Tính đa dạng cao
Hầu hết các mô hình đều không tìm thấy mẫu đáng tin cậy trong một tập dữ liệu nhỏ. Các dữ liệu dự đoán sẽ thiếu độ tin cậy mà một tập dữ liệu lớn hơn mang lại.
Quy mô nhỏ / Tính đa dạng thấp
Nếu tập dữ liệu của bạn nhỏ và không có nhiều biến thể, thì công nghệ học máy có thể sẽ không mang lại lợi ích gì cho bạn.

Một tập dữ liệu cũng có thể được biểu thị bằng số lượng các đối tượng của nó. Ví dụ: một số tập dữ liệu thời tiết có thể chứa hàng trăm tính năng, từ hình ảnh vệ tinh đến các giá trị về độ bao phủ của đám mây. Các tập dữ liệu khác có thể chỉ chứa 3 hoặc 4 tính năng, chẳng hạn như độ ẩm, áp suất khí quyển và nhiệt độ. Các tập dữ liệu có nhiều tính năng hơn có thể giúp một mô hình khám phá các mẫu bổ sung và đưa ra dự đoán phù hợp hơn. Tuy nhiên, các tập dữ liệu có nhiều tính năng hơn không luôn tạo ra mô hình đưa ra thông tin dự đoán chính xác hơn vì một số tính năng có thể không có mối liên hệ nhân quả với nhãn.

Mẫu

Trong học có giám sát, mô hình là một tập hợp phức tạp gồm các số xác định mối quan hệ toán học từ các mẫu tính năng đầu vào cụ thể đến các giá trị nhãn đầu ra cụ thể. Mô hình này phát hiện ra các mẫu này thông qua quy trình huấn luyện.

Đào tạo

Trước khi mô hình được giám sát có thể đưa ra dự đoán, mô hình đó phải được huấn luyện. Để huấn luyện một mô hình, chúng tôi cung cấp cho mô hình một tập dữ liệu với các ví dụ được gắn nhãn. Mục tiêu của mô hình này là tìm ra giải pháp tốt nhất để dự đoán nhãn của các tính năng. Mô hình này tìm ra giải pháp tốt nhất bằng cách so sánh giá trị dự đoán với giá trị thực tế của nhãn. Dựa trên sự khác biệt giữa giá trị dự đoán và giá trị thực tế (được định nghĩa là mất), mô hình này dần cập nhật giải pháp. Nói cách khác, mô hình này sẽ tìm hiểu mối quan hệ toán học giữa các tính năng và nhãn để có thể đưa ra dự đoán chính xác nhất về dữ liệu chưa nhìn thấy.

Ví dụ: nếu mô hình dự đoán lượng mưa 1.15 inches, nhưng giá trị thực tế là .75 inches, thì mô hình này sẽ sửa đổi giải pháp để thông tin dự đoán gần với .75 inches hơn. Sau khi xem xét từng ví dụ trong tập dữ liệu (trong một số trường hợp là nhiều lần), mô hình sẽ đưa ra giải pháp đưa ra kết quả dự đoán phù hợp nhất tính trung bình cho từng ví dụ.

Nội dung sau đây minh hoạ việc huấn luyện một mô hình:

  1. Mô hình này lấy một ví dụ duy nhất được gắn nhãn và cung cấp thông tin dự đoán.

    Hình ảnh một mô hình đưa ra dự đoán.

    Hình 1 Một mô hình học máy đưa ra thông tin dự đoán từ một ví dụ được gắn nhãn.

     

  2. Mô hình này sẽ so sánh giá trị dự đoán với giá trị thực tế và cập nhật giải pháp.

    Hình ảnh một mô hình so sánh thông tin dự đoán với giá trị thực tế.

    Hình 2. Một mô hình học máy đang cập nhật giá trị dự đoán.

     

  3. Mô hình lặp lại quy trình này cho từng ví dụ được gắn nhãn trong tập dữ liệu.

    Hình ảnh một mô hình lặp lại quy trình dự đoán so với giá trị thực tế.

    Hình 3. Một mô hình học máy cập nhật thông tin dự đoán cho từng ví dụ được gắn nhãn trong tập dữ liệu huấn luyện.

     

Bằng cách này, mô hình sẽ dần học được mối quan hệ chính xác giữa các tính năng và nhãn. Sự hiểu biết dần này cũng là lý do tại sao các tập dữ liệu lớn và đa dạng sẽ tạo ra một mô hình tốt hơn. Mô hình này đã xem được nhiều dữ liệu hơn với phạm vi giá trị rộng hơn, đồng thời tinh chỉnh hiểu biết về mối quan hệ giữa các tính năng và nhãn.

Trong quá trình huấn luyện, các chuyên viên ML có thể tinh tế điều chỉnh các cấu hình và tính năng mà mô hình sử dụng để đưa ra dự đoán. Ví dụ: một số tính năng nhất định có khả năng dự đoán cao hơn các tính năng khác. Do đó, các chuyên viên học máy có thể chọn các tính năng mà mô hình sử dụng trong quá trình huấn luyện. Ví dụ: giả sử một tập dữ liệu thời tiết chứa time_of_day dưới dạng một đối tượng. Trong trường hợp này, chuyên viên học máy có thể thêm hoặc xoá time_of_day trong quá trình huấn luyện để xem liệu mô hình đó có đưa ra dự đoán phù hợp hơn khi có hay không có.

Đang đánh giá

Chúng tôi đánh giá một mô hình đã được huấn luyện để xác định mức độ hiệu quả của mô hình đó. Khi đánh giá một mô hình, chúng tôi sử dụng một tập dữ liệu được gắn nhãn, nhưng chỉ cung cấp cho mô hình các tính năng của tập dữ liệu đó. Sau đó, chúng tôi so sánh thông tin dự đoán của mô hình với giá trị đúng của nhãn.

Hình ảnh cho thấy một mô hình đã qua huấn luyện có các thông tin dự đoán so với giá trị thực tế.

Hình 4. Đánh giá một mô hình ML bằng cách so sánh các thông tin dự đoán của mô hình đó với các giá trị thực tế.

 

Tuỳ thuộc vào thông tin dự đoán của mô hình, chúng ta có thể huấn luyện và đánh giá thêm trước khi triển khai mô hình này trong ứng dụng thực tế.

Kiểm tra kiến thức

Tại sao một mô hình cần được huấn luyện trước khi có thể đưa ra dự đoán?
Một mô hình cần được huấn luyện để tìm hiểu mối quan hệ toán học giữa các đối tượng và nhãn trong một tập dữ liệu.
Mô hình không cần được huấn luyện. Các mô hình có sẵn trên hầu hết các máy tính.
Một mô hình cần được huấn luyện để không cần có dữ liệu để đưa ra dự đoán.

Suy luận

Khi đã hài lòng với kết quả đánh giá mô hình, chúng ta có thể sử dụng mô hình đó để đưa ra dự đoán (gọi là suy luận) trên các ví dụ chưa được gắn nhãn. Trong ví dụ về ứng dụng thời tiết, chúng tôi sẽ cung cấp cho mô hình các điều kiện thời tiết hiện tại (chẳng hạn như nhiệt độ, áp suất khí quyển và độ ẩm tương đối) và dự đoán lượng mưa.