Các nhiệm vụ của công nghệ học có giám sát được xác định rõ và có thể áp dụng cho nhiều tình huống, chẳng hạn như xác định nội dung rác hoặc dự đoán lượng mưa.
Các khái niệm cơ bản về học tập có giám sát
Công nghệ học máy có giám sát dựa trên các khái niệm chính sau:
- Dữ liệu
- Mẫu
- Đào tạo
- Đang đánh giá
- Suy luận
Dữ liệu
Dữ liệu là động lực của công nghệ học máy. Dữ liệu đến dưới dạng các từ và số được lưu trữ trong bảng hoặc dưới dạng các giá trị của pixel và dạng sóng được ghi lại trong tệp hình ảnh và âm thanh. Chúng tôi lưu trữ dữ liệu liên quan trong tập dữ liệu. Ví dụ: chúng tôi có thể có một tập dữ liệu như sau:
- Hình ảnh về mèo
- Giá nhà ở
- Thông tin thời tiết
Các tập dữ liệu được tạo thành từ các ví dụ riêng lẻ chứa các tính năng và một nhãn. Bạn có thể coi một ví dụ tương tự như một hàng trong bảng tính. Tính năng là các giá trị mà mô hình được giám sát sử dụng để dự đoán nhãn. Nhãn này là "câu trả lời" hoặc giá trị mà chúng ta muốn mô hình dự đoán. Trong mô hình thời tiết dự đoán lượng mưa, các đặc điểm có thể là vĩ độ, kinh độ, nhiệt độ, độ ẩm, độ che phủ của đám mây, hướng gió và áp suất khí quyển. Nhãn sẽ là lượng mưa.
Các ví dụ có chứa cả tính năng và một nhãn được gọi là ví dụ có gắn nhãn.
Ví dụ về 2 nhãn
Ngược lại, ví dụ không được gắn nhãn chứa tính năng nhưng không có nhãn. Sau khi bạn tạo một mô hình, mô hình đó sẽ dự đoán nhãn từ các tính năng.
Hai ví dụ không được gắn nhãn
Đặc điểm của tập dữ liệu
Một tập dữ liệu được đặc trưng bởi kích thước và tính đa dạng của nó. Kích thước cho biết số lượng ví dụ. Tính đa dạng cho biết phạm vi mà các ví dụ đó đề cập. Các tập dữ liệu tốt thường lớn và rất đa dạng.
Một số tập dữ liệu khá lớn và đa dạng. Tuy nhiên, một số tập dữ liệu lớn nhưng có tính đa dạng thấp, một số tập dữ liệu nhỏ nhưng có tính đa dạng cao. Nói cách khác, một tập dữ liệu lớn không đảm bảo có đủ tính đa dạng, và một tập dữ liệu có tính đa dạng cao không đảm bảo có đủ ví dụ.
Ví dụ: một tập dữ liệu có thể chứa dữ liệu trong 100 năm, nhưng chỉ trong tháng 7. Việc sử dụng tập dữ liệu này để dự đoán lượng mưa vào tháng 1 sẽ đưa ra các dự đoán kém. Ngược lại, một tập dữ liệu có thể chỉ bao gồm một vài năm nhưng chứa mỗi tháng. Tập dữ liệu này có thể đưa ra các dự đoán kém vì nó không có đủ số năm để tính đến sự biến đổi.
Kiểm tra kiến thức
Một tập dữ liệu cũng có thể được biểu thị bằng số lượng các đối tượng của nó. Ví dụ: một số tập dữ liệu thời tiết có thể chứa hàng trăm tính năng, từ hình ảnh vệ tinh đến các giá trị về độ bao phủ của đám mây. Các tập dữ liệu khác có thể chỉ chứa 3 hoặc 4 tính năng, chẳng hạn như độ ẩm, áp suất khí quyển và nhiệt độ. Các tập dữ liệu có nhiều tính năng hơn có thể giúp một mô hình khám phá các mẫu bổ sung và đưa ra dự đoán phù hợp hơn. Tuy nhiên, các tập dữ liệu có nhiều tính năng hơn không luôn tạo ra mô hình đưa ra thông tin dự đoán chính xác hơn vì một số tính năng có thể không có mối liên hệ nhân quả với nhãn.
Mẫu
Trong học có giám sát, mô hình là một tập hợp phức tạp gồm các số xác định mối quan hệ toán học từ các mẫu tính năng đầu vào cụ thể đến các giá trị nhãn đầu ra cụ thể. Mô hình này phát hiện ra các mẫu này thông qua quy trình huấn luyện.
Đào tạo
Trước khi mô hình được giám sát có thể đưa ra dự đoán, mô hình đó phải được huấn luyện. Để huấn luyện một mô hình, chúng tôi cung cấp cho mô hình một tập dữ liệu với các ví dụ được gắn nhãn. Mục tiêu của mô hình này là tìm ra giải pháp tốt nhất để dự đoán nhãn của các tính năng. Mô hình này tìm ra giải pháp tốt nhất bằng cách so sánh giá trị dự đoán với giá trị thực tế của nhãn. Dựa trên sự khác biệt giữa giá trị dự đoán và giá trị thực tế (được định nghĩa là mất), mô hình này dần cập nhật giải pháp. Nói cách khác, mô hình này sẽ tìm hiểu mối quan hệ toán học giữa các tính năng và nhãn để có thể đưa ra dự đoán chính xác nhất về dữ liệu chưa nhìn thấy.
Ví dụ: nếu mô hình dự đoán lượng mưa 1.15 inches
, nhưng giá trị thực tế là .75 inches
, thì mô hình này sẽ sửa đổi giải pháp để thông tin dự đoán gần với .75 inches
hơn. Sau khi xem xét từng ví dụ trong tập dữ liệu (trong một số trường hợp là nhiều lần), mô hình sẽ đưa ra giải pháp đưa ra kết quả dự đoán phù hợp nhất tính trung bình cho từng ví dụ.
Nội dung sau đây minh hoạ việc huấn luyện một mô hình:
Mô hình này lấy một ví dụ duy nhất được gắn nhãn và cung cấp thông tin dự đoán.
Hình 1 Một mô hình học máy đưa ra thông tin dự đoán từ một ví dụ được gắn nhãn.
Mô hình này sẽ so sánh giá trị dự đoán với giá trị thực tế và cập nhật giải pháp.
Hình 2. Một mô hình học máy đang cập nhật giá trị dự đoán.
Mô hình lặp lại quy trình này cho từng ví dụ được gắn nhãn trong tập dữ liệu.
Hình 3. Một mô hình học máy cập nhật thông tin dự đoán cho từng ví dụ được gắn nhãn trong tập dữ liệu huấn luyện.
Bằng cách này, mô hình sẽ dần học được mối quan hệ chính xác giữa các tính năng và nhãn. Sự hiểu biết dần này cũng là lý do tại sao các tập dữ liệu lớn và đa dạng sẽ tạo ra một mô hình tốt hơn. Mô hình này đã xem được nhiều dữ liệu hơn với phạm vi giá trị rộng hơn, đồng thời tinh chỉnh hiểu biết về mối quan hệ giữa các tính năng và nhãn.
Trong quá trình huấn luyện, các chuyên viên ML có thể tinh tế điều chỉnh các cấu hình và tính năng mà mô hình sử dụng để đưa ra dự đoán. Ví dụ: một số tính năng nhất định có khả năng dự đoán cao hơn các tính năng khác. Do đó, các chuyên viên học máy có thể chọn các tính năng mà mô hình sử dụng trong quá trình huấn luyện. Ví dụ: giả sử một tập dữ liệu thời tiết chứa time_of_day
dưới dạng một đối tượng. Trong trường hợp này, chuyên viên học máy có thể thêm hoặc xoá time_of_day
trong quá trình huấn luyện để xem liệu mô hình đó có đưa ra dự đoán phù hợp hơn khi có hay không có.
Đang đánh giá
Chúng tôi đánh giá một mô hình đã được huấn luyện để xác định mức độ hiệu quả của mô hình đó. Khi đánh giá một mô hình, chúng tôi sử dụng một tập dữ liệu được gắn nhãn, nhưng chỉ cung cấp cho mô hình các tính năng của tập dữ liệu đó. Sau đó, chúng tôi so sánh thông tin dự đoán của mô hình với giá trị đúng của nhãn.
Hình 4. Đánh giá một mô hình ML bằng cách so sánh các thông tin dự đoán của mô hình đó với các giá trị thực tế.
Tuỳ thuộc vào thông tin dự đoán của mô hình, chúng ta có thể huấn luyện và đánh giá thêm trước khi triển khai mô hình này trong ứng dụng thực tế.
Kiểm tra kiến thức
Suy luận
Khi đã hài lòng với kết quả đánh giá mô hình, chúng ta có thể sử dụng mô hình đó để đưa ra dự đoán (gọi là suy luận) trên các ví dụ chưa được gắn nhãn. Trong ví dụ về ứng dụng thời tiết, chúng tôi sẽ cung cấp cho mô hình các điều kiện thời tiết hiện tại (chẳng hạn như nhiệt độ, áp suất khí quyển và độ ẩm tương đối) và dự đoán lượng mưa.