Khung hình: Thuật ngữ máy học chính

Công nghệ máy học là gì (được giám sát)? Cụ thể, nội dung như sau:

  • Các hệ thống máy học sẽ tìm hiểu cách kết hợp thông tin đầu vào để tạo ra các thông tin dự đoán hữu ích dựa trên dữ liệu chưa từng thấy.

Hãy cùng tìm hiểu các thuật ngữ cơ bản của máy học.

Nhãn

Nhãn là yếu tố chúng tôi dự đoán — biến y trong hồi quy tuyến tính đơn giản. Nhãn có thể là giá lúa mì trong tương lai, loại động vật xuất hiện trong hình ảnh, ý nghĩa của đoạn âm thanh hoặc bất kỳ nội dung nào khác.

Tính năng

Tính năng là biến đầu vào — biến x trong hồi quy tuyến tính đơn giản. Một dự án máy học đơn giản có thể sử dụng một tính năng duy nhất, trong khi một dự án máy học phức tạp hơn có thể sử dụng hàng triệu tính năng, cụ thể như sau:

\[\\{x_1, x_2, ... x_N\\}\]

Trong ví dụ về trình phát hiện nội dung vi phạm, các tính năng có thể bao gồm:

  • các từ trong nội dung email
  • địa chỉ của người gửi
  • thời điểm trong ngày mà email được gửi
  • email chứa cụm từ "một thủ thuật kỳ lạ."

Ví dụ

Ví dụ là một thực thể dữ liệu cụ thể, x. (Chúng tôi in đậm x để cho biết đây là vectơ.) Chúng tôi chia các ví dụ thành hai danh mục:

  • ví dụ được gắn nhãn
  • ví dụ chưa gắn nhãn

Ví dụ về nhãn có cả tính năng và nhãn. Đó là:

  labeled examples: {features, label}: (x, y)

Sử dụng các ví dụ có nhãn để huấn luyện mô hình. Trong ví dụ về trình phát hiện nội dung vi phạm, ví dụ có gắn nhãn sẽ là các email riêng lẻ mà người dùng đã đánh dấu rõ ràng là "spam" hoặc "không phải thư rác."

Ví dụ: bảng sau đây hiển thị 5 ví dụ có nhãn từ một tập dữ liệu chứa thông tin về giá nhà ở California:

Nhà cung cấp nội dung nghe nhìn
(tính năng)
totalRooms
(tính năng)
TotalBedroom
(tính năng)
AvgHouseValue
(nhãn)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Ví dụ không có nhãn chứa các tính năng nhưng không có nhãn. Đó là:

  unlabeled examples: {features, ?}: (x, ?)

Dưới đây là 3 ví dụ chưa gắn nhãn từ cùng một tập dữ liệu về nhà ở, ngoại trừ medianHouseValue:

Nhà cung cấp nội dung nghe nhìn
(tính năng)
totalRooms
(tính năng)
TotalBedroom
(tính năng)
42 1686 361
34 1226 180
Tăng 33 1077 271

Sau khi đào tạo mô hình của chúng tôi với các ví dụ có nhãn, chúng tôi sẽ sử dụng mô hình đó để dự đoán nhãn trên các ví dụ chưa được gắn nhãn. Trong trình phát hiện nội dung rác, các ví dụ chưa gắn nhãn là những email mới mà con người chưa gắn nhãn.

Mô hình

Mô hình xác định mối quan hệ giữa các tính năng và nhãn. Ví dụ: mô hình phát hiện nội dung vi phạm có thể liên kết chặt chẽ một số tính năng nhất định với "spam". Hãy cùng đánh dấu hai giai đoạn trong cuộc đời của người mẫu:

  • Đào tạo có nghĩa là tạo hoặc tìm hiểu mô hình. Nghĩa là bạn sẽ hiển thị mô hình có nhãn cho các ví dụ và cho phép mô hình dần dần tìm hiểu mối quan hệ giữa các tính năng và nhãn.

  • Dự đoán nghĩa là áp dụng mô hình đã huấn luyện cho các ví dụ chưa gắn nhãn. Tức là bạn sử dụng mô hình đã huấn luyện để đưa ra cụm từ gợi ý hữu ích (y'). Ví dụ: trong quá trình dự đoán, bạn có thể dự đoán medianHouseValue cho các ví dụ mới chưa được gắn nhãn.

Hồi quy so với phân loại

Mô hình hồi quy dự đoán các giá trị liên tục. Ví dụ: mô hình hồi quy đưa ra dự đoán trả lời các câu hỏi như sau:

  • Giá trị của một ngôi nhà ở California là bao nhiêu?

  • Xác suất người dùng sẽ nhấp vào quảng cáo này là bao nhiêu?

Mô hình phân loại dự đoán các giá trị riêng biệt. Ví dụ: mô hình phân loại đưa ra dự đoán sẽ trả lời những câu hỏi như sau:

  • Email cụ thể có phải là spam không?

  • Đây là hình ảnh một chú chó, một con mèo hay chuột đồng?