什麼是 (監督) 機器學習?簡要說明如下:
- 機器學習系統會學習如何結合輸入資料,以產生前所未見的資料以供實用預測。
讓我們來探索基本的機器學習術語。
標籤
「標籤」是我們要預測的內容,是簡易線性迴歸中的 y
變數。標籤可以是小麥的未來價格、相片中顯示的動物種類、音訊片段的意義或任何內容。
功能與特色
特徵是輸入變數,也就是簡易線性迴歸中的 x
變數。簡易的機器學習專案可能會使用單一功能,而較複雜的機器學習專案則可使用數百萬個功能,指定為:
\[\\{x_1, x_2, ... x_N\\}\]
垃圾內容偵測工具範例可能包含下列功能:
- 電子郵件中的文字
- 寄件者的地址
- 電子郵件傳送時間
- 電子郵件地址含有「一個奇怪的技巧」這個字眼。
示例
「範例」是資料的特定執行個體「x」。(以粗體標示 x 表示這是向量)。我們將範例分為兩種類別:
- 已加上標籤的範例
- 未加上標籤的範例
「已加上標籤的範例」包含功能和標籤。也就是:
labeled examples: {features, label}: (x, y)
使用加上標籤的範例來訓練模型。在我們的垃圾內容偵測器範例中,已標記的範例是使用者明確標示為「垃圾郵件」或「非垃圾郵件」的個別電子郵件。
例如,下表顯示了資料集中的 5 個標籤範例,其中包含加州的房價資訊:
HouseMedianAge (功能) |
totalRooms (功能) |
totalBedrooms (功能) |
medianHouseValue (標籤) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
未加上標籤的範例包含特徵而非標籤。也就是:
unlabeled examples: {features, ?}: (x, ?)
以下是同一個住房資料集中的 3 個未加上標籤範例 (不含 medianHouseValue
):
HouseMedianAge (功能) |
totalRooms (功能) |
totalBedrooms (功能) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
訓練模型完成有標籤的範例之後,我們會使用該模型來預測沒有標籤的範例標籤。在垃圾郵件偵測工具中,未加上標籤的範例是人類尚未加上標籤的新電子郵件。
型號
模型定義了特徵與標籤之間的關係。舉例來說,垃圾內容偵測模型可能會將某些功能與「垃圾內容」 有高度關聯。讓我們來看看模型的兩個階段:
「訓練」是指建立或學習模型。也就是說,系統會顯示模型已加上標籤的範例,並讓模型逐步瞭解特徵和標籤之間的關係。
「推論」是指將經過訓練的模型套用到未加上標籤的範例。也就是說,您可以使用經過訓練的模型進行實用的預測 (
y'
)。例如,在推論期間,您可以預測medianHouseValue
是否有新的未加上標籤範例。
迴歸與分類
迴歸模型可預測連續值。舉例來說,迴歸模型可用來預測類似以下的問題:
房舍在加州有什麼價值?
使用者可能會點擊這則廣告的可能性為何?
「分類」模型可預測離散值,例如,分類模型會進行預測,回答以下問題:
電子郵件是否為垃圾郵件?
這是狗、貓或帽子的圖片?