取鏡:機器學習關鍵術語

什麼是 (監督) 機器學習?簡要說明如下:

  • 機器學習系統會學習如何結合輸入資料,以產生前所未見的資料以供實用預測。

讓我們來探索基本的機器學習術語。

標籤

「標籤」是我們要預測的內容,是簡易線性迴歸中的 y 變數。標籤可以是小麥的未來價格、相片中顯示的動物種類、音訊片段的意義或任何內容。

功能與特色

特徵是輸入變數,也就是簡易線性迴歸中的 x 變數。簡易的機器學習專案可能會使用單一功能,而較複雜的機器學習專案則可使用數百萬個功能,指定為:

\[\\{x_1, x_2, ... x_N\\}\]

垃圾內容偵測工具範例可能包含下列功能:

  • 電子郵件中的文字
  • 寄件者的地址
  • 電子郵件傳送時間
  • 電子郵件地址含有「一個奇怪的技巧」這個字眼。

示例

「範例」是資料的特定執行個體「x」。(以粗體標示 x 表示這是向量)。我們將範例分為兩種類別:

  • 已加上標籤的範例
  • 未加上標籤的範例

「已加上標籤的範例」包含功能和標籤。也就是:

  labeled examples: {features, label}: (x, y)

使用加上標籤的範例來訓練模型。在我們的垃圾內容偵測器範例中,已標記的範例是使用者明確標示為「垃圾郵件」或「非垃圾郵件」的個別電子郵件。

例如,下表顯示了資料集中的 5 個標籤範例,其中包含加州的房價資訊:

HouseMedianAge
(功能)
totalRooms
(功能)
totalBedrooms
(功能)
medianHouseValue
(標籤)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

未加上標籤的範例包含特徵而非標籤。也就是:

  unlabeled examples: {features, ?}: (x, ?)

以下是同一個住房資料集中的 3 個未加上標籤範例 (不含 medianHouseValue):

HouseMedianAge
(功能)
totalRooms
(功能)
totalBedrooms
(功能)
42 1686 361
34 1226 180
33 1077 271

訓練模型完成有標籤的範例之後,我們會使用該模型來預測沒有標籤的範例標籤。在垃圾郵件偵測工具中,未加上標籤的範例是人類尚未加上標籤的新電子郵件。

型號

模型定義了特徵與標籤之間的關係。舉例來說,垃圾內容偵測模型可能會將某些功能與「垃圾內容」 有高度關聯。讓我們來看看模型的兩個階段:

  • 「訓練」是指建立或學習模型。也就是說,系統會顯示模型已加上標籤的範例,並讓模型逐步瞭解特徵和標籤之間的關係。

  • 「推論」是指將經過訓練的模型套用到未加上標籤的範例。也就是說,您可以使用經過訓練的模型進行實用的預測 (y')。例如,在推論期間,您可以預測 medianHouseValue 是否有新的未加上標籤範例。

迴歸與分類

迴歸模型可預測連續值。舉例來說,迴歸模型可用來預測類似以下的問題:

  • 房舍在加州有什麼價值?

  • 使用者可能會點擊這則廣告的可能性為何?

「分類」模型可預測離散值,例如,分類模型會進行預測,回答以下問題:

  • 電子郵件是否為垃圾郵件?

  • 這是狗、貓或帽子的圖片?