識別標籤和來源

直接與衍生標籤

只要能清楚定義標籤，機器學習就會更加輕鬆。最佳標籤就是要預測的直接標籤。舉例來說，如果您要預測使用者是否為 Taylor Swift 粉絲，直接標籤會是「User is a Taylor Swift fan」。

較簡單的支持者測試可能是使用者在 YouTube 上觀看 Taylor Swift 影片時。「使用者已透過 YouTube 觀看 Taylor Swift 影片」標籤是衍生標籤，因為無法直接測量您要預測的內容。這個衍生標籤是否可靠，是使用者喜歡泰勇的 Swift？您的模型只會與衍生標籤與所需預測之間的連線優等。

標籤來源

模型的輸出內容可以是「事件」或「屬性」。這會導致以下兩種標籤：

事件的直接標籤，例如「使用者是點擊頂端的搜尋結果嗎？」
屬性的直接標籤，例如「廣告客戶將在下週支出超過 $X 元嗎？」

事件的直接標籤

以事件來說，直接標籤通常簡單明瞭，因為您可以在事件期間記錄使用者行為做為標籤。為活動加上標籤時，請思考以下問題：

記錄的結構為何？
記錄中何謂「事件」？

舉例來說，系統是否記錄了使用者點擊搜尋結果，或是搜尋次數？如果你有點擊記錄，請體認到，即便沒有點擊，也不會看到曝光。您必須取得這類事件的曝光次數記錄，以便涵蓋使用者看到最佳搜尋結果的所有情況。

屬性的直接標籤

假設你的標籤是「廣告客戶會在下週支出超過 $X 美元」，您通常會使用前幾天的資料來預測未來幾天會有什麼影響。例如，下圖顯示預測未來 7 天的訓練資料：

別忘了考量季節性或週期性影響；比方說，廣告客戶在週末可能會支出更多。因此，您可以考慮使用 14 天回溯期，或是使用日期做為功能，讓模型學習每年的影響。

直接標籤需要過往行為的記錄

在上述情況下，請注意我們是否需要與實際結果相關的資料。無論是廣告客戶支出的金額，或哪些使用者觀看《Taylor Swift》影片，我們都必須取得歷來資料才能使用監督式機器學習。機器學習會根據過去發生的情況進行預測，因此如果沒有記錄，則必須取得。

如果沒有資料可以記錄，該怎麼辦？

這可能是因為您的產品不存在，所以您尚未記錄任何資料。在這種情況下，您可以採取下列一或多項動作：

在首次啟動時使用經驗法則，然後根據記錄的資料訓練系統。
使用類似問題的記錄檔啟動系統。
使用人工審查員完成工作，藉此產生資料。

使用人為標籤資料的原因

使用人工標籤資料的好處和缺點。

優點

評估人員可以執行各種工作。
這類資料會強制您定義明確的問題。

缺點

特定網域的資料費用高昂。
一般而言，資料需要多次疊代。

提升品質

請務必評估人工評估人員的工作內容。例如，自行標示 1000 個範例，看看結果是否與評分者相符。##99.(想要自行加上標籤，最好自行為資料加上標籤)。如果資料顯示差異，請勿假設評分正確無誤，特別是在價值評估方面。如果評估人員造成錯誤，請考慮新增操作說明來協助他們解決問題，然後再試一次。

無論您如何取得資料，手動檢視資料都是良好的練習。Andrej Karpathy 在 ImageNet 上做到這點，並介紹了的經驗。

合併記錄檔

測驗您的理解程度