識別標籤和來源

直接與衍生標籤

只要能清楚定義標籤,機器學習就會更加輕鬆。最佳標籤就是要預測的直接標籤。舉例來說,如果您要預測使用者是否為 Taylor Swift 粉絲,直接標籤會是「User is a Taylor Swift fan」。

較簡單的支持者測試可能是使用者在 YouTube 上觀看 Taylor Swift 影片時。「使用者已透過 YouTube 觀看 Taylor Swift 影片」標籤是衍生標籤,因為無法直接測量您要預測的內容。這個衍生標籤是否可靠,是使用者喜歡泰勇的 Swift?您的模型只會與衍生標籤與所需預測之間的連線優等。

標籤來源

模型的輸出內容可以是「事件」或「屬性」。這會導致以下兩種標籤:

  • 事件的直接標籤,例如「使用者是點擊頂端的搜尋結果嗎?」
  • 屬性的直接標籤,例如「廣告客戶將在下週支出超過 $X 元嗎?」

事件的直接標籤

以事件來說,直接標籤通常簡單明瞭,因為您可以在事件期間記錄使用者行為做為標籤。為活動加上標籤時,請思考以下問題:

  • 記錄的結構為何?
  • 記錄中何謂「事件」?

舉例來說,系統是否記錄了使用者點擊搜尋結果,或是搜尋次數?如果你有點擊記錄,請體認到,即便沒有點擊,也不會看到曝光。您必須取得這類事件的曝光次數記錄,以便涵蓋使用者看到最佳搜尋結果的所有情況。

屬性的直接標籤

假設你的標籤是「廣告客戶會在下週支出超過 $X 美元」,您通常會使用前幾天的資料來預測未來幾天會有什麼影響。例如,下圖顯示預測未來 7 天的訓練資料:

日曆會醒目顯示「10 天」區塊,後面接著 7 天區塊。
模型會使用 10 天內的資料,在 7 天區塊中進行預測。

別忘了考量季節性或週期性影響;比方說,廣告客戶在週末可能會支出更多。因此,您可以考慮使用 14 天回溯期,或是使用日期做為功能,讓模型學習每年的影響。

直接標籤需要過往行為的記錄

在上述情況下,請注意我們是否需要與實際結果相關的資料。無論是廣告客戶支出的金額,或哪些使用者觀看《Taylor Swift》影片,我們都必須取得歷來資料才能使用監督式機器學習。機器學習會根據過去發生的情況進行預測,因此如果沒有記錄,則必須取得。

如果沒有資料可以記錄,該怎麼辦?

這可能是因為您的產品不存在,所以您尚未記錄任何資料。在這種情況下,您可以採取下列一或多項動作:

  • 在首次啟動時使用經驗法則,然後根據記錄的資料訓練系統。
  • 使用類似問題的記錄檔啟動系統。
  • 使用人工審查員完成工作,藉此產生資料。

使用人為標籤資料的原因

使用人工標籤資料的好處和缺點。

優點

  • 評估人員可以執行各種工作。
  • 這類資料會強制您定義明確的問題。

缺點

  • 特定網域的資料費用高昂。
  • 一般而言,資料需要多次疊代。

提升品質

請務必評估人工評估人員的工作內容。例如,自行標示 1000 個範例,看看結果是否與評分者相符。##99.(想要自行加上標籤,最好自行為資料加上標籤)。如果資料顯示差異,請勿假設評分正確無誤,特別是在價值評估方面。如果評估人員造成錯誤,請考慮新增操作說明來協助他們解決問題,然後再試一次。

無論您如何取得資料,手動檢視資料都是良好的練習。Andrej Karpathy 在 ImageNet 上做到這點,並介紹了的經驗