直接與衍生標籤
只要能清楚定義標籤,機器學習就會更加輕鬆。最佳標籤就是要預測的直接標籤。舉例來說,如果您要預測使用者是否為 Taylor Swift 粉絲,直接標籤會是「User is a Taylor Swift fan」。
較簡單的支持者測試可能是使用者在 YouTube 上觀看 Taylor Swift 影片時。「使用者已透過 YouTube 觀看 Taylor Swift 影片」標籤是衍生標籤,因為無法直接測量您要預測的內容。這個衍生標籤是否可靠,是使用者喜歡泰勇的 Swift?您的模型只會與衍生標籤與所需預測之間的連線優等。
標籤來源
模型的輸出內容可以是「事件」或「屬性」。這會導致以下兩種標籤:
- 事件的直接標籤,例如「使用者是點擊頂端的搜尋結果嗎?」
- 屬性的直接標籤,例如「廣告客戶將在下週支出超過 $X 元嗎?」
事件的直接標籤
以事件來說,直接標籤通常簡單明瞭,因為您可以在事件期間記錄使用者行為做為標籤。為活動加上標籤時,請思考以下問題:
- 記錄的結構為何?
- 記錄中何謂「事件」?
舉例來說,系統是否記錄了使用者點擊搜尋結果,或是搜尋次數?如果你有點擊記錄,請體認到,即便沒有點擊,也不會看到曝光。您必須取得這類事件的曝光次數記錄,以便涵蓋使用者看到最佳搜尋結果的所有情況。
屬性的直接標籤
假設你的標籤是「廣告客戶會在下週支出超過 $X 美元」,您通常會使用前幾天的資料來預測未來幾天會有什麼影響。例如,下圖顯示預測未來 7 天的訓練資料:
別忘了考量季節性或週期性影響;比方說,廣告客戶在週末可能會支出更多。因此,您可以考慮使用 14 天回溯期,或是使用日期做為功能,讓模型學習每年的影響。
直接標籤需要過往行為的記錄
在上述情況下,請注意我們是否需要與實際結果相關的資料。無論是廣告客戶支出的金額,或哪些使用者觀看《Taylor Swift》影片,我們都必須取得歷來資料才能使用監督式機器學習。機器學習會根據過去發生的情況進行預測,因此如果沒有記錄,則必須取得。
如果沒有資料可以記錄,該怎麼辦?
這可能是因為您的產品不存在,所以您尚未記錄任何資料。在這種情況下,您可以採取下列一或多項動作:
- 在首次啟動時使用經驗法則,然後根據記錄的資料訓練系統。
- 使用類似問題的記錄檔啟動系統。
- 使用人工審查員完成工作,藉此產生資料。
使用人為標籤資料的原因
使用人工標籤資料的好處和缺點。
優點
- 評估人員可以執行各種工作。
- 這類資料會強制您定義明確的問題。
缺點
- 特定網域的資料費用高昂。
- 一般而言,資料需要多次疊代。
提升品質
請務必評估人工評估人員的工作內容。例如,自行標示 1000 個範例,看看結果是否與評分者相符。##99.(想要自行加上標籤,最好自行為資料加上標籤)。如果資料顯示差異,請勿假設評分正確無誤,特別是在價值評估方面。如果評估人員造成錯誤,請考慮新增操作說明來協助他們解決問題,然後再試一次。
無論您如何取得資料,手動檢視資料都是良好的練習。Andrej Karpathy 在 ImageNet 上做到這點,並介紹了的經驗。