本節將著重於標籤。
直接標籤與代理標籤
請考慮使用兩種不同類型的標籤:
- 直接標籤:與模型嘗試預測的標籤相同的標籤。也就是說,模型嘗試做出的預測會以資料集的資料欄呈現。舉例來說,如果要預測某人是否擁有腳踏車,那麼名為
bicycle owner
的資料欄就是二元分類模型的直接標籤。 - 代理標籤:與模型嘗試預測的標籤相似,但不完全相同的標籤。舉例來說,訂閱 Bicycle Bizarre 雜誌的使用者可能擁有單車,但不一定如此。
直接標籤通常比代理標籤更有用。如果資料集提供可能的直接標籤,您應該使用該標籤。不過,直接標籤通常無法使用。
代理標籤永遠是一種折衷,是直接標籤的不完美近似值。不過,某些代理標籤的近似值足以提供實用資訊。使用代理標籤的模型,其效用取決於代理標籤和預測之間的連結。
請注意,每個標籤都必須在特徵向量中以浮點數表示 (因為機器學習基本上只是大量數學運算的組合)。有時,直接標籤雖然存在,但無法輕易以浮點數的形式呈現在特徵向量中。在這種情況下,請使用代理標籤。
練習:檢查您的理解程度
貴公司希望執行下列操作:
向自行車車主郵寄優待券 (「舊車換新車可享 15% 折扣」)。
因此,您的模型必須執行以下操作:
預測哪些人擁有單車。
很抱歉,資料集不含名為 bike owner
的資料欄。不過,資料集確實包含名為 recently bought a bicycle
的資料欄。
recently bought a bicycle
是這個模型的良好代理標籤,還是不良代理標籤?recently bought a bicycle
是相對不錯的代理標籤。畢竟,現在大多數購買自行車的人都有自行車。不過,recently bought a
bicycle
與所有代理標籤一樣,即使是相當優良的代理標籤,也無法達到完美。畢竟購買商品的人不一定是使用 (或擁有) 該商品的人。舉例來說,有時使用者會購買自行車當作禮物。recently bought a bicycle
並非完美無缺 (有些自行車是買來送給他人的禮物)。不過,recently bought a bicycle
仍是判斷使用者是否擁有腳踏車的相對良好指標。人工產生的資料
有些資料是人工產生的,也就是說,一或多位人員會檢查某些資訊,並提供值,通常是標籤。舉例來說,一或多位氣象學家可以檢查天空圖片,並識別雲朵類型。
或者,系統會自動產生部分資料。也就是說,軟體 (可能是另一個機器學習模型) 會決定價值。舉例來說,機器學習模型可檢查天空圖片,並自動識別雲朵類型。
本節將探討人類產生資料的優點和缺點。
優點
- 人類評分人員可以執行各種任務,就連精密的機器學習模型也難以勝任。
- 這項程序會強制資料集擁有者建立明確且一致的標準。
缺點
- 您通常需要支付人力評估費用,因此人為產生的資料可能會很昂貴。
- 人非聖賢,孰能無過。因此,可能需要多位評分人員評估相同資料。
請思考以下問題,判斷自己的需求:
- 評分者必須具備什麼技能?(例如,評分者是否必須懂特定語言?您是否需要語言學家協助開發對話或 NLP 應用程式?)
- 您需要多少個有標籤的範例?您最快何時需要取得這些商品?
- 您的預算是多少?
請務必仔細檢查人工評分員的評分。舉例來說,您可以自行為 1000 個範例加上標籤,然後查看您的結果與其他評分者的結果是否一致。如果出現差異,請勿假設你的評分正確無誤,特別是如果涉及價值判斷的情況。如果人工評分人員導致錯誤,建議您新增說明以協助他們,然後再試一次。