資料集:標籤

本節將著重於標籤

直接標籤與代理標籤

請考慮使用兩種不同類型的標籤:

  • 直接標籤:與模型嘗試預測的標籤相同的標籤。也就是說,模型嘗試做出的預測會以資料集的資料欄呈現。舉例來說,如果要預測某人是否擁有腳踏車,那麼名為 bicycle owner 的資料欄就是二元分類模型的直接標籤。
  • 代理標籤:與模型嘗試預測的標籤相似,但不完全相同的標籤。舉例來說,訂閱 Bicycle Bizarre 雜誌的使用者可能擁有單車,但不一定如此。

直接標籤通常比代理標籤更有用。如果資料集提供可能的直接標籤,您應該使用該標籤。不過,直接標籤通常無法使用。

代理標籤永遠是一種折衷,是直接標籤的不完美近似值。不過,某些代理標籤的近似值足以提供實用資訊。使用代理標籤的模型,其效用取決於代理標籤和預測之間的連結。

請注意,每個標籤都必須在特徵向量中以浮點數表示 (因為機器學習基本上只是大量數學運算的組合)。有時,直接標籤雖然存在,但無法輕易以浮點數的形式呈現在特徵向量中。在這種情況下,請使用代理標籤。

練習:檢查您的理解程度

貴公司希望執行下列操作:

向自行車車主郵寄優待券 (「舊車換新車可享 15% 折扣」)。

因此,您的模型必須執行以下操作:

預測哪些人擁有單車。

很抱歉,資料集不含名為 bike owner 的資料欄。不過,資料集確實包含名為 recently bought a bicycle 的資料欄。

recently bought a bicycle 是這個模型的良好代理標籤,還是不良代理標籤?
良好的代理標籤
recently bought a bicycle 是相對不錯的代理標籤。畢竟,現在大多數購買自行車的人都有自行車。不過,recently bought a bicycle 與所有代理標籤一樣,即使是相當優良的代理標籤,也無法達到完美。畢竟購買商品的人不一定是使用 (或擁有) 該商品的人。舉例來說,有時使用者會購買自行車當作禮物。
代理標籤不佳
如同所有代理標籤,recently bought a bicycle 並非完美無缺 (有些自行車是買來送給他人的禮物)。不過,recently bought a bicycle 仍是判斷使用者是否擁有腳踏車的相對良好指標。

人工產生的資料

有些資料是人工產生的,也就是說,一或多位人員會檢查某些資訊,並提供值,通常是標籤。舉例來說,一或多位氣象學家可以檢查天空圖片,並識別雲朵類型。

或者,系統會自動產生部分資料。也就是說,軟體 (可能是另一個機器學習模型) 會決定價值。舉例來說,機器學習模型可檢查天空圖片,並自動識別雲朵類型。

本節將探討人類產生資料的優點和缺點。

優點

  • 人類評分人員可以執行各種任務,就連精密的機器學習模型也難以勝任。
  • 這項程序會強制資料集擁有者建立明確且一致的標準。

缺點

  • 您通常需要支付人力評估費用,因此人為產生的資料可能會很昂貴。
  • 人非聖賢,孰能無過。因此,可能需要多位評分人員評估相同資料。

請思考以下問題,判斷自己的需求:

  • 評分者必須具備什麼技能?(例如,評分者是否必須懂特定語言?您是否需要語言學家協助開發對話或 NLP 應用程式?)
  • 您需要多少個有標籤的範例?您最快何時需要取得這些商品?
  • 您的預算是多少?

請務必仔細檢查人工評分員的評分。舉例來說,您可以自行為 1000 個範例加上標籤,然後查看您的結果與其他評分者的結果是否一致。如果出現差異,請勿假設你的評分正確無誤,特別是如果涉及價值判斷的情況。如果人工評分人員導致錯誤,建議您新增說明以協助他們,然後再試一次。