資料集:標籤

本節將著重於標籤

直接標籤與代理標籤

標籤分為以下兩種:

  • 直接標籤:與模型嘗試預測的結果完全相同的標籤。也就是說,模型嘗試進行的預測會以資料集中的資料欄形式呈現。舉例來說,如果二元分類模型會預測某人是否擁有腳踏車,則名為「擁有腳踏車」的資料欄就是直接標籤。bicycle owner
  • 替代標籤:與模型嘗試預測的結果相似,但並不完全相同。舉例來說,訂閱「單車奇聞」雜誌的人可能擁有單車,但也不一定。

直接標籤通常比 Proxy 標籤好。如果資料集提供可能的直接標籤,您應該會使用該標籤。但通常無法直接取得標籤。

Proxy 標籤一律是折衷方案,是直接標籤的不完美近似值。不過,有些替代標籤的近似值夠接近,因此仍有參考價值。使用替代標籤的模型,其效用取決於替代標籤與預測之間的關聯。

請注意,每個標籤都必須以浮點數的形式表示在特徵向量中 (因為機器學習基本上就是大量數學運算的組合)。有時,直接標籤存在,但無法輕易以特徵向量中的浮點數表示。在這種情況下,請使用 Proxy 標籤。

練習:確認理解程度

貴公司希望達成下列目標:

將優待券 (「購買新自行車安全帽可享 85 折優惠」) 郵寄給自行車擁有者。

因此,模型必須執行下列操作:

預測哪些人擁有自行車。

很抱歉,資料集不含名為「bike owner」的資料欄。 不過,資料集確實包含名為 recently bought a bicycle 的資料欄。

recently bought a bicycle」適合做為這個模型的替代標籤嗎?
良好的代理標籤
recently bought a bicycle」欄是相對合適的替代標籤。畢竟,現在購買自行車的人,大多都已經擁有自行車。不過,如同所有替代標籤 (即使是品質優良的標籤),recently bought a bicycle 仍有不盡完美之處。畢竟,購買商品的人不一定是使用 (或擁有) 該商品的人。舉例來說,有時使用者會購買自行車做為禮物。
代理標籤不佳
與所有替代標籤一樣,recently bought a bicycle 並不完美 (有些自行車是買來送禮的)。不過,recently bought a bicycle仍是相對良好的指標,可判斷使用者是否擁有自行車。

人為生成的資料

部分資料是人工生成,也就是由一或多個人類檢查某些資訊,並提供值 (通常是標籤)。舉例來說,一或多名氣象學家可以檢查天空圖片,並識別雲朵類型。

此外,部分資料是自動產生。也就是說,軟體 (可能是另一個機器學習模型) 會決定值。舉例來說,機器學習模型可以檢查天空圖片,並自動識別雲朵類型。

本節將探討人類生成資料的優缺點。

優點

  • 人類評估人員可以執行各種工作,即使是精密的機器學習模型也可能難以完成。
  • 這個程序會要求資料集擁有者制定明確且一致的標準。

缺點

  • 您通常需要支付人工評估人員的費用,因此人為產生的資料可能很昂貴。
  • 人難免會犯錯。因此,多位評分人員可能需要評估相同資料。

請思考以下問題,判斷您的需求:

  • 評估人員的技能必須達到什麼程度?(例如,評估人員是否必須瞭解特定語言?Do you need linguists for dialogue or NLP applications?)
  • 需要多少有標籤的範例?你最快何時需要這些商品?
  • 你的預算有多少?

請務必仔細檢查人工評估人員。舉例來說,您可以自行標記 1000 個範例,然後查看結果是否與其他評估人員的結果相符。如果發現差異,請勿假設你的評分正確,尤其是在涉及價值判斷時。如果人工評估人員造成錯誤,請考慮新增說明來協助他們,然後再試一次。