本節將著重於標籤。
直接標籤與代理標籤
標籤分為以下兩種:
- 直接標籤:與模型嘗試預測的結果完全相同的標籤。也就是說,模型嘗試進行的預測會以資料集中的資料欄形式呈現。舉例來說,如果二元分類模型會預測某人是否擁有腳踏車,則名為「擁有腳踏車」的資料欄就是直接標籤。
bicycle owner
- 替代標籤:與模型嘗試預測的結果相似,但並不完全相同。舉例來說,訂閱「單車奇聞」雜誌的人可能擁有單車,但也不一定。
直接標籤通常比 Proxy 標籤好。如果資料集提供可能的直接標籤,您應該會使用該標籤。但通常無法直接取得標籤。
Proxy 標籤一律是折衷方案,是直接標籤的不完美近似值。不過,有些替代標籤的近似值夠接近,因此仍有參考價值。使用替代標籤的模型,其效用取決於替代標籤與預測之間的關聯。
請注意,每個標籤都必須以浮點數的形式表示在特徵向量中 (因為機器學習基本上就是大量數學運算的組合)。有時,直接標籤存在,但無法輕易以特徵向量中的浮點數表示。在這種情況下,請使用 Proxy 標籤。
練習:確認理解程度
貴公司希望達成下列目標:
將優待券 (「購買新自行車安全帽可享 85 折優惠」) 郵寄給自行車擁有者。
因此,模型必須執行下列操作:
預測哪些人擁有自行車。
很抱歉,資料集不含名為「bike owner
」的資料欄。
不過,資料集確實包含名為 recently bought a bicycle
的資料欄。
recently bought a bicycle
」適合做為這個模型的替代標籤嗎?recently bought a bicycle
」欄是相對合適的替代標籤。畢竟,現在購買自行車的人,大多都已經擁有自行車。不過,如同所有替代標籤 (即使是品質優良的標籤),recently bought a
bicycle
仍有不盡完美之處。畢竟,購買商品的人不一定是使用 (或擁有) 該商品的人。舉例來說,有時使用者會購買自行車做為禮物。recently bought a bicycle
並不完美 (有些自行車是買來送禮的)。不過,recently bought a bicycle
仍是相對良好的指標,可判斷使用者是否擁有自行車。人為生成的資料
部分資料是人工生成,也就是由一或多個人類檢查某些資訊,並提供值 (通常是標籤)。舉例來說,一或多名氣象學家可以檢查天空圖片,並識別雲朵類型。
此外,部分資料是自動產生。也就是說,軟體 (可能是另一個機器學習模型) 會決定值。舉例來說,機器學習模型可以檢查天空圖片,並自動識別雲朵類型。
本節將探討人類生成資料的優缺點。
優點
- 人類評估人員可以執行各種工作,即使是精密的機器學習模型也可能難以完成。
- 這個程序會要求資料集擁有者制定明確且一致的標準。
缺點
- 您通常需要支付人工評估人員的費用,因此人為產生的資料可能很昂貴。
- 人難免會犯錯。因此,多位評分人員可能需要評估相同資料。
請思考以下問題,判斷您的需求:
- 評估人員的技能必須達到什麼程度?(例如,評估人員是否必須瞭解特定語言?Do you need linguists for dialogue or NLP applications?)
- 需要多少有標籤的範例?你最快何時需要這些商品?
- 你的預算有多少?
請務必仔細檢查人工評估人員。舉例來說,您可以自行標記 1000 個範例,然後查看結果是否與其他評估人員的結果相符。如果發現差異,請勿假設你的評分正確,尤其是在涉及價值判斷時。如果人工評估人員造成錯誤,請考慮新增說明來協助他們,然後再試一次。