資料集:標籤
本節將著重於標籤。
直接標籤與代理標籤
請考慮使用兩種不同類型的標籤:
- 直接標籤:與模型嘗試預測的標籤相同的標籤。也就是說,模型嘗試做出的預測會以資料集的資料欄呈現。舉例來說,如果要預測某人是否擁有腳踏車,那麼名為
bicycle owner
的資料欄就是二元分類模型的直接標籤。
- 代理標籤:與模型嘗試預測的標籤相似,但不完全相同的標籤。舉例來說,訂閱 Bicycle Bizarre 雜誌的使用者可能擁有單車,但不一定如此。
直接標籤通常比代理標籤更有用。如果資料集提供可能的直接標籤,您應該使用該標籤。不過,直接標籤通常無法使用。
代理標籤永遠是一種折衷,是直接標籤的不完美近似值。不過,某些代理標籤的近似值足以提供實用資訊。使用代理標籤的模型,其效用取決於代理標籤和預測之間的連結。
請注意,每個標籤都必須在特徵向量中以浮點數表示 (因為機器學習基本上只是大量數學運算的組合)。有時,直接標籤雖然存在,但無法輕易以浮點數的形式呈現在特徵向量中。在這種情況下,請使用代理標籤。
練習:檢查您的理解程度
貴公司希望執行下列操作:
向自行車車主郵寄優待券 (「舊車換新車可享 15% 折扣」)。
因此,您的模型必須執行以下操作:
預測哪些人擁有單車。
很抱歉,資料集不含名為 bike owner
的資料欄。不過,資料集確實包含名為 recently bought a bicycle
的資料欄。
recently bought a bicycle
是這個模型的良好代理標籤,還是不良代理標籤?
良好的代理標籤
欄 recently bought a bicycle
是相對不錯的代理標籤。畢竟,現在大多數購買自行車的人都有自行車。不過,recently bought a
bicycle
與所有代理標籤一樣,即使是相當優良的代理標籤,也無法達到完美。畢竟購買商品的人不一定是使用 (或擁有) 該商品的人。舉例來說,有時使用者會購買自行車當作禮物。
代理標籤不佳
如同所有代理標籤,recently bought a bicycle
並非完美無缺 (有些自行車是買來送給他人的禮物)。不過,recently bought a bicycle
仍是判斷使用者是否擁有腳踏車的相對良好指標。
人工產生的資料
有些資料是人工產生的,也就是說,一或多位人員會檢查某些資訊,並提供值,通常是標籤。舉例來說,一或多位氣象學家可以檢查天空圖片,並識別雲朵類型。
或者,系統會自動產生部分資料。也就是說,軟體 (可能是另一個機器學習模型) 會決定價值。舉例來說,機器學習模型可檢查天空圖片,並自動識別雲朵類型。
本節將探討人類產生資料的優點和缺點。
優點
- 人類評分人員可以執行各種任務,就連精密的機器學習模型也難以勝任。
- 這項程序會強制資料集擁有者建立明確且一致的標準。
缺點
- 您通常需要支付人力評估費用,因此人為產生的資料可能會很昂貴。
- 人非聖賢,孰能無過。因此,可能需要多位評分人員評估相同資料。
請思考以下問題,判斷自己的需求:
- 評分者必須具備什麼技能?(例如,評分者是否必須懂特定語言?您是否需要語言學家協助開發對話或 NLP 應用程式?)
- 您需要多少個有標籤的範例?您最快何時需要取得這些商品?
- 您的預算是多少?
請務必仔細檢查人工評分員的評分。舉例來說,您可以自行為 1000 個範例加上標籤,然後查看您的結果與其他評分者的結果是否一致。如果出現差異,請勿假設你的評分正確無誤,特別是如果涉及價值判斷的情況。如果人工評分人員導致錯誤,建議您新增說明以協助他們,然後再試一次。
按一下加號圖示,進一步瞭解人為資料。
無論您是透過何種方式取得資料,手動查看資料都是不錯的練習。Andrej Karpathy 在 ImageNet 上進行這項操作,並撰文分享這段體驗。
模型可同時使用自動產生的標籤和人工產生的標籤進行訓練。不過,對於大多數模型而言,額外一組人類產生的標籤 (可能會過時) 通常不值得額外增加的複雜度和維護工作。不過,人工標籤有時可提供自動標籤無法提供的額外資訊。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-11-14 (世界標準時間)。
[null,null,["上次更新時間:2024-11-14 (世界標準時間)。"],[[["This document explains the differences between direct and proxy labels for machine learning models, highlighting that direct labels are preferred but often unavailable."],["It emphasizes the importance of carefully evaluating proxy labels to ensure they are a suitable approximation of the target prediction."],["Human-generated data, while offering flexibility and nuanced understanding, can be expensive and prone to errors, requiring careful quality control."],["Machine learning models can utilize a combination of automated and human-generated labels, but the added complexity of maintaining human-generated labels often outweighs the benefits."],["Regardless of the label source, manual data inspection and comparison with human ratings are crucial for identifying potential issues and ensuring data quality."]]],[]]