Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

資料集：標籤

本節將著重於標籤。

直接標籤與代理標籤

標籤分為以下兩種：

直接標籤：與模型嘗試預測的結果完全相同的標籤。也就是說，模型嘗試進行的預測會以資料集中的資料欄形式呈現。舉例來說，如果二元分類模型會預測某人是否擁有腳踏車，則名為「擁有腳踏車」的資料欄就是直接標籤。bicycle owner
替代標籤：與模型嘗試預測的結果相似，但並不完全相同。舉例來說，訂閱「單車奇聞」雜誌的人可能擁有單車，但也不一定。

直接標籤通常比 Proxy 標籤好。如果資料集提供可能的直接標籤，您應該會使用該標籤。但通常無法直接取得標籤。

Proxy 標籤一律是折衷方案，是直接標籤的不完美近似值。不過，有些替代標籤的近似值夠接近，因此仍有參考價值。使用替代標籤的模型，其效用取決於替代標籤與預測之間的關聯。

請注意，每個標籤都必須以浮點數表示，類似於特徵向量 (因為機器學習基本上就是一系列的數學運算)。有時，直接標籤存在，但無法輕易以浮點數表示。在這種情況下，請使用 Proxy 標籤。

貴公司希望達成下列目標：

將優待券 (「購買新自行車安全帽可享 85 折優惠」) 郵寄給自行車擁有者。

因此，模型必須執行下列操作：

預測哪些人擁有自行車。

很抱歉，資料集不含名為「bike owner」的資料欄。不過，資料集確實包含名為 recently bought a bicycle 的資料欄。

「recently bought a bicycle」適合做為這個模型的替代標籤嗎？

良好的代理標籤

「recently bought a bicycle」欄是相對合適的替代標籤。畢竟，現在購買自行車的人，大多都已經擁有自行車。不過，如同所有替代標籤 (即使是品質優良的標籤)，

recently bought a
            bicycle

仍有不盡完美之處。畢竟，購買商品的人不一定是使用 (或擁有) 該商品的人。舉例來說，有時使用者會購買自行車做為禮物。

代理標籤不佳

與所有替代標籤一樣，recently bought a bicycle 並不完美 (有些自行車是買來送禮的)。不過，recently bought a bicycle仍是相對良好的指標，可判斷使用者是否擁有自行車。

部分資料是人工生成，也就是由一或多個人類檢查某些資訊，並提供值 (通常是標籤)。舉例來說，一或多名氣象學家可以檢查天空圖片，並識別雲朵類型。

此外，部分資料是自動生成。也就是說，軟體 (可能是另一個機器學習模型) 會決定值。舉例來說，機器學習模型可以檢查天空圖片，並自動識別雲朵類型。

本節將探討人類生成資料的優缺點。

優點

缺點

請思考以下問題，判斷您的需求：

評估人員的技能必須達到什麼程度？(例如，評估人員是否必須瞭解特定語言？Do you need linguists for dialogue or NLP applications?)
需要多少有標籤的範例？你最快何時需要？
你的預算有多少？

請務必仔細檢查人工評估人員。舉例來說，您可以自行標記 1000 個範例，然後查看結果是否與其他評估人員的結果相符。如果發現差異，請勿假設你的評分正確，尤其是在涉及價值判斷時。如果人工評估人員造成錯誤，請考慮新增說明來協助他們，然後再試一次。

無論資料來源為何，手動查看資料都是很好的練習。Andrej Karpathy 在 ImageNet 上進行了這項操作，並撰寫了相關體驗。

模型可使用自動和人工生成的標籤進行訓練。不過，對大多數模型而言，額外一組人工生成的標籤 (可能過時) 通常不值得額外的複雜度和維護成本。不過，有時人工生成的標籤可提供自動標籤沒有的額外資訊。