科學儀器或自動測量設備通常會記錄數值資料。另一方面,類別型資料通常可由人類或機器學習 (ML) 模型來分類。決定類別和標籤的人員,以及決定方式,都會影響資料的可靠性和實用性。
人工評估人員
由人工標示的資料通常稱為「黃金標籤」,由於資料品質較佳,因此在訓練模型時,比機器標示的資料更受青睞。
這並不代表任何一組人工標註資料都是高品質的。在資料收集時或資料的清理及處理期間,都可能會發生人為錯誤、偏誤和惡意狀況。請先在訓練前檢查。
如果兩個人類都是同一個示例,則可能是不同的標籤。評估人員的決策有何不同,稱為跨評估器協議。您可以使用每個範例的多位評估者,並評估評估者之間的一致性,瞭解評估者意見的差異。
機器評估器
機器標記資料 (由一或多個分類模型自動判定類別) 通常稱為「銀標籤」。機器標記資料的品質可能差異極大。除了檢查準確性和偏見,也要確認內容是否違反常識、現實和意圖。舉例來說,如果電腦視覺模型將吉娃娃是鬆餅的相片,或鬆餅一樣的毛茸茸相片,品質就會較低。
同樣地,如果情緒分析器將中性字詞評分為 -0.25 (0.0 為中性值),則可能會為所有字詞評分,並加上資料中實際不存在的額外負面偏差。過度敏感的有害內容偵測器可能會誤將許多中立的陳述標示為有害內容。在訓練資料之前,請先瞭解資料中機器標籤和註解的品質和偏差。
高維度
類別資料往往會產生高維度的特徵向量,也就是具有大量元素的特徵向量。高維度會增加訓練成本,並使訓練更加困難。因此,機器學習專家通常會在訓練前先設法減少維度數量。
對於自然語言資料,減少維度的常用方法是將特徵向量轉換為嵌入向量。本課程後續的嵌入單元會進一步說明這項功能。