數值資料通常是由科學儀器或科學儀器記錄 和自動化評估工具另一方面,類別型資料 依人類或機器學習 (ML) 模型分類。由誰決定 以及他們做出決定的「方式」,都會影響 可靠性與實用性
人工評估人員
手動加上標籤的資料通常稱為「黃金標籤」。 比起機器加上標籤的資料來訓練模型 因為資料品質較高
但這不一定表示任何人工加上標籤的資料都相當高 品質這時可能會出現人為疏失、偏誤和惡意行為 或清理及處理資料期間檢查項目 再進行訓練
如果兩個人類都是同一個示例,則可能是不同的標籤。差異 人類評估這些決策稱為 互動評分者 協議。 您可以利用這個畫面相關意見 以及評估跨分級系統協議。
機器評估器
機器加上標籤的資料,系統會根據一或 通常稱為「銀級標籤」 機器加上標籤的資料品質差異很大。檢查是否準確 違反一般感、現實和意圖適用對象 舉例來說,如果電腦視覺模型在相片上標示了錯誤的相片 吉娃娃是馬芬蛋糕 或是以 Chihuahua 聞名的瑪芬的相片 使用已加上標籤的資料加以訓練 畫質會降低
同樣地,情緒分析工具將中立字詞評分為 -0.25,而 0.0 為 可能也無法為所有字詞評分, 資料,但這些資料不會實際出現在資料中。過度敏感的惡意內容偵測工具 可能會誤將許多中性言論檢舉為有害內容。您可以試著瞭解 評估資料中機器標籤和註解的品質與偏誤 持續訓練
高維度
類別型資料通常會產生高維度特徵向量;也就是 擁有大量元素的特徵向量 高維度會增加訓練費用,並提高訓練成效 難以執行的程序基於這些原因,機器學習專家通常會設法降低數量 在訓練之前
以自然語言資料來說,降低維度的主要方法是 將特徵向量轉換為嵌入向量相關細節將於 嵌入模組 本課程稍後