資料集:標籤

本節將著重說明標籤

直接與 Proxy 標籤

請考慮使用以下兩種標籤:

  • 直接標籤,也就是與模型預測相同的標籤 所發出的要求也就是說,您的模型嘗試執行的預測結果是 全都以資料欄的形式呈現在資料集中 舉例來說,名為 bicycle owner 的欄會成為 能預測個人是否擁有的二元分類模型 一輛自行車
  • Proxy 標籤,這是指相似的標籤,但 不等於模型嘗試進行的預測結果 例如:使用者訂閱 Bicycle Bizarre 雜誌 但這或許不是一定要有腳踏車。

直接標籤通常比 Proxy 標籤更好。如果您的資料集 會提供可能的直接標籤,建議您使用它。 不過在大多數情況下,我們尚未提供直接標籤功能。

Proxy 標籤一定是某種漏洞 - 直接標籤但有些 Proxy 標籤的估計值 才是重點採用 Proxy 標籤的模型只在 Proxy 標籤和預測結果之間的連線

提醒您,每個標籤都必須以浮點數表示 在特徵向量中 (因為機器學習其實是全神貫注的數學工程 作業)。有時候,直接標籤雖然沒有直接標籤, 特徵向量中的浮點數在這種情況下,請使用 Proxy 標籤。

練習:隨堂測驗

貴公司希望採取下列行動:

郵寄優待券 (「舊單車換購新車」 新單車 95 折優惠」),

因此,模型必須執行以下操作:

預測哪些人有單車。

很抱歉,資料集並未包含名為「bike owner」的資料欄。 但資料集含有名為 recently bought a bicycle 的資料欄。

recently bought a bicycle」是適當的 Proxy 標籤 或是這個模型的 Proxy 標籤不正確
正常的 Proxy 標籤
recently bought a bicycle 欄是 並採用相當良好的 Proxy 標籤畢竟大部分的人 也就是買了腳踏車的顧客如同所有 Proxy 標籤,即使標籤非常好,recently bought a bicycle 也不太完美。畢竟,消費者購買 有些項目不一定使用 (或擁有) 該項目。 舉例來說,有些顧客有時會購買單車贈禮。
Proxy 標籤不佳
與所有 Proxy 標籤一樣:recently bought a bicycle 不完美 (有些腳踏車是以禮品購買, 和其他)。不過,recently bought a bicycle 是 仍然是某人擁有的 騎單車。

人工資料

部分資料為人類產生;也就是一或多位真人研究一下 並提供一個值,通常用於標籤。例如: 可以請教一或多位氣象學家檢查天空的相片並找出 雲端類型

此外,部分資料是自動產生。也就是軟體 (可能是另一個機器學習模型) 會決定該值。舉例來說 機器學習模型可以檢查天空相片,並自動偵測 雲端類型

本節說明人工產生的資料有何優缺點。

優點

  • 人類評估人員可以執行各種複雜的工作 可能會覺得很難
  • 這項程序會強制資料集擁有者 判斷一致性

缺點

  • 您通常會付款給評估人員,因此人工產生的資料可能所費不貲。
  • 呃,不應該是人類。因此,可能需要多位評估人員評估 以相同的方式處理資料

請思考以下問題,確定您的需求:

  • 您的評估人員必須具備多高的專業技能?(舉例來說,評分者 知道特定語言嗎?無論是對話還是自然語言處理,需要語言專家嗎? 應用程式?)
  • 您需要多少已加上標籤的樣本?您最快需要多久?
  • 您的預算有多少?

務必仔細檢查評估人員。例如標籤 1000 的樣本 看看您的結果如何與其他評分者比較也就是預測結果 如果出現差異,請勿假定您的評分正確無誤 尤其在牽涉到價值時更是如此如果評估人員 錯誤訊息,不妨加上操作說明,然後再試一次。