本節將著重說明標籤。
直接與 Proxy 標籤
請考慮使用以下兩種標籤:
- 直接標籤,也就是與模型預測相同的標籤
所發出的要求也就是說,您的模型嘗試執行的預測結果是
全都以資料欄的形式呈現在資料集中
舉例來說,名為
bicycle owner
的欄會成為 能預測個人是否擁有的二元分類模型 一輛自行車 - Proxy 標籤,這是指相似的標籤,但 不等於模型嘗試進行的預測結果 例如:使用者訂閱 Bicycle Bizarre 雜誌 但這或許不是一定要有腳踏車。
直接標籤通常比 Proxy 標籤更好。如果您的資料集 會提供可能的直接標籤,建議您使用它。 不過在大多數情況下,我們尚未提供直接標籤功能。
Proxy 標籤一定是某種漏洞 - 直接標籤但有些 Proxy 標籤的估計值 才是重點採用 Proxy 標籤的模型只在 Proxy 標籤和預測結果之間的連線
提醒您,每個標籤都必須以浮點數表示 在特徵向量中 (因為機器學習基本上就是 作業)。有時候,直接標籤雖然沒有直接標籤, 特徵向量中的浮點數在這種情況下,請使用 Proxy 標籤。
練習:隨堂測驗
貴公司希望採取下列行動:
郵寄優待券 (「舊單車換購新車」 新單車 95 折優惠」),
因此,模型必須執行以下操作:
預測哪些人有單車。
很抱歉,資料集並未包含名為「bike owner
」的資料欄。
但資料集含有名為 recently bought a bicycle
的資料欄。
recently bought a bicycle
」是適當的 Proxy 標籤
或是這個模型的 Proxy 標籤不正確recently bought a bicycle
欄是
並採用相當良好的 Proxy 標籤畢竟大部分的人
也就是買了腳踏車的顧客如同所有
Proxy 標籤,即使標籤非常好,recently bought a
bicycle
也不太完美。畢竟,消費者購買
有些項目不一定使用 (或擁有) 該項目。
舉例來說,有些顧客有時會購買單車贈禮。recently bought a bicycle
不完美 (有些腳踏車是以禮品購買,
和其他)。不過,recently bought a bicycle
是
仍然是某人擁有的
騎單車。人工資料
部分資料為人類產生;也就是一或多位真人研究一下 並提供一個值,通常用於標籤。例如: 可以請教一或多位氣象學家檢查天空的相片並找出 雲端類型
此外,部分資料是自動產生。也就是軟體 (可能是另一個機器學習模型) 會決定該值。舉例來說 機器學習模型可以檢查天空相片,並自動偵測 雲端類型
本節說明人工產生的資料有何優缺點。
優點
- 人類評估人員可以執行各種複雜的工作 可能會覺得很難
- 這項程序會強制資料集擁有者 判斷一致性
缺點
- 您通常會付款給評估人員,因此人工產生的資料可能所費不貲。
- 呃,不應該是人類。因此,可能需要多位評估人員評估 以相同的方式處理資料
請思考以下問題,確定您的需求:
- 您的評估人員必須具備多高的專業技能?(舉例來說,評分者 知道特定語言嗎?無論是對話還是自然語言處理,需要語言專家嗎? 應用程式?)
- 您需要多少已加上標籤的樣本?您最快需要多久?
- 您的預算有多少?
務必仔細檢查評估人員。例如標籤 1000 的樣本 看看您的結果如何與其他評分者比較也就是預測結果 如果出現差異,請勿假定您的評分正確無誤 尤其在牽涉到價值時更是如此如果評估人員 錯誤訊息,不妨加上操作說明,然後再試一次。
,瞭解如何調查及移除這項存取權。