實際工作環境機器學習系統:問題

本課程著重於資料的相關問題 實際工作環境系統和模型

每項功能都有幫助嗎?

建議您持續監控模型,移除做出貢獻的特徵 甚至完全無法預測模型的預測能力如果輸入資料 突然出現變化 您的模型行為也可能突然出現 以不想要的方式改變

另外,您也可以參考以下相關問題:

  • 此功能的實用性是否證明納入功能所需的成本?

您總會很想在模型中加入更多特徵。例如: 假設您發現一個新功能,結合了模型的預測結果 可能會稍微好一點稍微優於 預測結果稍差不過,額外功能會 減少維護負擔

資料來源是否可靠?

以下是有關輸入資料可靠性的一些問題:

  • 信號是否會持續可用,還是來自 來源不可靠的?例如:
    • 訊號是否來自伺服器,導致負載量大的伺服器當機?
    • 這些訊號是否來自每年 8 月假期的人類?
  • 計算模型輸入資料的系統是否曾改變?如果是:
    • 多久採取一次?
    • 你如何得知系統出現變化?

建議您自行建立 上游程序之後只前進到下一版上游 資料。

您的模型是否為意見回饋循環的一部分?

有時模型可能會影響自己的訓練資料。舉例來說, 結果產生後,會成為 (直接或間接) 輸入 但功能會調整為同一個模型

在某些情況下,模型可能會影響另一個模型。例如,假設有兩個 預測股票價格的模型:

  • 模型 A 是錯誤的預測模型
  • 型號 B:

因為 A 型錯了,他誤以為購買 X 庫存。 消費者購買的商品會使 X 股的股價上漲。型號 B 會使用價格 因此模型 B 的輸入特徵 股票 X 價值的結論因此,模型 B 根據 A 型模型的錯誤行為,買賣 X 股的股份。 模型 B 的行為反而會影響模型 A,進而觸發 tulip mania 或滑動入鏡 X 公司的庫存。

練習:隨堂測驗

下列哪三個型號較容易 建立意見回饋循環?
預測高速公路出口交通狀況的預測模型 海灘附近,吸引許多人來訪,並將其視為海灘特色之一。
有些海灘旅客可能會根據車流量製定計畫 預測結果如果海灘人潮眾多,且流量預測為 很多人可能會制定替代方案這可能憂鬱海灘 導致流量預測偏低 增加出席率及週期重複。
透過書籍推薦模型,推薦使用者可能會喜歡的小說 根據書籍的熱門程度 (也就是書籍的 。
推薦書籍有助於提高銷售量 這些交易都會傳回至模型做為輸入內容 增加推薦這些書籍的意願
為學校評分模型,其中部分為學校評分 選擇程度:套用標籤的學生百分比 允許。
這個模型的排名可能會使更多人的興趣增加 逐漸增加收到的應徵申請數量如果這些 學校允許學生人數仍相同,選擇性 增加 (錄取的學生百分比會下降)。這個 能提升這些學校的以便進一步提高 以及潛在學生興趣等等
這個選舉結果模型會預測 選民在投票結束後對 2% 的選民進行問卷調查。
如果模型必須等到輪詢作業完成後再發布預測結果 車輛停業後,選手就無法影響選民 行為
能使用 大小 (以平方公尺為單位)、臥室數量以及地理位置 視為特徵
你無法快速變更房屋的位置 或臥室數量來回應價格預測 可能就不會產生意見回饋循環不過 房間大小和數量 (住家較大者) 之間的關聯 可能會有更多房間) 而且可能需分開茶段
臉部屬性模型,可偵測是否有人在微笑 通常會使用圖庫訓練而成 因此每個月都會自動更新
這裡沒有回饋循環,因為模型預測沒有 任何對相片資料庫的影響。不過,輸入內容的版本管理 這些資料令人擔心 這些每月更新可能都是 會對模型造成無法預見的影響