本課程著重於資料的相關問題 實際工作環境系統和模型
每項功能都有幫助嗎?
建議您持續監控模型,移除做出貢獻的特徵 甚至完全無法預測模型的預測能力如果輸入資料 突然出現變化 您的模型行為也可能突然出現 以不想要的方式改變
另外,您也可以參考以下相關問題:
- 此功能的實用性是否證明納入功能所需的成本?
您總會很想在模型中加入更多特徵。例如: 假設您發現一個新功能,結合了模型的預測結果 可能會稍微好一點稍微優於 預測結果稍差不過,額外功能會 減少維護負擔
資料來源是否可靠?
以下是有關輸入資料可靠性的一些問題:
- 信號是否會持續可用,還是來自
來源不可靠的?例如:
- 訊號是否來自伺服器,導致負載量大的伺服器當機?
- 這些訊號是否來自每年 8 月假期的人類?
- 計算模型輸入資料的系統是否曾改變?如果是:
- 多久採取一次?
- 你如何得知系統出現變化?
建議您自行建立 上游程序之後只前進到下一版上游 資料。
您的模型是否為意見回饋循環的一部分?
有時模型可能會影響自己的訓練資料。舉例來說, 結果產生後,會成為 (直接或間接) 輸入 但功能會調整為同一個模型
在某些情況下,模型可能會影響另一個模型。例如,假設有兩個 預測股票價格的模型:
- 模型 A 是錯誤的預測模型
- 型號 B:
因為 A 型錯了,他誤以為購買 X 庫存。 消費者購買的商品會使 X 股的股價上漲。型號 B 會使用價格 因此模型 B 的輸入特徵 股票 X 價值的結論因此,模型 B 根據 A 型模型的錯誤行為,買賣 X 股的股份。 模型 B 的行為反而會影響模型 A,進而觸發 tulip mania 或滑動入鏡 X 公司的庫存。
練習:隨堂測驗
下列哪三個型號較容易
建立意見回饋循環?
預測高速公路出口交通狀況的預測模型
海灘附近,吸引許多人來訪,並將其視為海灘特色之一。
有些海灘旅客可能會根據車流量製定計畫
預測結果如果海灘人潮眾多,且流量預測為
很多人可能會制定替代方案這可能憂鬱海灘
導致流量預測偏低
增加出席率及週期重複。
透過書籍推薦模型,推薦使用者可能會喜歡的小說
根據書籍的熱門程度 (也就是書籍的
。
推薦書籍有助於提高銷售量
這些交易都會傳回至模型做為輸入內容
增加推薦這些書籍的意願
為學校評分模型,其中部分為學校評分
選擇程度:套用標籤的學生百分比
允許。
這個模型的排名可能會使更多人的興趣增加
逐漸增加收到的應徵申請數量如果這些
學校允許學生人數仍相同,選擇性
增加 (錄取的學生百分比會下降)。這個
能提升這些學校的以便進一步提高
以及潛在學生興趣等等
這個選舉結果模型會預測
選民在投票結束後對 2% 的選民進行問卷調查。
如果模型必須等到輪詢作業完成後再發布預測結果
車輛停業後,選手就無法影響選民
行為
能使用
大小 (以平方公尺為單位)、臥室數量以及地理位置
視為特徵
你無法快速變更房屋的位置
或臥室數量來回應價格預測
可能就不會產生意見回饋循環不過
房間大小和數量 (住家較大者) 之間的關聯
可能會有更多房間) 而且可能需分開茶段
臉部屬性模型,可偵測是否有人在微笑
通常會使用圖庫訓練而成
因此每個月都會自動更新
這裡沒有回饋循環,因為模型預測沒有
任何對相片資料庫的影響。不過,輸入內容的版本管理
這些資料令人擔心
這些每月更新可能都是
會對模型造成無法預見的影響