實際工作環境機器學習系統:問題

本課程著重於說明您應針對實際工作環境系統中的資料和模型提出的問題。

每項功能是否實用?

您應持續監控模型,移除對模型預測能力貢獻不大或完全沒有貢獻的功能。如果該功能的輸入資料突然變更,模型的行為也可能會突然以不理想的方式變更。

請同時考慮下列相關問題:

  • 功能的實用性是否值得加入的成本?

我們總是會想在模型中加入更多特徵。舉例來說,假設您發現新增的功能可稍微提升模型預測結果。雖然稍微準確的預測結果確實比稍微不準確的預測結果好,但額外功能會增加維護負擔。

資料來源是否可靠?

以下是一些關於輸入資料可靠性的相關問題:

  • 信號是否一律可用,或是來自不可靠的來源?例如:
    • 訊號是否來自在高負載下當機的伺服器?
    • 訊號是否來自每年八月休假的人類?
  • 計算模型輸入資料的系統是否會變更?如果是的話:
    • 多久一次?
    • 如何得知系統有變更?

建議您為從上游程序收到的資料建立副本。然後,只有在您確定可以安全地進行時,才升級至上游資料的下一個版本。

您的模型是否會影響回饋迴路?

有時候,模型可能會影響自己的訓練資料。舉例來說,某些模型的結果會直接或間接成為該模型的輸入特徵。

有時一個模型可能會影響其他模型。舉例來說,請考量兩種預測股價的模型:

  • 模型 A:不良的預測模型。
  • 模式 B。

由於模型 A 有錯誤,因此誤判決定購買股票 X。這些購買行為會推升股票 X 的價格。模型 B 會使用股票 X 的價格做為輸入特徵,因此可能會對股票 X 的價值得出錯誤結論。因此,Model B 可以根據 Model A 的錯誤行為,購買或出售 Stock X。而模型 B 的行為又會影響模型 A,可能會觸發鬱金香水狂熱或公司 X 的股票下滑。

練習:檢查您的理解程度

下列哪三個模型容易產生迴圈?
這項流量預測模型會使用海灘人潮數量等特徵,預測海灘附近高速公路出口的壅塞情形。
大學排名模式,部分依據學校的選拔性 (即錄取的申請學生百分比) 評分。
書籍推薦模型,可根據書籍的熱門程度 (即書籍的購買次數),為使用者推薦可能喜歡的長篇小說。
臉部特徵模型,可偵測相片中的人物是否在微笑,並定期以每月自動更新的版權圖片資料庫進行訓練。
房屋價值模型,會使用房屋大小 (以平方公尺為單位)、臥室數量和地理位置做為特徵,來預測房價。
選舉結果模型:在投票結束後,透過對 2% 的選民進行調查,預測市長選舉的勝出者。