實作模型

實作模型時,請從簡單的開始。機器學習的大部分工作都在資料端,因此要為複雜的模型執行完整的管道,比在模型本身反覆執行還要困難。設定資料管道並實作使用幾項功能的簡易模型後,您可以疊代建立更優質的模型。

即使是您不會啟動的簡易模型,也能提供良好的基準。事實上,使用簡單的模型可能比您想像的更好。以簡單開始可協助您判斷是否有複雜的模型是否更合理。

訓練模型而非使用已經訓練的模型

經過訓練的模型適用於多種用途,可提供許多優點。然而,訓練後的模型只有在標籤和特徵與資料集完全相符時才能運作。舉例來說,如果經過訓練的模型使用 25 個特徵,且資料集只包含 24 個特徵,則經過訓練的模型很有可能會產生不良的預測。

通常,機器學習從業人員會使用經過訓練的模型比對輸入的子區段,以便微調或遷移學習。如果訓練好的模型不存在適用於您的特定用途,請考慮在訓練自己的模型時,使用已訓練模型的子區段。

如要瞭解經過訓練的模型,請參閱

Monitoring

在問題取景期間,請考慮您的機器學習解決方案所需的監控與快訊基礎架構。

模型部署

在某些情況下,新訓練模型可能比目前實際工作環境的模型更糟。如果是這樣,則您要防止產品被釋出至實際工作環境,並收到自動部署失敗的快訊。

訓練/應用偏差

如果用於推論的傳入特徵值,位於訓練中所用資料的分佈範圍外,您就會想要收到快訊,因為模型的預測可能不佳。舉例來說,如果您的模型已經過訓練,可預測海平面的赤道城市溫度,則您的服務系統會提供傳入資料的提示,包括經緯度,以及模型訓練作業所用範圍以外的海拔高度。反之,如果模型進行的預測超出訓練期間顯示的分佈範圍,則提供系統應提醒您。

推論伺服器

如果您透過 RPC 系統提供推論,會需要監控 RPC 伺服器本身,並在伺服器停止提供推論時接收快訊。