實作模型時,請從簡單的開始。機器學習的大部分工作都在資料端,因此要為複雜的模型執行完整的管道,比在模型本身反覆執行還要困難。設定資料管道並實作使用幾項功能的簡易模型後,您可以疊代建立更優質的模型。
即使是您不會啟動的簡易模型,也能提供良好的基準。事實上,使用簡單的模型可能比您想像的更好。以簡單開始可協助您判斷是否有複雜的模型是否更合理。
訓練模型而非使用已經訓練的模型
經過訓練的模型適用於多種用途,可提供許多優點。然而,訓練後的模型只有在標籤和特徵與資料集完全相符時才能運作。舉例來說,如果經過訓練的模型使用 25 個特徵,且資料集只包含 24 個特徵,則經過訓練的模型很有可能會產生不良的預測。
通常,機器學習從業人員會使用經過訓練的模型比對輸入的子區段,以便微調或遷移學習。如果訓練好的模型不存在適用於您的特定用途,請考慮在訓練自己的模型時,使用已訓練模型的子區段。
如要瞭解經過訓練的模型,請參閱
Monitoring
在問題取景期間,請考慮您的機器學習解決方案所需的監控與快訊基礎架構。
模型部署
在某些情況下,新訓練模型可能比目前實際工作環境的模型更糟。如果是這樣,則您要防止產品被釋出至實際工作環境,並收到自動部署失敗的快訊。
訓練/應用偏差
如果用於推論的傳入特徵值,位於訓練中所用資料的分佈範圍外,您就會想要收到快訊,因為模型的預測可能不佳。舉例來說,如果您的模型已經過訓練,可預測海平面的赤道城市溫度,則您的服務系統會提供傳入資料的提示,包括經緯度,以及模型訓練作業所用範圍以外的海拔高度。反之,如果模型進行的預測超出訓練期間顯示的分佈範圍,則提供系統應提醒您。
推論伺服器
如果您透過 RPC 系統提供推論,會需要監控 RPC 伺服器本身,並在伺服器停止提供推論時接收快訊。