如要準備用於實際工作環境的機器學習管道,您必須執行下列操作:
- 為管道佈建運算資源
- 實作記錄、監控和快訊功能
佈建運算資源
執行機器學習管道需要運算資源,例如 RAM、CPU 和 GPU/TPU。 運算能力不足,您就無法執行管道。因此,請務必確保 取得足夠配額來佈建管道所需的資源 您必須在正式環境中執行
提供、訓練和驗證管道:這些管道需要 TPU、GPU 或 CPU視用途而定,您可以訓練及提供 或使用相同的硬體舉例來說,訓練可能會 發生在 CPU 上,但放送可能會使用 TPU,反之亦然。一般來說 通常用於訓練較大的硬體,然後提供在較小的硬體上
挑選硬體時,請注意下列事項:
- 您能用更便宜的硬體進行訓練嗎?
- 是否改用其他硬體可提高效能?
- 模型的尺寸為何?哪些硬體會最佳化效能?
- 根據您模型的架構,理想的硬體為何?
資料管道:資料管道需要 RAM 和 CPU 的配額 您必須預估 提供大量配額,讓管道產生訓練和測試資料集。
您可能無法為各個管道分配配額。不過, 並分配管道共用的配額在這種情況下,請驗證 您有足夠的配額來執行所有管道、設定監控與 ,以免單一錯誤管道耗盡所有配額。
估算配額
如要估算所需的資料和訓練管道配額,請尋找 預估成效的同類專案如要估算供應配額,請嘗試 可預測每秒查詢次數這些方法可提供基準。阿斯 您在實驗階段開始設計解決方案的原型 以更準確地預估配額
估算配額時,別忘了一併考量實際工作環境的配額 以及持續實驗
驗收學習成果
記錄、監控及快訊
記錄及監控實際工作環境模型的行為至關重要。Robust 可以確保模型提供穩定可靠 以便進行文字驗證
良好的記錄與監控做法有助於主動找出機器學習的問題 並降低潛在業務影響問題發生時,系統會傳送快訊 通知團隊成員,並透過全方位記錄協助診斷 根本原因
建議您實作記錄與監控功能來偵測下列問題 搭配使用機器學習管線
管道 | 監控 |
---|---|
提供中 |
|
資料 |
|
訓練 |
|
驗證 |
|
您也會需要針對下列項目進行記錄、監控和快訊:
- 延遲時間。發出預測需要多久時間?
- 服務中斷。模型是否停止提供預測結果?
驗收學習成果
部署模型
進行模型部署時,建議您記錄下列項目:
- 必須獲得核准才能開始部署並增加推出比例。
- 如何將模型部署至實際工作環境。
- 模型部署位置,例如準備環境或初期測試版本 環境
- 部署作業失敗時的處理方式。
- 如何復原實際工作環境中的模型。
自動化模型訓練完成後 驗證和部署自動部署功能會分散部署項目 並降低部署過程中遭受瓶頸的可能性 使用者。也能減少潛在錯誤、提高效率, ,並支援通話時輪替和 SRE 支援。
一般來說,您會將新模型部署至部分使用者,藉此確認模型是否 行為符合預期如果狀態存在,請繼續部署。如果不是 復原部署,並開始診斷及偵錯問題。