製作

如要準備用於實際工作環境的機器學習管道,您必須執行下列操作:

  • 為管道佈建運算資源
  • 實作記錄、監控和快訊功能

佈建運算資源

執行機器學習管道需要運算資源,例如 RAM、CPU 和 GPU/TPU。 運算能力不足,您就無法執行管道。因此,請務必確保 取得足夠配額來佈建管道所需的資源 您必須在正式環境中執行

  • 提供、訓練和驗證管道:這些管道需要 TPU、GPU 或 CPU視用途而定,您可以訓練及提供 或使用相同的硬體舉例來說,訓練可能會 發生在 CPU 上,但放送可能會使用 TPU,反之亦然。一般來說 通常用於訓練較大的硬體,然後提供在較小的硬體上

    挑選硬體時,請注意下列事項:

    • 您能用更便宜的硬體進行訓練嗎?
    • 是否改用其他硬體可提高效能?
    • 模型的尺寸為何?哪些硬體會最佳化效能?
    • 根據您模型的架構,理想的硬體為何?
  • 資料管道:資料管道需要 RAM 和 CPU 的配額 您必須預估 提供大量配額,讓管道產生訓練和測試資料集。

您可能無法為各個管道分配配額。不過, 並分配管道共用的配額在這種情況下,請驗證 您有足夠的配額來執行所有管道、設定監控與 ,以免單一錯誤管道耗盡所有配額。

估算配額

如要估算所需的資料和訓練管道配額,請尋找 預估成效的同類專案如要估算供應配額,請嘗試 可預測每秒查詢次數這些方法可提供基準。阿斯 您在實驗階段開始設計解決方案的原型 以更準確地預估配額

估算配額時,別忘了一併考量實際工作環境的配額 以及持續實驗

驗收學習成果

選擇提供預測的硬體時,應一律選擇 相較於用來訓練模型 的硬體效能更強大
沒錯。一般來說,訓練所需的硬體比服務更多。

記錄、監控及快訊

記錄及監控實際工作環境模型的行為至關重要。Robust 可以確保模型提供穩定可靠 以便進行文字驗證

良好的記錄與監控做法有助於主動找出機器學習的問題 並降低潛在業務影響問題發生時,系統會傳送快訊 通知團隊成員,並透過全方位記錄協助診斷 根本原因

建議您實作記錄與監控功能來偵測下列問題 搭配使用機器學習管線

管道 監控
提供中
  • 提供資料與訓練資料相比的偏差或偏移
  • 預測結果出現偏差或偏移
  • 資料類型問題,例如遺失或毀損的值
  • 配額使用量
  • 模型品質指標
資料
  • 特徵值中的偏差和偏移
  • 標籤值中的偏差和偏移
  • 資料類型問題,例如遺失或毀損的值
  • 配額用量
  • 即將達到配額上限
訓練
  • 訓練時間
  • 訓練失敗
  • 配額使用量
驗證
  • 測試資料集出現偏差或偏移

您也會需要針對下列項目進行記錄、監控和快訊:

  • 延遲時間。發出預測需要多久時間?
  • 服務中斷。模型是否停止提供預測結果?

驗收學習成果

下列何者是記錄及監控的主要原因 機器學習管線呢?
在問題影響使用者之前主動偵測
追蹤配額和資源用量
找出潛在的安全性問題
以上皆是
沒錯。記錄及監控機器學習管道,有助於防範及避免 在問題變得嚴重前診斷

部署模型

進行模型部署時,建議您記錄下列項目:

  • 必須獲得核准才能開始部署並增加推出比例。
  • 如何將模型部署至實際工作環境。
  • 模型部署位置,例如準備環境或初期測試版本 環境
  • 部署作業失敗時的處理方式。
  • 如何復原實際工作環境中的模型。

自動化模型訓練完成後 驗證和部署自動部署功能會分散部署項目 並降低部署過程中遭受瓶頸的可能性 使用者。也能減少潛在錯誤、提高效率, ,並支援通話時輪替和 SRE 支援。

一般來說,您會將新模型部署至部分使用者,藉此確認模型是否 行為符合預期如果狀態存在,請繼續部署。如果不是 復原部署,並開始診斷及偵錯問題。