本頁面由 Cloud Translation API 翻譯而成。

製作

如要準備實際工作環境的機器學習管道，請完成下列步驟：

佈建運算資源

執行 ML 管道需要運算資源，例如 RAM、CPU 和 GPU/TPU。如果運算資源不足，您就無法執行管道。因此，請務必取得足夠的配額，以佈建管道在正式環境中執行所需的資源。

服務、訓練和驗證管道。這些管道需要 TPU、GPU 或 CPU。視用途而定，您可能會在不同硬體上訓練及提供服務，也可能使用相同硬體。舉例來說，訓練可能在 CPU 上進行，但服務可能使用 TPU，反之亦然。一般來說，在較大的硬體上訓練模型，然後在較小的硬體上提供服務，是很常見的做法。

選擇硬體時，請考量下列事項：
- 可以改用較便宜的硬體訓練模型嗎？
- 改用其他硬體是否能提升效能？
- 模型大小為何？哪種硬體可提升模型效能？
- 根據模型架構，最適合的硬體為何？
注意： 在硬體之間切換模型時，請考量遷移模型所需的時間和精力。切換硬體或許能降低模型執行成本，但這麼做所需的工程資源可能超過節省的費用，或者工程資源可能更適合用於其他工作。
資料管道。資料管道需要 RAM 和 CPU 的配額您需要估算管道生成訓練和測試資料集所需的配額。

您可能不會為每個管道分配配額。而是分配管道共用的配額。在這種情況下，請確認您有足夠配額來執行所有管道，並設定監控和警示，避免單一錯誤管道耗用所有配額。

如要估算資料和訓練管道所需的配額，請找出類似專案做為估算依據。如要估算服務配額，請嘗試預測服務的每秒查詢次數。這些方法可做為基準。在實驗階段開始製作解決方案原型時，您會開始取得更精確的配額預估值。

估算配額時，請記得將生產管線和持續進行的實驗配額納入考量。

選擇用於提供預測的硬體時，請務必選用比訓練模型時更強大的硬體。

否

沒錯。一般來說，訓練需要比服務更大的硬體。

是

記錄及監控正式模型行為至關重要。完善的監控基礎架構可確保模型提供可靠的高品質預測。

良好的記錄和監控做法有助於主動找出 ML 管道中的問題，並減輕潛在的業務影響。發生問題時，系統會發出快訊通知團隊成員，而詳盡的記錄則有助於診斷問題的根本原因。

您應實作記錄和監控功能，偵測機器學習管道的下列問題：

pipeline	監控
供應	與訓練資料相比，服務資料出現偏移或漂移預測結果出現偏差或漂移資料類型問題，例如缺少或損毀的值配額使用量模型品質指標計算正式版模型品質的方式，與計算訓練期間模型品質的方式不同。在實際環境中，您不一定能存取實際資料，以比較預測結果。您必須改為編寫自訂監控儀器，擷取可做為模型品質指標的指標。舉例來說，在郵件應用程式中，您無法即時得知哪些郵件是垃圾郵件。您可以改為監控郵件使用者將郵件移至垃圾郵件資料夾的百分比。如果數字從 0.5% 跳到 3%，可能表示模型有問題。請注意，比較替代指標的變化，比比較原始數字更有參考價值。
資料	特徵值中的偏斜和漂移標籤值中的偏差和漂移資料類型問題，例如缺少或損毀的值配額用量比率即將達到配額上限
訓練	訓練時間訓練失敗配額使用量
驗證	測試資料集中的偏斜或漂移

您也需要記錄、監控及快訊功能，以便掌握下列資訊：

下列哪項是記錄及監控機器學習管道的主要原因？

在問題影響使用者前主動偵測

追蹤配額和資源用量

找出潛在的安全問題

以上皆是

沒錯。記錄及監控機器學習管道有助於預防及診斷問題，避免問題惡化。

如要部署模型，建議您記錄下列事項：

自動化模型訓練後，您會想自動化驗證和部署作業。自動化部署可分散責任，並降低部署作業因單一人員而受阻的可能性。此外，這項功能還能減少潛在錯誤、提高效率和可靠性，並支援輪值和 SRE 支援。

通常您會將新模型部署至部分使用者，確認模型運作正常。如果是，請繼續部署。如果不是，請回溯部署作業，並開始診斷及偵錯問題。