組成機器學習團隊

如要執行機器學習專案,團隊成員須具備眾多技能、專業知識、 和責任最常見的 下列是一般機器學習團隊擁有的角色:

角色 知識與技能 主要提交項目
機器學習產品經理 機器學習產品經理深入瞭解機器學習的優勢 不足之處和機器學習開發流程這兩種解決方案有助於協調業務問題 與機器學習團隊或使用者合作 和其他利害關係人他們 塑造產品願景、定義用途 以及規劃和排定專案優先順序 產品要求文件 (PRD)。
工程經理 工程經理藉由設定、溝通和 同時也有助團隊達成優先目標與機器學習一樣 因此,這些產品經理都能配合業務問題調整機器學習解決方案。 他們對團隊成員設下明確的期望 評估成效,協助進行職涯發展 專業培訓。 設計文件、專案計畫和效能評估。
數據資料學家 數據資料學家使用定量和統計分析 資料洞察和價值有助於找出及測試 設計特徵、原型模型 並協助模型可解釋性 提供可解答業務問題的報表和資料圖表 找出方法並解讀其統計資料
機器學習工程師 機器學習工程師負責設計、建構、將機器學習模型推送至實際工作環境,以及管理機器學習模型。 他們是熟知機器學習的強大軟體工程師 Google 的 AI 開發技術和最佳做法 具備足夠預測品質的部署模型,可因應業務需求 但縝密健全的倫理程序 也有助於達到產品開發目標
資料工程師 資料工程師建構資料管道,用於儲存、匯總和 處理大量資料他們負責開發 系統收集原始資料並轉換至 以及用於模型訓練和提供的實用格式資料工程師 負責整個機器學習開發程序的資料 完全實際工作環境的資料管道,需要進行必要的監控和 也就是快訊
開發人員營運 (DevOps) 工程師 開發運作工程師負責開發、部署、監控及監控相關作業 機器學習模型的提供基礎架構 一種自動化的處理程序,用於提供內容、監控、測試及快訊 模型的行為

成功的機器學習專案會有團隊,每個角色都已妥善處理 。在小型團隊中,員工需要自行處理 負責多個角色的責任

制定團隊做法

因為機器學習技術中的角色、工具和架構差異很大 因此如要建立常見的實踐做法 完整的程序說明文件舉例來說,一名工程師 光是取得正確的資料就足以開始訓練模型 更負責的工程師會確認資料集是否經過去識別化 正確記錄其中繼資料和出處確保工程師分享 程序和設計模式的常見定義可減少混淆, 加快團隊執行速度

程序說明文件

流程文件應定義團隊所需的工具、基礎架構和流程 將用於機器學習開發完善的流程說明文件有助於整合新舊內容 團隊成員他們應回答以下類型的問題:

  • 模型資料是如何產生的?
  • 如何檢查、驗證資料,並以圖表呈現結果?
  • 如何修改訓練資料中的輸入特徵或標籤?
  • 如何自訂資料生成、訓練和評估管道?
  • 如何配合輸入變化變更模型架構 功能或標籤呢?
  • 如何取得測試範例?
  • 我們會使用哪些指標來評估模型品質?
  • 我們如何在實際工作環境中推出模型?
  • 我們如何得知模型是否發生問題?
  • 我們的模型依賴哪些上游系統?
  • 如何將我的 SQL 設為可維護且可重複使用?
,瞭解如何調查及移除這項存取權。

其他潛在問題

型號
  • 我可以使用位於相同 像是微調?

  • 如何在管道中新增測試資料集?

,瞭解如何調查及移除這項存取權。 訓練
  • 如何透過手工範例查看模型的預測結果?

  • 如何找出、檢查並以視覺化方式呈現模型產生的樣本 發生什麼錯誤呢?

  • 如何判斷哪一項功能對 預測結果?

  • 如何瞭解哪些功能對 特定樣本中的預測結果

  • 如何針對所選資料集計算或繪製模型預測結果 樣本?

  • 如何計算模型預測結果的標準指標 或選擇資料集?

  • 如何開發及計算自訂指標?

  • 如何以離線方式比較我的模型與其他型號?

  • 我可以在單一單項模型中,執行多項模型評估的總和分析 開發環境?

  • 我可以比較目前與 10 個月前的版本嗎?

,瞭解如何調查及移除這項存取權。 生產、監控及維護
  • 我認為自己創造出一個好的模型。該如何在正式環境中推出?

  • 如何確認新模型能在正式環境中正確運作?

  • 我可以取得長期的模型評估記錄嗎?

  • 如何得知模型發生問題?

  • 我收到一個提及模型相關資訊的網頁/錯誤, 我該怎麼做?

,瞭解如何調查及移除這項存取權。 管道
  • 如何自訂資料的產生/訓練/評估方式 ?

  • 何時該建立全新的管道?方法為何?

,瞭解如何調查及移除這項存取權。 SQL
  • 我需要使用 SQL 來產生一些資料。應該放在哪裡?

,瞭解如何調查及移除這項存取權。 基礎架構
  • 模型提供功能如何運作?有圖表嗎?

  • 我的模型要仰賴哪些上游系統 什麼?

,瞭解如何調查及移除這項存取權。 通訊
  • 我搞不懂。我應該與誰聯絡 (以及聯絡方式)?

注意事項

「機器學習最佳做法」的定義的公司、團隊和企業 個人。適用對象 舉例來說,有些團隊成員可能會考慮採用實驗性 Colab 交付項目,有些則選擇採用 R 格式。有些人可能對 有些人認為監控是最重要的 卻有人聽過良好的功能生產做法 想要使用 Scala每個人都「正確」和自己的觀點 正確地移動,混和將成為行動力量。如果不是的話,也可以是一團亂,

建立團隊要使用的工具、流程和基礎架構 這可能是專案失敗的 或成功提前季度推出一季

成效評估

由於機器學習領域本來就不明確且不確定性,人力經理必須 確立明確的期望,並及早定義交付項目。

在決定期望和可交付的成果時,應考量他們的期望 。也就是說 重要的是,團隊成員的績效不應與 是專案成功的關鍵例如,團隊成員通常花費的金額十分常見 進行調查,但最終成效不彰的解決方案。即使是在 優質程式碼、詳盡的說明文件和有效 合作方式應對評估結果帶來正面影響。

驗收學習成果

取得優質流程說明文件的主要原因是什麼 及建立共同做法?
提高專案速度。
沒錯。擁有完善的流程文件,以及建立常見的 做法能減少混淆並簡化開發程序。
為全公司製定最佳做法。
由於機器學習開發作業會因專案而異 一般來說,團隊可以製定合作的最佳做法 從而有效提高遊戲速度
確保團隊中所有工程師的專業知識都相同。
機器學習團隊通常擁有各種技能和技能 相關知識程序文件可協助工程師協調最佳做法 加快遊戲速度