如要執行機器學習專案,團隊成員須具備眾多技能、專業知識、 和責任最常見的 下列是一般機器學習團隊擁有的角色:
角色 | 知識與技能 | 主要提交項目 |
---|---|---|
機器學習產品經理 | 機器學習產品經理深入瞭解機器學習的優勢 不足之處和機器學習開發流程這兩種解決方案有助於協調業務問題 與機器學習團隊或使用者合作 和其他利害關係人他們 塑造產品願景、定義用途 以及規劃和排定專案優先順序 |
產品要求文件 (PRD)。 |
工程經理 | 工程經理藉由設定、溝通和 同時也有助團隊達成優先目標與機器學習一樣 因此,這些產品經理都能配合業務問題調整機器學習解決方案。 他們對團隊成員設下明確的期望 評估成效,協助進行職涯發展 專業培訓。 |
設計文件、專案計畫和效能評估。 |
數據資料學家 | 數據資料學家使用定量和統計分析 資料洞察和價值有助於找出及測試 設計特徵、原型模型 並協助模型可解釋性 | 提供可解答業務問題的報表和資料圖表 找出方法並解讀其統計資料 |
機器學習工程師 | 機器學習工程師負責設計、建構、將機器學習模型推送至實際工作環境,以及管理機器學習模型。 他們是熟知機器學習的強大軟體工程師 Google 的 AI 開發技術和最佳做法 | 具備足夠預測品質的部署模型,可因應業務需求 但縝密健全的倫理程序 也有助於達到產品開發目標 |
資料工程師 | 資料工程師建構資料管道,用於儲存、匯總和 處理大量資料他們負責開發 系統收集原始資料並轉換至 以及用於模型訓練和提供的實用格式資料工程師 負責整個機器學習開發程序的資料 | 完全實際工作環境的資料管道,需要進行必要的監控和 也就是快訊 |
開發人員營運 (DevOps) 工程師 | 開發運作工程師負責開發、部署、監控及監控相關作業 機器學習模型的提供基礎架構 | 一種自動化的處理程序,用於提供內容、監控、測試及快訊 模型的行為 |
成功的機器學習專案會有團隊,每個角色都已妥善處理 。在小型團隊中,員工需要自行處理 負責多個角色的責任
制定團隊做法
因為機器學習技術中的角色、工具和架構差異很大 因此如要建立常見的實踐做法 完整的程序說明文件舉例來說,一名工程師 光是取得正確的資料就足以開始訓練模型 更負責的工程師會確認資料集是否經過去識別化 正確記錄其中繼資料和出處確保工程師分享 程序和設計模式的常見定義可減少混淆, 加快團隊執行速度
程序說明文件
流程文件應定義團隊所需的工具、基礎架構和流程 將用於機器學習開發完善的流程說明文件有助於整合新舊內容 團隊成員他們應回答以下類型的問題:
- 模型資料是如何產生的?
- 如何檢查、驗證資料,並以圖表呈現結果?
- 如何修改訓練資料中的輸入特徵或標籤?
- 如何自訂資料生成、訓練和評估管道?
- 如何配合輸入變化變更模型架構 功能或標籤呢?
- 如何取得測試範例?
- 我們會使用哪些指標來評估模型品質?
- 我們如何在實際工作環境中推出模型?
- 我們如何得知模型是否發生問題?
- 我們的模型依賴哪些上游系統?
- 如何將我的 SQL 設為可維護且可重複使用?
其他潛在問題
型號我可以使用位於相同 像是微調?
如何在管道中新增測試資料集?
如何透過手工範例查看模型的預測結果?
如何找出、檢查並以視覺化方式呈現模型產生的樣本 發生什麼錯誤呢?
如何判斷哪一項功能對 預測結果?
如何瞭解哪些功能對 特定樣本中的預測結果
如何針對所選資料集計算或繪製模型預測結果 樣本?
如何計算模型預測結果的標準指標 或選擇資料集?
如何開發及計算自訂指標?
如何以離線方式比較我的模型與其他型號?
我可以在單一單項模型中,執行多項模型評估的總和分析 開發環境?
我可以比較目前與 10 個月前的版本嗎?
我認為自己創造出一個好的模型。該如何在正式環境中推出?
如何確認新模型能在正式環境中正確運作?
我可以取得長期的模型評估記錄嗎?
如何得知模型發生問題?
我收到一個提及模型相關資訊的網頁/錯誤, 我該怎麼做?
如何自訂資料的產生/訓練/評估方式 ?
何時該建立全新的管道?方法為何?
我需要使用 SQL 來產生一些資料。應該放在哪裡?
模型提供功能如何運作?有圖表嗎?
我的模型要仰賴哪些上游系統 什麼?
我搞不懂。我應該與誰聯絡 (以及聯絡方式)?
注意事項
「機器學習最佳做法」的定義的公司、團隊和企業 個人。適用對象 舉例來說,有些團隊成員可能會考慮採用實驗性 Colab 交付項目,有些則選擇採用 R 格式。有些人可能對 有些人認為監控是最重要的 卻有人聽過良好的功能生產做法 想要使用 Scala每個人都「正確」和自己的觀點 正確地移動,混和將成為行動力量。如果不是的話,也可以是一團亂,
建立團隊要使用的工具、流程和基礎架構 這可能是專案失敗的 或成功提前季度推出一季
成效評估
由於機器學習領域本來就不明確且不確定性,人力經理必須 確立明確的期望,並及早定義交付項目。
在決定期望和可交付的成果時,應考量他們的期望 。也就是說 重要的是,團隊成員的績效不應與 是專案成功的關鍵例如,團隊成員通常花費的金額十分常見 進行調查,但最終成效不彰的解決方案。即使是在 優質程式碼、詳盡的說明文件和有效 合作方式應對評估結果帶來正面影響。