AutoML:入門指南

如果您考慮使用 AutoML,可能會想瞭解 AutoML 的使用方式 以及應該採取哪些步驟來踏出第一步。本節將進一步說明 探討 AutoML 的運作方式,並檢驗哪些步驟 您可能需要在使用 AutoML 之後,才能開始在專案中使用 AutoML。

AutoML 工具

AutoML 工具主要分為兩大類:

  • 無須編寫程式碼的工具通常為網頁應用程式 可讓您透過使用者介面設定及執行實驗 您完全不必編寫程式碼,就能找出最適合資料的模型
  • API 和 CLI 工具提供進階自動化功能,但需要更多功能 (有時反而會大幅增加) 程式設計和機器學習專業知識。

需要編寫程式碼的 AutoML 工具可能比上述工具更強大且更靈活 的零程式碼工具,卻難以使用本單元著重介紹 開發模型時無須編寫程式碼,但請注意 API 和 CLI 選項。

AutoML 工作流程

接下來逐步說明一般機器學習工作流程,並瞭解使用 Google Cloud 時 AutoML工作流程中的概略步驟與 自訂訓練;主要差異在於 AutoML 會為您處理部分工作

問題定義

在任何機器學習工作流程中,第一步都是定義問題。使用環境 AutoML,請確保您選擇的工具支援 做為機器學習專案的不同目標大部分的 AutoML 工具都支援各種監督式 機器學習演算法和輸入資料類型

如要進一步瞭解取景方式,請參閱 Introduction to Machine Learning Probleming

資料收集

您必須先收集資料,才能開始使用 AutoML 工具 將資料整合至單一資料來源請參閱產品說明文件 工具支援以下項目:資料來源、資料集中的資料類型、大小 資料集

資料準備

資料準備是 AutoML 工具可以派上用場的地方,但不能 工具可以自動執行所有功能,因此請在您 可以將資料匯入工具AutoML 的資料準備作業 手動訓練模型的須知事項如果您需要深入瞭解 如要瞭解如何準備訓練資料,請查看「資料準備」 專區。

如要進一步瞭解如何準備資料,請參閱 我們處理的是「處理類別型資料」 模組。

在 AutoML 訓練的匯入資料前,您必須完成這些步驟 步驟:

  • 為資料加上標籤

    資料集中的每個範例都需要標籤。

  • 清理資料及設定資料格式

    實際資料往往混亂,因此在使用前先清理資料 基礎架構即使有了 AutoML 與特定資料集和問題有關您可能需要先做一些探索和 也許您必須先執行多次 AutoML,才能獲得最佳結果

  • 執行特徵轉換

    部分 AutoML 工具可為您處理特定特徵轉換作業。但 您使用的工具不支援您所需的功能轉換,或 不過,如果您無法解決問題,您可能需要預先進行轉型 讓應用程式從可以最快做出回應的位置 回應使用者要求

模型開發 (使用無程式碼 AutoML)

AutoML 會在訓練期間為您代勞。但在開始之前 就必須設定實驗如要設定 AutoML 訓練 執行時,您通常需要指定以下高階步驟:

  1. 匯入資料

    如要匯入資料,請指定資料來源。匯入期間 AutoML 工具會將語意資料類型指派給每個資料值。

  2. 分析資料

    AutoML 產品通常會提供工具來分析資料集,包括 訓練完成後建議您選用這些分析工具 在啟動 AutoML 執行作業前,先瞭解並驗證資料。

  3. 縮小資料範圍

    AutoML 工具通常會提供相關機制,協助您 或是在訓練作業開始前你可能需要完成幾項工作 縮小資料範圍:

    • 語意檢查:在匯入期間,AutoML 工具會嘗試判斷 每項特徵的正確語意類型,但這些只是猜測的字詞。 請檢查並變更所有功能指定的類型 能正確指派廣告素材

      舉例來說,您可能將郵遞區號以數字形式儲存在 資料庫。大多數 AutoML 系統會持續偵測到資料 數值資料這對於郵遞區號和使用者來說會不正確 您可能會想將語意類型變更為類別 比「持續」這個特徵欄更為連續

    • 轉換:部分工具允許使用者自訂資料 做為微調程序的一部分。在某些情況下 如果資料集具有可能需要預測的預測功能 以難以使用 AutoML 工具的方式轉換或整合 不以任何協助判斷的方式

      例如,假設想用來預測 一家房屋的售價。假設有一項功能代表 名為「description」的房屋商家資訊說明,而您 還要使用這些資料建立一個新功能 description_length。部分 AutoML 系統提供 轉換。在這個範例中,可能有 LENGTH 函式 產生新的說明長度功能,如下所示: LENGTH(description)

  4. 設定 AutoML 執行參數

    執行訓練實驗前的最後一個步驟是選擇 配置設定,向工具說明您想如何訓練模型 雖然每個 AutoML 工具都有自己獨特的設定選項組合 您必須進行幾項重要的設定工作 完成:

    • 選取打算要解決的機器學習問題類型。舉例來說,您是否 解決分類或迴歸問題?
    • 在資料集中,選取要做為標籤的資料欄。
    • 選取要用來訓練模型的特徵組合。
    • 選擇 AutoML 在模型搜尋中考慮的機器學習演算法組合。
    • 選取 AutoML 用來選擇最佳模型的評估指標。

設定 AutoML 實驗後,您就可以開始訓練 此程序的第一步 是將程式碼簽入執行所有單元測試的存放區中訓練可能需要一段時間才能完成 (以小時為單位)。

評估模型

訓練完成後,您可以使用 AutoML 的工具檢查結果 多項功能,可協助您:

  • 檢視特徵重要性指標,藉此評估您的特徵。
  • 檢查使用的架構和超參數,以便瞭解模型 建構應用程式
  • 運用期間收集的圖表和指標評估頂層模型成效 為輸出模型進行訓練

製作

雖然這不在本單元的討論範圍內,但部分 AutoML 系統可以協助您 測試及部署模型

重新訓練模型

您可能需要使用新資料重新訓練模型。這可能是您在 評估 AutoML 訓練執行作業,或在模型正式上線後評估 讓應用程式從可以最快做出回應的位置 回應使用者要求無論採用哪種方式,AutoML 系統都能協助您進行重新訓練。不 在 AutoML 執行後再次查看資料,並使用 資料集

後續步驟

恭喜您完成本單元!

建議您探索各種 MLCC 模組 並依自己的步調和興趣如果要按照建議的順序 建議您前往下一個單元: 機器學習公平性