AutoML:入門指南

如果您正在考慮使用 AutoML,可能會對其運作方式和開始使用時應採取的步驟有疑問。本節將深入探討常見的 AutoML 模式、AutoML 的運作方式,以及在開始為專案使用 AutoML 前,可能需要採取哪些步驟。

AutoML 工具

AutoML 工具主要分為兩類:

  • 不需編寫程式的工具通常會以網路應用程式的形式呈現,讓您透過使用者介面設定及執行實驗,不必編寫任何程式碼就能為資料找出最佳模型。
  • API 和 CLI 工具提供進階自動化功能,但需要更多 (有時是更多) 程式設計和機器學習專業知識。

需要編寫程式碼的 AutoML 工具比無程式碼工具更強大、更靈活,但也可能更難使用。本單元著重於模型開發的無程式碼選項,但請注意,如果您需要自訂自動化功能,API 和 CLI 選項可能會有所幫助。

AutoML 工作流程

讓我們逐步瞭解典型的機器學習工作流程,並瞭解使用 AutoML 時的運作方式。工作流程中的高階步驟與您在自訂訓練中使用的步驟相同,主要差異在於 AutoML 會為您處理部分任務。

問題定義

任何機器學習工作流程的第一步,都是定義問題。使用 AutoML 時,請確認所選工具能支援 ML 專案的目標。大多數 AutoML 工具都支援各種監督式機器學習演算法和輸入資料類型。

如要進一步瞭解問題設定,請參閱「機器學習問題設定簡介」模組。

資料收集

您必須先將資料收集到單一資料來源,才能開始使用 AutoML 工具。請查看產品說明文件,確認工具支援的資料來源、資料集的資料類型和資料集大小。

資料準備

資料準備是 AutoML 工具可協助處理的領域,但沒有任何工具可以自動完成所有工作,因此您必須先完成一些工作,才能將資料匯入工具。AutoML 的資料準備作業與手動訓練模型的作業類似。如要進一步瞭解如何準備訓練資料,請參閱「資料準備」一節。

如要進一步瞭解如何準備資料,請參閱「使用數值資料」和「使用分類資料」模組。

匯入資料進行 AutoML 訓練前,您必須完成下列步驟:

  • 為資料加上標籤

    資料集中的每個示例都需要標籤。

  • 清理及設定資料格式

    實際資料往往雜亂無章可循,因此請先清理資料再使用。即使使用 AutoML,您仍需要為特定資料集和問題決定最佳處理方式。您可能需要進行一些探索,並執行多次 AutoML 才能獲得最佳結果。

  • 執行特徵轉換

    部分 AutoML 工具會為您處理特定特徵轉換作業。不過,如果您使用的工具不支援所需的功能轉換,或支援度不佳,您可能需要提前執行轉換作業。

模型開發 (使用無程式碼 AutoML)

AutoML 會在訓練期間為您完成工作。不過,您必須先設定實驗,才能開始訓練。如要設定 AutoML 訓練執行作業,通常需要指定下列高層級步驟:

  1. 匯入資料

    如要匯入資料,請指定資料來源。在匯入過程中,AutoML 工具會為每個資料值指派語義資料類型。

  2. 分析資料

    AutoML 產品通常會提供工具,可在訓練前後分析資料集。建議您在開始執行 AutoML 前,先使用這些分析工具來瞭解及驗證資料。

  3. 精進資料

    AutoML 工具通常會提供機制,協助您在匯入資料後及訓練前,對資料進行精修。以下是您可能要完成的幾項工作,以便精進資料:

    • 語意檢查:在匯入期間,AutoML 工具會嘗試判斷每個特徵的正確語意類型,但這只是一種推測。請檢查所有地圖項目的指定類型,並在必要時變更。

      舉例來說,您可能會將郵遞區號儲存為資料庫中某個欄位的數字。大多數 AutoML 系統會將資料偵測為連續數值資料。這對郵遞區號來說是不正確的,使用者可能會想將此特徵欄的語意類型變更為「類別」,而不是「連續」。

    • 轉換:部分工具可讓使用者在精進過程中自訂資料轉換。有時,當資料集含有需要轉換或結合的潛在預測功能,AutoML 工具很難自行判斷,就需要使用這項功能。

      舉例來說,假設您使用住宅資料集來預測房屋的售價,假設有一個代表房屋資訊的欄位,名為 description,而您想使用這項資料建立名為 description_length 的新欄位。部分 AutoML 系統提供使用自訂轉換的方法。在本範例中,可能會有 LENGTH 函式,用來產生新的說明長度功能,如下所示:LENGTH(description)

  4. 設定 AutoML 執行參數

    執行訓練實驗前的最後一個步驟,就是選擇幾項設定,告訴工具如何訓練模型。雖然每個 AutoML 工具都有專屬的設定選項,但以下列舉幾項您可能需要完成的重要設定工作:

    • 選取您要解決的機器學習問題類型。例如,您是要解決分類問題還是迴歸問題?
    • 選取資料集中的標籤欄。
    • 選取要用來訓練模型的功能組合。
    • 選取 AutoML 在模型搜尋作業中考量的機器學習演算法組合。
    • 選取 AutoML 用來選擇最佳模型的評估指標。

設定 AutoML 實驗後,您就可以開始訓練作業。訓練作業可能需要一段時間才能完成 (大約數小時)。

評估模型

訓練完成後,您可以使用 AutoML 產品提供的工具檢視結果,這些工具可協助您:

  • 檢查特徵重要性指標,評估特徵。
  • 檢查用於建構模型的架構和超參數,瞭解模型。
  • 使用輸出模型訓練期間收集到的圖表和指標,評估頂層模型成效。

正式化

雖然這不在本單元涵蓋的範圍內,但部分 AutoML 系統可協助您測試及部署模型。

重新訓練模型

您可能需要使用新資料重新訓練模型。這可能發生在您評估 AutoML 訓練執行作業後,或是模型在實際工作環境中運作一段時間後。無論是哪種情況,AutoML 系統都能協助重新訓練。在 AutoML 執行完畢後,您可能會再查看資料,並使用改善後的資料集重新訓練。

後續步驟

恭喜您完成本單元!

我們鼓勵您按照自己的步調和興趣,探索各種 MLCC 模組。如果您想按照建議的順序學習,建議您接著前往下列模組:機器學習公平性