瞭解問題

如要瞭解問題,請執行下列工作:

  • 說明您正在開發或重構的產品目標。
  • 判斷目標是否最適合使用預測機器學習、生成式 AI 或非機器學習解決方案。
  • 請確認您是否具備訓練模型所需的資料 預測的機器學習方法

說明目標

請先使用非機器學習的術語來表示您的目標。我們的目標是 「我想達成什麼目標?」

下表清楚說明假設應用程式的目標:

應用程式 目標
「天氣」應用程式 計算地理區域的降雨量,以六小時為單位。
時尚應用程式 產生各種 T 恤設計。
影片應用程式 推薦實用影片。
郵件應用程式 偵測垃圾內容。
金融應用程式 摘要列出多個新聞來源的財經資訊。
地圖應用程式 計算交通時間。
銀行應用程式 識別詐欺交易。
用餐應用程式 根據餐廳菜單識別料理類型。
電子商務應用程式 回覆評論並附上實用解答。

清楚的機器學習用途

有些人認為機器學習是可用於所有問題的萬用工具。事實上,機器學習是專門解決特定問題的工具。在可使用簡單的非機器學習解決方案時,不應導入複雜的機器學習解決方案。

機器學習系統可分為兩大類別: 預測性機器學習生成式 AI:下表列出這些定義特徵:

輸入功率 輸出內容 訓練技巧
預測機器學習 文字
圖片
音訊
影片
數值
進行預測,例如將 垃圾郵件或非垃圾郵件、猜測明天的雨水,或是 預測股票價格 輸出內容通常會根據實際情況進行驗證。 通常會使用大量資料訓練監督式、非監督式或增強式學習模型,以執行特定工作。
生成式 AI 文字
圖像
音訊
影片
數值
根據使用者的意圖產生輸出內容,例如: 總結文章重點、生成音訊片段或短片 通常會使用大量未加上標籤的資料來訓練大型語言模型 或圖片產生器來填補缺少的資料。接著就能使用 列出可填補空白工作的畫面 模型進行微調,以處理特定工作,例如 例如單一語句分類

如要確認 ML 是正確的做法,請先確認目前的非 ML 解決方案是否已最佳化。如果您沒有實作非機器學習的解決方案,請嘗試 以手動方式解決問題 經驗法則

非機器學習解決方案是一項基準,可用於判斷機器學習是否為 能協助解決問題比較非機器學習方法和機器學習方法時,請考慮下列問題:

  • 畫質。您認為機器學習解決方案可以改善多少?如果您認為機器學習解決方案只帶來微幅改善,那麼這可能表示目前的解決方案是最佳選擇。

  • 成本和維護。機器學習解決方案在 或是短期和長期的階段?在某些情況下,費用會大幅增加 運算資源和實作機器學習技術所需的時間請考量下列要點 問題:

    • 機器學習解決方案是否值得增加成本?請注意 大型系統的改善項目可輕易證明成本和成本 實作機器學習解決方案的維護作業
    • 解決方案需要多少維護工作?在許多情況下,機器學習導入作業都需要專責的長期維護。
    • 您的產品是否有必要的訓練或招聘資源 或具備機器學習專業知識的人員嗎?

驗收學習成果

為什麼在分析機器學習解決方案前,必須先採用非機器學習解決方案或啟發法?
非機器學習解決方案是衡量機器學習解決方案依據的基準,
非機器學習解決方案可協助您判斷機器學習解決方案的成本。

預測式機器學習與資料

資料是預測機器學習的推動力。補足 Forecasts,您需要 包含內建預測功能的地圖項目 電源。資料應具有以下特性:

  • 多元資料集中的相關範例越多,模型的品質就越好。

  • 一致且可靠。擁有一致且可靠的資料 就能產生更好的模型例如:以機器學習為中心的天氣 也能享有多年前收集的 樂器

  • 可信任。瞭解資料來源。資料是否來自您控管的可信任來源,例如產品的記錄?或是來自您不太瞭解的來源,例如其他機器學習系統的輸出內容?

  • 可用。請確認所有輸入內容在預測時皆採用正確的格式。如果在預測期間難以取得特定特徵值,請從資料集中省略這些特徵。

  • 正確。在大型資料集中,部分標籤值可能會不正確,但如果有超過一小部分的標籤不正確,模型就會產生不佳的預測結果。

  • 代表:資料集應盡可能代表現實世界。換句話說,資料集應準確反映事件、使用者行為和/或模擬的現實世界現象。對不具代表性的資料集進行訓練可能會導致效能不佳 要求模型進行實際預測

如果您無法以必要格式取得所需資料,模型的預測結果可能會不準確。

預測能力

如要讓模型做出良好預測,資料集中的特徵應具備預測能力。特徵與標籤的相關性越高,預測標籤的機率就越高。

某些功能的預測能力會比其他特徵高出許多。舉例來說,在天氣資料集中,cloud_coveragetemperaturedew_point 等特徵比 moon_phaseday_of_week 更能預測降雨機率。以影片應用程式為例,您可以假設 video_descriptionlengthviews 等功能,可能是用來預測使用者想觀看哪些影片的良好指標。

請注意,特徵的預測能力可能會隨情境或情境改變 網域變更。舉例來說,在影片應用程式中,upload_date 這類功能與標籤之間的相關性通常較低。不過,在 遊戲影片的子網域,upload_date 可能與遊戲相關 標籤。

判斷哪些特徵具有預測能力相當費時 上傳資料集之後,您可以運用 AutoML 自動完成部分資料準備工作您可以在訓練模型時移除及新增特徵,手動探索特徵的預測能力。您可以使用 Pearson 相關係數調整互資訊 (AMI)Shapley 值 等演算法,自動找出特徵的預測能力,這些演算法可提供數值評估,用於分析特徵的預測能力。

隨堂測驗

分析資料集時,您應尋找哪三個重要屬性?
代表現實世界。
包含正確的值。
特徵具有標籤的預測能力。
大小足以載入本機電腦。
從各種難以預測的來源收集而來。

如需分析和準備資料集的詳細指引,請參閱 用於機器學習的資料準備和特徵工程

預測與動作

如果無法將預測結果轉換為有助於使用者的動作,預測就沒有價值。也就是說,產品應從 輸出內容

舉例來說,如果模型可預測使用者是否會覺得某部影片實用,就應將該模型的輸出內容提供給推薦實用影片的應用程式。能預測 是否會下雨到天氣應用程式中

隨堂測驗

根據下列情境,判斷使用機器學習技術是否最適合 有助於解決問題

大型機構的工程團隊負責管理來電。

目標:通知呼叫者在已等候保留中的等候時間 目前的通話音量。

他們目前沒有任何解決方案,但他們認為經驗法則 將目前 等候電話的員工人數、 再乘以 10 分鐘不過 他們知道有些客戶的問題在兩分鐘內解決了 其他最多可能需要 45 分鐘或更久。

但他們的經驗法則可能不夠準確。他們可以使用以下欄位建立資料集:number_of_callcenter_phonesuser_issuetime_to_resolvecall_timetime_on_hold

使用機器學習。工程團隊制定了明確的目標。他們的 因此經驗法則不適用於這些用途。資料集似乎包含標籤 time_on_hold 的預測特徵。
不要使用機器學習技術。雖然他們有明確的目標,但應先實作並最佳化非機器學習的解決方案。此外,他們的資料集似乎不含足夠的預測功能。