瞭解問題

如要瞭解問題,請執行以下工作:

  • 請說明您正在開發或重構的產品目標。
  • 運用預測式機器學習判斷哪些目標最能解決問題 生成式 AI 或非機器學習解決方案
  • 請確認您是否具備訓練模型所需的資料 預測的機器學習方法

說明目標

請先使用非機器學習的術語來表示您的目標。我們的目標是 「我想達成什麼目標?」

下表清楚說明假設應用程式的目標:

應用程式 目標
「天氣」應用程式 計算地理區域的降水量 (以六小時為單位遞增)。
時尚應用程式 產生各種襯衫設計。
影片應用程式 推薦實用影片。
郵件應用程式 偵測垃圾內容。
金融應用程式 摘要列出多個新聞來源的財經資訊。
地圖應用程式 計算交通時間。
銀行應用程式 識別詐欺交易。
用餐應用程式 依據餐廳的菜單辨識料理。
電子商務應用程式 回覆評論並附上實用解答。

清楚的機器學習用途

有些將機器學習視為通用工具,可套用至所有問題。於 實際上,機器學習是專門處理特定問題專用的工具個人中心 也不想實作複雜的機器學習解決方案,因為較簡單的非機器學習解決方案 正常運作。

機器學習系統可分為兩大類別: 預測性機器學習生成式 AI:下列 表格列出其定義特性:

輸入功率 輸出內容 訓練技巧
預測機器學習 文字
圖像
音訊
影片
數值
進行預測,例如將 垃圾郵件或非垃圾郵件、猜測明天的雨水,或是 預測股票價格 輸出內容通常會根據實際情況進行驗證。 通常使用大量資料來訓練監督式 非監督式或增強學習模式,藉此執行 特定任務。
生成式 AI 文字
圖像
音訊
影片
數值
根據使用者的意圖產生輸出內容,例如: 總結文章重點、生成音訊片段或短片 通常會使用大量未加上標籤的資料來訓練大型語言模型 或圖片產生器來填補缺少的資料。接著就能使用 列出可填補空白工作的畫面 模型進行微調,以處理特定工作,例如 例如單一語句分類

如要確認機器學習是正確的做法,請先確認目前的非機器學習 每個環節都有最佳結果如果您沒有實作非機器學習的解決方案,請嘗試 以手動方式解決問題 經驗法則

非機器學習解決方案是一項基準,可用於判斷機器學習是否為 能協助解決問題進行比較時,請思考以下問題 非機器學習的方法:

  • 畫質。您認為機器學習解決方案有多實用?如果發生以下情況: 機器學習解決方案可能只是小幅改善 目前的解決方案就是最佳解決方案

  • 費用與維護。機器學習解決方案在 或是短期和長期的階段?在某些情況下,費用會大幅增加 運算資源和實作機器學習技術所需的時間請考量下列要點 問題:

    • 機器學習解決方案能否證明成本增加是合理原因?請注意 大型系統的改善項目可輕易證明成本和成本 實作機器學習解決方案的維護作業
    • 解決方案需要多少維護工作?在許多情況下 導入專屬的長期維護機制
    • 您的產品是否有必要的訓練或招聘資源 或具備機器學習專業知識的人員嗎?

驗收學習成果

為何要預先實行非機器學習解決方案或啟發式做法? 需要分析機器學習解決方案嗎?
非機器學習解決方案是衡量機器學習解決方案依據的基準,
非機器學習解決方案可協助您判斷機器學習解決方案的成本。

預測式機器學習與資料

資料是預測機器學習的推動力。補足 Forecasts,您需要 包含內建預測功能的地圖項目 電源。資料應具有以下特性:

  • Abundant。在您的應用程式中 dataset 調整模型的方式

  • 一致性與可靠性:擁有一致且可靠的資料 就能產生更好的模型例如:以機器學習為中心的天氣 也能享有多年前收集的 樂器

  • 可信任。瞭解資料來源。這些資料是否會 由您控管的可靠來源 (例如您的產品記錄),或者 例如來自你不深入瞭解的來源 機器學習系統?

  • 可用。確認所有輸入的輸入值都適用於 格式必須正確無誤如果難以取得 則可從資料集中省略這些特徵。

  • 答對了。在大型資料集中,不可避免 標籤的值會不正確, 不過,如果有超過一小部分的標籤不正確,模型就會產生 導致預測結果失準

  • 代表。資料集應能代表 我們能想像一下換句話說,資料集必須準確反映 事件、使用者行為和/或真實世界的現象 模擬成品對不具代表性的資料集進行訓練可能會導致效能不佳 要求模型進行實際預測

如果您無法以所需格式取得所需資料,模型就會 預測結果不佳

預測能力

資料集中的特徵應具備 預測能力與標籤的關聯性越高,結果越可能 也就是預測

某些功能的預測能力會比其他特徵高出許多。例如,在 天氣資料集,例如 cloud_coveragetemperature 和 「dew_point」的降雨量會比「moon_phase」來得好 day_of_week。以影片應用程式為例,您可以假設 例如 video_descriptionlengthviews 或許適合 使用者想看的影片

請注意,特徵的預測能力可能會隨情境或情境改變 網域變更。例如,在影片應用程式中,功能與 upload_date 在一般情況下,與標籤的相關性可能不高。不過,在 遊戲影片的子網域,upload_date 可能與遊戲相關 標籤。

判斷哪些特徵具有預測能力相當費時 上傳資料集之後,您可以運用 AutoML 自動完成部分資料準備工作手動探索地圖項目的預測能力,可手動移除和 也就是在訓練模型期間新增的文字您可以使用 強化預測能力 皮爾森相關性調整後的共同資訊 (AMI), 和 夏普利值、 模型會提供數值評估 feature.

驗收學習成果

分析資料集時,應採取哪三大主要屬性 尋找?
代表現實世界。
包含正確的值。
功能具備標籤的預測能力。
大小足以載入本機電腦。
從各種難以預測的來源收集而來。

如需分析和準備資料集的詳細指引,請參閱 用於機器學習的資料準備和特徵工程

預測與動作

無法將預測結果轉換成 這有助於使用者採取行動也就是說,產品應從 輸出內容

例如,模型會預測使用者 是否會認為影片很實用 應該就會加入推薦實用影片的應用程式。能預測 是否會下雨到天氣應用程式中

驗收學習成果

根據下列情境,判斷使用機器學習技術是否最適合 有助於解決問題

大型機構的工程團隊負責管理 來電顯示

目標:通知呼叫者在已等候保留中的等候時間 目前的通話音量。

他們目前沒有任何解決方案,但他們認為經驗法則 將目前 等候電話的員工人數、 再乘以 10 分鐘不過 他們知道有些客戶的問題在兩分鐘內解決了 其他最多可能需要 45 分鐘或更久。

但他們的經驗法則可能不夠準確。他們 可使用下列資料欄建立資料集: number_of_callcenter_phonesuser_issuetime_to_resolvecall_timetime_on_hold

使用機器學習技術。工程團隊制定了明確的目標。他們的 因此經驗法則不適用於這些用途。資料集隨即顯示 具有「time_on_hold」標籤的預測功能。
不要使用機器學習技術。雖然他們有明確的目標 應先實作非機器學習解決方案,並進行最佳化。此外,他們的 預測能力不足,資料集所含特徵似乎不足。