如要瞭解問題,請執行下列工作:
- 說明您正在開發或重構的產品目標。
- 判斷目標是否最適合使用預測機器學習、生成式 AI 或非機器學習解決方案。
- 請確認您是否具備訓練模型所需的資料 預測的機器學習方法
說明目標
請先使用非機器學習的術語來表示您的目標。我們的目標是 「我想達成什麼目標?」
下表清楚說明假設應用程式的目標:
應用程式 | 目標 |
---|---|
「天氣」應用程式 | 計算地理區域的降雨量,以六小時為單位。 |
時尚應用程式 | 產生各種 T 恤設計。 |
影片應用程式 | 推薦實用影片。 |
郵件應用程式 | 偵測垃圾內容。 |
金融應用程式 | 摘要列出多個新聞來源的財經資訊。 |
地圖應用程式 | 計算交通時間。 |
銀行應用程式 | 識別詐欺交易。 |
用餐應用程式 | 根據餐廳菜單識別料理類型。 |
電子商務應用程式 | 回覆評論並附上實用解答。 |
清楚的機器學習用途
有些人認為機器學習是可用於所有問題的萬用工具。事實上,機器學習是專門解決特定問題的工具。在可使用簡單的非機器學習解決方案時,不應導入複雜的機器學習解決方案。
機器學習系統可分為兩大類別: 預測性機器學習和 生成式 AI:下表列出這些定義特徵:
輸入功率 | 輸出內容 | 訓練技巧 | |
---|---|---|---|
預測機器學習 |
文字 圖片 音訊 影片 數值 |
進行預測,例如將 垃圾郵件或非垃圾郵件、猜測明天的雨水,或是 預測股票價格 輸出內容通常會根據實際情況進行驗證。 | 通常會使用大量資料訓練監督式、非監督式或增強式學習模型,以執行特定工作。 |
生成式 AI |
文字 圖像 音訊 影片 數值 |
根據使用者的意圖產生輸出內容,例如: 總結文章重點、生成音訊片段或短片 | 通常會使用大量未加上標籤的資料來訓練大型語言模型 或圖片產生器來填補缺少的資料。接著就能使用 列出可填補空白工作的畫面 模型進行微調,以處理特定工作,例如 例如單一語句分類 |
如要確認 ML 是正確的做法,請先確認目前的非 ML 解決方案是否已最佳化。如果您沒有實作非機器學習的解決方案,請嘗試 以手動方式解決問題 經驗法則。
非機器學習解決方案是一項基準,可用於判斷機器學習是否為 能協助解決問題比較非機器學習方法和機器學習方法時,請考慮下列問題:
畫質。您認為機器學習解決方案可以改善多少?如果您認為機器學習解決方案只帶來微幅改善,那麼這可能表示目前的解決方案是最佳選擇。
成本和維護。機器學習解決方案在 或是短期和長期的階段?在某些情況下,費用會大幅增加 運算資源和實作機器學習技術所需的時間請考量下列要點 問題:
- 機器學習解決方案是否值得增加成本?請注意 大型系統的改善項目可輕易證明成本和成本 實作機器學習解決方案的維護作業
- 解決方案需要多少維護工作?在許多情況下,機器學習導入作業都需要專責的長期維護。
- 您的產品是否有必要的訓練或招聘資源 或具備機器學習專業知識的人員嗎?
驗收學習成果
預測式機器學習與資料
資料是預測機器學習的推動力。補足 Forecasts,您需要 包含內建預測功能的地圖項目 電源。資料應具有以下特性:
多元。資料集中的相關範例越多,模型的品質就越好。
一致且可靠。擁有一致且可靠的資料 就能產生更好的模型例如:以機器學習為中心的天氣 也能享有多年前收集的 樂器
可信任。瞭解資料來源。資料是否來自您控管的可信任來源,例如產品的記錄?或是來自您不太瞭解的來源,例如其他機器學習系統的輸出內容?
可用。請確認所有輸入內容在預測時皆採用正確的格式。如果在預測期間難以取得特定特徵值,請從資料集中省略這些特徵。
正確。在大型資料集中,部分標籤值可能會不正確,但如果有超過一小部分的標籤不正確,模型就會產生不佳的預測結果。
代表:資料集應盡可能代表現實世界。換句話說,資料集應準確反映事件、使用者行為和/或模擬的現實世界現象。對不具代表性的資料集進行訓練可能會導致效能不佳 要求模型進行實際預測
如果您無法以必要格式取得所需資料,模型的預測結果可能會不準確。
預測能力
如要讓模型做出良好預測,資料集中的特徵應具備預測能力。特徵與標籤的相關性越高,預測標籤的機率就越高。
某些功能的預測能力會比其他特徵高出許多。舉例來說,在天氣資料集中,cloud_coverage
、temperature
和 dew_point
等特徵比 moon_phase
或 day_of_week
更能預測降雨機率。以影片應用程式為例,您可以假設 video_description
、length
和 views
等功能,可能是用來預測使用者想觀看哪些影片的良好指標。
請注意,特徵的預測能力可能會隨情境或情境改變
網域變更。舉例來說,在影片應用程式中,upload_date
這類功能與標籤之間的相關性通常較低。不過,在
遊戲影片的子網域,upload_date
可能與遊戲相關
標籤。
判斷哪些特徵具有預測能力相當費時 上傳資料集之後,您可以運用 AutoML 自動完成部分資料準備工作您可以在訓練模型時移除及新增特徵,手動探索特徵的預測能力。您可以使用 Pearson 相關係數、調整互資訊 (AMI) 和 Shapley 值 等演算法,自動找出特徵的預測能力,這些演算法可提供數值評估,用於分析特徵的預測能力。
隨堂測驗
如需分析和準備資料集的詳細指引,請參閱 用於機器學習的資料準備和特徵工程。
預測與動作
如果無法將預測結果轉換為有助於使用者的動作,預測就沒有價值。也就是說,產品應從 輸出內容
舉例來說,如果模型可預測使用者是否會覺得某部影片實用,就應將該模型的輸出內容提供給推薦實用影片的應用程式。能預測 是否會下雨到天氣應用程式中
隨堂測驗
根據下列情境,判斷使用機器學習技術是否最適合 有助於解決問題
大型機構的工程團隊負責管理來電。
目標:通知呼叫者在已等候保留中的等候時間 目前的通話音量。
他們目前沒有任何解決方案,但他們認為經驗法則 將目前 等候電話的員工人數、 再乘以 10 分鐘不過 他們知道有些客戶的問題在兩分鐘內解決了 其他最多可能需要 45 分鐘或更久。
但他們的經驗法則可能不夠準確。他們可以使用以下欄位建立資料集:number_of_callcenter_phones
、user_issue
、time_to_resolve
、call_time
、time_on_hold
。
time_on_hold
的預測特徵。