瞭解問題

如要瞭解問題,請執行下列工作:

  • 說明您正在開發或重構的產品目標。
  • 判斷目標是否最適合使用預測機器學習、生成式 AI 或非機器學習解決方案。
  • 如果您使用預測機器學習方法,請確認您有訓練模型所需的資料。

說明目標

首先,請以非機器學習術語說明您的目標。目標是「我想要達成什麼目標?」這個問題的答案。

下表清楚列出假設應用程式的目標:

應用程式 目標
「天氣」應用程式 計算地理區域的降雨量,每六小時更新一次。
時尚應用程式 產生各種 T 恤設計。
影片應用程式 推薦實用的影片。
郵件應用程式 偵測垃圾內容。
金融應用程式 匯總多個新聞來源的財務資訊。
地圖應用程式 計算交通時間。
銀行應用程式 找出詐欺交易。
餐飲應用程式 根據餐廳菜單識別料理類型。
電子商務應用程式 回覆評論並提供實用答案。

機器學習的明確用途

有些人認為機器學習是萬能工具,可以解決所有問題。事實上,機器學習是專門用於解決特定問題的工具。當有更簡單的非機器學習解決方案可用時,您就不需要導入複雜的機器學習解決方案。

機器學習系統可分為兩大類別:預測式機器學習生成式 AI。下表列出這些定義特徵:

輸入功率 輸出內容 訓練技巧
預測機器學習 文字
圖片
音訊
影片
數值
做出預測,例如將電子郵件歸類為垃圾郵件或非垃圾郵件、猜測明天的降雨量,或預測股票價格。輸出結果通常可以與現實進行驗證。 通常會使用大量資料訓練監督式、非監督式或增強式學習模型,以便執行特定工作。
生成式 AI 文字
圖片
音訊
影片
數值
根據使用者的意圖產生輸出內容,例如摘要文章,或製作音訊片段或短片。 通常會使用大量未標註的資料來訓練大型語言模型或圖像產生器,以填補缺少的資料。接著,您可以將模型用於可視為填空格任務的任務,或是透過標記資料訓練模型,針對特定任務 (例如分類) 進行微調。

如要確認機器學習是正確的做法,請先確認目前的非機器學習解決方案是否已最佳化。如果您尚未導入非機器學習的解決方案,請嘗試使用啟發法手動解決問題。

非機器學習解決方案是您用來判斷機器學習是否適合解決問題的基準。比較非機器學習方法和機器學習方法時,請考慮下列問題:

  • 品質。您認為機器學習解決方案可以改善多少?如果您認為機器學習解決方案只帶來微幅改善,那麼這可能表示目前的解決方案是最佳選擇。

  • 成本和維護。機器學習解決方案在短期和長期的成本為何?在某些情況下,實作 ML 所需的運算資源和時間會大幅增加。請考慮以下問題:

    • 機器學習解決方案是否值得增加成本?請注意,大型系統中的小幅改善,就能輕鬆證明導入機器學習解決方案的成本和維護成本。
    • 解決方案需要多少維護?在許多情況下,機器學習導入作業都需要專責的長期維護。
    • 貴產品是否有資源可支援訓練或聘用機器學習專家?

隨堂測驗

為何在分析機器學習解決方案前,先採用非機器學習解決方案或啟發法十分重要?
非機器學習解決方案是評估機器學習解決方案的基準。
非機器學習解決方案可協助您判斷機器學習解決方案的成本。

預測機器學習和資料

資料是預測機器學習的驅動力。如要做出良好的預測,您需要含有預測功能的特徵資料。資料應具備下列特徵:

  • 豐富資料集中的相關範例越多,模型的品質就越好。

  • 一致且可靠。收集到的資料如果能一致且可靠,就能產生更優質的模型。舉例來說,以 ML 為基礎的天氣模型可利用多年來透過相同可靠儀器收集到的資料。

  • 可信任。瞭解資料來源。資料是否來自您控管的可信任來源,例如產品的記錄?或是來自您不太瞭解的來源,例如其他 ML 系統的輸出內容?

  • 可用。請確認所有輸入內容在預測時皆採用正確的格式。如果在預測期間難以取得特定特徵值,請從資料集中省略這些特徵。

  • 正確。在大型資料集中,部分標籤值可能會不正確,但如果有超過一小部分的標籤不正確,模型就會產生不佳的預測結果。

  • 代表:資料集應盡可能代表現實世界。換句話說,資料集應準確反映事件、使用者行為和/或模擬的現實世界現象。如果使用不具代表性的資料集進行訓練,當模型需要做出實際預測時,可能會導致效能不佳。

如果您無法以必要格式取得所需資料,模型的預測結果可能會不準確。

預測能力

如要讓模型做出良好預測,資料集中的特徵應具備預測能力。特徵與標籤的相關性越高,預測標籤的機率就越高。

某些特徵的預測能力會比其他特徵更強。舉例來說,在天氣資料集中,cloud_coveragetemperaturedew_point 等特徵比 moon_phaseday_of_week 更能預測降雨機率。以影片應用程式為例,您可以假設 video_descriptionlengthviews 等功能,可能會是預測使用者想觀看哪些影片的好方法。

判斷哪些功能具有預測能力可能會耗時。您可以在訓練模型時移除及新增特徵,手動探索特徵的預測能力。您可以使用 Pearson 相關係數調整互資訊 (AMI)Shapley 值 等演算法,自動找出特徵的預測能力,這些演算法可提供數值評估,用於分析特徵的預測能力。

隨堂測驗

分析資料集時,您應尋找哪三個重要屬性?
代表實際環境。
包含正確的值。
特徵具有標籤的預測能力。
檔案大小足以載入本機電腦。
來自各種不可預測的來源。

如要進一步瞭解如何分析及準備資料集,請參閱「資料準備和機器學習特徵工程」。

預測與動作

如果無法將預測結果轉換為有助於使用者的動作,預測就沒有價值。也就是說,您的產品應根據模型的輸出結果採取行動。

舉例來說,如果模型可預測使用者是否會覺得某部影片實用,就應將該模型的輸出內容提供給推薦實用影片的應用程式。預測是否會下雨的模型應輸入天氣應用程式。

隨堂測驗

根據下列情境,判斷使用 ML 是否為解決問題的最佳做法。

大型機構的工程團隊負責管理來電。

目標:根據目前的通話量,告知來電者等待保留的時間。

他們沒有任何解決方案,但認為一種啟發式方法是將目前在等候中的客戶人數除以接聽電話的員工人數,然後乘以 10 分鐘。不過,他們知道有些客戶的問題可以在兩分鐘內解決,有些則可能需要 45 分鐘或更久的時間。

他們的啟發式可能無法取得足夠精確的數字。他們可以使用以下欄位建立資料集:number_of_callcenter_phonesuser_issuetime_to_resolvecall_timetime_on_hold

使用機器學習。工程團隊有明確的目標。這類演算法無法滿足使用情境。資料集似乎包含標籤 time_on_hold 的預測特徵。
不要使用機器學習。雖然他們有明確的目標,但應先實作並最佳化非機器學習的解決方案。此外,他們的資料集似乎不含足夠的預測功能。