什麼是機器學習?

從翻譯應用程式到自動駕駛車輛,機器學習 (ML) 技術是我們使用的一些重要技術的基礎。本課程將說明機器學習背後的核心概念。

機器學習提供瞭解決問題、回答複雜問題和創作新內容的新方法。機器學習可預測天氣、估算行程時間、推薦歌曲、自動完成句子、摘要文章,以及產生前所未見的圖片。

簡單來說,機器學習是指訓練一項稱為模型的軟體,以便做出實用的預測,或從資料產生內容。

舉例來說,假設我們想建立一個可預測降雨量的應用程式,我們可以使用傳統方法或機器學習方法。使用傳統方法,我們會建立以物理為基礎的地球大氣層和地表表示法,並計算大量流體動力學方程式。這實在很困難。

我們會使用機器學習方法,為機器學習模型提供大量天氣資料,直到機器學習模型最終學習出產生不同降雨量的天氣模式之間的數學關係。接著,我們會將目前的天氣資料提供給模型,讓模型預測降雨量。

隨堂測驗

什麼是機器學習中的「模型」?
模型是指機器學習系統用來進行預測的資料所衍生的數學關係
模型是您要研究的物件縮小後的呈現方式。
模型是電腦硬體

機器學習系統類型

機器學習系統會根據學習預測或產生內容的方式,歸類為下列一或多個類別:

  • 監督式學習
  • 非監督式學習
  • 強化學習
  • 生成式 AI

監督式學習

監督式學習模型可先查看含有正確答案的大量資料,然後找出資料中產生正確答案的元素之間的關聯,再進行預測。這就像學生透過研讀含有問題和答案的舊試卷來學習新教材。學生只要充分練習過舊版考試,就能充分準備參加新版考試。這些機器學習系統是「監督式」的,因為人類會將資料提供給機器學習系統,並提供已知正確的結果。

迴歸和分類是監督式學習最常見的兩種用途。

迴歸

迴歸模型可預測數值。舉例來說,預測降雨量 (以英寸或公釐為單位) 的天氣模型就是迴歸模型。

請參閱下表,瞭解更多迴歸模型的範例:

情境 可能的輸入資料 數字預測
未來房價 平方英尺數、郵遞區號、房間數和浴室數、地塊大小、抵押貸款利率、房產稅率、建築成本,以及該地區待售房屋數量。 房價。
未來行程時間 歷史交通狀況 (透過智慧型手機、交通感應器、叫車服務和其他導航應用程式收集)、距離目的地和天氣狀況。 抵達目的地所需的時間 (以分鐘和秒為單位)。

分類

分類模型可預測某個項目屬於某個類別的可能性。與迴歸模型輸出數字不同,分類模型會輸出值,指出某項內容是否屬於特定類別。舉例來說,分類模型可用來預測電子郵件是否為垃圾郵件,或相片是否含有貓咪。

分類模型分為兩組:二元分類和多類別分類。二元分類模型會從只包含兩個值的類別輸出值,例如輸出 rainno rain 的模型。多重類別分類模型會從包含兩個以上值的類別輸出值,例如可輸出 rainhailsnowsleet 的模型。

隨堂測驗

如果您想使用機器學習模型預測商業建築的能源使用量,會使用哪種模型?
分類
迴歸

非監督式學習

非監督式學習模型會在收到不含任何正確答案的資料後,進行預測。非監督式學習模型的目標是找出資料中的有意義模式。換句話說,模型沒有任何提示,無法分類每項資料,而是必須推論出自己的規則。

常用的非監督式學習模型採用分群技術。模型會找出可劃分自然群組的資料點。

圖片顯示叢集中的彩色點。

圖 1. 機器學習模型將類似的資料點分群。

圖片顯示以形狀包圍的彩色點,彼此相鄰。

圖 2. 具有自然分界線的叢集群組。

叢集與分類不同,因為您無法自行定義類別。舉例來說,非監督式模型可能會根據溫度將天氣資料集分組,並顯示定義季節的區隔。接著,您可以根據對資料集的瞭解,嘗試為這些叢集命名。

圖片顯示叢集中的彩色點,標示為下雪、下雨、下冰雹和無降雨。

圖 3. 機器學習模型將類似的天氣模式分組。

圖片顯示以形狀和邊界區隔的叢集,其中包含標示為下雪、下雨、冰雹和無雨的彩色圓點。

圖 4. 標示為雪、冰霰、雨和無雨的氣候模式叢集。

隨堂測驗

監督式和非監督式方法有何差異?
非監督式方法會瞭解如何為資料叢集加上標籤。
監督式方法通常會使用分群。
監督式方法會提供內含正確答案的資料。

強化學習

強化學習模型會根據環境中執行的動作,獲得獎勵或懲罰,進而做出預測。增強學習系統會產生政策,定義可獲得最多獎勵的最佳策略。

增強式學習可用於訓練機器人執行任務,例如在房間內走動,以及AlphaGo 等軟體程式,用來玩圍棋遊戲。

生成式 AI

生成式 AI 是一種模型類別,可根據使用者輸入內容建立內容。舉例來說,生成式 AI 可以創造獨特的圖片、音樂作品和笑話,也可以摘要文章、說明如何執行工作,或編輯相片。

生成式 AI 可接受各種輸入內容,並產生文字、圖片、音訊和影片等輸出內容。也能接受並建立這些組合。舉例來說,模型可以將圖片做為輸入內容,並產生圖片和文字做為輸出內容,或是將圖片和文字做為輸入內容,並產生影片做為輸出內容。

我們可以根據生成式模型的輸入和輸出內容進行討論,通常會以「輸入類型」-「輸出類型」的格式書寫。舉例來說,以下是部分生成式模型的輸入和輸出內容清單:

  • 文字轉文字
  • 文字轉圖片
  • 文字轉影片
  • 文字轉程式碼
  • 文字轉語音
  • 圖片和文字轉圖片

下表列出生成式模型的示例、輸入內容,以及可能的輸出內容示例:

型號 輸入 輸出範例
文字轉文字 勒芒耐力賽是誰發明的? 勒芒 24 小時耐力賽由 Automobile Club de l'Ouest (ACO) 創辦,後者是成立於 1906 年的汽車運動組織。第一場比賽於 1923 年 5 月 26 日和 27 日舉行,地點是位於法國勒芒鎮附近的沙爾特賽道,全長 13.426 公里 (8.345 英里)。這場賽事最初的構想是為了宣傳 ACO 和 Sarthe 地區。
資料來源:Bard
文字轉圖片 外星章魚在閱讀報紙時,從入口漂浮而過。 卡通章魚的圖片。
來源:Imagen
文字轉影片 一隻逼真的泰迪熊在舊金山海中游泳。 泰迪熊潛入水中。泰迪熊繼續在水下游泳,旁邊有五彩繽紛的魚兒。一隻熊貓在水中游泳。 泰迪熊在水下游泳的影片。
來源:Phenaki
文字轉程式碼 編寫 Python 迴圈,迴圈遍歷數字清單並列印質數。
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

來源:Bard
圖片轉文字 火鶴的圖片。 這是火烈鳥。這種魚分布在加勒比海地區。
資料來源: Google DeepMind

生成式 AI 的運作方式為何?大致來說,生成式模型會學習資料中的模式,目的是產生類似的新資料。生成式模型如下所示:

  • 喜劇演員透過觀察他人的行為和說話方式,學習模仿他人
  • 藝術家透過研究大量特定風格的繪畫作品,學習以特定風格繪畫
  • 翻唱樂團會大量聆聽特定樂團的音樂,學習如何模仿該樂團的音樂

為了產生獨特且有創意的輸出內容,生成式模型一開始會使用非監督式方法進行訓練,學習模仿訓練資料。有時,模型會進一步透過監督式或強化式學習,針對模型可能需要執行的任務相關的特定資料進行訓練,例如摘要文章或編輯相片。

生成式 AI 技術發展迅速,不斷有新的用途被發現。舉例來說,生成式模型可自動移除干擾背景或改善低解析度圖片的品質,協助企業改善電子商務產品圖片。