機器學習 (ML) 是我們所用部分重要技術的幕後功臣, 從翻譯應用程式到自駕車,都採用這項技術。本課程說明機器學習背後的基礎概念。
機器學習提供解決問題、回答複雜問題及建立新內容的新方法。機器學習可以預測天氣、估算行程時間、推薦歌曲、自動完成句子、摘要文章,以及生成前所未見的圖片。
簡單來說,機器學習是訓練軟體 (稱為模型) 的過程,目的是根據資料做出實用的預測或生成內容 (例如文字、圖片、音訊或影片)。
舉例來說,假設我們想建立應用程式來預測降雨量,我們可以採用傳統方法或機器學習方法。如果採用傳統做法,我們會建立地球大氣和地表的物理表示法,並計算大量流體動力學方程式。這項作業非常困難。
我們採用機器學習方法,提供大量天氣資料給機器學習模型,直到模型最終學會產生不同雨量的天氣模式之間的數學關係。接著,我們會將目前的天氣資料提供給模型,模型就會預測降雨量。
隨堂測驗
機器學習系統類型
機器學習系統會根據學習預測或生成內容的方式,歸入下列一或多個類別:
- 監督式學習
- 非監督式學習
- 強化學習
- 生成式 AI
監督式學習
監督式學習模型在看過大量附有正確答案的資料後,就能進行預測,並找出資料中元素之間的關聯,進而產生正確答案。這就像學生透過研讀包含問題和答案的舊考卷,學習新教材。學生練習過足夠的舊試題後,就能充分準備好參加新考試。這些機器學習系統會「受到監督」,因為人類會提供已知正確結果的資料給機器學習系統。
監督式學習最常見的兩種用途是迴歸和分類。
迴歸
迴歸模型可預測數值。舉例來說,預測降雨量 (以英吋或公釐為單位) 的天氣模型就是迴歸模型。
下表列出更多迴歸模型範例:
情境 | 可能的輸入資料 | 數值預測 |
---|---|---|
未來房價 | 坪數、郵遞區號、臥室和浴室數量、地塊大小、抵押貸款利率、房地產稅率、建造成本,以及該地區待售房屋數量。 | 房屋價格。 |
未來的行程時間 | 歷史交通狀況 (從智慧型手機、交通感應器、叫車和其他導航應用程式收集)、與目的地的距離和天氣狀況。 | 抵達目的地的時間 (以分鐘和秒為單位)。 |
分類
分類模型會預測某個項目屬於某個類別的可能性。迴歸模型會輸出數字,而分類模型則會輸出值,指出某個項目是否屬於特定類別。舉例來說,分類模型可用來預測電子郵件是否為垃圾郵件,或相片是否含有貓。
分類模型分為兩類:二元分類和多類別分類。二元分類模型會從只包含兩個值的類別輸出值,例如輸出 rain
或 no rain
的模型。多重類別分類模型會從包含兩個以上值的類別輸出值,例如可輸出 rain
、hail
、snow
或 sleet
的模型。
隨堂測驗
非監督式學習
非監督式學習模型會根據不含任何正確答案的資料進行預測。非監督式學習模型的目標是找出資料中的有意義模式。換句話說,模型不會獲得任何有關如何分類每項資料的提示,而是必須自行推論出規則。
常用的非監督式學習模型會採用稱為「叢集」的技術。模型會找出劃分自然分組的資料點。

圖 1. 機器學習模型會將類似的資料點分群。

圖 2. 以自然分界劃分的叢集群組。
叢集與分類不同,因為類別並非由您定義。舉例來說,非監督式模型可能會根據溫度將天氣資料集分群,揭露定義季節的區隔。然後根據您對資料集的瞭解,嘗試為這些叢集命名。

圖 3. 機器學習模型會將類似的天氣模式歸類。

圖 4. 標示為下雪、雨夾雪、下雨和無雨的天氣模式叢集。
隨堂測驗
強化學習
增強學習模型會根據環境中執行的動作,獲得獎勵或懲罰,藉此進行預測。增強學習系統會產生政策,定義獲得最多獎勵的最佳策略。
強化學習可用於訓練機器人執行任務,例如在房間內走動,以及訓練軟體程式 (例如 AlphaGo) 下圍棋。
生成式 AI
生成式 AI 是一類模型,可根據使用者輸入內容生成內容。例如,生成獨特的圖片、音樂和笑話;摘要文章、說明如何執行工作,或編輯相片。
生成式 AI 可接受各種輸入內容,並生成文字、圖片、音訊和影片等各種輸出內容。也可以擷取這些內容並建立組合。舉例來說,模型可以將圖片做為輸入內容,並生成圖片和文字做為輸出內容;也可以將圖片和文字做為輸入內容,並生成影片做為輸出內容。
我們可以根據生成模型的輸入和輸出內容來討論,通常會寫成「輸入類型」-「輸出類型」。舉例來說,以下是生成模型的部分輸入和輸出內容清單:
- 文字轉文字
- 文字轉圖片
- 文字轉影片
- 文字轉程式碼
- 文字轉語音
- 圖像和文字轉圖像
下表列出生成模型、輸入內容和可能的輸出內容範例:
模型 | 輸入 | 輸出範例 |
---|---|---|
文字轉文字 | 勒芒賽事是誰發明的? |
勒芒 24 小時耐力賽由 Automobile Club de l'Ouest (ACO) 創立,這個汽車組織成立於 1906 年。第一場賽事於 1923 年 5 月 26 日和 27 日在薩爾特賽道舉行,這條 13.426 公里 (8.345 英里) 的公路賽道位於法國勒芒鎮附近。這項賽事最初的構想是為了宣傳 ACO 和薩爾特地區。 來源:Bard |
文字轉圖片 | 外星章魚一邊看報紙,一邊穿過入口。 |
![]() 來源:Imagen |
文字轉影片 | 一隻逼真的泰迪熊在舊金山的海中游泳。 泰迪熊潛入水中。泰迪熊繼續在水下與色彩繽紛的魚群一起游泳。一隻熊貓在水下游泳。 |
![]() 來源:Phenaki |
文字轉程式碼 | 編寫 Python 迴圈,疊代數字清單並列印質數。 |
for number in numbers: # Check if the number is prime. is_prime = True for i in range(2, number): if number % i == 0: is_prime = False break # If the number is prime, print it. if is_prime: print(number) 來源:Bard |
圖片轉文字 | ![]() |
這是火鶴。這些島嶼位於加勒比海。 資料來源: Google DeepMind |
生成式 AI 的運作方式為何?大致來說,生成式模型會學習資料中的模式,目標是產生類似的新資料。生成模型包括:
- 觀察他人的行為和說話方式,並模仿這些特徵的喜劇演員
- 藝術家透過研究大量特定風格的畫作,學會以該風格繪畫
- 模仿樂團:透過聆聽特定樂團的大量音樂,學習如何發出類似的聲音
為生成獨特且富有創意的內容,生成模型一開始會採用非監督式方法訓練,讓模型學習模仿訓練資料。有時會使用監督式或強化學習,進一步訓練模型,讓模型能執行特定工作,例如摘要文章或編輯相片。
生成式 AI 發展迅速,新的用途不斷湧現。舉例來說,生成模型可自動移除令人分心的背景,或提升低解析度圖片的品質,協助商家改善電子商務產品圖片。