下列問題可幫助您加強自己對機器學習核心概念的理解。
預測能力
監督式機器學習模型是以含有加上標籤的範例的資料集進行訓練。模型會從特徵預測標籤。不過,並非所有資料集的特徵都具備預測能力。在某些情況下,只有少數特徵能做為標籤的預測器。在下方的資料集中,以價格做為標籤,其餘資料欄則使用做為特徵。
你認為哪三項特色最有可能是車輛價格的預測指標?
Make_model、年、英里。
根據車輛價格,汽車的廠牌/型號、年份和里程數可能成為預測性最高的預測依據。
顏色、高度、Make_model。
車輛的高度和顏色並非依據車輛價格預測的明確因素。
Miles、gearbox、Make_model。
齒輪箱並非價格的主要預測指標,
Tire_size,wheel_base,年份。
輪胎尺寸和輪盤無法精準預測車輛的車資。
監督式與非監督式學習
根據問題情況,您將採用監督式或非監督式做法。 舉例來說,如果您事先知道要預測的值或類別,就可以使用監督式學習。不過,如果您想瞭解資料集是否包含相關範例的任何區隔或分組,請使用非監督式學習。
假設您有線上購物網站的使用者資料集,其中包含下列資料欄:
如要瞭解造訪網站的使用者類型,你會使用監督式或非監督式學習嗎?
非監督式學習
我們希望模型能將相關客戶分組,因此我們會採用非監督式學習技術。在模型將使用者分門別類後,我們會為每個星團建立自己的名稱,例如「折扣搜尋者」、「優惠獵人」、「衝浪者」、「情人」和「旺盛人」。
我正在嘗試預測使用者屬於哪個類別,因此使用監督式學習。
在監督式學習中,資料集必須包含您要預測的標籤。資料集中未參照使用者類別的標籤。
假設您有一個住家的能源用量資料集,包含下列資料欄:
您會使用哪種機器學習來預測新建造房屋每年使用的千瓦時數?
監督式學習
透過有標籤的範例進行監督式學習。在這個資料集中,「每年使用千瓦時數」的標籤是標籤,因為這是您希望模型預測的值。包括「正方形影片片段」、「位置」和「建造年份」。
非監督式學習
非監督式學習會使用未加上標籤的樣本。在此範例中,「每年使用的千瓦時數」應為標籤,因為這是您希望模型預測的值。
假設您有一個航班資料集,且資料集包含下列資料欄:
如要預測票券費用,您會使用迴歸或分類方式嗎?
迴歸
迴歸模型的輸出為數值。
分類
分類模型的輸出結果是獨立值,通常是字詞。在這種情況下,車票費用為數值。
您是否能根據資料集來訓練分類模型,將火車票的費用分為「高」、「平均」或「低」?
可以,但我們必須先將
coach_ticket_cost
欄中的數值轉換為類別值。您可以使用資料集建立分類模型。請執行下列步驟:
- 找出從出發機場前往目的地機場的平均票券平均費用。
- 判斷構成「高」、「平均」和「低」的門檻值,
- 比較預估費用與門檻,然後輸出該值所屬的類別。
不可以,無法建立分類模型。
coach_ticket_cost
值不是類別型數字。只要稍加努力,就能建立分類模型。
不會。分類模型只會預測兩個類別,例如
spam
或 not_spam
。這個模型必須預測三個類別。分類模型可以預測多個類別。稱為多類別分類模型。
訓練與評估
模型訓練完成後,我們會使用含有標籤範例的資料集來評估模型,並比較模型的預測值與標籤的實際值。
針對該問題選擇兩個最合適的答案。
如果模型的預測結果離題太遠,該如何改善模型的預測結果?
重新訓練模型,但只使用您認為能為標籤最高預測力的特徵。
使用較少特徵但預測能力較高的模型重新訓練模型,通常能產生更精準的預測結果。
您無法修正預測結果偏遠的模型。
您可以修正預測功能已關閉的模型。大部分的模型都需要經過多次訓練,才能產生有用的預測資料。
使用更豐富多元的資料集重新訓練模型。
由於模型對於特徵和標籤之間的關係具有更廣泛的通用解決方案,以資料集訓練而成、樣本數和值範圍更廣,因此能產生更好的預測結果。
請改用其他訓練方法。舉例來說,如果您使用監督式方法,請盡量採用非監督式方法。
不同的訓練方法無法產生更準確的預測結果。
您現在可以在機器學習旅程中邁出下一步:
People + AI 指南。如果您正在尋找 Google 員工、產業專家和學術研究提供的一系列方法、最佳做法和範例,歡迎瞭解。
問題取景。如果您正在尋找經實地測試的方法,以便建立機器學習模型並避免常犯的錯誤,
機器學習密集課程。您已準備好深入瞭解機器學習。