下列問題有助於加深您對核心機器學習概念的瞭解。
預測力
監督式機器學習模型會使用含有標記範例的資料集進行訓練。模型會學習如何從特徵預測標籤。不過,並非所有資料集中的特徵都有預測能力。在某些情況下,只有少數特徵可做為標籤的預測指標。在下列資料集中,請將價格設為標籤,其餘欄則設為特徵。
您認為哪三項功能最能預測汽車價格?
Make_model、year、miles。
車輛的廠牌/型號、年份和里程數,可能是價格最強的預測指標。
顏色、高度、製造商/型號。
車輛的高度和顏色並非預測車輛價格的強力指標。
英里、變速箱、make_model。
變速箱不是價格的主要預測指標。
Tire_size、wheel_base、year。
輪胎尺寸和輪距並非預測車輛價格的強力指標。
監督式學習和非監督式學習
您會根據問題使用監督式或非監督式方法。舉例來說,如果您事先知道要預測的值或類別,就應使用監督式學習。不過,如果您想瞭解資料集是否包含任何區隔或相關範例的群組,就必須使用無監督式學習。
假設您有一個線上購物網站的使用者資料集,其中包含下列資料欄:
如果想瞭解造訪網站的使用者類型,您會使用監督式學習還是非監督式學習?
非監督式學習。
由於我們希望模型將相關顧客群組聚集在一起,因此會使用非監督式學習。模型將使用者分組後,我們會為每個叢集建立專屬名稱,例如「尋找折扣」、「尋找特惠」、「瀏覽者」、「忠誠者」和「流浪者」。
我要預測使用者屬於哪個類別,因此採用監督式學習。
在監督式學習中,資料集必須包含您要預測的標籤。資料集中沒有任何標籤會參照使用者類別。
假設您有一份住宅能源使用量資料集,其中包含下列欄:
您會使用哪種機器學習技術,預測新建房屋每年的千瓦小時用量?
監督式學習。
監督式學習會使用已加上標籤的範例進行訓練。在這個資料集中,「每年使用千瓦小時」會是標籤,因為這是您希望模型預測的值。這些特徵是「平方英尺數量單位」、「位置」和「建造年份」。
非監督式學習。
非監督式學習會使用未標註的範例。在本範例中,「每年使用千瓦小時」會是標籤,因為這是您希望模型預測的值。
假設您有一個航班資料集,其中包含下列欄:
如果您想預測客運車票的費用,會使用迴歸還是分類?
迴歸
迴歸模型的輸出值是數值。
分類
分類模型的輸出內容是離散值,通常是單字。在本例中,長途巴士票價為數值。
您能否根據資料集訓練分類模型,將客運車票的費用分類為「高」、「平均」或「低」?
可以,但我們必須先將
coach_ticket_cost
欄中的數值轉換為分類值。您可以使用這份資料集建立分類模型。
您可以執行下列動作:
- 查看從出發機場前往目的地機場的平均票價。
- 決定「高」、「平均」和「低」的門檻。
- 比較預測的成本與閾值,並輸出值所屬的類別。
不行。您無法建立分類模型。
coach_ticket_cost
值是數值,而非類別。只要稍微調整一下,就能建立分類模型。
否。分類模型只會預測兩個類別,例如
spam
或 not_spam
。這個模型需要預測三個類別。分類模型可預測多個類別。這類模型稱為多元分類模型。
訓練與評估
訓練模型後,我們會使用含有標記範例的資料集評估模型,並將模型的預測值與標籤的實際值進行比較。
請為問題選取兩個最合適的答案。
如果模型的預測結果與實際情況相差甚遠,您可以採取哪些措施來改善預測結果?
重新訓練模型,但只使用您認為對標籤最具預測力的功能。
重新訓練模型時,使用較少的特徵 (但預測能力更強),可以產生更準確的預測模型。
您無法修正預測結果有很大落差的模型。
您可以修正預測結果不準確的模型。大多數模型都需要經過多輪訓練,才能做出有用的預測。
使用更大且多元化的資料集重新訓練模型。
在包含更多範例和更廣泛值域的資料集上訓練的模型,可產生更準確的預測結果,因為模型可針對特徵和標籤之間的關係提供更佳的一般化解決方案。
嘗試採用其他訓練方式。舉例來說,如果您使用監督式方法,請嘗試無監督式方法。
使用其他訓練方法無法產生更準確的預測結果。
您現在可以繼續進行機器學習歷程的下一個步驟:
使用者 + AI 指南。如果您想瞭解 Google 員工、業界專家和學術研究人員提供的一系列方法、最佳做法和範例,以便使用機器學習。
問題界定。如果您想瞭解實地測試過的建立機器學習模型方法,並避免常見的陷阱。
機器學習密集課程。您是否已準備好透過深入且實用的做法,進一步瞭解機器學習。