本頁面由 Cloud Translation API 翻譯而成。

測試自己的理解程度

下列問題有助於加深您對核心機器學習概念的瞭解。

預測能力

監督式機器學習模型會使用含有標記範例的資料集進行訓練。模型會學習如何從特徵預測標籤。不過，並非所有資料集中的特徵都有預測能力。在某些情況下，只有少數特徵可做為標籤的預測指標。在下列資料集中，請將價格設為標籤，其餘欄則設為特徵。

標示的汽車屬性範例。

您認為哪三項功能最能預測汽車價格？

Make_model、year、miles。

車輛的廠牌/型號、年份和里程數，可能是價格最強的預測指標。

顏色、高度、製造商/型號。

車輛的高度和顏色並非預測車輛價格的強力指標。

英里、變速箱、make_model。

變速箱不是價格的主要預測指標。

Tire_size、wheel_base、year。

輪胎尺寸和輪距並非預測車輛價格的強力指標。

監督式學習和非監督式學習

您會根據問題使用監督式或非監督式方法。舉例來說，如果您事先知道要預測的值或類別，就應使用監督式學習。不過，如果您想瞭解資料集是否包含任何區隔或相關範例的群組，就必須使用無監督式學習。

假設您有一個線上購物網站的使用者資料集，其中包含下列資料欄：

一列客戶屬性的圖片。

如果想瞭解造訪網站的使用者類型，您會使用監督式學習還是非監督式學習？

非監督式學習。

由於我們希望模型將相關顧客群組聚集在一起，因此會使用非監督式學習。模型將使用者分組後，我們會為每個叢集建立專屬名稱，例如「尋找折扣」、「尋找特惠」、「瀏覽者」、「忠誠者」和「流浪者」。

我要預測使用者屬於哪個類別，因此採用監督式學習。

在監督式學習中，資料集必須包含您要預測的標籤。資料集中沒有任何標籤可代表使用者類別。

假設您有一份住宅能源使用量資料集，其中包含下列欄：

一列住家屬性的圖片。

您會使用哪種機器學習技術，預測新建房屋每年的千瓦小時用量？

監督式學習。

監督式學習會使用加上標籤的範例進行訓練。在這個資料集中，「每年使用千瓦小時」會是標籤，因為這是您希望模型預測的值。這些特徵是「平方英尺數量單位」、「位置」和「建造年份」。

非監督式學習。

非監督式學習會使用未標註的範例。在本範例中，「每年使用千瓦小時」會是標籤，因為這是您希望模型預測的值。

假設您有一個航班資料集，其中包含下列欄：

一行航班資料的圖片。

如果您想預測客運車票的費用，會使用迴歸還是分類？

迴歸

迴歸模型的輸出值為數值。

分類

分類模型的輸出內容是離散值，通常是單字。在本例中，長途巴士票價為數值。

您可以根據資料集訓練分類模型，將客運車票的價格分類為「高」、「平均」或「低」嗎？

可以，但我們必須先將 coach_ticket_cost 欄中的數值轉換為分類值。

您可以使用這份資料集建立分類模型。您可以採取下列做法：

查看從出發機場前往目的地機場的平均票價。
決定「高」、「平均」和「低」的門檻。
比較預測的成本與門檻，並輸出值所屬的類別。

不行。您無法建立分類模型。coach_ticket_cost 值是數值，而非類別。

只要稍微調整一下，就能建立分類模型。

否。分類模型只會預測兩個類別，例如 spam 或 not_spam。這個模型需要預測三個類別。

分類模型可預測多個類別。這類模型稱為多元分類模型。

訓練與評估

訓練模型後，我們會使用含有標記範例的資料集評估模型，並將模型的預測值與標籤的實際值進行比較。

請為問題選取兩個最合適的答案。

如果模型的預測結果與實際情況相差甚遠，您可以採取哪些行動來改善預測結果？

重新訓練模型，但只使用您認為對標籤最具預測力的功能。

重新訓練模型時，使用較少的特徵 (但預測能力更強)，可以產生更準確的預測模型。

您無法修正預測結果有很大落差的模型。

您可以修正預測結果不準確的模型。大多數模型都需要經過多輪訓練，才能做出有用的預測。

使用更大且多元化的資料集重新訓練模型。

在包含更多範例和更廣泛值域的資料集上訓練的模型，可產生更準確的預測結果，因為模型可針對特徵和標籤之間的關係提供更佳的一般化解決方案。

嘗試採用其他訓練方式。舉例來說，如果您使用監督式方法，請嘗試無監督式方法。

使用其他訓練方法無法產生更準確的預測結果。

您現在可以繼續進行機器學習歷程的下一個步驟：

使用者 + AI 指南。如果您想瞭解 Google 員工、業界專家和學術研究人員提供的一系列方法、最佳做法和範例，以便使用機器學習。
問題界定。如果您想瞭解實地測試過的建立機器學習模型方法，並避免常見的陷阱。
機器學習密集課程。您是否已準備好透過深入且實用的做法，進一步瞭解機器學習。

監督式學習