資料集、泛化和過度擬合

簡介

本單元會先提出引導式問題。請選擇下列其中一個答案：

如果您必須優先改善機器學習專案中的下列任一項，哪項會帶來最大影響？

改善資料集品質

優先處理所有數據流量，資料集的品質和大小比您用於建構模型的創新演算法

以更聰明的損失函式訓練模型

雖然更優異的損失函式確實有助於加快模型訓練速度，但仍遠遠不及清單中的其他項目。

以下是更具引導性的提問：

猜猜看：在您的機器學習專案中，您通常是否花在資料準備與轉換？

超過一半的專案時間

是，機器學習從業人員大部分的時間都在使用建構資料集及進行特徵工程。

不到一半的專案時間

規劃更多資金！通常，在機器學習專案中，80% 的時間都花在建構資料集和轉換資料。

在本單元中，您將進一步瞭解機器學習的特性以及如何準備資料，確保在短時間內取得高品質結果來訓練及評估模型