資料集、一般化和過度配適

簡介

本單元的首要問題在於。 請選擇下列其中一個答案:

如果您必須優先改善下列其中一個面向 也就是最高 對吧?
改善資料集品質
優先處理所有數據資料, 資料集的品質和大小比 您用於建構模型的創新演算法
以更聰明的損失函式訓練模型
是,較好的損失函式有助於加快模型訓練速度,但 仍是這份清單中其他項目的遙遠。

還有一個比較關鍵的問題:

猜猜看:在您的機器學習專案中, 您通常是否花在資料準備與轉換?
超過一半的專案時間
是,機器學習從業人員大部分的時間都在使用 建構資料集及進行特徵工程。
不到一半的專案時間
規劃更多資金!機器學習作業通常約佔 80% 的時間 。

在本單元中,您將進一步瞭解機器學習的特性 以及如何準備資料,確保在短時間內取得高品質結果 來訓練及評估模型