數值型資料:模型如何使用特徵向量擷取資料

迄今為止,我們認為模型直接在 資料集中的資料列;不過,模型實際擷取資料的方式略有不同

舉例來說,假設資料集提供五個資料欄,但只有其中兩個資料欄 欄 (bd) 是模型中的特徵。處理時 第 3 列的範例,模型是否只要擷取 已按照下列方式醒目顯示兩個儲存格 (3b 和 3d)?

圖 1. 直接從資料集擷取範例的模型。
            醒目顯示第 3 列的 b 和 d 欄。
圖 1:還不確定模型如何取得範例,

事實上,模型實際擷取浮點值陣列,稱為 「特徵向量。您可以思考 做為浮點值 (由單一範例組成)。

圖 2:特徵向量是資料集之間的中介商
            和模型
圖 2 接近真實,但這不切實際。

不過,特徵向量通常不會使用資料集的原始值。 一般來說,您必須將資料集的值處理成表示法 更有助於模型從中學習所以會變得更加真實 特徵向量看起來就會像這樣:

圖 3. 特徵向量包含兩個浮點值:
            0.13 和 0.47。更貼近真實的特徵向量。
圖 3. 更貼近真實的特徵向量。

模型不會藉由 資料集裡的 actual 值而不是 altered 值? 出乎意料的是,答案是不會。

您必須決定將原始資料集值表示為可訓練資料的最佳方式 對應至特徵向量的值 這項程序稱為 特徵工程 也是機器學習不可或缺的一環 最常見的特徵工程技術如下:

這個單元說明正規化和特徵分塊。下一個單元 處理類別型資料、 涵蓋其他形式的 預先處理功能,例如 將非數字資料 (例如字串) 轉換為浮點值。

特徵向量中的每個值都必須是浮點值。不過 特徵是字串,或其他非數值。因此 特徵工程的一大部分是代表非數值 數值。後續單元將有許多這個部分。