數值資料：特徵分塊

Binning (也稱為「值區」) 是 特徵工程 可將不同的數值子範圍分為「bins」或 buckets。在許多情況下，繫結會將數值資料轉換為類別型資料。舉例來說，考慮功能名為 X，最低值為 15 且最高的值為 425使用繫結功能，您就能以下列項目表示 X：以下五個特徵分塊：

特徵分塊 1：15 至 34
特徵分塊 2：35 至 117
特徵分塊 3：118 至 279
特徵分塊 4：280 至 392
5：393 至 425

特徵分塊 1 的範圍涵蓋 15 到 34，因此 X 的所有值介於 15 到 34 之間最終在作業區 1以這些特徵分塊訓練的模型不會有任何反應設為 17 和 29 的 X 值，因為這兩個值都位於 Bin 1。

特徵向量代表五個特徵分塊，如下所示：

特徵分塊號碼	範圍	特徵向量
1	15-34 歲	[1.0、0.0、0.0、0.0、0.0]
2	35-117 歲	[0.0、1.0、0.0、0.0、0.0]
3	118-279 人	[0.0、0.0、1.0、0.0、0.0]
4	280-392 人	[0.0、0.0、0.0、1.0、0.0]
5	第 393 至 425 天	[0.0、0.0、0.0、0.0、1.0]

雖然 X 是資料集中的單一資料欄，但繫結會導致模型將 X 視為五個獨立功能。因此模型會學習為每個特徵分塊單獨權重；

特徵繫結是資源調度的理想替代方案或裁剪系統符合下列條件：

特徵和整體線性關係 label 錯誤或不存在。
將特徵值分群時。

特徵分塊可能會產生違反直覺，因為先前的範例會將值 37 和 115 視為相同的處理方式。但當場特徵似乎比線性關係更完整，因此若選擇特徵，代表資料

特徵分塊範例：購物者人數與溫度

假設您建立的模型會預測當天的戶外溫度，吸引購物者。以下是溫度與購物者人數：

圖 9：含有 45 點的散佈圖。這 45 個分數自然
分成三個群組 — **圖 9。** 含有 45 點的散佈圖。

這個圖表顯示，當時購物者數量最多是最舒適的溫度

您可以將特徵表示為原始值：在特徵向量中是 35.0這個想法是否正確？

在訓練期間，線性迴歸模型會學習而不是每個特徵的分數因此，如果隨機性參數是以單一特徵表示，就等於 35.0 度可能成為影響因素的五倍以 7.0 的溫度計費但本圖沒有真正會顯示標籤和特徵值

這張圖表建議下列子範圍有三個叢集：

特徵分塊 1 表示溫度範圍為 4 到 11。
特徵區間 2 的溫度範圍為 12-26。
特徵區間 3 的溫度範圍為 27-36。

，瞭解如何調查及移除這項存取權。

圖 10：與前一版相同 45 個點的散佈圖
但搭配垂直線，讓特徵分塊更加明顯。 — **圖 10.**散佈圖，分為三個特徵分塊。

這個模型會學習每個特徵分塊的權重。

雖然您可建立超過 3 個特徵分塊這個想法經常產生錯誤，原因如下：

只有在包含特徵分塊和標籤的情況下，模型才能得知都有足夠的範例在此範例中，3 個特徵分塊至少包含 10 個樣本，可能已足以用於訓練。分為 33 個特徵分塊所有特徵分塊包含的樣本都不足以訓練模型。
每個隨機性參數的特徵分塊 33 種不同溫度功能。不過，建議您通常將最小化 例如模型的特徵數量

練習：隨堂測驗

下圖顯示每 0.2 度的房價中位數神話自由國的緯度：

圖 11.顯示每個緯度的房屋價值圖。最低的房子
這個值約為 327，最高為 712。緯度橫跨 41.0
並以點表示
緯度 0.2 度。模式相當不規律，但
兩個不同的叢集 (一個位於緯度 41.0 和 41.8 的叢集、
以及緯度 42.6 到 43.4 之間的另一個星團)。 — **圖 11.** 緯度中位數，緯度 0.2 度。

此圖片顯示房屋值和緯度之間的非線性模式，因此將緯度視為浮點值不太可能對如何產生良好預測也許是將定位緯度好嗎？

下列何者是最適合的分組策略策略？

不要搞定

鑒於大部分圖表的隨機性，這可能是最佳策略。

建立四個值區：

41.0 至 41.8
42.0 至 42.6
42.8 至 43.4
43.6 至 44.8

模型很難找到為第二個特徵分塊的所有住家，當中有以幾個例子說明

讓每個資料點擁有專屬的值區。

這只有在訓練集包含足夠的每個緯度 0.2 度的範例一般而言，住家通常聚集在城市附近，在其他城市中很少有例如減少干擾

分四特徵分塊

分位數值區會建立特徵分塊，以達到這個目標每個區間的範例都完全或幾乎等於分四分塊大多會隱藏離群值

為了說明分量特徵分塊解決的問題，請考慮如下圖所示，每個值區都含有相同間距的 10 個區間代表正好 10,000 美元的時距。請注意，從 0 到 10,000 的值區包含數十個範例但從 50,000 到 60,000 個值區僅包含 5 個範例因此，模型已擁有足夠的樣本，可以在 0 至 10,000 時進行訓練卻不足以針對 50,000 至 60,000 個值區進行訓練。

圖 13.顯示車輛價格與售出車輛數量的比較圖
該價格。以 6,000 美元的價格販售的車廂。
通常售價超過 6,000 次
降幅，價格 40, 000 至 40,000 之間
60,000 人。這個圖解分成 6 個大小相等的區塊，每個值區都含有
介於 10,000 之間因此第一個值區中
會納入所有售出的車輛
介於 0 與 10,000 之間的價格
這個值區內含價格 10,001 與
20,000，以此類推第一個值區中包含許多範例；在每一通電話上
後續值區包含的範例較少。 — **圖 13。** 有些水桶內含一輛汽車；還包含只有極少數的汽車

相較之下，下圖使用分位數值區來劃分車輛價格轉換為特徵分塊，且每個值區中的範例數量大致相同。請注意，某些特徵分塊的價格範圍較小，其他特徵分塊代表價格的區間可能非常廣泛

圖 14.與上圖相同，但有分位數值區。
也就是說，值區的大小不同。第一個值區
包含從 0 到 4,000 的車輛，第二個桶含有
售出數量介於 4,001 到 6,000 人之間第六個值區含有
車輛售出數量為 25,001 到 60,000 人每個區間的車輛數量
跟目前差不多 — **圖 14。** 分位數值區每個值區都提供汽車數量

正規化 (20 分鐘)

拖曳 (5 分鐘)

數值資料：特徵分塊 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

特徵分塊範例：購物者人數與溫度

練習：隨堂測驗

分四特徵分塊

數值資料：特徵分塊