まず、機械学習集中講座から重要なコンセプトを簡単に振り返りましょう。以下の表の分布をご覧ください。
図 1: 住宅価格と緯度の比較。
次の質問については、目的の矢印をクリックして答えを確認してください。
緯度の例のように、緯度を複数のバケットに分割して、それぞれのバケットの値の特徴を理解する必要があります。この一連の数値をしきい値のセットを使用してカテゴリ特徴量に変換することを、バケット(またはビニング)と呼びます。このバケットの例では、境界が等間隔になっています。
図 2: 住宅価格と緯度の比較。バケットに分割されます。
分位点バケット
バケットを追加して、車の価格データセットを再度見てみましょう。バケットごとに 1 つの特徴がある場合、モデルは > 45,000 の範囲の 1 つのサンプルに 5,000 ~ 10,000 の範囲のすべてのサンプルと同程度の容量を使用します。これは無駄に思えます。この状況を改善するにはどうすればよいでしょうか。
図 3: さまざまな価格で販売された自動車の数。
問題は、等間隔のバケットでは、この分布が適切にキャプチャされないことです。この解決策では、それぞれが同じポイント数を持つバケットを作成します。この手法は分位点バケットと呼ばれます。たとえば、次の図では自動車価格を分位点バケットに分割しています。各バケットで同じ数のサンプルを取得するために、一部のバケットは価格帯が狭く設定されていて、それ以外の価格帯は非常に範囲が広すぎます。
図 4: 変位値バケットを使用すると、各バケットに同じ数の車が割り当てられる
バケットの概要
数値特徴をバケット化する場合は、境界を設定する方法と適用するバケットの種類を明確にしてください。
- 等間隔の境界のあるバケット: 境界は固定されており、同じ範囲(0 ~ 4 度、5 ~ 9 度、10 ~ 14 度、$5,000 ~$9,999、$10,000 ~$14,999、$15,000 ~$19,999)が含まれます。多数のポイントを含むバケットもあれば、ほとんどまたはまったくないバケットもあります。
- 分位点境界を持つバケット: 各バケットのポイント数は同じです。境界は固定されていないため、値の狭い範囲または広い範囲を含むことができます。