場合によっては ML 実務担当者がドメインの知識を 持っているために ある変数が他の変数の正方形、立方体、その他のべき乗と 変数を作成したい場合は、 1 つから合成特徴を 既存の数値特徴を使用します
データポイントの広がりについて考えてみましょう。ピンクの円は、 1 つのクラスまたはカテゴリ(木など)と緑色の三角形 別のクラス(または樹種):
これら 2 つを明確に分離する直線を引くことはできない ただし、次のように曲線を描画することもできます。
詳しくは、 線形回帰モジュール 特徴が 1 つ $x_1$ の線形モデルは、次の一次方程式で記述されます。
機能の追加には、次の規約を追加します。 \(w_2x_2\) \(w_3x_3\)など
勾配降下法では、 weight $w_1$(または重み \(w_1\), \(w_2\), \(w_3\)(追加特徴の場合) モデルの損失を意味します。表示されるデータポイントを線で区切ることはできません。 どうすればよいですか?
一次方程式を維持しつつ、非線形性を許容する 単純に 2 乗する新しい項 \(x_2\)を \(x_1\) 定義します。
多項式変換と呼ばれるこの合成特徴量は、 できます。上の線形式は次のようになります。
これは依然として 線形回帰 勾配降下法によって決定される重みは、 多項式変換という隠れた二乗項を含みます。変更なし 多項式変換を追加することで データポイントを分離するために、 $y = b + w_1x + w_2x^2$ の形式になります。
通常、対象となる数値特徴量はそれ自体で乗算されます。つまり、 累乗しますML 担当者は情報に基づいて推測できる場合がある 求められます。たとえば、物理的なインフラストラクチャの 関係が 2 乗の単語から 重力による加速度、 距離に対する光や音の減衰、および弾力的な位置エネルギー
これに関連する概念は、 カテゴリデータ: 特徴クロスは、 2 種類の特徴が合成されることがよくあります