数値データ: 多項式変換

場合によっては ML 実務担当者がドメインの知識を 持っているために ある変数が他の変数の正方形、立方体、その他のべき乗と 変数を作成したい場合は、 1 つから合成特徴を 既存の数値特徴を使用します

データポイントの広がりについて考えてみましょう。ピンクの円は、 1 つのクラスまたはカテゴリ(木など)と緑色の三角形 別のクラス(または樹種):

図 17. データポイントの y=x^2 拡散。
            曲線の上に円を配置します
図 17. 行で区切ることができない 2 つのクラス。

これら 2 つを明確に分離する直線を引くことはできない ただし、次のように曲線を描画することもできます。

図 18:図 17 と同じ画像。今回は y=x^2 です。
            重ねて三角形と三角形の境界を明確にします。
            クリックします。
図 18.y = x2 でクラスを分離する。

詳しくは、 線形回帰モジュール 特徴が 1 つ $x_1$ の線形モデルは、次の一次方程式で記述されます。

$$y = b + w_1x_1$$

機能の追加には、次の規約を追加します。 \(w_2x_2\) \(w_3x_3\)など

勾配降下法では、 weight $w_1$(または重み \(w_1\), \(w_2\), \(w_3\)(追加特徴の場合) モデルの損失を意味します。表示されるデータポイントを線で区切ることはできません。 どうすればよいですか?

一次方程式を維持しつつ、非線形性を許容する 単純に 2 乗する新しい項 \(x_2\)を \(x_1\) 定義します。

$$x_2 = x_1^2$$

多項式変換と呼ばれるこの合成特徴量は、 できます。上の線形式は次のようになります。

$$y = b + w_1x_1 + w_2x_2$$

これは依然として 線形回帰 勾配降下法によって決定される重みは、 多項式変換という隠れた二乗項を含みます。変更なし 多項式変換を追加することで データポイントを分離するために、 $y = b + w_1x + w_2x^2$ の形式になります。

通常、対象となる数値特徴量はそれ自体で乗算されます。つまり、 累乗しますML 担当者は情報に基づいて推測できる場合がある 求められます。たとえば、物理的なインフラストラクチャの 関係が 2 乗の単語から 重力による加速度、 距離に対する光や音の減衰、および弾力的な位置エネルギー

これに関連する概念は、 カテゴリデータ: 特徴クロスは、 2 種類の特徴が合成されることがよくあります