Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

カテゴリデータ: 特徴クロス

特徴量クロスは、データセットのカテゴリ特徴量またはバケット化された特徴量を 2 つ以上クロス（デカルト積を取る）することで作成されます。多項式変換と同様に、特徴量クロスを使用すると、線形モデルで非線形性を処理できます。特徴クロスは、特徴間の相互作用もエンコードします。

たとえば、次のカテゴリ特徴を持つリーフデータセットについて考えてみましょう。

edges（値 smooth、toothed、lobed を含む）
arrangement（値 opposite と alternate を含む）

上記の順序が、1 ホット表現の特徴列の順序であると仮定すると、smooth エッジと opposite 配置を持つリーフは {(1, 0, 0), (1, 0)} として表されます。

これらの 2 つの特徴量のクロス（デカルト積）は次のようになります。

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

ここで、各項の値はベース特徴量の値の積です。次に例を示します。

Smooth_Opposite = edges[0] * arrangement[0]
Smooth_Alternate = edges[0] * arrangement[1]
Toothed_Opposite = edges[1] * arrangement[0]
Toothed_Alternate = edges[1] * arrangement[1]
Lobed_Opposite = edges[2] * arrangement[0]
Lobed_Alternate = edges[2] * arrangement[1]

たとえば、リーフに lobed エッジと alternate 配置がある場合、特徴交差ベクトルの値は Lobed_Alternate で 1、他のすべての用語で 0 になります。

{0, 0, 0, 0, 0, 1}

これらの特徴は種内で変化しないため、このデータセットは樹木の種類ごとに葉を分類するために使用できます。

多項式変換と特徴クロスを比較するには、こちらをクリック

特徴クロスは、多項式変換に似ています。どちらも、複数の特徴を組み合わせて新しい合成特徴量を作成し、モデルが非線形性を学習できるようにトレーニングします。多項式変換は通常、数値データを結合しますが、特徴の交差はカテゴリデータを結合します。

特徴の交差を使用する場合

ドメイン知識に基づいて、組み合わせに有用な特徴を推測できます。そのようなドメイン知識がないと、効果的な特徴の交差や多項式変換を手動で決定するのは難しい場合があります。計算コストが高い場合は、ニューラルネットワークを使用して、トレーニング中に有用な特徴の組み合わせを自動的に見つけ、適用することが可能です。

注意してください。2 つのスパース特徴を交差させると、2 つの元の特徴よりもさらにスパースな新しい特徴が生成されます。たとえば、特徴 A が 100 要素のスパース特徴で、特徴 B が 200 要素のスパース特徴の場合、A と B の特徴クロスによって 20,000 要素のスパース特徴が生成されます。

カテゴリデータに関する一般的な問題（5 分）

特徴クロス演習（15 分）

カテゴリデータ: 特徴クロス コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

特徴の交差を使用する場合

カテゴリデータ: 特徴クロス