カテゴリデータ: 特徴クロス

特徴クロスは 2 つ以上のカテゴリまたはバケット化された 学習します。多項式のように 変換、 特徴クロスを使用すると、線形モデルは非線形性を処理できます。特徴クロス 特徴間の相互作用もエンコードします

たとえば、次のカテゴリ特徴を持つ葉データセットについて考えてみましょう。

  • edges(値 smoothtoothedlobed を含む)
  • arrangement(値 oppositealternate を含む)

上記の順序がワンホットにおける特徴列の順序であると仮定します。 辺が smooth、配置が opposite の葉が {(1, 0, 0), (1, 0)} と表されます。

この 2 つの特徴の特徴クロス(デカルト積)は次のようになります。

{Smooth_Opposite, Smooth_Alternate, Toothed_Opposite, Toothed_Alternate, Lobed_Opposite, Lobed_Alternate}

ここで、各項の値は基本特徴値の積です。たとえば、 必要があります。

  • Smooth_Opposite = edges[0] * arrangement[0]
  • Toothed_Opposite = edges[1] * arrangement[0]
  • Lobed_Alternate = edges[2] * arrangement[1]

データセット内のどの例でも、次の場合にのみ特徴クロスが 1 になります。 両方の基本特徴元のワンホット ベクトルは、交差カテゴリで 1 でした。 すなわち、縁に切れ込みのあるオークの葉があり、交互に配置されている場合、 Lobed_Alternate の場合にのみ値が 1 になり、上の特徴クロスは次のようになります。

{0, 0, 0, 0, 0, 1}

このデータセットを使用すると、樹木の種類で葉を分類できます。 特徴が 1 つの種内で変わらないことを指します。

特徴クロスを使用するタイミング

ドメイン知識は、有用な機能の組み合わせを提案できます 渡します。そのドメインの知識がなければ、 多項式変換を手動で行うこともおすすめします多くの場合は可能ですが 計算費用がかかる場合は ニューラル ネットワークを トレーニング中に有用な特徴の組み合わせを自動的に検索して適用します。

注意: 2 つのスパースな特徴量を交差させると、さらにスパースな特徴量が 機能が異なりますたとえば、特徴 A が 100 要素のスパースな特徴で、特徴 B が 200 要素のスパースな特徴である。 A と B の特徴クロスにより、20,000 要素のスパースな特徴が生成されます。