手動で結合した特徴データを比較する代わりに、 トレーニング データと呼ばれる表現に Embeddings から始めて、 支援します。エンべディングは、教師ありのディープ ニューラル ネットワークを 機能にネットワーク(DNN)を割り当てる あります。エンベディングは、特徴データをエンベディングのベクトルにマッピングする 特徴量データよりも次元数が少ない空間です。エンべディングは エンべディングで説明されている このモジュールで学習する一方、ニューラル ネットワークについては ニューラル ネットワーク 説明します。類似した例のエンベディング ベクトル(例: 上の YouTube 動画、 同じユーザーが視聴した類似のトピックが、エンベディング内で近接して表示される 選択します。教師あり類似度尺度 この「近さ」は特徴量とラベルのペアの類似度を 説明します。
ここで説明しているのは、類似性を生み出すためにのみ あります類似度尺度は、手動か教師ありかにかかわらず、 教師なしクラスタリングを実行するアルゴリズムです
手動測定と教師あり対策の比較
次の表に、手動または教師ありの類似度を使用するタイミングを示します。 要件に応じて選択できます。
要件 | 手動 | 管理対象 |
---|---|---|
相関性のある特徴から冗長な情報を排除できるか | いいえ、特徴間の相関関係を調べる必要があります。 | はい。DNN は冗長な情報を排除します。 |
計算された類似度に関する分析情報が得られる | ○ | いいえ、エンベディングは解読できません。 |
特徴の少ない小規模なデータセットに適している | はい。 | いいえ。小規模なデータセットでは DNN に十分なトレーニング データは提供されません。 |
多数の特徴を持つ大規模なデータセットに適していますか? | いいえ、複数の対象物から重複する情報を手動で除去しています 組み合わせるのは非常に困難です | はい。DNN によって自動的に冗長な情報が除外され、 機能を組み合わせます |
教師あり類似度尺度の作成
教師あり類似度尺度を作成するプロセスの概要は次のとおりです。
<ph type="x-smartling-placeholder">このページでは DNN について説明しますが、 以降のページで、残りの手順について説明します。
トレーニング ラベルに基づいて DNN を選択する
次の単語を予測する DNN をトレーニングして、特徴データを低次元のエンベディングに減らす 入力とラベルの両方に同じ特徴データを使用します。たとえば、 住宅データの場合、DNN は価格、サイズ、 特徴量そのものを予測できます。
オートエンコーダ
入力データ自体を予測することで入力データのエンべディングを学習する DNN オートエンコーダと呼ばれます。 オートエンコーダの隠れ層は、 入力層と出力層よりも高くなるため、オートエンコーダは 入力特徴データの圧縮表現です。DNN をトレーニングしたら、 最小の隠れ層からエンベディングを抽出して類似度を計算します。
<ph type="x-smartling-placeholder">予測器
オートエンコーダは、エンベディングを生成する最も簡単な方法です。ただし、 オートエンコーダは、特定の特徴をより優れたものに 類似性を判断するうえで重要です。たとえば 社内のデータ 郵便番号よりも価格を重視する。このような場合は、 重要な特徴量のみを DNN のトレーニングラベルとしこの DNN により、 すべての入力特徴を予測するのではなく、特定の入力特徴を予測する場合、 予測子 DNN と呼ばれます。エンベディングは通常、エンコーダから レイヤに配置されます。
<ph type="x-smartling-placeholder">ラベルにする特徴を選択する場合:
損失のため、カテゴリ特徴量よりも数値特徴量を優先する 数値特徴の計算と解釈が容易になります
ラベルとして使用する特徴を DNN への入力から削除する。または、 それ以外の場合、DNN はその特徴を使用して出力を完全に予測します。(これは ラベル漏洩の極端な例です)。
選択したラベルに応じて、結果の DNN は次のいずれかになります。 予測器に分割されます。