エンベディングembeddingとは、 翻訳できる次元が比較的低次元のスペースです。 高次元ベクトルに分割できます。高次元と高次元の 低次元データについては、カテゴリ データ 説明します。
エンベディングを使用すると、大規模なデータセットで ML を実行しやすくなります。 特徴ベクトル: 食事の項目を表すスパース ベクトルとして、 前のセクションをご覧ください。エンべディングで取得できるデータの一部は 意味が似ている入力を近い位置に配置することで、入力のセマンティクスを エンべディング空間に出力されます。たとえば適切なエンべディングでは、 「車」という言葉「ガレージ」の近くより正確に表現できます。エンべディングはトレーニングと モデル間で再利用できます。
エンベディング ベクトルが情報をどのように表現するかを理解するために、 トレーニングした料理を 1 次元で表現した例を ホットドッグ ピザ サラダ shawarma Borscht 「クラウド コンピューティング モデル」の サンドイッチ 「サンドイッチのようなもの」にします。"サンドイッチ"単一のディメンションです。
この行のどこに
リンゴ シュトゥルーデル
秋?hot dog
と shawarma
の間に配置します。しかし、リンゴは
また、シュトゥルーデルには甘さの別の側面があるようです
または「デザート」という呼び名を含む
他のオプションとは大きく異なります。次の図は、この
「デザート」という商品を追加してディメンション:
エンベディングは、n 次元空間内の各項目を n で表します。 浮動小数点数(通常は -1 ~ 1 または 0 ~ 1) たとえば、図 4 のエンベディングは、 2 つの座標を持つ 2 次元空間です。アイテム「リンゴ シュトゥルーデル」が次にある: グラフの右上の象限であり、点(0.5, 0.3)を割り当てることができ、 「ホットドッグ」はグラフの右下の象限にある ポイント(0.2、–0.5)を割り当てることができます。
エンべディングでは、任意の 2 つのアイテム間の距離を計算できる
数学的には、
これら 2 つの相対的な類似性として解釈できます
あります。近くにある 2 つのデバイス(shawarma
、hot dog
など)
図 4 では、遠く離れた 2 つの物事よりも密接に関連しています。
apple strudel
、borscht
など。
また、図 4 の 2D 空間では、apple strudel
の方がはるかに遠くになっています。
shawarma
と hot dog
から、1 次元空間よりも
apple strudel
はホットドッグやシャワルマほどではない
犬とシャワルマの関係です。
次に、他の品目よりもはるかに流動性が高いボルシチについて考えてみましょう。この は、3 つ目の次元である流動性(食べ物がどのくらい流動しているか)を示唆しています。 このディメンションを追加すると、アイテムを以下のように 3D で可視化できます。
この 3D 空間で、 タンギャンに行きますか?です。 スープのようなボルシチ、リンゴのシュトゥルーデルなどの甘いデザートです サンドイッチではありません次のような配置が可能です。
この 3 つの次元で表現される情報量に注目してください。 「meatiness」や「bakedness」などのディメンションを追加することも考えられます。
実世界のエンベディング空間
上の食品の例で見たように、小さな多次元空間であっても 意味的に類似したアイテムをグループ化し、 モデルにフィードできますベクトルの位置(距離と方向) セマンティクスを適切なエンベディングにエンコードできます。たとえば、次のようになります。 実際のエンべディングを可視化すると、 単語を国と首都と区別するためです。ご覧のとおり、この距離は 「カナダ」から「オタワ」まで「トルコ」からの距離とほぼ同じですから 「アンカラ」。
<ph type="x-smartling-placeholder">意味のあるエンベディング空間は ML モデルによるパターン検出を支援 必要があります。
エクササイズ
この演習では、エンべディング Projector ツールを使用して単語を可視化する word2vec というエンベディング ベクトル空間で 70,000 以上の英単語を数値で表す。
タスク 1
次の作業を行ってから、次の質問に答えてください。
Embedding Projector ツールを開きます。
右側のパネルで、[検索] フィールドに「atom」と入力します。その後 下の結果([4 件の一致] の下)で「Atom」をクリックします。お客様の 画面は図 8 のようになります。
<ph type="x-smartling-placeholder">右側のパネルで、[101 個のポイントを分離] ボタン(上図)をクリックします。 Search フィールドなど)を使用して、Atom に最も近い 100 の単語を表示します。画面 図 9 のようになります
<ph type="x-smartling-placeholder">
[元のスペースの最も近いポイント] の下に表示された単語を確認します。 次の単語をどのように説明しますか。
こちらをクリックして回答をご覧ください
単語に最も近い単語の大半が、確率的に関連する 複数形の「atoms」のように、Atom 型の単語が、 「電子」「分子」「核」です。
タスク 2
次の作業を行ってから、次の質問に答えてください。
右側のパネルにある [Show All Data] ボタンをクリックしてデータをリセットします 可視化を行います。
右側のパネルの [検索] フィールドに「uranium」と入力します。 画面が図 10 のようになります。
<ph type="x-smartling-placeholder">
[元のスペースの最も近いポイント] に表示されている単語を確認します。方法 これらの単語は「Atom」に最も近い単語と異なりますか?
こちらをクリックして回答をご覧ください
ウランとは、 化学元素 最も近い単語の多くは、他の元素である亜鉛、マンガン、 3 種類あります
タスク 3
次の作業を行ってから、次の質問に答えてください。
右側のパネルにある [Show All Data] ボタンをクリックしてデータをリセットします 可視化を行います。
右側のパネルで、[検索] フィールドに「オレンジ」と入力します。お客様の 図 11 のようになります
<ph type="x-smartling-placeholder">
[元のスペースの最も近いポイント] に表示されている単語を確認します。 ここに表示される単語の種類と、その種類について、どのようなことに気付きましたか? 表示されない場合は
こちらをクリックして回答をご覧ください
単語に最も近いものはほぼすべて「黄色」や「緑」 「青」「紫」「red」が表示されます。最も近い単語(「ジュース」)のうちの 1 つだけ その言葉の他の意味(柑橘類の果物)を指す。その他の果物 たとえば「apple」は「banana」をはリストに含まれていませんでした。 検索します。
この例は、静的エンベディングの主な欠点の一つを示しています。 使用できます。ある単語の取り得る意味はすべて、1 つの単語で ベクトル空間内の点です。したがって、「オレンジ」の類似度分析を行うと、です 特定の記号に対して最も近い点を分離できない 「オレンジ」など「オレンジ」ではなく(色)。