嵌入:翻譯成較低維度的空間

embedding是 這種空間可以 和高維度向量有關高維度與 低維度資料,請參閱類別 資料 後續課程我們將逐一介紹 預先訓練的 API、AutoML 和自訂訓練

嵌入可讓使用者更輕鬆地在大規模處理機器學習作業 特徵向量,例如 也就是 上一節。在理想情況下,嵌入會擷取一些 透過將意義更相似的輸入內容,提高輸入內容的語意 整合在一起舉例來說,良好的嵌入會將 文字「car」更靠近「車庫」而不是「大象」您可以訓練嵌入 並在不同模型中重複使用

為了協助您瞭解嵌入向量如何表示資訊, 以單一維度呈現菜餚 hot dog 披薩 salad沙威瑪,以及 borscht、 「最少」 三明治 「最像是三明治」「三明治」是單一維度

圖 3. 沿著三明治的座標軸,從最低到最多:
    博爾施特, 沙拉, 披薩, 熱狗, 沙威瑪。
圖 3. 美食聚集了您所想像的「三明治」維度。

這一行中的哪個部分 Apple Strudel 跌倒?當然,它可以放在 hot dogshawarma 之間。但是蘋果 Strudel 似乎具備額外的「甜甜度」維度 (太棒了, 食物為何) 或「甜點」 (味著食物多少菜餚) 這和其他選項有極大差異下圖呈現了 新增「甜點」維度:

圖 4. 與之前相同的圖片,但垂直軸為
    甜點。蘋果樹果在熱狗與沙威瑪之間相隔,但很高
    但目標軸的正好是水平軸
圖 4. 同時以「三明治」表示食物的食物以及「甜點」

嵌入項目代表 nD 維度空間中的每個項目,n 浮點數 (通常介於 1 到 1 或 0 到 1 之間)。 例如,圖 4 中的嵌入代表在 由兩個座標構成的 2D 空間「apple strudel」項目位於 以 0.5 和 0.3 為基準, 而「hot dog」位於圖表的右下方象限 並可指定為點 (0.2、-0.5)。

在嵌入中,可計算任兩個項目之間的距離 從數學上 可視為兩者的 項目。兩個距離最近的項目,例如 shawarmahot dog 在圖 4 中,彼此的關聯性比兩個目標更遙遠 例如 apple strudelborscht

另請注意,在圖 4 的 2D 空間中,apple strudel 遠得更遠 比來自 shawarmahot dog 的 1D 空間中, 直覺:apple strudel 與熱狗或沙威瑪不像熱狗 兩隻狗和沙威瑪互相交談。

現在請考慮 borscht,這比其他物品的液體多出許多。這個 要提供的第三個維度,液體 (食物的液體方式)。 新增該維度後,就能以 3D 方式呈現項目:

圖 5. 圖片與之前相同,但有第三軸液體
    然後沿該軸向另一側移動到另一半
圖 5. 以「三明治」表示的食物「甜點」和 「液體」

在這個 3D 空間中 tangyuan 出發?是 像羅司機這樣的茶,還有蘋果餡餅等甜甜的甜點,當然可以 而不是三明治以下是其中一種可能的刊登位置:

圖 6. 圖片與之前相同,不過唐舌的擺放位置較高
    供應甜點和液態含量,以及低安全性的三明治
圖 6. 為上一張圖像添加唐菰器,高度為 「甜點」和「液體」並且用「三明治」做為指令

請注意這三種維度呈現的資訊量。 您可以想出其他維度,例如「滿意」或「烘焙」

真實世界的嵌入空間

如上方的食物範例所示,即使是小型的多維度空間 方便將語意相似的項目歸為一組 不同的物件向量的位置 (距離和方向) 空間可以用優良的嵌入來編碼語意例如,下列 真實嵌入的示意圖說明幾何關係 和應用程式首字母之間的距離。可以看到 來自「加拿大」「Ottawa」大約和「土耳其」的距離相同到 「安卡拉」。

圖 7. 三個代表字詞的字詞嵌入範例
      有幾何關係:性別 (男性/女性和國王/女王大概都是如此)
      相同長度)、動詞時態(步行/步行和游泳/游泳)大致上
      ) 以及首都城市 (土耳其/安卡拉和越南/哈諾市)
      兩者的長度差不多)。
圖 7.嵌入會產生著名的類比。

有意義的嵌入空間幫助機器學習模型偵測模式 儲存權重

運動

在本練習中,您將使用 嵌入 投影工具:以視覺化方式呈現字詞 也就是名為 word2vec 的嵌入 在向量空間中,以數字表示的方式表示超過 70,000 個英文字詞

工作 1

請執行以下工作,然後回答以下問題。

  1. 開啟「Embedding Projector」工具。

  2. 在右側面板的「搜尋」欄位中輸入 atom。接著 在「4 個相符結果」下方,按一下下列結果中的「atom」字詞。您的 畫面應如圖 8 所示。

    圖 8:Embedding Projector 工具的螢幕截圖,附有「atom」
    在搜尋欄位中輸入文字 (以紅色圈圈顯示)。「資料集」中的
    現在,工具中心會為其中一個點加上 "atom'、
    也會為附近地點加上文字註解在「最近的
    分清單,「atoms」、「molecule」和「electrons」字詞已列出
    以向量空間中最接近的字詞為「atom」
    圖 8.嵌入投影機工具,含有「atom」一詞已新增 。
  3. 同樣在右側面板中,按一下「Isolate 101 points」按鈕 (上方) 搜尋欄位),以顯示 atom 最近的 100 個字詞。你的螢幕 應該如圖 9 所示

    圖 9:Embedding Projector 工具的螢幕截圖,目前為
    「換 101 點」點擊 (按鈕以紅色圈出)。視覺化內容
    圖 8 已更新為只顯示「atom」字詞,
    最接近向量空間的 100 個字詞,包括「atoms」字詞
    「nucleus」和「particle」。
    圖 9.嵌入投影機工具,現在提供「101 分積分」 點擊 (以紅色圈圈顯示)。

接著,查看「原始空間中位於最遠點」下方所列的字詞。 你會如何形容這些字詞?

按這裡取得答案

最鄰近的字詞是常見字詞 例如複數形式的「atoms」以及字詞的 「electron」「分子」和「nucleus」

工作 2

請執行以下工作,然後回答以下問題:

  1. 請點選右側面板中的「Show All Data」按鈕重設資料 我們會呈現工作 1 的圖表

  2. 在右側面板的「搜尋」欄位中輸入「uranium」一詞。 畫面應如圖 10 所示。

    圖 10:嵌入投影機工具的螢幕截圖,帶有「uranium」
    您在搜尋欄位中輸入的內容位於
    工具會為其中一個點加上註解 「uranium」,
    附近點的文字註解。在「最近的積分」中清單、
    「coal」、「isotope」、「鎳」、「Oxide」、「ore」、「zinc」
    「manganese」會顯示為向量空間中最接近的字詞
    「uranium」。
    圖 10.嵌入投影機工具,旁邊有「uranium」一詞 加入的方法代碼。

查看「原始空間中最遠點」下方所列的字詞。做法 這些字詞是否與 atom 最接近的字詞不同?

按這裡取得答案

Uranium 是指特定的放射法 化學元素 其中許多最接近的字詞是 zinc、Maganese 等元素 還有銅和鋁製材質

工作 3

請執行以下工作,然後回答以下問題:

  1. 請點選右側面板中的「Show All Data」按鈕重設資料 我們會示範工作 2 的視覺化呈現方式

  2. 在右側面板的「搜尋」欄位中輸入「橘色」一詞。您的 畫面應如圖 11 所示。

    圖 11.嵌入投影機工具的螢幕截圖,有「orange」
    您在搜尋欄位中輸入的內容工具中央的視覺化效果
    為其中一個點加上「橘色」這個字詞,並新增字詞
    附近點數的註解。在「最近的積分」中清單
    「黃色」、「綠色」、「藍色」、「紫色」和「color」已列出
    與向量空間中最接近「橘色」的字詞
    圖 11.嵌入投影機工具,顯示「orange」字樣 加入的方法代碼。

查看「原始空間中最遠點」下方所列的字詞。 關於這裡顯示的字詞類型,以及你注意到的內容 不是這裡?

按這裡取得答案

最接近的字詞是其他顏色,例如「黃色」「綠色」 「藍色」「紫色」和「紅色」。只有一個最接近字詞 (「juice」) 也是指字詞的其他意義 (例如柑橘類水果)。其他水果 您會看到「apple」和「香蕉」沒有在 最鄰近的字詞

這個範例說明靜態嵌入的其中一個主要缺點 例如 word2vec單一字詞的所有可能含義以單個字詞表示 因此當您對「橘色」是 無法根據特定表示法區分出最接近的點 ,例如「橘色」(水果) 但不是「橘色」(顏色)。