embedding是 這種空間可以 和高維度向量有關高維度與 低維度資料,請參閱類別 資料 後續課程我們將逐一介紹 預先訓練的 API、AutoML 和自訂訓練
嵌入可讓使用者更輕鬆地在大規模處理機器學習作業 特徵向量,例如 也就是 上一節。在理想情況下,嵌入會擷取一些 透過將意義更相似的輸入內容,提高輸入內容的語意 整合在一起舉例來說,良好的嵌入會將 文字「car」更靠近「車庫」而不是「大象」您可以訓練嵌入 並在不同模型中重複使用
為了協助您瞭解嵌入向量如何表示資訊, 以單一維度呈現菜餚 hot dog 披薩 salad、 沙威瑪,以及 borscht、 「最少」 三明治 「最像是三明治」「三明治」是單一維度

這一行中的哪個部分
Apple Strudel
跌倒?當然,它可以放在 hot dog
和 shawarma
之間。但是蘋果
Strudel 似乎具備額外的「甜甜度」維度 (太棒了,
食物為何) 或「甜點」 (味著食物多少菜餚)
這和其他選項有極大差異下圖呈現了
新增「甜點」維度:

嵌入項目代表 nD 維度空間中的每個項目,n 浮點數 (通常介於 1 到 1 或 0 到 1 之間)。 例如,圖 4 中的嵌入代表在 由兩個座標構成的 2D 空間「apple strudel」項目位於 以 0.5 和 0.3 為基準, 而「hot dog」位於圖表的右下方象限 並可指定為點 (0.2、-0.5)。
在嵌入中,可計算任兩個項目之間的距離
從數學上
可視為兩者的
項目。兩個距離最近的項目,例如 shawarma
和 hot dog
在圖 4 中,彼此的關聯性比兩個目標更遙遠
例如 apple strudel
和 borscht
。
另請注意,在圖 4 的 2D 空間中,apple strudel
遠得更遠
比來自 shawarma
和 hot dog
的 1D 空間中,
直覺:apple strudel
與熱狗或沙威瑪不像熱狗
兩隻狗和沙威瑪互相交談。
現在請考慮 borscht,這比其他物品的液體多出許多。這個 要提供的第三個維度,液體 (食物的液體方式)。 新增該維度後,就能以 3D 方式呈現項目:

在這個 3D 空間中 tangyuan 出發?是 像羅司機這樣的茶,還有蘋果餡餅等甜甜的甜點,當然可以 而不是三明治以下是其中一種可能的刊登位置:

請注意這三種維度呈現的資訊量。 您可以想出其他維度,例如「滿意」或「烘焙」。
真實世界的嵌入空間
如上方的食物範例所示,即使是小型的多維度空間 方便將語意相似的項目歸為一組 不同的物件向量的位置 (距離和方向) 空間可以用優良的嵌入來編碼語意例如,下列 真實嵌入的示意圖說明幾何關係 和應用程式首字母之間的距離。可以看到 來自「加拿大」「Ottawa」大約和「土耳其」的距離相同到 「安卡拉」。
有意義的嵌入空間幫助機器學習模型偵測模式 儲存權重
運動
在本練習中,您將使用 嵌入 投影工具:以視覺化方式呈現字詞 也就是名為 word2vec 的嵌入 在向量空間中,以數字表示的方式表示超過 70,000 個英文字詞
工作 1
請執行以下工作,然後回答以下問題。
在右側面板的「搜尋」欄位中輸入 atom。接著 在「4 個相符結果」下方,按一下下列結果中的「atom」字詞。您的 畫面應如圖 8 所示。
圖 8.嵌入投影機工具,含有「atom」一詞已新增 。 同樣在右側面板中,按一下「Isolate 101 points」按鈕 (上方) 搜尋欄位),以顯示 atom 最近的 100 個字詞。你的螢幕 應該如圖 9 所示
圖 9.嵌入投影機工具,現在提供「101 分積分」 點擊 (以紅色圈圈顯示)。
接著,查看「原始空間中位於最遠點」下方所列的字詞。 你會如何形容這些字詞?
按這裡取得答案
最鄰近的字詞是常見字詞 例如複數形式的「atoms」以及字詞的 「electron」「分子」和「nucleus」
工作 2
請執行以下工作,然後回答以下問題:
請點選右側面板中的「Show All Data」按鈕重設資料 我們會呈現工作 1 的圖表
在右側面板的「搜尋」欄位中輸入「uranium」一詞。 畫面應如圖 10 所示。
圖 10.嵌入投影機工具,旁邊有「uranium」一詞 加入的方法代碼。
查看「原始空間中最遠點」下方所列的字詞。做法 這些字詞是否與 atom 最接近的字詞不同?
工作 3
請執行以下工作,然後回答以下問題:
請點選右側面板中的「Show All Data」按鈕重設資料 我們會示範工作 2 的視覺化呈現方式
在右側面板的「搜尋」欄位中輸入「橘色」一詞。您的 畫面應如圖 11 所示。
圖 11.嵌入投影機工具,顯示「orange」字樣 加入的方法代碼。
查看「原始空間中最遠點」下方所列的字詞。 關於這裡顯示的字詞類型,以及你注意到的內容 不是這裡?
按這裡取得答案
最接近的字詞是其他顏色,例如「黃色」「綠色」 「藍色」「紫色」和「紅色」。只有一個最接近字詞 (「juice」) 也是指字詞的其他意義 (例如柑橘類水果)。其他水果 您會看到「apple」和「香蕉」沒有在 最鄰近的字詞
這個範例說明靜態嵌入的其中一個主要缺點 例如 word2vec單一字詞的所有可能含義以單個字詞表示 因此當您對「橘色」是 無法根據特定表示法區分出最接近的點 ,例如「橘色」(水果) 但不是「橘色」(顏色)。