嵌入：嵌入空間和靜態嵌入

嵌入是嵌入空間所含資料的向量表示法。一般來說，模型會將初始資料向量的高維度空間，投影轉換成低維度空間，藉此找出可能的嵌入。想瞭解高維度與低維度資料，請參閱類別型資料單元。

嵌入有助於輕鬆使用大規模特徵向量進行機器學習，例如上一節所述的使用稀疏向量表示餐點品項。有時候，嵌入空間中的項目相對位置具備潛在的語意關係，但人類無法解讀低維度空間的尋找程序及該空間內的相對位置，產生的嵌入也難以理解。

為方便人類理解，以下說明嵌入向量如何表示資訊。請將下列項目視為餐點的單一維度表示法：熱狗、披薩、沙拉、沙威瑪和羅宋湯，指標範圍是「與三明治最不相似」到「與三明治最相似」。單一維度為「三明治度」的虛擬測量指標。

圖 3. 在「三明治度」橫軸上，從相符度最低到最高的排序是：羅宋湯、沙拉、披薩、熱狗、沙威瑪。 — **圖 3.** 將食物依想像出的「三明治度」維度排列。

如果加入蘋果捲，會落在哪個位置呢？大概是在 hot dog 與 shawarma 之間，但蘋果捲似乎還有「甜度」或「甜點度」等其他維度，因此與其他選項有很大的差別。下圖是加入了「甜點度」維度的結果：

圖 4. 此為圖 3 加入「甜點度」縱軸的結果。蘋果捲落在熱狗與沙威瑪之間，但在橫軸上排序高，且位在甜點度軸上的較高位置。 — **圖 4.** 依照「三明治度」和「甜點度」繪製而成的食物圖。

嵌入會使用「n」浮點數值 (通常介於 –1 到 1 或 0 到 1 之間) 表示在「n」維空間中的每個項目。圖 3 的嵌入是使用單一座標以 1D 空間呈現每種食物，圖 4 則是使用兩個座標以 2D 空間呈現每種食物。在圖 4 中，「蘋果捲」落在圖形右上方的象限，可獲指定座標點 (0.5, 0.3)，「熱狗」則落在圖形右下方的象限，可獲指定座標點 (0.2, -0.5)。

在嵌入中，任兩個項目間的距離可用數學方式算出，這段距離也能解讀成兩個項目間的相對相似度指標。比起相距較遠的兩個項目 (例如圖 4 中的 apple strudel 和 borscht)，間隔較近的兩個項目 (例如 shawarma 和 hot dog) 在模型的資料表示法中會有較高的關聯性。

另請注意，在圖 4 的 2D 空間中，apple strudel 與 shawarma 和 hot dog 間的距離，比在 1D 空間中遠得多，這個結果與直覺相符：意即 apple strudel 與熱狗或沙威瑪的相似度，低於熱狗與沙威瑪彼此間的相似度。

現在來看看羅宋湯，這種食物遠比其他項目含有更多液體。因此最好加入第三個維度「液體度」，亦即食物的液態程度。加入這個維度後，就能以 3D 空間表示每種食物：

圖 5. 此為圖 4 加入第三個「液體度」軸的結果，該軸與其他兩軸互相垂直，羅宋湯大幅移至此軸的另一端。 — **圖 5.** 依照「三明治度」、「甜點度」和「液體度」繪製而成的食物圖。

如果加入湯圓，會落在這個 3D 空間中哪個位置呢？湯圓與羅宋湯一樣有湯汁，也跟蘋果捲一樣是一種甜點，但絕對不是三明治。下圖顯示湯圓可能的位置：

圖 6. 此為圖 5 加入湯圓的結果，湯圓在「甜點度」和「液體度」兩軸的位置很高，在「三明治度」軸的位置則相當低。 — **圖 6.** 在圖 5 中加入湯圓，湯圓在「甜點度」和「液體度」兩軸的位置很高，在「三明治度」軸的位置則相當低。

現在看看這三個維度能夠表達多少資訊。您可以考慮加入其他維度 (例如食物含有多少肉或烘烤程度)，但 4D、5D 和更高的維度空間難以透過視覺化方式呈現。

實際情境嵌入空間

在實境情境中，嵌入空間為「d」維，「d」是遠大於 3 的數字，但低於資料的維度，且資料點間的關係不需要像上述圖表那樣，讓人憑直覺即可理解 (如果是字詞嵌入，「d」通常是 256、512 或 1024¹)。

在實作中，機器學習使用者通常會設定特定任務和嵌入維度的數值。模型接著會嘗試安排訓練樣本，盡量接近嵌入空間的指定維度數值，假如「d」不是固定值，則會調整維度數值。個別維度很少會像「甜點度」或「液體度」這樣易於理解。有時維度的「意義」可以推論出來，但有時卻又無法。

嵌入通常只適用於任務，且會因任務不同而有所差異。舉例來說，素食者與非素食者分類模型，以及根據時段或季節提供餐點建議的模型，就會產生不同的嵌入。例如「麥片」和「早餐香腸」在時段模型的嵌入空間中可能彼此相近，但在素食者與非素食者模型的嵌入空間中可能相距甚遠。

靜態嵌入

雖然嵌入會因任務而有所不同，但有項任務卻具有通用性，那就是「預測字詞情境」。專門訓練用來預測字詞情境的模型，會假設出現在相似情境中的字詞，彼此存有語意關聯。舉例來說，如果訓練資料包含「他們騎驢子進入大峽谷」和「他們騎馬進入峽谷」這兩句，系統會判定「馬」和「驢子」出現在相似情境中。結果顯示，以語意相似度為依據的嵌入適用於許多一般用途語言任務。

雖然 word2vec 是舊版樣本，且已由其他模型廣泛取代，但這種模型在解說用途上仍然相當實用。word2vec 使用文件語料庫進行訓練，藉此為每個字詞取得單一全域嵌入。每個字詞或資料點都擁有單一嵌入向量，這種情況稱為靜態嵌入。下方影片將透過簡易圖例，逐步說明 word2vec 的訓練過程。

研究指出，這些靜態嵌入經過訓練後，會在某種程度上將語意資訊編碼，特別是字詞間的關係。換句話說，用於相似情境的字詞，在嵌入空間中會與彼此更靠近。而產生的特定嵌入向量則取決於訓練採用的語料庫。詳情請參閱 T. Mikolov 等人 (2013)，〈Efficient estimation of word representations in vector space〉(向量空間中字詞表示法的有效預測)。

François Chollet (2017)，《Deep Learning with Python》(使用 Python 進行深度學習)，紐約設爾特島：Manning，6.1.2。↩

簡介 (5 分鐘)

互動練習 (15 分鐘)

嵌入：嵌入空間和靜態嵌入 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

實際情境嵌入空間

靜態嵌入

嵌入：嵌入空間和靜態嵌入