Softmax 訓練

上一頁說明如何將 softmax 層整合到評估系統採用的類神經網路本頁面將進一步說明訓練資料

訓練資料

softmax 的訓練資料由查詢功能 \(x\) 和使用者互動項目的向量 (以機率分佈 \(p\))。在如下圖所示模型的變數是權重不同層次的學習路徑這些項目在下列項目中標示為橘色圖表上我們通常會使用隨機梯度下降法

醒目顯示 softmax 深層類神經網路訓練的圖片

由於損失函式會比較兩個機率向量 \(p, \hat p(x) \in \mathbb R^n\) (真值和會分別計算模型的輸出內容 (單一查詢 \(x\)) 的損失梯度如果語料庫規模過大 \(n\) ，則過於昂貴。

您可以設定一個系統，只計算陽性項目的梯度 (真值向量中有效的項目)。不過，如果系統只對正對表示訓練時，模型可能會因折疊的說明。

摺疊

在下圖中，假設每種顏色代表的查詢和項目的分類每個查詢 (以正方形表示) 大多會與相同顏色的項目 (以圓圈表示) 互動。舉例來說，在 YouTube 中，每個類別都是不同的語言。一般使用者大多會與某種特定語言的影片互動。

模型可能會學習如何將指定的查詢/項目嵌入顏色之間的相對關係 (正確擷取但不同顏色的嵌入最終可能位於同一區域可能性地降低了這種現象視為「摺疊」，則可能在查詢時提供錯誤建議：模型可能會錯誤地從另一個則是不同群組

負面示例是指標示為「不相關」的項目套用至某個查詢的結果訓練期間呈現模型負向範例，幫助模型學習不同群組的嵌入也必須彼此離去

與其使用所有項目來計算漸層 (可能也可以成本高昂)，或只使用正面項目 (這樣模型更有機會折疊式網頁)，可以使用負取樣。更精確地說，請運用下列項目近似漸層：

負面資訊取樣策略有不同的策略：

DNN 模型可解決許多矩陣分解的限制，但這類模型通常訓練和查詢的成本較高下表摘要列出部分這兩種模式之間的重大差異

	矩陣分解	Softmax DNN
查詢功能	零件不簡單。	可以加入。
冷啟動	不易處理斷言查詢或項目部分經驗法則可用於新查詢、相似查詢的平均嵌入)。	輕鬆處理新查詢。
摺疊	摺疊方式可以輕鬆減少調整 WALS 中未觀察到的權重	容易摺疊，需使用例如負面抽樣或重力
訓練擴充性	輕鬆擴充至超大 (可能多達數億個或更多)，但前提是輸入矩陣是稀疏的	難以擴充至極大語料庫有些技巧的用途包括雜湊、排除取樣等等
提供擴充性	嵌入 U、V 是靜態的且一組候選文字可供預先運算及儲存。	項目嵌入 V 為靜態可以儲存查詢嵌入通常會因此，模型的成本較高放送。

摘要說明：

對大型語料庫而言，矩陣分解通常是更好的選擇。更容易擴充規模、查詢成本較低，且較不容易折疊。
DNN 模型能更準確地擷取個人化偏好較難訓練，查詢成本也較高建議使用 DNN 模型將用於評分的矩陣分解，因為 DNN 模型能進而進一步掌握關聯性此外，通常我們非常重視 DNN 模型的發展為具有相關性預先篩選過的一組候選廣告進行排名。