監督式相似度評估

不比較手動合併的特徵資料 對應至稱為 嵌入,然後比較 和一些嵌入嵌入是透過訓練監督式深層 網路 (DNN) 資料本身嵌入會將特徵資料對應至嵌入中的向量 維度資料通常比特徵資料少嵌入功能 嵌入 機器學習密集課程單元,而類神經網路則會在 類神經網路 後續課程我們將逐一介紹 預先訓練的 API、AutoML 和自訂訓練嵌入向量以進行類似的範例,像是 相同使用者觀看的類似主題,最終在嵌入內容中非常接近 空白鍵。監督式相似度量測 使用此「封閉性」量化模型組合的相似度 範例。

別忘了,我們討論監督式學習的目的,只是為了建立相似度 。然後根據相似度量測量結果 (手動或監督) 執行非監督式分群法

手動與監督措施的比較

下表說明手動或監督相似度的使用時機 根據您的需求進行評估

需求手動監督式
消除關聯特徵中的多餘資訊? 否,您需要調查特徵之間的任何關聯性。 是,DNN 會刪除冗餘資訊。
要深入分析計算出的相似處嗎? 不可以,您無法解讀嵌入,
適合特徵很少的小型資料集嗎? 是。 否,小型資料集無法為 DNN 提供足夠的訓練資料。
適合具有許多特徵的大型資料集嗎? 否,為多項功能手動移除冗餘資訊 然後結合兩者並不容易 是,DNN 會自動刪除冗餘資訊,並 結合多項功能

建立監督式相似度度量

以下簡要說明建立監督相似度量評估的程序:

輸入特徵資料。選擇 DNN:自動編碼器或預測器。
      擷取嵌入。選擇測量值:點積、餘弦或
      歐數距離。
圖 1:建立監督相似性的步驟 測量。

本頁面會討論 DNN, 後續章節將說明其餘步驟。

根據訓練標籤選擇 DNN

訓練 DNN 來訓練 將相同的特徵資料做為輸入和標籤使用。例如,在 就內部資料而言,DNN 會使用價格、尺寸和 郵遞區號) 來進行預測

自動編碼器

透過預測輸入資料本身,學習輸入資料嵌入的 DNN 稱為自動編碼器 由於自動編碼器的隱藏層較小 比起輸入和輸出層,自動編碼器不得學習 輸入特徵資料的壓縮表示法。DNN 訓練完畢後 從最小的隱藏層擷取嵌入,以計算相似度。

顯示大量相同節點的節點
       都會壓縮到中間的三個節點
       共計五個隱藏圖層
圖 2:自動編碼器架構。

預測者

自動編碼器是產生嵌入的最簡單選擇。不過, 某些功能可以 比其他屬性來確定相似性以內部資料為例 假設價格比郵遞區號更為重要。在這種情況下,請使用 是重要特徵做為 DNN 訓練標籤自這個 DNN 以來 預測特定輸入特徵,而非預測所有輸入特徵 稱為「預測者」DNN嵌入通常應從 最後嵌入層

這張圖表顯示輸入向量中的大量節點
       可轉移至三個節點層
       都應擷取嵌入最後一個輸出層是
       標籤值
圖 3:預測者架構。

選擇特徵做為標籤時:

  • 偏好數值而非類別特徵 更容易計算和解讀數值特徵

  • 從 DNN 輸入中移除用做標籤的特徵,或 否則 DNN 就會使用該功能 準確預測輸出內容(這是 標籤外洩的極端例子)。

依據您選擇的標籤,產生的 DNN 為 自動編碼器或預測器