不比較手動合併的特徵資料 對應至稱為 嵌入,然後比較 和一些嵌入嵌入是透過訓練監督式深層 網路 (DNN) 資料本身嵌入會將特徵資料對應至嵌入中的向量 維度資料通常比特徵資料少嵌入功能 嵌入 機器學習密集課程單元,而類神經網路則會在 類神經網路 後續課程我們將逐一介紹 預先訓練的 API、AutoML 和自訂訓練嵌入向量以進行類似的範例,像是 相同使用者觀看的類似主題,最終在嵌入內容中非常接近 空白鍵。監督式相似度量測 使用此「封閉性」量化模型組合的相似度 範例。
別忘了,我們討論監督式學習的目的,只是為了建立相似度 。然後根據相似度量測量結果 (手動或監督) 執行非監督式分群法
手動與監督措施的比較
下表說明手動或監督相似度的使用時機 根據您的需求進行評估
需求 | 手動 | 監督式 |
---|---|---|
消除關聯特徵中的多餘資訊? | 否,您需要調查特徵之間的任何關聯性。 | 是,DNN 會刪除冗餘資訊。 |
要深入分析計算出的相似處嗎? | 是 | 不可以,您無法解讀嵌入, |
適合特徵很少的小型資料集嗎? | 是。 | 否,小型資料集無法為 DNN 提供足夠的訓練資料。 |
適合具有許多特徵的大型資料集嗎? | 否,為多項功能手動移除冗餘資訊 然後結合兩者並不容易 | 是,DNN 會自動刪除冗餘資訊,並 結合多項功能 |
建立監督式相似度度量
以下簡要說明建立監督相似度量評估的程序:
本頁面會討論 DNN, 後續章節將說明其餘步驟。
根據訓練標籤選擇 DNN
訓練 DNN 來訓練 將相同的特徵資料做為輸入和標籤使用。例如,在 就內部資料而言,DNN 會使用價格、尺寸和 郵遞區號) 來進行預測
自動編碼器
透過預測輸入資料本身,學習輸入資料嵌入的 DNN 稱為自動編碼器 由於自動編碼器的隱藏層較小 比起輸入和輸出層,自動編碼器不得學習 輸入特徵資料的壓縮表示法。DNN 訓練完畢後 從最小的隱藏層擷取嵌入,以計算相似度。
![顯示大量相同節點的節點
都會壓縮到中間的三個節點
共計五個隱藏圖層](https://developers.google.cn/machine-learning/clustering/images/autoencoder.png?authuser=002&hl=zh-tw)
預測者
自動編碼器是產生嵌入的最簡單選擇。不過, 某些功能可以 比其他屬性來確定相似性以內部資料為例 假設價格比郵遞區號更為重要。在這種情況下,請使用 是重要特徵做為 DNN 訓練標籤自這個 DNN 以來 預測特定輸入特徵,而非預測所有輸入特徵 稱為「預測者」DNN嵌入通常應從 最後嵌入層
![這張圖表顯示輸入向量中的大量節點
可轉移至三個節點層
都應擷取嵌入最後一個輸出層是
標籤值](https://developers.google.cn/machine-learning/clustering/images/predictor.png?authuser=002&hl=zh-tw)
選擇特徵做為標籤時:
偏好數值而非類別特徵 更容易計算和解讀數值特徵
從 DNN 輸入中移除用做標籤的特徵,或 否則 DNN 就會使用該功能 準確預測輸出內容(這是 標籤外洩的極端例子)。
依據您選擇的標籤,產生的 DNN 為 自動編碼器或預測器