이 페이지는 Cloud Translation API를 통해 번역되었습니다.

심층신경망 모델

이전 섹션에서는 행렬 분해를 사용하여 임베딩을 학습합니다. 행렬 분해의 몇 가지 제한사항은 다음과 같습니다.

부차 특성(즉, 부차 특성(예: 부차 특성) 사용의 어려움) 검색어 ID/항목 ID). 따라서 모델은 학습 세트에 있는 사용자 또는 항목입니다.
추천의 관련성. 앞서 말씀드린 것처럼 Colab 모든 사람에게 추천되는 경향이 있습니다. 특히 내적을 유사성 척도로 사용합니다. 광고 단위를 구체적으로 사용자 관심분야

행렬의 이러한 한계를 해결할 수 있는 심층신경망 (DNN) 모델 분해합니다. 쿼리 특성과 항목 특성을 쉽게 통합할 수 있는 DNN (네트워크 입력 레이어의 유연성 덕분에) 사용자의 구체적인 관심분야를 파악하여 추천을 제공합니다

추천용 소프트맥스 DNN

가능한 DNN 모델 중 하나는 softmax입니다. 이는 문제를 다음과 같은 멀티클래스 예측 문제로 처리합니다.

사용자 쿼리가 입력됩니다.
출력은 다음과 같은 크기의 확률 벡터입니다. 상호작용 확률을 나타내는 코퍼스 항목 각 항목마다 예를 들어 사용자가 특정 동영상을 클릭하거나 YouTube 동영상

입력

DNN에 대한 입력에는 다음이 포함될 수 있습니다.

밀집 특성 (예: 시청 시간 및 마지막 시청 이후 시간)
희소 기능 (예: 시청 기록 및 국가)

행렬 분해 접근 방식과 달리 선택할 수 있습니다. 입력 벡터를 x로 표시하겠습니다.

소프트맥스 심층신경망의 입력 레이어를 강조 표시하는 이미지 — **그림 1. 입력 레이어 x**

모델 아키텍처

모델 아키텍처는 모델의 복잡성과 표현력을 결정합니다. 히든 레이어와 비선형 활성화 함수 (예: ReLU)를 추가하여 모델이 데이터에서 더 복잡한 관계를 캡처할 수 있습니다. 하지만 또한 매개변수 수를 늘리면 대개 모델을 학습시키고 배포하는 서빙 비용이 더 많이 듭니다 디코더에서 가장 최근에 숨겨진 레이어 기준: \(\psi (x) \in \mathbb R^d\)

소프트맥스 심층신경망의 히든 레이어를 강조 표시하는 이미지 — **그림 2. 히든 레이어의 출력 \(\psi (x)\)**

소프트맥스 출력: 예측 확률 분포

모델이 소프트맥스를 통해 마지막 레이어 \(\psi (x)\)의 출력을 매핑합니다. 확률 분포 \(\hat p = h(\psi(x) V^T)\)에 레이어를 추가합니다. 여기서,

\(h : \mathbb R^n \to \mathbb R^n\) 는 소프트맥스 함수입니다. 제공: \(h(y)_i=\frac{e^{y_i}}{\sum_j e^{y_j}}\)
\(V \in \mathbb R^{n \times d}\) 는 다음 요소의 가중치 행렬입니다. 소프트맥스 레이어도 있습니다.

점수 벡터를 매핑하는 소프트맥스 레이어 \(y \in \mathbb R^n\) 경우에 따라 로지트) 확률 분포입니다.

소프트맥스 심층신경망에서 예측된 확률 분포를 보여주는 이미지 — **그림 3. 예측 확률 분포 \(\hat p = h(\psi(x) V^T)\)**

손실 함수

마지막으로 다음을 비교하는 손실 함수를 정의합니다.

\(\hat p\): 소프트맥스 레이어의 출력 (확률 분포)
\(p\): 사용자가 보유한 항목을 나타내는 정답 상호작용 (예: 사용자가 클릭하거나 시청한 YouTube 동영상) 이는 정규화된 멀티-핫 분포( 확률 벡터입니다.

예를 들어 교차 엔트로피 손실을 사용하여 두 개의 확률 분포가 있습니다.

소프트맥스 심층신경망의 손실 함수를 보여주는 이미지 — **그림 4. 손실 함수**

소프트맥스 임베딩

항목 확률 \(j\) 은 다음과 같이 구합니다. \(\hat p_j = \frac{\exp(\langle \psi(x), V_j\rangle)}{Z}\), 여기서 \(Z\) 는 \(j\)에 종속되지 않는 정규화 상수입니다.

즉, \(\log(\hat p_j) = \langle \psi(x), V_j\rangle - log(Z)\) 따라서 항목의 로그 확률은 \(j\) (가산 상수까지) 2차원 벡터의 내적을 \(d\) 쿼리 및 항목 임베딩으로 사용할 수 있습니다.

\(\psi(x) \in \mathbb R^d\) 는 마지막 히든 레이어의 출력입니다. 이를 쿼리 \(x\)의 임베딩이라고 합니다.
\(V_j \in \mathbb R^d\) 는 마지막 히든 레이어를 출력 j에 연결하는 가중치 벡터입니다. 이를 항목 \(j\)임베딩이라고 합니다.

소프트맥스 심층신경망의 임베딩을 보여주는 이미지 — **그림 5. 항목 \(j\), \(V_j \in \mathbb R^d\)**

DNN 및 행렬 분해

소프트맥스 모델과 행렬 분해 모델에서 모두 시스템은 임베딩 벡터 하나를 학습하여 \(V_j\) 항목당 \(j\)입니다. 일명 항목 임베딩 행렬 \(V \in \mathbb R^{n \times d}\) 행렬 분해는 이제 소프트맥스 레이어의 가중치 행렬입니다.

하지만 쿼리 임베딩은 다릅니다. 학습하는 대신 \(U_i\) 쿼리당 \(i\)1개의 임베딩이 있으면 시스템은 쿼리 특성에서 \(x\) 임베딩으로 \(\psi(x) \in \mathbb R^d\) 따라서 이 DNN 모델을 행렬의 일반화로 생각할 수 있습니다. 쿼리 측을 비선형 함수로 대체하는 분해 함수 \(\psi(\cdot)\)를 사용합니다.

아이템 기능을 사용할 수 있나요?

항목 측에도 같은 아이디어를 적용할 수 있나요? 즉, 머신러닝 모델을 임베딩 1개를 생성할 수 있다면 모델이 임베딩을 매핑한 비선형 함수를 항목 특성을 임베딩에 추가해야 할까요? 예. 그렇게 하려면 2개의 탑을 사용합니다. 두 개의 신경망으로 구성된 신경망

한 개의 신경망은 쿼리 특성을 매핑합니다. \(x_{\text{query}}\) : 임베딩 쿼리 \(\psi(x_{\text{query}}) \in \mathbb R^d\)
한 개의 신경망은 항목 특성을 매핑합니다. \(x_{\text{item}}\) 항목 퍼가기 \(\phi(x_{\text{item}}) \in \mathbb R^d\)

모델의 출력값은 \(\langle \psi(x_{\text{query}}), \phi(x_{\text{item}}) \rangle\) 이 모델은 더 이상 소프트맥스 모델이 아닙니다. 새로운 모델은 한 쌍당 값 1개 \((x_{\text{query}}, x_{\text{item}})\) 확률 벡터를 사용합니다 \(x_{\text{query}}\).

장점 및 단점

소프트맥스 학습