협업 필터링의 이점 및 단점

장점

도메인 지식이 필요하지 않음

임베딩이 자동으로 학습되기 때문에 분야별 지식이 필요하지 않습니다.

세렌디피티

이 모델은 사용자가 새로운 관심분야를 발견하는 데 도움이 될 수 있습니다. 단독으로 ML 시스템은 사용자가 특정 상품에 관심이 있다는 것을 알지 못하더라도 모델은 여전히 유사한 사용자가 해당 상품에 관심이 있기 때문에 이 상품을 추천합니다.

좋은 출발점

시스템은 어느 정도는 학습 행렬을 학습시키기 위해 피드백 행렬만 있으면 되지만 분해 모델입니다. 특히 시스템에는 문맥 특성이 필요하지 않습니다. 실제로는 여러 후보 생성기 중 하나로 사용할 수 있습니다.

단점

새 항목을 처리할 수 없음

주어진 (사용자, 항목) 쌍에 대한 모델의 예측값은 곱해야 합니다. 따라서 품목이 표시되지 않으면 학습 중에 시스템은 임베딩을 만들 수 없고 이 항목으로 모델에 쿼리합니다. 이 문제를 흔히 콜드 스타트 문제. 그러나 다음 기법은 어느 정도는 콜드 스타트 문제를 해결할 수 있습니다.

  • WALS에서의 예측. 학습에 표시되지 않은 \(i_0\) 새 항목이 주어지면 사용자와 몇 번의 상호작용이 있으면 시스템은 이 항목에 대한 \(v_{i_0}\) 임베딩을 쉽게 계산할 필요 없이 전체 모델을 다시 학습시킬 수 있습니다 시스템은 단순히 다음 문제를 해결해야 합니다. 방정식 또는 가중치가 적용된 버전을 계산할 수 있습니다.

    \[\min_{v_{i_0} \in \mathbb R^d} \|A_{i_0} - U v_{i_0}\|\]

    앞의 방정식은 WALS의 1회 반복에 해당합니다. 사용자 임베딩이 고정된 상태로 유지되고 시스템에서 임베딩을 해결함 \(i_0\)번째 항목 신규 사용자에게도 동일한 작업을 수행할 수 있습니다.

  • 새 항목의 임베딩을 생성하는 휴리스틱 시스템에서 상호작용이 없으면 시스템은 임베딩을 근사치로 임베딩을 평균한 후 같은 업로더 (YouTube) 등

쿼리/항목의 부차 특성을 포함하기 어려움

부차 기능은 검색어 또는 항목 ID에 포함되지 않은 기능입니다. 영화용 부차 특성에는 국가 또는 연령이 포함될 수 있습니다 포함 모델의 품질이 향상됩니다 하지만 WALS에 부차 특성을 포함하기는 쉽지 않을 수 있습니다. WALS의 일반화가 가능합니다.

WALS를 일반화하려면 다음을 정의하여 특성으로 입력 행렬을 보강하세요. 블록 매트릭스 \(\bar A\)이며, 각 항목의 의미는 다음과 같습니다.

  • 블록 (0, 0)은 원래 의견 행렬 \(A\)입니다.
  • 블록 (0, 1)은 사용자 특성의 멀티-핫 인코딩입니다.
  • 블록 (1, 0)은 항목 특성의 멀티-핫 인코딩입니다.