コラボレーション フィルタリングのメリットとデメリット

利点

ドメインに関する知識は必要ありません

エンベディングは自動的に学習されるため、ドメイン知識は必要ありません。

セレンディピティ

このモデルは、ユーザーが新しい興味や関心の対象を見つけるのに役立ちます。単独では、ML システムは、ユーザーが特定のアイテムに関心があることを認識できませんが、モデルは同様のユーザーがそのアイテムに関心があるため、引き続きそのアイテムを推奨する可能性があります。

最適な出発点

行列分解モデルをトレーニングする場合、システムではフィードバック マトリックスのみが必要になります。特に、このシステムではコンテキスト機能は必要ありません。実際には、複数の候補生成ツールのいずれかとして使用できます。

欠点

新しいアイテムは処理できない

指定された(ユーザー、アイテム)ペアのモデルの予測は、対応するエンベディングのドット積です。そのため、トレーニング中にアイテムが検出されない場合、そのアイテムのエンベディングを作成できず、このアイテムを使用してモデルをクエリすることはできません。この問題は、多くの場合、コールド スタートの問題と呼ばれています。ただし、次の方法でコールド スタートの問題にある程度対処できます。

  • WALS でのプロジェクション。トレーニングには表示されない新しいアイテムがある場合、 \(i_0\) ユーザーとのやり取りが少ない場合、モデルのアイテムのエンベディングを簡単に計算できます。 \(v_{i_0}\) モデル全体を再トレーニングする必要はありません。システムは、次の式または重み付けしたバージョンを解くだけで済みます。

    \[\min_{v_{i_0} \in \mathbb R^d} \|A_{i_0} - U v_{i_0}\|\]

    上記の式は、WALS での 1 回の反復処理に対応しています。つまり、ユーザーのエンベディングは固定されたままになり、システムはアイテムの \(i_0\)のエンベディングを解決します。新規ユーザーについても同じことができます。

  • 新鮮なアイテムのエンベディングを生成するためのヒューリスティックスシステムに相互作用がない場合、システムは、同じカテゴリ(YouTube 内)などのアイテムのエンベディングを平均化することでエンベディングを概算できます。

クエリ/アイテムの副特徴を含めるのが難しい

サイド特徴は、クエリまたはアイテム ID 以外の特徴です。映画の推奨事項には、国や年齢などのサイド機能が含まれることがあります。使用可能な副特徴を含めると、モデルの品質が向上します。WALS に副特徴を含めることは容易でないかもしれませんが、 WALS の一般化により、これが可能になります。

WALS を一般化するには、ブロック マトリックスを定義して、入力マトリックスを特徴で拡張します。 \(\bar A\)

  • ブロック(0、0)が元のフィードバック マトリックスである \(A\)。
  • ブロック(0、1)は、ユーザー機能のマルチホット エンコードです。
  • ブロック(1、0)は、アイテムの特徴のマルチホット エンコードです。