候補の生成後、別のモデルはスコアリングとランク付けを行い、生成された候補をランク付けして、表示するアイテムのセットを選択します。レコメンデーション システムには、次のように、異なるソースを使用する複数の候補生成ツールが含まれる場合があります。
- 行列分解モデルの関連アイテム。
- パーソナライズを考慮したユーザー機能。
- 「ローカル」と「遠隔」の項目、つまり地域情報が考慮されます。
- 人気のアイテムや話題のアイテム。
- ソーシャル グラフ。友だちが高く評価または推奨したアイテム。
システムはこれらの異なるソースを共通の候補プールに結合し、そのプールが単一のモデルによってスコアリングされ、そのスコアに従ってランク付けされます。たとえば、次の条件が満たされると、YouTube で動画を視聴する確率を予測するモデルをトレーニングできます。
- クエリ機能(例: ユーザーの再生履歴、言語、国、時間)
- 動画の機能(例: タイトル、タグ、動画の埋め込み)
すると、モデルの予測に従い、候補のプールにある動画をランク付けできます。
候補者生成ツールのスコアが上昇しない理由
候補生成ツールはスコア(エンベディング空間の類似性メジャーなど)を計算するため、ランキングにも使用したくなる可能性があります。ただし、次のような理由からこのプラクティスは避けてください。
- 複数の候補生成ツールに依存するシステムもあります。これらの生成ツールのスコアは比較できない可能性があります。
- 候補のプールが小さいほど、より多くの特徴と、コンテキストをより適切にキャプチャできる複雑なモデルを使用することが可能になります。
スコアリングの目標関数の選択
ML 問題の枠組みの解説で説明したように、ML はいたずら的な天才であるかのように振る舞います。指定した目的を知ることは非常に楽しいことですが、目的を考える必要もあります。このいたずら品質はレコメンデーション システムにも適用されます。スコアリング関数の選択は、アイテムのランキングと、最終的には推奨事項の品質に大きく影響します。
例:
プラスアイコンをクリックすると、各目標を使用した場合の結果を確認できます。
スコアリングにおける位置バイアス
画面下部に表示されるアイテムは、画面上に表示されるアイテムよりもクリックされる可能性が低くなっています。ただし、動画をスコア付けする際、システムは通常、その動画へのリンクが画面上のどこに表示されるかを認識しません。すべての可能な位置でモデルのクエリを実行すると、コストが高すぎます。複数の位置のクエリを可能にしたとしても、複数のランキング スコアにわたって一貫したランキングが得られない可能性があります。
ソリューション
- 掲載順位に依存しないランキングを作成します。
- すべての候補を画面の一番上のようにランク付けします。