Pemfilteran berbasis konten

Pemfilteran berbasis konten menggunakan fitur item untuk merekomendasikan item lain mirip dengan apa yang disukai pengguna, berdasarkan tindakan mereka sebelumnya atau masukan.

Untuk mendemonstrasikan pemfilteran berbasis konten, mari kita buat beberapa fitur untuk Google Play Store. Gambar berikut menunjukkan matriks fitur di mana setiap baris mewakili aplikasi dan setiap kolom mewakili fitur. Fitur dapat mencakup kategori (seperti Education, Casual, Health), penayang aplikasi, dan banyak lagi. Untuk menyederhanakan, asumsikan matriks fitur ini berupa biner: nilai bukan nol berarti aplikasi memiliki fitur tersebut.

Anda juga mewakili pengguna di ruang fitur yang sama. Beberapa hal yang terkait dengan pengguna fitur dapat secara eksplisit disediakan oleh pengguna. Misalnya, seorang pengguna memilih "Aplikasi hiburan" di profil mereka. Fitur lainnya bisa implisit, berdasarkan aplikasi yang telah mereka instal sebelumnya. Misalnya, pengguna menginstal aplikasi lain yang dipublikasikan oleh Science R Us.

Model harus merekomendasikan item yang relevan kepada pengguna ini. Untuk melakukannya, Anda harus pertama-tama pilih metrik kesamaan (misalnya, dot product). Lalu, Anda harus menyiapkan sistem untuk menilai setiap item kandidat berdasarkan kemiripan ini metrik. Perhatikan bahwa rekomendasi ini khusus untuk pengguna ini, karena model tidak menggunakan informasi apa pun tentang pengguna lain.

Gambar matriks yang menunjukkan pengguna dan aplikasi yang mungkin direkomendasikan

Menggunakan dot product sebagai ukuran kemiripan

Pertimbangkan kasus saat pengguna menyematkan \(x\) dan aplikasi embedding \(y\) adalah vektor biner. Sejak \(\langle x, y \rangle = \sum_{i = 1}^d x_i y_i\), fitur muncul di \(x\) dan \(y\) berkontribusi 1 pada menjumlahkan. Dengan kata lain, \(\langle x, y \rangle\) adalah jumlah fitur yang aktif di kedua vektor secara bersamaan. Tertinggi dot product kemudian menunjukkan fitur yang lebih umum, sehingga kemiripan yang lebih tinggi.

Cobalah sendiri!

Hitung produk titik untuk setiap aplikasi pada masalah aplikasi sebelumnya. Kemudian gunakan informasi itu untuk menjawab pertanyaan di bawah ini:

Manakah aplikasi yang harus kami rekomendasikan?
Aplikasi pendidikan yang dibuat oleh Science R Us.
Anda benar! Item ini memiliki produk dot tertinggi di 2. Pengguna kami sangat menyukai aplikasi sains dan pendidikan.
Aplikasi kesehatan yang dibuat oleh Layanan Kesehatan.
Aplikasi ini mendapat skor 1. Ini bukan rekomendasi terburuk yang bisa dilakukan sistem, tapi tentu saja bukan yang terbaik.
Aplikasi kasual yang dibuat oleh TimeWastr.
Aplikasi ini sebenarnya memiliki produk titik terendah di 0. Dengan pengguna tidak tertarik pada aplikasi kasual seperti game.