Aday oluşturma, önerinin ilk aşamasıdır. Böyle bir durumda, alakalı adaylar kümesi oluşturur. Aşağıdaki tabloda iki yaygın aday oluşturma yaklaşımları:
Tür | Tanım | Örnek |
---|---|---|
içerik tabanlı filtreleme | Öğe önermek için öğeler arasındaki benzerlik kullanılır benzer bir sonuç elde edebilir. | A kullanıcısı iki sevimli kedi videosu izliyorsa sistem kullanıcıya sevimli hayvan videoları önerebilir. |
filtreleme | Sorgular ve öğeler arasındaki benzerlikleri aynı anda kullanır içerik sunar. | A kullanıcısı B kullanıcısına benziyorsa ve B kullanıcısı 1. videoyu beğeniyorsa sistem 1. videoyu A kullanıcısına önerebilir (A kullanıcısı 1. videodakine benzer herhangi bir video izlemiş olmalıdır. |
Yerleştirme alanı
Hem içerik tabanlı hem de ortak çalışmaya dayalı filtreleme, her bir öğeyi ve sorguyu eşler (veya bağlam) ortak bir yerleştirme alanındaki bir yerleştirme vektörüne bağlama \(E = \mathbb R^d\)Genellikle, yerleştirme alanı düşük boyutludur. ( \(d\) ) derlemenin boyutundan çok daha küçüktür) ve boyutu öğe veya sorgu kümesinin gizli yapısı. YouTube gibi benzer öğeler genellikle aynı kullanıcı tarafından izlenen videolar, oturum sırasında Gömme alanıdır. "Yakınlık" kavramı bir benzerlik ölçüsü ile tanımlanır.
Benzerlik ölçümleri
Benzerlik ölçüsü, bire bir benzerlik \(s : E \times E \to \mathbb R\) elde etmek için bir çift yerleştirmeyi alır ve benzerliklerini ölçen bir skaler döndürür. Yerleştirmeler şu şekilde aday oluşturmak için kullanılabilir: sorgu yerleştirme \(q \in E\)ise sistem, öğe yerleştirmelerini arar. \(x \in E\) şuna yakın olan: \(q\), yani yüksek benzerlik \(s(q, x)\).
Çoğu öneri sistemi, benzerlik derecesini belirlemek için aşağıdakilerden biri veya daha fazlasında:
- kosinüs
- nokta çarpım
- Öklid uzaklığı
Kosinüs
Bu, ikisi arasındaki açının kosinüsüdür. vektörler, \(s(q, x) = \cos(q, x)\)
Nokta çarpım
İki vektörün nokta çarpımı \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\) Ayrıca şu şekilde de verilir: \(s(q, x) = \|x\| \|q\| \cos(q, x)\) ( açısının normların çarpımıyla çarpımından elde edilen değeri içerir. Dolayısıyla, yerleştirmeler nokta çarpımı ve kosinüs birbiriyle çakışır.
Öklid uzaklığı
Bu, Öklid cinsinden normal mesafedir alan, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). Mesafe uzadıkça benzerlik artar. Yerleştirmeler eklendiğinde, normalleştirildiğinden kareli Öklid mesafesi, nokta çarpımına denk gelir (ve kosinüs) sabit kalır. destek \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).
Benzerlik ölçümlerini karşılaştırma
Sağdaki şekilde bulunan örneği inceleyin. Siyah vektör resimdeki sorgu yerleştirme. Diğer üç yerleştirme vektörü (Öğe A, Öğe B, Öğe C) aday öğeleri temsil eder. Kullanılan benzerlik ölçüsüne bağlı olarak, öğelerin sıralaması farklı olabilir.
Resimden yararlanarak, öğe sıralamasını belirlemek için benzerlik ölçümleridir: kosinüs, nokta çarpımı ve Öklid mesafesi.
Hangi benzerlik ölçüsü?
Kosinüsle karşılaştırıldığında, nokta çarpım benzerliği ilkedir. Yani, bir riskin normları ne kadar yerleştirme, benzerlik artar (dar açıya sahip öğeler için) ve öğenin önerilme olasılığı artar. Bu, şu önerilere bakın:
Eğitim kümesinde çok sık görünen öğeler (örneğin, popüler YouTube videoları) büyük normlarda yerleştirilmiş öğeler içerir. Popülerlik bilgisi almak istiyorsanız nokta çarpımını tercih eder. Ancak dikkatli olmazsanız, ve öğe önerilerinde öne çıkabilir. Pratikte Benzerlik önlemlerinin daha az öne çıkan başka varyasyonlarını da kullanabilir öğelerdir. Örneğin, \(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) için bazıları \(\alpha \in (0, 1)\).
Çok seyrek görünen öğeler sırasında sık sık güncellenmeyebilirler. bahsedeceğim. Bunun sonucunda, büyük bir norm ile başlatılırsa sistemi, daha alakalı öğelerden ziyade nadir bulunan öğeler önerebilir. Bunu önlemek için ilk kullanıma hazırlama konusunda dikkatli olun ve uygun yardımcı olabilir. Bu sorunu ilk alıştırmada ayrıntılı olarak açıklayacağız.