إنشاء المرشحين هو المرحلة الأولى من التوصية. بناءً على طلب بحث، مجموعة من العناصر المرشحة ذات الصلة. يُظهر الجدول التالي اثنين الأساليب الشائعة لتوليد المرشحين:
النوع | التعريف | مثال |
---|---|---|
الفلترة المستندة إلى المحتوى | تستخدم التشابه بين السلع لاقتراح سلع على نحو مشابه لما يحبه المستخدم. | إذا شاهد المستخدم "أ" فيديوهَين لقطط لطيفة، سيجري النظام يمكنه اقتراح فيديوهات عن الحيوانات اللطيفة على هذا المستخدم. |
الفلترة التعاونية | يستخدم أوجه التشابه بين طلبات البحث والعناصر في الوقت نفسه لتقديم توصيات. | إذا كان المستخدم "أ" مشابهًا للمستخدم "ب" وأبدى المستخدم "ب" الفيديو 1، فعندئذ يمكن أن يوصي النظام بالفيديو 1 للمستخدم "أ" (حتى إذا لم يقم المستخدم "أ" بذلك شاهد أي مقاطع فيديو مشابهة للفيديو 1). |
مساحة التضمين
تقوم كل من التصفية القائمة على المحتوى والتصفية التعاونية بتعيين كل عنصر وكل استعلام (أو سياق) إلى متجه تضمين في مساحة تضمين مشتركة \(E = \mathbb R^d\)عادةً ما تكون مساحة التضمين منخفضة الأبعاد (أي \(d\) أصغر بكثير من حجم الجسم) ويلتقط بعض البنية الكامنة للعنصر أو مجموعة الاستعلام. منتجات مشابهة مثل YouTube مقاطع الفيديو التي يشاهدها المستخدم نفسه عادةً، إلا أنها تتقارب من بعضها في بعض مساحة التضمين. يشير ذلك المصطلح إلى فكرة "القرب". ويتم تحديدها من خلال مقياس التشابه.
مقاييس التشابه
مقياس التشابه هو دالة \(s : E \times E \to \mathbb R\) يأخذ زوجًا من التضمينات ويعود إلى مقياس عددي يقيس التشابه. يمكن استخدام التضمينات لإنشاء العناصر المرشحة على النحو التالي: تضمين طلب البحث \(q \in E\)، يبحث النظام عن تضمينات العناصر \(x \in E\) قريبة من \(q\)، أي تضمينات ذات قيمة عالية التماثل \(s(q, x)\).
ولتحديد درجة التشابه، تعتمد معظم أنظمة التوصية على واحد أو أكثر مما يلي:
- جيب التمام
- ضرب نقطي
- المسافة الإقليدية
جيب التمام
وهذا هو ببساطة جيب التمام للزاوية بين الاثنين المتجهات، \(s(q, x) = \cos(q, x)\)
الجداء النقطي
ناتج الضرب النقطي للخطين المتجهين هو \(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\) ويُعطى أيضًا من خلال \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (جيب التمام زاوية مضروبة في حاصل ضرب المعايير). وبالتالي، إذا كانت التضمينات ثم يتزامن ناتج الضرب النقطي وجيب التمام.
المسافة الإقليدية
هذه هي المسافة المعتادة في الإقليدية. \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). تعني المسافة الأصغر تشابهًا أعلى. لاحظ أنه عندما يتم تضمين التضمين فإن المسافة الإقليدية التربيعية تتزامن مع حاصل الضرب النقطي (وجيب التمام) وصولاً إلى الثابت، لأنه في ذلك الحالة \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).
مقارنة مقاييس التشابه
ضع في الاعتبار المثال في الشكل الموجود على اليمين. يوضح الخط المتجه الأسود تضمين استعلامات البحث. متجهات التضمين الثلاثة الأخرى (العنصر أ، العنصر ب، العنصر ج) لتمثيل العناصر المرشحة. اعتمادًا على مقياس التشابه المستخدم، قد يختلف ترتيب العناصر.
من خلال الصورة، حاول تحديد ترتيب العنصر باستخدام العناصر الثلاثة بمقاييس التشابه: جيب التمام، والضرب النقطي، والمسافة الإقليدية.
ما مقياس التشابه؟
بالمقارنة مع جيب التمام، يكون التشابه الناتج النقطي حساسًا معيار التضمين. أي أنه كلما زاد حجم معيار التضمين، زاد التشابه (للعناصر ذات الزاوية الحادة) وزاد احتمال التوصية بالعنصر وقد يؤثر ذلك في والتوصيات على النحو التالي:
العناصر التي تظهر بشكل متكرر جدًا في مجموعة التدريب (على سبيل المثال، مقاطع الفيديو الشائعة على YouTube) إلى أن يكون لها تضمينات ذات معايير كبيرة. إذا كان من المطلوب جمع المعلومات عن الشهرة، عليك ويفضل الضرب النقطي. ومع ذلك، إذا لم تتوخ الحذر، فإن الخيارات الشائعة العناصر الأخرى في النهاية بالسيطرة على التوصيات. من الناحية العملية، يمكنك يمكننا استخدام متغيرات أخرى لمقاييس التشابه المزيد من التركيز على قاعدة العنصر. على سبيل المثال، قم بتعريف \(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) لـ بعضًا \(\alpha \in (0, 1)\).
قد لا يتم تحديث العناصر التي تظهر نادرًا جدًا أثناء التدريب. وبالتالي، إذا تم إعدادها بمعيار كبير، يوصي المستخدمين بعناصر نادرة بدلاً من العناصر الأكثر صلة. لتجنُّب حدوث ذلك المشكلة، كن حذرًا بشأن تضمين التهيئة، واستخدم والتسويق. سنتناول هذه المشكلة بالتفصيل في التمرين الأول.