لمعالجة بعض قيود التصفية القائمة على المحتوى، تستخدم التصفية التعاونية أوجه التشابه بين المستخدمين في الوقت نفسه لتقديم الاقتراحات. هذا يسمح للحصول على اقتراحات مصادفة أي التصفية التعاونية تقترح أي عنصر إلى المستخدم "أ" بناءً على اهتمامات مستخدم مشابه ب. علاوة على ذلك، يمكن التعرف على التضمينات تلقائيًا، بدون الاعتماد على الهندسة اليدوية للميزات.
مثال على اقتراح فيلم
ضع في اعتبارك نظام توصية الأفلام الذي تتكون فيه بيانات التدريب لمصفوفة التعقيبات حيث:
- يمثل كل صف مستخدمًا.
- يمثل كل عمود عنصرًا (فيلم).
تندرج الملاحظات حول الأفلام في واحدة من الفئتين:
- محتوى فاضح: يحدد المستخدمون مدى إعجابهم بفيلم معيّن. من خلال تقديم تقييم رقمي.
- ضمني: إذا شاهد أحد المستخدمين فيلمًا، يستنتج النظام أن اهتمام المستخدم.
للتبسيط، سنفترض أن مصفوفة التعقيبات تكون ثنائية؛ أي قيمة يشير الرقم 1 إلى الاهتمام بالفيلم.
عندما يزور المستخدم الصفحة الرئيسية، يجب أن يوصي النظام بالأفلام بناءً على كليهما:
- التشابه مع الأفلام التي أبدى المستخدم إعجابه بها في السابق
- الأفلام التي حازت إعجاب المستخدمين المتشابهين
من أجل التوضيح، لنتمكن من إجراء هندسة يدوية لبعض ميزات الأفلام كما هو موضح في الجدول التالي:
فيلم | التقييم | الوصف |
---|---|---|
فيلم The Dark Knight Rises | يُنصح بتوجيه الآباء للأطفال دون 13 عامًا | يسعى "باتمان" لإنقاذ مدينة غوثام من التدمير النووي في هذا الجزء The Dark Knight، أعمال تدور أحداثها في مقاطعة كولومبيا عالم الكتب المصوّرة. |
هاري بوتر وحجر السحرة | PG | يكتشف صبي يتيم أنه ساحر ويتسجّل في مدرسة هوغوورتس عالم السحر والسحر حيث يخوض المعركة الأولى لورد فولدمورت الشرير. |
صوت Shrek | PG | غول محبوب وصديقه الحمار انطلقا في مهمة لإنقاذ الأميرة فيونا حجين في قلعتها على يد تنين. |
فيلم The Triplets of Belleville | يُنصح بتوجيه الآباء للأطفال دون 13 عامًا | عند اختطاف راكب الدراجة المحترف أثناء سباق فرنسا للدراجات، جدته وكلبه يزداد وزنه في رحلة إلى الخارج لإنقاذه، بمساعدة ثلاثة من مغنيي موسيقى الجاز المسنين |
Memento | R | شخص مصاب بفقدان الذاكرة يسعى بحماسة إلى حل مشكلة قتل زوجته عن طريق رسم وشم على جسده. |
تضمين أحادي الأبعاد
لنفترض أننا خصصنا لكل فيلم مقياسًا \([-1, 1]\) يصف ما إذا كان الفيلم للأطفال (قيم سلبية) أو بالغين (قيم موجبة). لنفترض أيضًا أننا نخصص رقمًا قياسيًا لكل مستخدم في \([-1, 1]\) يصف اهتمام المستخدم بأفلام الأطفال (أقرب إلى -1) أو البالغين الأفلام (أقرب إلى الزر 1+). منتج تضمين الفيلم والمستخدم يجب أن يكون التضمين أعلى (أقرب إلى 1) للأفلام التي نتوقع أن يكون المستخدم الذين ينال إعجابهم.
في الرسم التخطيطي أدناه، تحدد كل علامة اختيار فيلمًا شاهده المستخدم. المستخدم الثالث والرابع لديهم تفضيلات وشرح جيد من خلال هذه الميزة - المستخدم الثالث يفضل الأفلام للأطفال بينما يفضل المستخدم الرابع الأفلام للبالغين. ومع ذلك، فإن الطريقة الأولى والثانية المستخدِمين والتفضيلات بشكل جيد من خلال هذه الميزة الفردية.
تضمين ثنائي الأبعاد
لم تكن ميزة واحدة تكفي لشرح تفضيلات جميع المستخدمين. التغلب عليها لهذه المسألة، لنضيف خاصية ثانية: الدرجة التي يتم بها إنشاء كل فيلم فيلمًا رائجًا أو فيلمًا فنيًا. وباستخدام الميزة الثانية، يمكننا الآن تمثيل كل فيلم بالتضمين الثنائي الأبعاد التالي:
نضع المستخدمين مرة أخرى في نفس مساحة التضمين لتقديم أفضل شرح مصفوفة التعقيبات: لكل زوج (مستخدم، عنصر)، نرغب في المنتج النقطي للعنصر الذي تم تضمينه من قِبل المستخدم والعنصر المضمّن المراد إغلاقه إلى 1 عندما يشاهد المستخدم الفيلم، وإلى 0 في الحالات الأخرى.
في هذا المثال، أجرينا هندسة يدوية للتضمينات. من الناحية العملية، يتم تضمين التضمين يمكن تعلمها تلقائيًا، وهي ميزة التصفية التعاونية النماذج. وفي القسمين التاليين، سنناقش نماذج مختلفة لتعلم هذه التضمينات وكيفية تدريبها.
وتتضح الطبيعة التعاونية لهذا النهج عندما يتعلم النموذج التضمينات. افترض أن متجهات التضمين للأفلام ثابتة. بعد ذلك، يُرجى اتّباع الخطوات التالية: يمكن أن يتعلم النموذج متجه التضمين حتى يتمكن المستخدمون من شرح أفضل وتفضيلاتهم. وبالتالي، فإن تضمين مستخدمين لديهم تفضيلات مشابهة قريبة من بعضها. وبالمثل، إذا كان تضمينات المستخدمين ثابتة، فمن ثم يمكننا معرفة تضمينات الأفلام لشرح مصفوفة التعقيبات على أفضل وجه. ونتيجةً لذلك، يكون عدد الأفلام التي نال إعجاب المستخدمين المتشابهين قريب من مساحة التضمين.