تدريب Softmax

شرحت الصفحة السابقة كيفية دمج طبقة softmax في الشبكة العصبية لنظام التوصية. تُلقي هذه الصفحة نظرة عن كثب على بيانات التطبيق لهذا النظام.

بيانات التدريب

تتكون بيانات تدريب softmax من ميزات طلب البحث \(x\) متجه من العناصر التي تفاعل معها المستخدم (يتم تمثيلها توزيع الاحتمالية \(p\)). هذه علامات باللون الأزرق في الشكل التالي. متغيرات النموذج هي معاملات الترجيح في الطبقات المختلفة. تظهر هذه الألوان باللون البرتقالي في ما يلي الشكل. يتم تدريب النموذج عادةً باستخدام أي صيغة انحدار التدرج العشوائي.

صورة تُبرز تدريب الشبكة العصبية العميقة لـ softmax

أخذ العينات السلبي

بما أنّ دالة الخسارة تقارن متّجهَين للاحتمالية \(p, \hat p(x) \in \mathbb R^n\) (الحقيقة الأساسية ناتج النموذج، على التوالي)، وحساب تدرج الخسارة (لطلب بحث واحد \(x\)) باهظة الثمن إذا كان حجم المجموعة \(n\) كبيرًا جدًا.

يمكنك إعداد نظام لحساب التدرجات على العناصر الموجبة فقط (العناصر النشطة في خط متجه الحقيقة). ومع ذلك، إذا لم يتمكن يتدرّب على الأزواج الموجبة فقط، فقد يعاني النموذج من الطي، حيث إن الموضحة أدناه.

الطيّ
صورة سطح مطوية من المنتصف تعرض 3 مجموعات مختلفة من المربعات تمثل طلبات البحث ودوائر تمثل عناصر. لكل مجموعة لون مختلف، وتتفاعل طلبات البحث فقط مع عناصر من نفس المجموعة. في الشكل التالي، افترض أن كل لون يمثل قيمة وفئة طلبات البحث والعناصر. كل طلب بحث (يتم تمثيله في شكل مربع) فقط ويتفاعل في الغالب مع العناصر (تمثلها دائرة) من نفس اللون. على سبيل المثال، يمكنك اعتبار كل فئة لغة مختلفة في YouTube. يتفاعل المستخدم العادي في الغالب مع مقاطع الفيديو بلغة واحدة.

قد يتعلم النموذج كيفية وضع تضمينات طلب البحث/العنصر لعنصر لونًا نسبيًا مع بعضها البعض (التقاط التشابه داخل ذلك بشكل صحيح اللون)، ولكن قد ينتهي الأمر بتضمين ألوان مختلفة في المنطقة نفسها مساحة التضمين، عن طريق الصدفة. إن هذه الظاهرة على أنّها قابلة للطي، إلى اقتراحات كاذبة: عند طلب البحث، فقد يتنبأ النموذج عن طريق الخطأ بدرجة عالية لعنصر من مجموعة مختلفة.

الأمثلة السلبية هي العناصر التي يتم تصنيفها على أنها "غير ملائمة" إلى استعلام معين. يؤدي عرض الأمثلة السلبية للنموذج أثناء التدريب إلى تعليم النموذج الذي يجب إبعاد تضمين المجموعات المختلفة عن بعضها البعض.

وبدلاً من استخدام كل العناصر لحساب التدرج (والذي قد يكون مكلفة) أو استخدام عناصر إيجابية فقط (مما يجعل النموذج عرضة قابلة للطي)، يمكنك استخدام العينات السالبة. وبشكل أكثر دقة، تقوم بحساب تدرج تقريبي، باستخدام العناصر التالية:

  • جميع العناصر الإيجابية (تلك التي تظهر في التصنيف المستهدف)
  • نموذج من العناصر السلبية (\(j\) في \({1, …, n}\))

ثمة استراتيجيات مختلفة لأخذ العينات السلبية:

  • يمكنك أخذ عينات موحَّدة.
  • يمكنك إعطاء احتمالية أعلى للعناصر j ذات القيم الأعلى الجودة \(\psi(x) . V_j\). ومن البديهي أن هذه أمثلة التي تساهم بشكل أكبر في التدرج) غالبًا ما تكون هذه الأمثلة تسمى السلبيات الصعبة.

تحليل المصفوفة إلى عواملها في مقابل softmax

تحل نماذج DNN العديد من قيود تحليل المصفوفة، ولكن عادةً ما التدريب والاستعلام أكثر تكلفة. يلخص الجدول أدناه بعض الاختلافات المهمة بين النموذجين.

تحليل المصفوفة شركة Softmax DNN
ميزات طلبات البحث لا يسهل تضمينها. يمكن تضمينها.
التشغيل البارد لا يسهل التعامل مع المصطلحات الخارجة عن المألوف أو استعلامات أو عناصر. ويمكن استخدام بعض الأساليب الإرشادية (على سبيل المثال، لمعرفة طلب بحث جديد، ومتوسط عدد التضمينات من طلبات بحث مماثلة). التعامل مع طلبات البحث الجديدة بسهولة:
الطيّ يمكن تقليل إمكانية طيّ بسهولة عن طريق ضبط الوزن غير المرصود في WALS. عرضة للطي بحاجة إلى استخدام تقنيات مثل أخذ العينات السالب أو الجاذبية.
قابلية تطوير التدريب قابلة للتوسع بسهولة إلى أحجام كبيرة جدًا (ربما مئات الملايين من العناصر أو أكثر)، ولكن فقط إذا مصفوفة الإدخال متناثرة. من الصعب التغيير إلى الحجم الكبير جدًا المجموعات. ويمكن استخدام بعض الأساليب، مثل التجزئة، وأخذ العينات السلبي، وما إلى ذلك.
قابلية عرض الإعلانات عمليات التضمين U وV ثابتة، ويمكن حساب مجموعة من العناصر المرشحة وتخزينها مسبقًا. تضمينات العنصر V ثابتة ويمكن تخزينها.

يؤدي تضمين طلب البحث عادةً إلى وقت الاستعلام، مما يجعل النموذج أكثر تكلفة

باختصار:

  • عادةً ما يكون تحليل المصفوفة هو الخيار الأفضل للمجموعات الكبيرة. فمن الأسهل توسيعه، وأرخص طلب البحث، وأقل عرضة للطي.
  • يمكن لنماذج DNN التقاط الإعدادات المفضّلة المخصصة بشكل أفضل، إلا أنّها تدريبه وأكثر تكلفة أكثر في الاستعلام. يُفضَّل استخدام نماذج DNN إلى تحليل المصفوفة لتسجيل النقاط لأن نماذج DNN يمكن أن تستخدم ميزات إضافية لتحديد مدى الصلة بالموضوع بشكل أفضل. أيضًا، من المعتاد مقبولة لطي نماذج DNN، لأنك تهتم في الغالب ترتيب مجموعة تمت تصفيتها مسبقًا من العناصر المرشحة التي يُفترض أن تكون ملائمة.