التضمينات: الحصول على تضمينات

يركز هذا القسم على طريقتَين شائعتَين للحصول على عملية تضمين:

  • تقليل الأبعاد
  • استخراج نموذج مصغّر من نموذج شبكة عصبية أكبر

تقنيات خفض الأبعاد

هناك العديد من التقنيات الرياضية لالتقاط البنية العميقة لمساحة عالية الأبعاد في مساحة منخفضة الأبعاد. من الناحية النظرية، يمكن استخدام أيٍّ من هذه التقنيات لإنشاء عملية تضمين لنظام تعلُّم الآلة.

على سبيل المثال، تم استخدام تحليل المكوّنات الرئيسية (PCA) لإنشاء تضمينات الكلمات. استنادًا إلى مجموعة من النماذج مثل متجهات مجموعة الكلمات، يحاول تحليل المكونات الأساسية العثور على سمات ذات ارتباط عالٍ يمكن تجميعها في سمة واحدة.

تدريب عملية تضمين كجزء من شبكة عصبية

يمكنك إنشاء تضمين أثناء تدريب شبكة عصبية على مهمتك المستهدفة. يمنحك هذا النهج نموذجًا مخصّصًا بشكل جيد لنظامك المحدد، ولكن قد يستغرق وقتًا أطول من تدريب النموذج بشكل منفصل.

بشكل عام، يمكنك إنشاء طبقة مخفية بحجم d في شبكتك العصبية التي تم تحديدها على أنّها طبقة التضمين، حيث يمثّل d كلّ من عدد العقد في الطبقة المخفية وعدد السمات في مساحة التضمين. يمكن دمج طبقة التضمين هذه مع أي ميزات وطبقات مخفية أخرى. وكما هو الحال في أي شبكة عصبية عميقة، سيتم تحسين المعلَمات أثناء التدريب لتقليل مخاطر فقدان العُقد في طبقة إخراج الشبكة.

بالرجوع إلى مثال اقتراحات الطعام، هدفنا هو توقّع وجبات جديدة قد تعجب المستخدم استنادًا إلى وجباته المفضّلة الحالية. أولاً، يمكننا تجميع بيانات إضافية عن أهم خمسة أطعمة مفضلة لمستخدمينا. بعد ذلك، يمكننا وضع نموذج لهذه المهمة على أنّها مشكلة تعلُّم مُوجَّه. حدّدنا أربعة من هذه الأطعمة الخمسة ضمن البيانات المميّزة، ثم وضعنا بشكل عشوائي الطعام الخامس باعتباره تصنيفًا إيجابيًا يهدف نموذجنا إلى التنبؤ به، ونحسّن توقّعات النموذج باستخدام خسارة softmax.

أثناء التدريب، سيتعرّف نموذج الشبكة العصبية على الأوزان المثلى للعقد في الطبقة المخفية الأولى التي تُعدّ طبقة التضمين. على سبيل المثال، إذا كان النموذج يحتوي على ثلاث عقد في الطبقة المخفية الأولى، قد يحدّد أنّ السمات الثلاث الأكثر صلة بالمواد الغذائية هي الساندويتش والحلوى والسوائل. يعرض الشكل 12 قيمة الإدخال المشفَّرة بترميز واحد ساخن لعبارة "هوت دوغ" التي تم تحويلها إلى متجه ثلاثي الأبعاد.

الشكل 12 شبكة عصبية لترميز الهوت دوغ بترميز أحادي الطبقة الأولى هي
    طبقة إدخال تحتوي على 5 عقد، تمّت إضافة تعليق توضيحي لكلّ منها يعرض رمزًا للطعام الذي يمثّله (شوربة حساء لحم البقر، نقانق، سلطة، ... وشاورما). تحتوي هذه العقد على
    القيم [0، 1، 0، ...، 0]، على التوالي، ما يمثّل ترميزًا واحدًا ساخنًا
    لكلمة "هوت دوغ". تكون طبقة الإدخال متصلة بطبقة تضمين
    تتألف من 3 عقد، وتكون قيم عقدها 2.98 و-0.75 و0 على التوالي. يتم ربط
    طبقة التضمين بطبقة مخفية تتألف من 5 عقد، ثم يتم
    وصلها بطبقة إخراج تتألف من 5 عقد.
الشكل 12. ترميز أحادي لكلمة hot dog المقدَّمة كإدخال لشبكة عصبية عميقة تُحوِّل طبقة التضمين ترميز الفئة الواحدة إلى متجه التضمين الثلاثي الأبعاد [2.98, -0.75, 0].

أثناء عملية التدريب، سيتم تحسين معاملات طبقة التضمين لكي تكون متجهات التضمين للأمثلة المتشابهة أقرب إلى بعضها. نادرًا ما تكون السمات الفردية لطبقة التضمين (ما تمثله كل عقدة في طبقة التضمين) مفهومة مثل "حلويات" أو "سائل". في بعض الأحيان، يمكن استنتاج ما "يعنيه"، لكن هذا ليس هو الحال دائمًا.

وعادةً ما تكون عمليات التضمين محدّدة للمهمة، وستختلف عن بعضها عند اختلاف المهمة. على سبيل المثال، قد تحتوي الحِزم المضمّنة التي ينشئها نموذج تصنيف بين الأطعمة النباتية وغير النباتية على سمتَين: محتوى اللحوم ومحتوى الألبان. في المقابل، قد تختلف السمات قليلاً في النماذج المُدمَجة التي ينشئها المصنّف الذي يميز بين الإفطار والعشاء في المطبخ الأمريكي: محتوى السعرات الحرارية ومحتوى الحبوب ومحتوى اللحوم. قد يكون "الحبوب" و "شطيرة البيض ولحم الخنزير المقدّد" قريبَين من بعضهما في مساحة التضمين الخاصة بأحد أنظمة الترتيب بين فئة الفطور وفئة العشاء، ولكنّهما بعيدَين عن بعضهما في مساحة التضمين الخاصة بأحد أنظمة الترتيب بين فئة الطعام النباتي وفئة الطعام غير النباتي.

تدريب نموذج إدراج كلمات

في القسم السابق، استكشفت تصورًا للعلاقات الدلالية في مساحة تضمين word2vec.

Word2vec هي إحدى الخوارزميات العديدة المستخدَمة لتدريب نماذج الكلمات. وتعتمد هذه الطريقة على الفرضية التوزيعية لربط الكلمات المشابهة من الناحية الدلالية بمتجهات التضمين القريبة من الناحية الهندسية. تشير نظرية التوزيع إلى أنّ الكلمات التي تتضمّن غالبًا الكلمات المجاورة نفسها تميل إلى أن تكون مشابهة من الناحية الدلالية. غالبًا ما يظهر كل من "كلب" و"قطة" بالقرب من كلمة "طبيب بيطري"، وهذه الحقيقة تعكس التشابه الدلالي. على حدّ تعبير اللغوي جون فيرث في عام 1957، "يمكنك معرفة الكلمة من خلال مرافقيها ".

يوضّح الفيديو التالي طريقة أخرى لإنشاء نموذج إدراج كلمات كجزء من عملية تدريب شبكة عصبية باستخدام نموذج أبسط:

عمليات التضمين الثابتة مقابل عمليات التضمين السياقية

من القيود المفروضة على نماذج إدراج الكلمات، مثل النموذج الذي تمت مناقشته في الفيديو أعلاه، هو أنّها ثابتة. يتم تمثيل كل كلمة بنقطة واحدة في فضاء المتجهات، على الرغم من أنّها قد تحمل معانٍ مختلفة، وذلك استنادًا إلى كيفية استخدامها في الجملة. في التمرين الأخير، اكتشفت صعوبة ربط التشابهات الدلالية للكلمة orange، والتي يمكن أن تشير إلى لون أو نوع من الفاكهة.

تم تطوير عمليات التضمين السياقي لحلّ هذه المشاكل. تسمح عمليات التضمين السياقي بتمثيلات متعددة للكلمة نفسها، يتضمن كلّ منها معلومات عن السياق الذي يتم استخدام الكلمة فيه. في عملية التضمين السياقي، قد يكون للكلمة برتقالي تمثيلان منفصلان: أحدهما يُظهر استخدام الكلمة في سياق "اللون"، كما في الجُمل مثل "السترات المفضّلة لديّ بها خطوط برتقاليّة"، والآخر يُظهر استخدام الكلمة في سياق "الفاكهة"، كما في الجُمل مثل "تم قطف البرتقال من الشجرة قبل أن ينضج تمامًا".