التضمينات: الحصول على تضمينات

يتناول هذا القسم عدة طرق للحصول على البيانات المضمّنة، بالإضافة إلى كيفية تحويل البيانات المضمّنة الثابتة إلى بيانات مضمّنة سياقية.

أساليب خفض الأبعاد

هناك العديد من التقنيات الحسابية التي ترصد البنى المهمة لمساحة عالية الأبعاد في مساحة منخفضة الأبعاد. من الناحية النظرية، يمكن استخدام أيٍّ من هذه التقنيات لإنشاء عملية تضمين لنظام تعلُّم الآلة.

على سبيل المثال، تم استخدام تحليل المكونات الأساسية (PCA) لإنشاء نماذج إدراج الكلمات. استنادًا إلى مجموعة من النماذج مثل متجهات مجموعة الكلمات، يحاول تحليل المكونات الأساسية العثور على سمات ذات ارتباط عالٍ يمكن تجميعها في سمة واحدة.

تدريب عملية تضمين كجزء من شبكة عصبية

يمكنك إنشاء عملية تضمين أثناء تدريب شبكة عصبية للقيام بمهمتك المستهدَفة. يمنحك هذا النهج نموذجًا مخصّصًا بشكل جيد لنظامك المحدد، ولكن قد يستغرق وقتًا أطول من تدريب النموذج بشكل منفصل.

بشكل عام، يمكنك إنشاء طبقة مخفية بحجم d في شبكتك العصبية التي تم تحديدها على أنّها طبقة التضمين، حيث يمثّل d كلّ من عدد العقد في الطبقة المخفية وعدد السمات في مساحة التضمين. يمكن دمج طبقة التضمين هذه مع أي ميزات وطبقات مخفية أخرى. كما هو الحال في أي شبكة عصبية عميقة، سيتم تحسين المَعلمات أثناء التدريب لتقليل الخسارة في العقد في طبقة الإخراج للشبكة.

بالرجوع إلى مثال اقتراحات الطعام، هدفنا هو توقّع وجبات جديدة قد تعجب المستخدم استنادًا إلى وجباته المفضّلة الحالية. أولاً، يمكننا جمع بيانات إضافية عن أهم خمسة أطعمة مفضّلة لدى المستخدمين. بعد ذلك، يمكننا وضع نموذج لهذه المهمة على أنّها مشكلة تعلُّم مُوجَّه. حدّدنا أربعة من هذه الأطعمة الخمسة كبيانات مميزة، ثمّ وضعنا بشكل عشوائي الطعام الخامس على أنّه التصنيف الإيجابي الذي يهدف النموذج إلى توقّعه، ما أدّى إلى تحسين توقّعات النموذج باستخدام softmax فقدان.

أثناء التدريب، سيتعرّف نموذج الشبكة العصبية على الأوزان المثلى ل العقد في الطبقة المخفية الأولى، والتي تُعدّ طبقة التضمين. على سبيل المثال، إذا كان النموذج يحتوي على ثلاث عقد في الطبقة المخفية الأولى، قد يحدّد أنّ السمات الثلاث الأكثر صلة بالمواد الغذائية هي الساندويتش والحلوى والسوائل. يعرض الشكل 12 قيمة الإدخال المشفَّرة بترميز واحد ساخن لعبارة "هوت دوغ" التي تم تحويلها إلى متجه ثلاثي الأبعاد.

الشكل 12 شبكة عصبية لترميز الهوت دوغ بترميز أحادي الطبقة الأولى هي
    طبقة إدخال تحتوي على 5 عقد، تمّت إضافة تعليق توضيحي لكلّ منها يعرض رمزًا للطعام الذي يمثّله (شوربة حساء لحم البقر، نقانق، سلطة، ... وشاورما). تحتوي هذه العقد على
    القيم [0, 1, 0, ..., 0]، على التوالي، ما يمثّل ترميزًا واحدًا ساخنًا
    لكلمة "هوت دوغ". تكون طبقة الإدخال متصلة بطبقة تضمين
    تتألف من 3 عقد، وتكون قيم عقدها 2.98 و-0.75 و0 على التوالي. يتم ربط
    طبقة التضمين بطبقة مخفية تتألف من 5 عقد، ثم يتم
    وصلها بطبقة إخراج تتألف من 5 عقد.
الشكل 12. ترميز أحادي لكلمة hot dog المقدَّمة كمدخل لشبكة عصبية عميقة تُحوِّل طبقة التضمين ترميز الفئة الواحدة إلى متجه التضمين الثلاثي الأبعاد [2.98, -0.75, 0].

أثناء التدريب، سيتم تحسين أوزان طبقة التضمين لكي تكون متجهات التضمين للأمثلة المتشابهة أقرب إلى بعضها. كما ذكرنا سابقًا، من غير المرجّح أن تكون سمات النموذج الفعلي التي يختارها لملفات التضمين سهلة الاستخدام أو الفهم كما هو الحال في هذا المثال.

عمليات التضمين السياقية

من بين قيود word2vec المتجهات الثابتة للإدراج أنّ الكلمات يمكن أن تعني أشياء مختلفة في سياقات مختلفة. تعني كلمة "نعم" معنى واحدًا بمفردها، ولكن العكس في العبارة "نعم، صحيح". يمكن أن تعني كلمة "البريد" "البريد"، "وضع البريد"، "قاعدة القرط"، "علامة في نهاية سباق الخيل"، "مرحلة ما بعد الإنتاج"، "عمود"، "نشر إشعار"، "تعيين حارس أو جندي"، أو "بعد"، من بين احتمالات أخرى.

ومع ذلك، باستخدام عمليات التضمين الثابتة، يتم تمثيل كل كلمة بنقطة واحدة في مساحة المتجهات، على الرغم من أنّها قد تحمل معانٍ متنوعة. في التمرين الأخير، تعرّفت على قيود عمليات التضمين الثابتة للكلمة orange، والتي يمكن أن تشير إلى لون أو نوع من الفاكهة. باستخدام عملية واحدة فقط لدمج السياق الثابت، سيكون البرتقالي دائمًا أقرب إلى الألوان الأخرى منه إلى العصير عند التدريب على مجموعة بيانات word2vec.

تم تطوير عمليات التضمين السياقي لحلّ هذا القيد. تسمح الحِزم السياقية بدمج كلمة في عدة حِزم تتضمن معلومات عن الكلمات المحيطة بها بالإضافة إلى الكلمة نفسها. سيكون لكلمة برتقالي إدراج مختلف لكل جملة فريدة تحتوي على الكلمة في مجموعة البيانات.

تعتمد بعض طرق إنشاء النماذج السياقية، مثل ELMo، على أخذ النموذج static للمثال، مثل متجه word2vec لكلمة في الجملة، وتحويله باستخدام دالة تدمج معلومات عن الكلمات التي تحيط به. يؤدي ذلك إلى إنشاء نموذج إدراج سياقي.

انقر هنا للاطّلاع على تفاصيل عن عمليات التضمين السياقي

  • بالنسبة إلى نماذج ELMo على وجه التحديد، يتم تجميع البيانات الثابتة مع البيانات المستمَدة من الطبقات الأخرى، والتي تُشفِّر القراءات من الأمام إلى الخلف ومن الخلف إلى الأمام للجملة.
  • تحجب نماذج BERT جزءًا من التسلسل الذي يأخذه النموذج كمدخل.
  • تستخدِم نماذج Transformer طبقة الانتباه الذاتي لتحديد مدى صلة الكلمات الأخرى في التسلسل بكل كلمة فردية. وتُضيف هذه النماذج أيضًا العمود ذي الصلة من مصفوفة embeddings في مواضع معيّنة (راجِع ترميز مواضع معيّنة) إلى كلّ رمز مميّز تم تعلُّمه سابقًا، عنصرًا تلو الآخر، لإنتاج embedding للدخل الذي يتمّ تقديمه إلى بقية النموذج للاستنتاج. إنّ تضمين الإدخال هذا، الفريد لكل تسلسل نصي متميز، هو تضمين سياقي.

على الرغم من أنّ النماذج الموضّحة أعلاه هي نماذج لغوية، فإنّ النماذج المضمّنة السياقية تكون مفيدة في المهام التوليدية الأخرى، مثل الصور. إنّ تضمين قيم RGB للبكسل في صورة حصان يقدّم للنموذج معلومات أكثر مقارنةً بالقيم الثابتة الأصلية لقيم RGB وحدها، وذلك عند دمجه مع مصفوفة موضعية تمثّل كل بكسل وبعض الترميز للبكسل المجاور، ما يؤدي إلى إنشاء عناصر تمثّل السياق.