عمليات التضمين: الحصول على تضمينات

هناك عدة طرق للحصول على تضمين، بما في ذلك خوارزمية حديثة تم إنشاؤها في Google.

تقنيات خفض الأبعاد العادية

هناك العديد من الأساليب الحسابية الحالية لالتقاط البنية المهمة للمساحة العالية الأبعاد في مساحة منخفضة الأبعاد. من الناحية النظرية، يمكن استخدام أي من هذه الأساليب لإنشاء تضمين لنظام تعلُّم الآلة.

على سبيل المثال، تم استخدام تحليل المكونات الأساسية (PCA) لإنشاء عمليات تضمين للكلمات. ومع مجموعة من الحالات مثل مجموعة متّجهات الكلمات، تحاول PCA العثور على أبعاد وثيقة الصلة يمكن تصغيرها لتصبح بُعدًا واحدًا.

Word2vec

Word2vec هي خوارزمية تم تطويرها في Google لتدريب ميزة تضمين الكلمات. تعتمد Word2vec على الفرضية الموزّعة لربط الكلمات المتشابهة دلاليًا لمتّجهات التضمين الهندسي.

وتشير الفرضية الموزّعة إلى أنّ الكلمات التي تتضمن الكلمات المجاورة نفسها غالبًا ما تكون متشابهة من حيث الدلالة. تظهر كلٌّ من "dog"&&;;;;;;&"quot; بالقرب من الكلمة "الأطباء البيطرية" وتعكس هذه الحقيقة التشابه الدلالي. وكما وضعه اختصاصي اللغة اللغوي، جون فيرث، عام 1957، "وستعرف هذه الكلمة عن طريق الشركة التي تحتفظ بها".

تستغل شركة Word2Vec معلومات السياق مثل هذه من خلال تدريب شبكة عصبية لتمييز المجموعات المشتركة بين الكلمات عن الكلمات المجمّعة عشوائيًا. وتستخدِم طبقة الإدخال تمثيلاً متفرِّقًا لكلمة مستهدفة مع كلمة واحدة أو أكثر من كلمات السياق. يرتبط هذا الإدخال بطبقة واحدة مخفية وأصغر.

في إصدار واحد من الخوارزمية، يضع النظام مثالاً سالبًا عن طريق استبدال كلمة ضجيج عشوائية للكلمة المستهدفة. ونظرًا للمثال الإيجابي، "الطيرة والذباب"؛ قد يبدل النظام بين &"الهرولة" لإنشاء مثال سلبي متباين "الذبابة الطائرة":

تنشئ النسخة الأخرى من الخوارزمية أمثلة سلبية عن طريق إقران الكلمة المستهدفة الحقيقية بكلمات سياقية يتم اختيارها عشوائيًا. لذلك، يمكن أن تأخذ هذه الأمثلة الأمثلة الإيجابية (الطائرة، الطائرة)، (الذباب، الطائرة) والأمثلة السلبية (مجمّعة، الطائرة)، (مّن، الطيران)، ويتعلّم كيفية تحديد الأزواج التي ظهرت فعليًا في النص.

ومع ذلك، ليس المصنِّف هو الهدف الحقيقي لأي إصدار من النظام. بعد أن يتم تدريب النموذج، يكون لديك التضمين. يمكنك استخدام القيم التقديرية التي تربط طبقة الإدخال مع الطبقة المخفية لربط تمثيلات الكلمات القليلة بالمتّجهين الأصغر حجمًا. يمكن إعادة استخدام هذا التضمين في مصنِّفات أخرى.

للحصول على مزيد من المعلومات حول word2vec، يمكنك الاطّلاع على البرنامج التعليمي على tenorflow.org.

تدريب على تضمين كجزء من نموذج أكبر

يمكنك أيضًا الاطّلاع على تضمين كجزء من الشبكة العصبونية في مهمتك المستهدَفة. يعمل هذا النهج على تضمين تضمين جيد ومتوافق مع نظامك، ولكنه قد يستغرق وقتًا أطول من تدريب التضمين بشكل منفصل.

بوجه عام، عندما تكون لديك بيانات قليلة (أو بيانات كثيفة تريد تضمينها)، يمكنك إنشاء وحدة تضمين تمثل نوعًا خاصًا من الوحدات المخفية ذات الحجم d. يمكن دمج طبقة التضمين هذه مع أي ميزات أخرى وطبقات مخفية. كما هو الحال في DNN، ستكون الطبقة النهائية هي الخسارة التي يتم تحسينها. على سبيل المثال، لنفترض أنّنا نعمل على إجراء فلاتر تعاونية، حيث يكون الهدف من ذلك توقع اهتمامات المستخدمين من اهتمامات مستخدمين آخرين. ويمكننا وضع هذا النموذج كمشكلة تعلُّم خاضعة للإشراف من خلال تخصيص عدد قليل من الأفلام التي شاهدها المستخدم باعتبارها تصنيفات إيجابية، أو تأخيرها، ثم تحسين الخسارة الناتجة عن فقدان البيانات.

الشكل 5. نموذج عن بنية DNN لتعلُّم تضمين الأفلام من بيانات الفلترة التعاونية.

كمثال آخر إذا كنت تريد إنشاء طبقة تضمين للكلمات في إعلان عقارات كجزء من DNN لتوقّع أسعار المساكن، يمكنك عندئذٍ تحسين L2 الخسارة باستخدام السعر المخفَّض الشهير للمنازل في بيانات التدريب بصفتها تصنيفًا.

عند التعرّف على عملية تضمين d مكوّنة، يتم ربط كل عنصر بنقطة في مساحة d مكوّنة بحيث تكون العناصر المشابهة قريبة في هذه المساحة. ويساعد الشكل 6 على توضيح العلاقة بين الأوزان التي تم تعلُّمها في طبقة التضمين والعرض الهندسي. ترجيح الحافة بين عُقدة الإدخال والعُقد في طبقة التضمين d ذات الأبعاد تتطابق مع قيم الإحداثيات لكل محور س .

رقم يوضّح العلاقة بين أوزان طبقة التضمين
والعرض الهندسي للتضمين.

الشكل 6. عرض هندسي لعناصر ترجيح طبقة التضمين.