التضمينات: الترجمة إلى مساحة ذات أبعاد أقل

embedding هو مساحة منخفضة الأبعاد نسبيًا يمكنك الترجمة إليها المتجهات عالية الأبعاد. لطرح مناقشة حول الأبعاد العالية مقابل ذات الأبعاد المنخفضة، راجِع القسم التصنيف البيانات واحدة.

تسهّل التضمينات تنفيذ تعلُّم الآلة على متّجهات الميزة، مثل كمتجهات متناثرة تمثل أصناف الوجبة التي تمت مناقشتها في القسم السابق. ومن الناحية المثالية، يمثل التضمين بعضًا من الدلالة الدلالية للمدخلات عن طريق إضافة مدخلات أكثر تشابهًا من حيث المعنى معًا في مساحة التضمين. على سبيل المثال، قد يؤدي التضمين الجيد إلى وضع كلمة "سيارة" أقرب إلى "المرآب" من كلمة "فيل". يمكن تدريب التضمين وإعادة استخدامها عبر النماذج.

لإعطاء فكرة عن كيفية تمثيل متجهات التضمين للمعلومات، ضع في الاعتبار باتباع تمثيل أحادي البعد للأطباق الهوت دوغ، البيتزا، سلطة، الشاورما borscht، على مقياس "أقل مثل ساندويتش" إلى "أشبه بشطيرة". "الساندويتشات" هو البُعد الفردي.

الشكل 3. على طول محور الشطيرة، من الأقل إلى الأكثر:
    بورش، سلطة، بيتزا، هوت دوغ، شاورما.
الشكل 3. مأكولات تتمحور حول "الشطائر" بطريقة متخيلة.

أين في هذا الخط فطيرة التفاح تسقط؟ يمكن القول إنها يمكن وضعها بين hot dog وshawarma. لكن apple يبدو أيضًا أنّ السترودل يملك بعدًا إضافيًا، أي الطازجة (كم الحلو) الطعام) أو الحلويات (ما أشبه بحلوى الطعام) التي تجعل يختلف تمامًا عن الخيارات الأخرى. يتصور الشكل التالي هذا عبر إضافة "حلوى" البُعد:

الشكل 4.  الصورة نفسها كما في السابق، ولكن بمحور رأسي
    والتحلية. شطيرة التفاح هي بين الهوت دوغ والشاورما ولكن عالية
    على المحور الأفقي، ولكن أعلى محور الحلويات.
الشكل 4. الأطعمة التي يتم تمثيلها من خلال كل من كلمة "الشطائر" و"الحلويات".

يمثّل التضمين كل عنصر في مساحة n من الأبعاد باستخدام n. أرقام النقاط العائمة (عادةً ما تكون في النطاق من 1 إلى 1 أو 0 إلى 1). على سبيل المثال، يمثل التضمين في الشكل 4 كل صنف من الوجبات في مساحة ثنائية الأبعاد مع إحداثيتين. العنصر "فلافل سكر" في ربع الصفحة العلوي الأيمن من الرسم البياني، ويمكن تعيين النقطة (0.5، 0.3)، بينما "هوت دوغ" في ربع الدائرة السفلي الأيمن من الرسم البياني ويمكن تعيينه على النقطة (0.2، –0.5).

في عملية تضمين، يمكن حساب المسافة بين أي عنصرين رياضيًا، ويمكن تفسيره على أنه التشابه النسبي لهذين الاثنين عناصر. هناك شيئان قريبان من بعضهما، مثل shawarma وhot dog. في الشكل 4، تكون أكثر ارتباطًا من شيئين أبعد عن كل منهما أخرى، مثل apple strudel وborscht.

لاحظ أيضًا أنه في المساحة الثنائية الأبعاد في الشكل 4، تكون apple strudel أبعد بكثير من shawarma وhot dog مقارنةً بما ستكون عليه في المساحة الأحادية البُعد، والتي تتطابق الحدس: apple strudel ليس مثل الهوت دوغ أو الشاورما مثل النقانق الكلاب والشاورما مع بعضها البعض.

ضع في الاعتبار الآن مادة بورش، وهي سيولة أكثر بكثير من العناصر الأخرى. هذا النمط إلى بُعد ثالث، وهو السيولة (مدى سيولة الطعام). بإضافة هذا البُعد، يمكن عرض العناصر في شكل ثلاثي الأبعاد بالطريقة التالية:

الشكل 5.  الصورة نفسها كما في السابق، ولكن مع محور ثالث للسيولة
    متعامدًا مع الاثنين الآخرين، وتحركت كلمة "بورش" بعيدًا على طول ذلك المحور.
الشكل 5. الأطعمة مخططة بواسطة "الشطائر"، و"الحلويات" أو "السيولة".

أين قد يبدو في هذه المساحة ثلاثية الأبعاد تانغيوان؟ من المهم الحساء، مثل البورشت، والحلوى الحلوة، مثل شترودل التفاح، وبالتأكيد وليس شطيرة. إليك أحد المواضع المحتملة:

الشكل 6. الصورة نفسها كما في السابق، ولكن مع وضع التانغيوان عاليًا
    التحلية والسيولة وقلة الشطائر.
الشكل 6. جارٍ إضافة التانغيوان إلى الصورة السابقة، عاليًا "الحلوى" و"السيولة" ومنخفضة من "الشطائر".

لاحِظ مقدار المعلومات التي يتم التعبير عنها في هذه السمات الثلاثة. ويمكنك أن تتخيل سمات إضافية، مثل اللحم أو الخَبْز.

مساحات التضمين الواقعية

كما رأيت في أمثلة الطعام أعلاه، حتى إذا كانت مساحة صغيرة متعددة الأبعاد توفر الحرية في تجميع العناصر المتشابهة دلاليًا معًا والاحتفاظ البنود غير المتشابهة عن بعضها البعض. الموضع (المسافة والاتجاه) في الخط المتجه مساحة يمكنها ترميز الدلالات في تضمين جيد. على سبيل المثال، ما يلي توضح تصورات التضمينات الحقيقية العلاقات الهندسية بين الكلمات التي تشير إلى بلد وعاصمته. يمكنك أن ترى أن المسافة من "كندا" إلى "أوتاوا" المسافة من "تركيا" تقريبًا إلى "أنقرة".

الشكل 7. ثلاثة أمثلة على تضمينات الكلمات التي تمثّل الكلمات
      العلاقات هندسية: الجنس (رجل/امرأة وملك/ملكة تقريبًا
      نفس الطول)، وتوتر الفعل (المشي/المشي والسباحة/السباحة تقريبًا
      نفس الطول)، والعواصم (تركيا/أنقرة وفيتنام/هانوي)
      بالطول نفسه تقريبًا).
الشكل 7. يمكن أن ينتج عن التضمينات تشبيهات رائعة.

تساعد مساحة التضمين المفيدة نموذج تعلُّم الآلة في رصد الأنماط. أثناء التدريب.

تمارين

في هذا التمرين، ستستخدم الطريقة التضمين جهاز العرض لعرض كلمة يتضمن تضمين يسمى word2vec والذي يمثل أكثر من 70000 كلمة إنجليزية رقميًا في مساحة المتجه.

المهمة 1

نفذ المهام التالية، ثم أجب عن السؤال أدناه.

  1. افتح أداة Embedding Projector.

  2. في اللوحة اليسرى، أدخِل الكلمة atom في حقل البحث. بَعْدَ ذَلِكْ انقر على كلمة atom من النتائج أدناه (ضمن 4 مطابقات). يجب أن تبدو الشاشة بالشكل 8.

    الشكل 8. لقطة شاشة لأداة تضمين جهاز العرض، مع عنصر "atom"
    إدخاله في حقل البحث (محاط باللون الأحمر). يُعد التصور في
    يضيف مركز الأداة الآن تعليقًا توضيحيًا على إحدى النقاط بالكلمة "atom"،
    وتضيف أيضًا تعليقات توضيحية للكلمات للنقاط القريبة. في الأقرب
    نقاط القائمة، وهي الكلمات "الذرات" و"الجزيء" و"الإلكترونات" مدرجة
    كأقرب الكلمات في مساحة الخط المتجه إلى "atom".
    الشكل 8. تضمين أداة عرض تضم كلمة "atom" تمت الإضافة في حقل البحث (محاط باللون الأحمر).
  3. مرة أخرى، في اللوحة اليسرى، انقر على الزر عزل 101 نقطة (أعلاه) حقل البحث) لعرض أقرب 100 كلمة لكلمة atom. شاشتك الشكل 9.

    الشكل 9. لقطة شاشة لأداة Embedding Projector،
    "عزل 101 نقطة" النقر عليه (الزر محاط بدائرة حمراء). التصور
    من الشكل 8 الآن لعرض كلمة "atom" فقط،
    100 كلمة من أقرب كلمة في مساحة المتجه، والتي تشمل الكلمات "atoms"،
    و"نواة" و"جسيم".
    الشكل 9. أداة تضمين جهاز العرض، والآن مع "عزل 101 نقطة" النقر عليه (محاط باللون الأحمر).

عليك الآن مراجعة الكلمات المدرَجة ضمن أقرب النقاط في المساحة الأصلية. كيف تصف هذه الكلمات؟

انقر هنا للحصول على إجابتنا

معظم الكلمات الأقرب هي الكلمات التي ترتبط بشكل شائع مع الكلمة atom، مثل صيغة الجمع "atoms"، والكلمات و"الإلكترونات" و"جزيء" و"النواة".

المهمة 2

قم بتنفيذ المهام التالية، ثم أجب عن السؤال التالي:

  1. انقر على زر عرض كل البيانات في اللوحة اليسرى لإعادة ضبط البيانات. والتصور من المهمة 1.

  2. في اللوحة اليسرى، أدخِل كلمة uranium في الحقل Search (بحث). يُفترض أن تبدو شاشتك مثل الشكل 10.

    الشكل 10. لقطة شاشة لأداة تضمين جهاز العرض، مع عنصر "اليورانيوم"
    تم إدخاله في حقل البحث. يُعد التصور في منتصف
    تضيف تعليقًا توضيحيًا على إحدى النقاط بكلمة "أورانيوم"، كما تضيف
    تعليقات توضيحية للكلمات للنقاط القريبة. في "أقرب النقاط" القائمة،
    كلمات "فحم" و"نظائر" و"نيكل" و"أوكسيد" و"أور" و"زنك"
    "المنغناط" كأقرب الكلمات في المساحة المتجهة
    "اليورانيوم".
    الشكل 10. تضمين أداة عرض تضم كلمة "uranium" مضافة في حقل البحث.

راجِع الكلمات المدرَجة ضمن أقرب النقاط في المساحة الأصلية. الطريقة هل هذه الكلمات مختلفة عن أقرب كلمات لكلمة atom؟

انقر هنا للحصول على إجابتنا

يشير اليورانيوم إلى مادة إشعاعية محددة العنصر الكيميائي، والعديد من الكلمات الأقرب هي عناصر أخرى، مثل الزنك والمنغنيز والنحاس والألومنيوم.

المهمة 3

قم بإجراء المهام التالية، ثم أجب عن السؤال أدناه:

  1. انقر على زر عرض كل البيانات في اللوحة اليسرى لإعادة ضبط البيانات. والتصور من المهمة 2.

  2. في اللوحة اليسرى، أدخِل كلمة برتقالي في الحقل بحث. الشاشة يجب أن تبدو مثل الشكل 11.

    الشكل 11. لقطة شاشة لأداة Embedding Projector باللون "البرتقالي"
    تم إدخاله في حقل البحث. التصور في مركز الأداة
    يضيف تعليقًا على إحدى النقاط بكلمة "برتقال"، ويضيف أيضًا كلمة
    التعليقات التوضيحية للنقاط القريبة. في "أقرب النقاط" ،
    الكلمات "أصفر" و"أخضر" و"أزرق" و"أرجواني" و"ألوان" مدرجة
    أقرب كلمات في مساحة الخط المتجه إلى "برتقالي".
    الشكل 11. أداة تضمين جهاز عرض، بكلمة "برتقالي" مضافة في حقل البحث.

راجِع الكلمات المدرَجة ضمن أقرب النقاط في المساحة الأصلية. ما الذي تلاحظه حول أنواع الكلمات المعروضة هنا وأنواع الكلمات ألا تظهر هنا؟

انقر هنا للحصول على إجابتنا

وأقرب الكلمات تقريبًا ألوان أخرى، مثل "أصفر"، و"أخضر" و"الأزرق" و"أرجواني" و"أحمر". كلمة واحدة فقط من أقرب الكلمات ("عصير") يشيرون إلى المعنى الآخر للكلمة (فاكهة الحمضيات). فاكهة أخرى يمكن أن تتوقع رؤية كلمة "تفاح" و"موز" لم يتم إدراج قائمة أقرب الحدود.

يوضح هذا المثال أحد أوجه القصور الرئيسية في التضمينات الثابتة مثل word2vec. يتم تمثيل جميع المعاني المحتملة للكلمة بواسطة حرف واحد نقطة في مساحة الخط المتجه، لذا عند إجراء تحليل تشابه "للبرتقالي"، CANNOT TRANSLATE لا يمكن عزل أقرب النقاط لعلامة محددة الكلمة، مثل "برتقالي" (فاكهة) ولكن ليس "برتقالي" (اللون).