embedding هو مساحة منخفضة الأبعاد نسبيًا يمكنك الترجمة إليها المتجهات عالية الأبعاد. لطرح مناقشة حول الأبعاد العالية مقابل ذات الأبعاد المنخفضة، راجِع القسم التصنيف البيانات واحدة.
تسهّل التضمينات تنفيذ تعلُّم الآلة على متّجهات الميزة، مثل كمتجهات متناثرة تمثل أصناف الوجبة التي تمت مناقشتها في القسم السابق. ومن الناحية المثالية، يمثل التضمين بعضًا من الدلالة الدلالية للمدخلات عن طريق إضافة مدخلات أكثر تشابهًا من حيث المعنى معًا في مساحة التضمين. على سبيل المثال، قد يؤدي التضمين الجيد إلى وضع كلمة "سيارة" أقرب إلى "المرآب" من كلمة "فيل". يمكن تدريب التضمين وإعادة استخدامها عبر النماذج.
لإعطاء فكرة عن كيفية تمثيل متجهات التضمين للمعلومات، ضع في الاعتبار باتباع تمثيل أحادي البعد للأطباق الهوت دوغ، البيتزا، سلطة، الشاورما borscht، على مقياس "أقل مثل ساندويتش" إلى "أشبه بشطيرة". "الساندويتشات" هو البُعد الفردي.
أين في هذا الخط
فطيرة التفاح
تسقط؟ يمكن القول إنها يمكن وضعها بين hot dog
وshawarma
. لكن apple
يبدو أيضًا أنّ السترودل يملك بعدًا إضافيًا، أي الطازجة (كم الحلو)
الطعام) أو الحلويات (ما أشبه بحلوى الطعام) التي تجعل
يختلف تمامًا عن الخيارات الأخرى. يتصور الشكل التالي هذا
عبر إضافة "حلوى" البُعد:
يمثّل التضمين كل عنصر في مساحة n من الأبعاد باستخدام n. أرقام النقاط العائمة (عادةً ما تكون في النطاق من 1 إلى 1 أو 0 إلى 1). على سبيل المثال، يمثل التضمين في الشكل 4 كل صنف من الوجبات في مساحة ثنائية الأبعاد مع إحداثيتين. العنصر "فلافل سكر" في ربع الصفحة العلوي الأيمن من الرسم البياني، ويمكن تعيين النقطة (0.5، 0.3)، بينما "هوت دوغ" في ربع الدائرة السفلي الأيمن من الرسم البياني ويمكن تعيينه على النقطة (0.2، –0.5).
في عملية تضمين، يمكن حساب المسافة بين أي عنصرين
رياضيًا،
ويمكن تفسيره على أنه التشابه النسبي لهذين الاثنين
عناصر. هناك شيئان قريبان من بعضهما، مثل shawarma
وhot dog
.
في الشكل 4، تكون أكثر ارتباطًا من شيئين أبعد عن كل منهما
أخرى، مثل apple strudel
وborscht
.
لاحظ أيضًا أنه في المساحة الثنائية الأبعاد في الشكل 4، تكون apple strudel
أبعد بكثير
من shawarma
وhot dog
مقارنةً بما ستكون عليه في المساحة الأحادية البُعد، والتي تتطابق
الحدس: apple strudel
ليس مثل الهوت دوغ أو الشاورما مثل النقانق
الكلاب والشاورما مع بعضها البعض.
ضع في الاعتبار الآن مادة بورش، وهي سيولة أكثر بكثير من العناصر الأخرى. هذا النمط إلى بُعد ثالث، وهو السيولة (مدى سيولة الطعام). بإضافة هذا البُعد، يمكن عرض العناصر في شكل ثلاثي الأبعاد بالطريقة التالية:
أين قد يبدو في هذه المساحة ثلاثية الأبعاد تانغيوان؟ من المهم الحساء، مثل البورشت، والحلوى الحلوة، مثل شترودل التفاح، وبالتأكيد وليس شطيرة. إليك أحد المواضع المحتملة:
لاحِظ مقدار المعلومات التي يتم التعبير عنها في هذه السمات الثلاثة. ويمكنك أن تتخيل سمات إضافية، مثل اللحم أو الخَبْز.
مساحات التضمين الواقعية
كما رأيت في أمثلة الطعام أعلاه، حتى إذا كانت مساحة صغيرة متعددة الأبعاد توفر الحرية في تجميع العناصر المتشابهة دلاليًا معًا والاحتفاظ البنود غير المتشابهة عن بعضها البعض. الموضع (المسافة والاتجاه) في الخط المتجه مساحة يمكنها ترميز الدلالات في تضمين جيد. على سبيل المثال، ما يلي توضح تصورات التضمينات الحقيقية العلاقات الهندسية بين الكلمات التي تشير إلى بلد وعاصمته. يمكنك أن ترى أن المسافة من "كندا" إلى "أوتاوا" المسافة من "تركيا" تقريبًا إلى "أنقرة".
تساعد مساحة التضمين المفيدة نموذج تعلُّم الآلة في رصد الأنماط. أثناء التدريب.
تمارين
في هذا التمرين، ستستخدم الطريقة التضمين جهاز العرض لعرض كلمة يتضمن تضمين يسمى word2vec والذي يمثل أكثر من 70000 كلمة إنجليزية رقميًا في مساحة المتجه.
المهمة 1
نفذ المهام التالية، ثم أجب عن السؤال أدناه.
افتح أداة Embedding Projector.
في اللوحة اليسرى، أدخِل الكلمة atom في حقل البحث. بَعْدَ ذَلِكْ انقر على كلمة atom من النتائج أدناه (ضمن 4 مطابقات). يجب أن تبدو الشاشة بالشكل 8.
مرة أخرى، في اللوحة اليسرى، انقر على الزر عزل 101 نقطة (أعلاه) حقل البحث) لعرض أقرب 100 كلمة لكلمة atom. شاشتك الشكل 9.
عليك الآن مراجعة الكلمات المدرَجة ضمن أقرب النقاط في المساحة الأصلية. كيف تصف هذه الكلمات؟
انقر هنا للحصول على إجابتنا
معظم الكلمات الأقرب هي الكلمات التي ترتبط بشكل شائع مع الكلمة atom، مثل صيغة الجمع "atoms"، والكلمات و"الإلكترونات" و"جزيء" و"النواة".
المهمة 2
قم بتنفيذ المهام التالية، ثم أجب عن السؤال التالي:
انقر على زر عرض كل البيانات في اللوحة اليسرى لإعادة ضبط البيانات. والتصور من المهمة 1.
في اللوحة اليسرى، أدخِل كلمة uranium في الحقل Search (بحث). يُفترض أن تبدو شاشتك مثل الشكل 10.
راجِع الكلمات المدرَجة ضمن أقرب النقاط في المساحة الأصلية. الطريقة هل هذه الكلمات مختلفة عن أقرب كلمات لكلمة atom؟
انقر هنا للحصول على إجابتنا
يشير اليورانيوم إلى مادة إشعاعية محددة العنصر الكيميائي، والعديد من الكلمات الأقرب هي عناصر أخرى، مثل الزنك والمنغنيز والنحاس والألومنيوم.
المهمة 3
قم بإجراء المهام التالية، ثم أجب عن السؤال أدناه:
انقر على زر عرض كل البيانات في اللوحة اليسرى لإعادة ضبط البيانات. والتصور من المهمة 2.
في اللوحة اليسرى، أدخِل كلمة برتقالي في الحقل بحث. الشاشة يجب أن تبدو مثل الشكل 11.
راجِع الكلمات المدرَجة ضمن أقرب النقاط في المساحة الأصلية. ما الذي تلاحظه حول أنواع الكلمات المعروضة هنا وأنواع الكلمات ألا تظهر هنا؟
انقر هنا للحصول على إجابتنا
وأقرب الكلمات تقريبًا ألوان أخرى، مثل "أصفر"، و"أخضر" و"الأزرق" و"أرجواني" و"أحمر". كلمة واحدة فقط من أقرب الكلمات ("عصير") يشيرون إلى المعنى الآخر للكلمة (فاكهة الحمضيات). فاكهة أخرى يمكن أن تتوقع رؤية كلمة "تفاح" و"موز" لم يتم إدراج قائمة أقرب الحدود.
يوضح هذا المثال أحد أوجه القصور الرئيسية في التضمينات الثابتة مثل word2vec. يتم تمثيل جميع المعاني المحتملة للكلمة بواسطة حرف واحد نقطة في مساحة الخط المتجه، لذا عند إجراء تحليل تشابه "للبرتقالي"، CANNOT TRANSLATE لا يمكن عزل أقرب النقاط لعلامة محددة الكلمة، مثل "برتقالي" (فاكهة) ولكن ليس "برتقالي" (اللون).