عمليات التضمين: بيانات الإدخال الفئوية

تشير البيانات الفئوية إلى ميزات الإدخال التي تمثّل عنصرًا منفصلاً أو أكثر من مجموعة محدودة من الخيارات. على سبيل المثال، يمكن تحديد مجموعة الأفلام التي شاهدها المستخدم أو مجموعة الكلمات في مستند أو مهنة الشخص.

ويتم تمثيل البيانات الفئوية على نحو أكثر فعالية من خلال التوترات الثانوية، التي تمثل موتّرات تتضمن عددًا قليلاً جدًا من العناصر غير الصفرية. على سبيل المثال، إذا كنا ننشئ نموذج اقتراح أفلام، يمكننا تخصيص معرّف فريد لكل فيلم محتمل، ثم تمثيل كل مستخدم ب سلسلة متفرقة من الأفلام التي شاهدها كما هو موضّح في الشكل 3.

نموذج إدخال عن مشكلة اقتراح الفيلم.

الشكل 3. بيانات حول مشكلة اقتراحات الأفلام

يمثل كل صف من المصفوفة في الشكل 3 مثالاً على سجل مشاهدة الأفلام للمستخدم، ويتم تمثيله على أنه موتر متفرِّق لأن كل مستخدم يشاهد جزءًا صغيرًا من كل الأفلام الممكنة. يتطابق الصف الأخير مع الموتد المتناثر [1، 3، 999999]، باستخدام فهارس الكلمات التي تظهر فوق رموز الأفلام.

وبالمثل، يمكن أن تمثّل كلمة واحدة جملًا ومستندات ومستندات متفرّقة حيث يؤدي كل كلمة في المصطلحات دورًا مشابهًا للأفلام في مثال الاقتراح.

من أجل استخدام هذه التمثيلات داخل نظام تعلُّم الآلة، نحتاج إلى طريقة لتمثيل كل متّجِه متفرِّق كمتّجه للأرقام، حتى يكون للعناصر المتشابهة دلاليًا (الأفلام أو الكلمات) مسافات مسافات متّجهة. كيف يجب تمثيل كلمة معيّنة كموجّه للأرقام؟

أبسط طريقة هي تحديد طبقة الإدخال العملاقة التي تشتمل على عُقدة لكل كلمة في مفرداتك أو عقدة على الأقل لكل كلمة تظهر في بياناتك. إذا ظهرت 500,000 كلمة فريدة في بياناتك، يمكنك تمثيل كلمة بطول 500,000 متّجه وإسناد كل كلمة إلى خانة في المتّجه.

في حال تحديد "quot;حصن" لفهرس 1247, ثم إغذاء "حصن" في شبكتك يمكنك نسخ 1 إلى عُقدة الإدخال 1247 و0s في جميع الباقي. ويُعرف هذا النوع من التمثيل باسم ترميز ساخن، لأن فهرسًا واحدًا فقط له قيمة غير صفرية.

وقد يتضمن المتّجه عادةً عدد الكلمات في جزء أكبر من النص. ويُعرف ذلك باسم "مجموعة الكلمات والعبارات". في متّجه مجموعة أكياس الكلمات، ستحتوي العديد من العُقَد التي يبلغ عددها 500,000 على قيمة غير صفرية.

ومع ذلك، تحدّد القيم غير الصفرية، لأنّ العقدة الواحدة تعطيك متّجهات إدخال منخفضة جدًا، وهي متّجهات كبيرة جدًا مع عدد قليل نسبيًا من القيم غير الصفرية. هناك بعض المشاكل في التمثيلات الصغيرة التي قد تجعل النموذج من الصعب على التعلّم بشكل فعّال.

حجم الشبكة

تشير متّجهات الإدخال الضخمة إلى عدد كبير جدًا من الأوزان للشبكة العصبية. في حال توفُّر كلمات M في مفرداتك وعُقد N في الطبقة الأولى من الشبكة فوق الإدخال، سيتوفّر لديك قيمة ترجيح MxN للتدريب على هذه الطبقة. يتسبب عدد كبير من الأوزان في حدوث المزيد من المشاكل:

  • مقدار البيانات. وكلما زاد الترجيح في النموذج، توفّرت كمية أكبر من البيانات اللازمة للتدريب بشكل فعّال.

  • مقدار الحوسبة. وكلما زاد الترجيح، زاد مستوى الاحتساب المطلوب لتدريب النموذج واستخدامه. من السهل تجاوز إمكانات أجهزتك.

نقص العلاقات الهادفة بين المتجهين

إذا كنت تقيّم قيم وحدات البكسل لقنوات RGB في أداة تصنيف الصور، من المنطقي أن تتناول قيم "close". يتألّف الأزرق المائل إلى الأزرق المائل إلى الأزرق الخالص، من حيث الدلالة ومن حيث المسافة الهندسية بين المتّجهين. ومع ذلك، فإنّ المتّجه الذي يحمل الرقم 1 في الفهرس 1247 مع &"حصن " ليس أقرب من المتّجه الذي يحمل الرقم 1 بفهرس 50,430 لـ"&antelope&quot والموجّه رقم 1 عند الفهرس 238 للدقّة والاقتباس.

الحل: التضمينات

ويتم حلّ هذه المشاكل من خلال تضمين التضمينات الذي يترجم المتّجهين الكبيرين إلى مساحة منخفضة الأبعاد تحافظ على العلاقات الدلالية. سنستكشف عمليات التضمين بشكل بديهي ومفهومي وبرمجةي في الأقسام التالية من هذه الوحدة.