مقياس التشابه الخاضع للإشراف

بدلاً من مقارنة بيانات الميزات التي تم دمجها يدويًا، يمكنك تقليل الميزة البيانات إلى التمثيلات التي تسمى التضمين، ثم قارن التضمينات. يتم إنشاء التضمينات عن طريق تدريب قسم عصبي عميق خاضع للإشراف الشبكة (DNN) على الميزة البيانات نفسها. تقوم التضمينات بتعيين بيانات الميزة إلى متجه في تضمين مساحة ذات أبعاد أقل عادةً من بيانات الميزة. التضمينات هي الذي تمت مناقشته في قسم تضمينات دورة مكثّفة عن التعلم الآلي، في حين تتم مناقشة الشبكات العصبية في الشبكات العصبية واحدة. تضمين متجهات لأمثلة مماثلة، مثل مقاطع فيديو YouTube على المواضيع المتشابهة التي شاهدها نفس المستخدم، حتى ينتهي بها الأمر على نحو قريب في تضمين مساحة. مقياس التشابه الخاضع للإشراف يستخدم "القرب" هذا لتقدير التشابه بين أزواج الأمثلة.

يُرجى العلم أنّنا نناقش التعلّم المُوجّه فقط بهدف تحقيق التشابه بيننا. قياسها. ويتم بعد ذلك استخدام مقياس التشابه، سواء كان يدويًا أو خاضعًا للإشراف، خوارزمية لإجراء التجميع العنقودي غير المُوجّه.

مقارنة بين الإجراءات اليدوية والإجراءات الخاضعة للإشراف

يصف هذا الجدول حالات استخدام تشابه يدوي أو خاضع للإشراف قياسها بناءً على متطلباتك.

المطلوب للحصول على الشارةيدويالأجهزة الخاضعة للإشراف
إزالة المعلومات المتكررة في الميزات المرتبطة؟ لا، يجب التحقق من أي ارتباطات بين الميزات. نعم، تزيل DNN المعلومات المكررة.
هل تقدم إحصاءات عن أوجه التشابه المحسوبة؟ نعم لا، لا يمكن فك تشفير التضمينات.
هل تُعد مناسبة لمجموعات البيانات الصغيرة ذات الميزات القليلة؟ نعم. لا، مجموعات البيانات الصغيرة لا توفر بيانات تدريب كافية لرقم DNN.
هل تُناسب مجموعات البيانات الكبيرة التي تتضمن العديد من الميزات؟ لا، إزالة المعلومات المكررة يدويًا من الميزات المتعددة ومن ثم يكون من الصعب جدًا الجمع بينهما. نعم، يزيل DNN تلقائيًا المعلومات المتكررة تجمع بين الميزات.

إنشاء مقياس تشابه خاضع للإشراف

في ما يلي نظرة عامة على عملية إنشاء مقياس تشابه خاضع للإشراف:

إدخال بيانات ميزة اختَر DNN: برنامج الترميز التلقائي أو أداة التنبؤ.
      استخراج التضمينات. اختيار القياس: حاصل الضرب النقطي أو جيب التمام أو
      المسافة الإقليدية.
الشكل 1: خطوات إنشاء تشابه خاضع للإشراف قياسها.

تناقش هذه الصفحة DNN، بينما الصفحات التالية تغطي الخطوات المتبقية.

اختيار اسم النطاق (DNN) استنادًا إلى تصنيفات التدريب

يمكنك تقليل بيانات الميزات إلى تضمينات أقل الأبعاد من خلال تدريب DNN على مختلف بيانات الميزة نفسها كإدخال وتسميات. على سبيل المثال، في حالة بيانات المنزل، فإن DNN سيستخدم الميزات - مثل السعر والحجم الرمز البريدي - للتنبؤ بهذه العناصر نفسها.

برنامج ترميز تلقائي

هو اسم DNN يمكنه التعرّف على تضمينات بيانات المدخلات من خلال توقُّع بيانات الإدخال نفسها. يسمى برنامج الترميز التلقائي. لأنّ الطبقات المخفية في برنامج الترميز التلقائي تكون أصغر مقارنة بين طبقات الإدخال والإخراج، يُجبر برنامج التشفير الآلي على التعرف المضغوط لبيانات ميزة الإدخال. بمجرد تدريب DNN، واستخراج التضمينات من أصغر طبقة مخفية لحساب التشابه.

شكل يوضح عددًا كبيرًا من العُقد للمكان المتطابق
       بيانات المدخلات والمخرجات، والتي يتم ضغطها إلى ثلاث عقد في المنتصف.
       من خمس طبقات مخفية.
الشكل 2: بنية برنامج الترميز التلقائي

المتنبئ

إنّ برنامج الترميز التلقائي هو أبسط خيار لإنشاء تضمينات. ومع ذلك، برنامج الترميز التلقائي ليس الخيار الأمثل عندما تكون هناك ميزات معينة مهمًا عن غيرها في تحديد التشابه. على سبيل المثال، البيانات الداخلية، لنفترض أن السعر أكثر أهمية من الرمز البريدي. في هذه الحالات، استخدم الميزة المهمة فقط مثل تسمية التطبيق للاسم المميز (DNN). بما أنّ DNN هذا تتنبأ بميزة إدخال معينة بدلاً من التنبؤ بجميع خصائص الإدخال، اسم التوقّع DNN. يجب عادةً استخراج التضمينات من طبقة التضمين الأخيرة.

شكل يوضح العدد الكبير من العقد في متجه الإدخال
       يتم تخفيضها على ثلاث طبقات مخفية إلى طبقة ثلاثية الأبعاد يمكنك منها
       التضمينات. طبقة الإخراج الأخيرة هي التنبؤ
       التصنيف.
الشكل 3: بنية أداة التوقّعات

عند اختيار عنصر ليكون التصنيف:

  • تفضيل العددية إلى الخصائص الفئوية لأن الخسارة أسهل في الحساب والتفسير للميزات الرقمية.

  • إزالة الميزة التي تستخدمها كتصنيف من الإدخال إلى اسم النطاق (DNN) وإلا سيستخدم DNN هذه الميزة للتنبؤ بالناتج بشكل مثالي. (هذه وهذا مثالٌ كبيرٌ على تسرُّب التصنيفات).

اعتمادًا على اختيارك للتصنيفات، يكون اسم النطاق (DNN) الناتج إما برنامج ترميز أو أداة تنبؤ.