مثال على إنشاء عمليات تضمين

يعرض هذا المثال كيفية إنشاء عمليات التضمين المُستخدمة في مقياس تشابه خاضع للإشراف.

لنفترض أنّك تستخدم مجموعة بيانات الإسكان نفسها التي استخدمتها عند إنشاء مقياس التشابه اليدوي:

الميزةالنوع
السعرعدد صحيح موجب
حجم الملف قيمة النقطة العائمة الموجبة بوحدات الأمتار المربّعة
رمز بريديعدد صحيح
عدد غرف النومعدد صحيح
نوع المنزلقيمة نصية من "single_family" و"متعددة العائلة" و"شقة" و"شقة"
مرآب0/1 لـ/لا
الألوانتصنيف متعدد الفئات: قيمة واحدة أو أكثر من الألوان العادية "أبيض" و"أصفر" و"أخضر"، وما إلى ذلك.

معالجة البيانات مسبقًا

قبل استخدام بيانات الميزات كإدخال، يجب معالجة البيانات مسبقًا. تستند خطوات المعالجة المسبقة إلى الخطوات التي اتخذتها عند إنشاء مقياس تشابه يدوي. إليك موجز بأهم التفاصيل:

الميزةالنوع أو التوزيعالإجراء
السعرتوزيع بواسون احسب الحجم ووسِّع الحجم إلى [0,1].
حجم الملفتوزيع بواسون احسب الحجم ووسِّع الحجم إلى [0,1].
رمز بريديقاطع قم بتحويله إلى خط الطول وخط العرض، واحسب الحجم وانقله إلى [0,1].
عدد غرف النومعدد صحيح اشتقّ من المقاطع الخارجية إلى [0,1].
نوع المنزلقاطع التحويل إلى ترميز نقطة واحدة..
مرآب0 أو 1 يُترك كما هو.
الألوانقاطع التحويل إلى قيم RGB ومعالجتها كبيانات رقمية.

للحصول على مزيد من المعلومات حول ترميز نقطة واحدة، يمكنك الاطّلاع على التضمينات: بيانات الإدخال الفئوية.

اختيار أداة التوقّع أو برنامج الترميز التلقائي

لإنشاء عمليات تضمين، يمكنك اختيار برنامج ترميز تلقائي أو أداة اقتراح. تذكَّر أنّ خيارك التلقائي هو برنامج ترميز تلقائي. يمكنك اختيار أداة استجابة بدلاً منها إذا كانت ميزات معيّنة في مجموعة البيانات تحدّد التشابه. ولتكون كاملة، لنلقِ نظرة على كلتا الحالتين.

تدريب المتنبّه

وعليك اختيار هذه الميزات كتصنيفات تدريبية لرقم DNN الذي يكون مهمًا في تحديد التشابه بين الأمثلة. لنفترض أن السعر هو الأكثر أهمية في تحديد التشابه بين المنازل.

اختَر السعر على أنه تصنيف التدريب، ثم أزِله من بيانات ميزات الإدخال إلى رقم DNN. يمكنك تدريب DNN باستخدام جميع الميزات الأخرى كبيانات إدخال. بالنسبة إلى التدريب، تكون وظيفة الخسارة هي ببساطة MSE بين السعر المتوقع والفعلي. لمعرفة كيفية تدريب DNN، يُرجى الاطّلاع على تدريب الشبكات العصبية.

تدريب برنامج ترميز تلقائي

يمكنك تدريب برنامج ترميز تلقائي على مجموعة البيانات باتّباع الخطوات التالية:

  1. تأكّد من أن الطبقات المخفية لبرنامج الترميز التلقائي أصغر من طبقات الإدخال والإخراج.
  2. احتسِب الخسارة لكل نتيجة على النحو الموضّح في مقياس التشابه الخاضع للإشراف.
  3. أنشئ دالة الخسارة عن طريق جمع الخسائر لكل مخرجات. تأكَّد من أنك تريد تقليل وزن كل ميزة على حدة. على سبيل المثال، بسبب معالجة بيانات الألوان إلى نموذج أحمر أخضر أزرق، يُرجى قياس كل من مخرجات نموذج أحمر أخضر أزرق (RGB) بنسبة 1/3.
  4. تدريب على DNN

استخراج التضمينات من DNN

بعد تدريب DNN، سواء كان جهاز التنبؤ أو برنامج الترميز التلقائي، استخرِج عملية التضمين لمثال من رقم DNN. استخرِج عملية التضمين باستخدام بيانات الميزة الخاصة بالمثال كإدخال، واقرأ مخرجات الطبقة المخفية النهائية. وتُخرج هذه النتائج متّجه التضمين. تذكّر أنّ المتّجهَين للمنازل المشابهة يجب أن يكونا أقرب من المتّجهين للمنازل المختلفة.

بعد ذلك، سنتعرّف على كيفية قياس مدى التشابه مع أزواج الأمثلة باستخدام المتّجهات المضمّنة الخاصة بها.