يعرض هذا المثال كيفية إنشاء عمليات التضمين المُستخدمة في مقياس تشابه خاضع للإشراف.
لنفترض أنّك تستخدم مجموعة بيانات الإسكان نفسها التي استخدمتها عند إنشاء مقياس التشابه اليدوي:
الميزة | النوع |
---|---|
السعر | عدد صحيح موجب |
حجم الملف | قيمة النقطة العائمة الموجبة بوحدات الأمتار المربّعة |
رمز بريدي | عدد صحيح |
عدد غرف النوم | عدد صحيح |
نوع المنزل | قيمة نصية من "single_family" و"متعددة العائلة" و"شقة" و"شقة" |
مرآب | 0/1 لـ/لا |
الألوان | تصنيف متعدد الفئات: قيمة واحدة أو أكثر من الألوان العادية "أبيض" و"أصفر" و"أخضر"، وما إلى ذلك. |
معالجة البيانات مسبقًا
قبل استخدام بيانات الميزات كإدخال، يجب معالجة البيانات مسبقًا. تستند خطوات المعالجة المسبقة إلى الخطوات التي اتخذتها عند إنشاء مقياس تشابه يدوي. إليك موجز بأهم التفاصيل:
الميزة | النوع أو التوزيع | الإجراء |
---|---|---|
السعر | توزيع بواسون | احسب الحجم ووسِّع الحجم إلى [0,1]. |
حجم الملف | توزيع بواسون | احسب الحجم ووسِّع الحجم إلى [0,1]. |
رمز بريدي | قاطع | قم بتحويله إلى خط الطول وخط العرض، واحسب الحجم وانقله إلى [0,1]. |
عدد غرف النوم | عدد صحيح | اشتقّ من المقاطع الخارجية إلى [0,1]. |
نوع المنزل | قاطع | التحويل إلى ترميز نقطة واحدة.. |
مرآب | 0 أو 1 | يُترك كما هو. |
الألوان | قاطع | التحويل إلى قيم RGB ومعالجتها كبيانات رقمية. |
للحصول على مزيد من المعلومات حول ترميز نقطة واحدة، يمكنك الاطّلاع على التضمينات: بيانات الإدخال الفئوية.
اختيار أداة التوقّع أو برنامج الترميز التلقائي
لإنشاء عمليات تضمين، يمكنك اختيار برنامج ترميز تلقائي أو أداة اقتراح. تذكَّر أنّ خيارك التلقائي هو برنامج ترميز تلقائي. يمكنك اختيار أداة استجابة بدلاً منها إذا كانت ميزات معيّنة في مجموعة البيانات تحدّد التشابه. ولتكون كاملة، لنلقِ نظرة على كلتا الحالتين.
تدريب المتنبّه
وعليك اختيار هذه الميزات كتصنيفات تدريبية لرقم DNN الذي يكون مهمًا في تحديد التشابه بين الأمثلة. لنفترض أن السعر هو الأكثر أهمية في تحديد التشابه بين المنازل.
اختَر السعر على أنه تصنيف التدريب، ثم أزِله من بيانات ميزات الإدخال إلى رقم DNN. يمكنك تدريب DNN باستخدام جميع الميزات الأخرى كبيانات إدخال. بالنسبة إلى التدريب، تكون وظيفة الخسارة هي ببساطة MSE بين السعر المتوقع والفعلي. لمعرفة كيفية تدريب DNN، يُرجى الاطّلاع على تدريب الشبكات العصبية.
تدريب برنامج ترميز تلقائي
يمكنك تدريب برنامج ترميز تلقائي على مجموعة البيانات باتّباع الخطوات التالية:
- تأكّد من أن الطبقات المخفية لبرنامج الترميز التلقائي أصغر من طبقات الإدخال والإخراج.
- احتسِب الخسارة لكل نتيجة على النحو الموضّح في مقياس التشابه الخاضع للإشراف.
- أنشئ دالة الخسارة عن طريق جمع الخسائر لكل مخرجات. تأكَّد من أنك تريد تقليل وزن كل ميزة على حدة. على سبيل المثال، بسبب معالجة بيانات الألوان إلى نموذج أحمر أخضر أزرق، يُرجى قياس كل من مخرجات نموذج أحمر أخضر أزرق (RGB) بنسبة 1/3.
- تدريب على DNN
استخراج التضمينات من DNN
بعد تدريب DNN، سواء كان جهاز التنبؤ أو برنامج الترميز التلقائي، استخرِج عملية التضمين لمثال من رقم DNN. استخرِج عملية التضمين باستخدام بيانات الميزة الخاصة بالمثال كإدخال، واقرأ مخرجات الطبقة المخفية النهائية. وتُخرج هذه النتائج متّجه التضمين. تذكّر أنّ المتّجهَين للمنازل المشابهة يجب أن يكونا أقرب من المتّجهين للمنازل المختلفة.
بعد ذلك، سنتعرّف على كيفية قياس مدى التشابه مع أزواج الأمثلة باستخدام المتّجهات المضمّنة الخاصة بها.