قياس التشابه من التضمينات

لديك الآن نماذج مضمّنة لأي زوج من الأمثلة. يأخذ مقياس التشابه الخاضع للإشراف هذه البيانات المضمّنة ويعرض رقمًا يقيس تشابهها. تذكَّر أنّ البيانات المضمَّنة هي متجهات من الأرقام. للعثور على التشابه بين المتجهَين A=[a1,a2,...,an] و B=[b1,b2,...,bn]، اختَر أحد مقاييس التشابه الثلاثة التالية:

القياسالمعنىالصيغة مع زيادة التشابه، يزداد هذا المقياس...
المسافة الإقليديةالمسافة بين طرفَي المتّجهات (a1b1)2+(a2b2)2+...+(aNbN)2 انخفاض
جيب التمامدالة الجيبّ المستوي للزاوية θ بين المتّجهَين aTb|a||b| الزيادة
الجداء النقطيالجيبّوسينوس مضروبًا في طولَي كلا المتّجهَين a1b1+a2b2+...+anbn =|a||b|cos(θ) الزيادة تزداد أيضًا مع طول المتجهات.

اختيار مقياس التشابه

على عكس الجيب الزائد، يكون ناتج الضرب النقطي تناسبيًا لطول المتجه. وهذا مهم لأنّ الأمثلة التي تظهر بشكل متكرّر في مجموعة التدريب (مثل فيديوهات YouTube الرائجة) غالبًا ما تحتوي على متجهات تضمين بطولٍ كبير. إذا أردت قياس مدى الرواج، اختَر المنتج النقطي. ومع ذلك، يُحتمل أن يؤدي استخدام مثالي البحث الرائجَين إلى تشويه مقياس التشابه. لموازنة هذا الانحراف، يمكنك رفع الطول إلى قوة α <1 لاحتساب الجداء النقطي على النحو |a|α|b|αcos(θ).

لفهم كيفية تغيير طول المتجه لمقياس التشابه بشكل أفضل، يمكنك تسويته بحيث يصبح طول كل متجه يساوي 1، وستلاحظ أنّ المقاييس الثلاثة تصبح متناسبة مع بعضها.

الدليل: نسبة مقاييس التشابه
بعد تسويف a وb بحيث يكون ||a||=1 و ||b||=1، تكون هذه المقاييس الثلاثة مرتبطة على النحو التالي:
  • المسافة الإقليدية = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • الجداء النقطي = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • جيب التمام = cos(θab).
وبالتالي، تكون جميع مقاييس التشابه الثلاثة متكافئة لأنّها تكون متناسبة مع cos(θab).

مراجعة مقاييس التشابه

يقيس مقياس التشابه التشابه بين زوج من المثالين مقارنةً بأزواج أخرى من الأمثلة. في ما يلي مقارنة بين النوعَين، اليدوي والمُوجَّه:

النوعكيفية الإنشاءيناسب هذا الخيار:الآثار
يدويدمج بيانات العناصر يدويًا مجموعات بيانات صغيرة تتضمّن ميزات يمكن دمجها بسهولة تقدّم إحصاءات عن نتائج عمليات احتساب التشابه. في حال تغيّرت بيانات العناصر، عليك تعديل مقياس التشابه يدويًا.
الأجهزة الخاضعة للإشرافقياس المسافة بين النماذج المضمّنة التي تم إنشاؤها باستخدام شبكة عصبية اصطناعية مُراقَبة مجموعات البيانات الكبيرة التي تحتوي على ميزات يصعب دمجها لا تقدّم أي إحصاءات عن النتائج. ومع ذلك، يمكن لشبكة DNN التكيف تلقائيًا مع بيانات السمات المتغيّرة.