قياس التشابه من التضمينات

لديك الآن نماذج مضمّنة لأي زوج من الأمثلة. يأخذ مقياس التشابه الخاضع للإشراف هذه البيانات المضمّنة ويعرض رقمًا يقيس تشابهها. تذكَّر أنّ البيانات المضمَّنة هي متجهات من الأرقام. للعثور على التشابه بين المتجهَين \(A = [a_1,a_2,...,a_n]\) و \(B = [b_1,b_2,...,b_n]\)، اختَر أحد مقاييس التشابه الثلاثة التالية:

القياس	المعنى	الصيغة	مع زيادة التشابه، يزداد هذا المقياس...
المسافة الإقليدية	المسافة بين طرفَي المتّجهات	\(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\)	انخفاض
جيب التمام	دالة الجيبّ المستوي للزاوية \(\theta\) بين المتّجهَين	\(\frac{a^T b}{\|a\| \cdot \|b\|}\)	الزيادة
الجداء النقطي	الجيبّوسينوس مضروبًا في طولَي كلا المتّجهَين	\(a_1b_1+a_2b_2+...+a_nb_n\) \(=\|a\|\|b\|cos(\theta)\)	الزيادة تزداد أيضًا مع طول المتجهات.

اختيار مقياس التشابه

على عكس الجيب الزائد، يكون ناتج الضرب النقطي تناسبيًا لطول المتجه. وهذا مهم لأنّ الأمثلة التي تظهر بشكل متكرّر في مجموعة التدريب (مثل فيديوهات YouTube الرائجة) غالبًا ما تحتوي على متجهات تضمين بطولٍ كبير. إذا أردت قياس مدى الرواج، اختَر المنتج النقطي. ومع ذلك، يُحتمل أن يؤدي استخدام مثالي البحث الرائجَين إلى تشويه مقياس التشابه. لموازنة هذا الانحراف، يمكنك رفع الطول إلى قوة \(\alpha\ < 1\) لاحتساب الجداء النقطي على النحو \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

لفهم كيفية تغيير طول المتجه لمقياس التشابه بشكل أفضل، يمكنك تسويته بحيث يصبح طول كل متجه يساوي 1، وستلاحظ أنّ المقاييس الثلاثة تصبح متناسبة مع بعضها.

الدليل: نسبة مقاييس التشابه

بعد تسويف a وb بحيث يكون \(||a||=1\) و \(||b||=1\)، تكون هذه المقاييس الثلاثة مرتبطة على النحو التالي:

المسافة الإقليدية = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
الجداء النقطي = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
جيب التمام = \(\cos(\theta_{ab})\).

وبالتالي، تكون جميع مقاييس التشابه الثلاثة متكافئة لأنّها تكون متناسبة مع \(cos(\theta_{ab})\).

مراجعة مقاييس التشابه

يقيس مقياس التشابه التشابه بين زوج من المثالين مقارنةً بأزواج أخرى من الأمثلة. في ما يلي مقارنة بين النوعَين، اليدوي والمُوجَّه:

النوع	كيفية الإنشاء	يناسب هذا الخيار:	الآثار
يدوي	دمج بيانات العناصر يدويًا	مجموعات بيانات صغيرة تتضمّن ميزات يمكن دمجها بسهولة	تقدّم إحصاءات عن نتائج عمليات احتساب التشابه. في حال تغيّرت بيانات العناصر، عليك تعديل مقياس التشابه يدويًا.
الأجهزة الخاضعة للإشراف	قياس المسافة بين النماذج المضمّنة التي تم إنشاؤها باستخدام شبكة عصبية اصطناعية مُراقَبة	مجموعات البيانات الكبيرة التي تحتوي على ميزات يصعب دمجها	لا تقدّم أي إحصاءات عن النتائج. ومع ذلك، يمكن لشبكة DNN التكيف تلقائيًا مع بيانات السمات المتغيّرة.

برامج الترميز التلقائي والمؤشرات والتضمينات

التحقّق من فهمك

قياس التشابه من التضمينات تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

اختيار مقياس التشابه

مراجعة مقاييس التشابه

قياس التشابه من التضمينات