قياس التشابه من التضمينات

لديك الآن تضمينات لأي زوج من الأمثلة. تشابه خاضع للإشراف على أخذ هذه التضمينات وإرجاع عدد يقيس التشابه بينها. تذكر أن التضمينات هي متجهات الأرقام. لإيجاد التشابه بين خطين متجهين \(A = [a_1,a_2,...,a_n]\) و \(B = [b_1,b_2,...,b_n]\)، اختر أحد مقاييس التشابه الثلاثة هذه:

القياسالمعنىالصيغة وكلما ازداد التشابه،...
المسافة الإقليديةالمسافة بين طرفي المتجهات \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) انخفاض
جيب التمامجيب التمام \(\theta\) بين المتّجهات \(\frac{a^T b}{|a| \cdot |b|}\) الإضافات
الجداء النقطيجيب التمام مضروبًا في أطوال كلا الخطين المتجهين \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) الإضافات. ويزيد أيضًا طول المتجهات.

اختيار مقياس التشابه

وعلى عكس جيب التمام، يتناسب ناتج الضرب النقطي مع طول الخط المتجه. هذا مهم لأنّ الأمثلة التي تظهر بشكل متكرر جدًا في التدريب (على سبيل المثال، مقاطع فيديو YouTube الشائعة) تميل إلى تضمين متجهات مع بأطوال كبيرة. إذا كنت للحصول على مدى الرواج، ثم اختَر المنتج النقطي. ومع ذلك، فإن الخطر يكمن في وقد تؤدي الأمثلة الشائعة إلى تحريف مقياس التشابه. لموازنة هذا الانحراف، يمكنك ارفع الطول إلى أُس \(\alpha\ < 1\) لحساب ناتج الضرب النقطي باسم \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)

ولفهم كيفية تغيير طول الخط المتجه في مقياس التشابه، قم بوضع أطوال الخط المتجه إلى 1 ولاحظ أن المقاييس الثلاثة تصبح متناسبة لبعضنا البعض.

الإثبات: التناسب بين مقاييس التشابه
بعد تسوية a وb بحيث يكون \(||a||=1\) و \(||b||=1\)، هذه المقاييس الثلاثة مرتبطة ببعضها البعض على النحو التالي:
  • المسافة الإقليدية = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • الناتج النقطي = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • جيب التمام = \(\cos(\theta_{ab})\).
وبالتالي، تكون مقاييس التشابه الثلاثة متساوية لأنها يتناسب مع \(cos(\theta_{ab})\).

مراجعة مقاييس التشابه

يحدد مقياس التشابه التشابه بين زوج من مقارنة بأزواج أخرى من الأمثلة. يُطلق على النوعين، اليدوية تحت الإشراف، تتم مقارنةهم أدناه:

النوعكيفية الإنشاءأفضل معالآثار
يدويدمج بيانات الميزات يدويًا مجموعات البيانات الصغيرة ذات الميزات التي يسهل دمجها. يقدم نظرة ثاقبة على نتائج حسابات التشابه. إذا كانت الميزة البيانات، فيجب تحديث مقياس التشابه يدويًا.
الأجهزة الخاضعة للإشرافقياس المسافة بين التضمينات التي تم إنشاؤها بواسطة رقم DNN خاضع للإشراف مجموعات بيانات كبيرة ذات ميزات يصعب دمجها. لا يقدّم أي إحصاءات حول النتائج. ومع ذلك، يمكن أن يتكيّف DNN تلقائيًا إلى تغيير بيانات الخصائص.