لديك الآن تضمينات لأي زوج من الأمثلة. تشابه خاضع للإشراف على أخذ هذه التضمينات وإرجاع عدد يقيس التشابه بينها. تذكر أن التضمينات هي متجهات الأرقام. لإيجاد التشابه بين خطين متجهين \(A = [a_1,a_2,...,a_n]\) و \(B = [b_1,b_2,...,b_n]\)، اختر أحد مقاييس التشابه الثلاثة هذه:
القياس | المعنى | الصيغة | وكلما ازداد التشابه،... |
---|---|---|---|
المسافة الإقليدية | المسافة بين طرفي المتجهات | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | انخفاض |
جيب التمام | جيب التمام \(\theta\) بين المتّجهات | \(\frac{a^T b}{|a| \cdot |b|}\) | الإضافات |
الجداء النقطي | جيب التمام مضروبًا في أطوال كلا الخطين المتجهين | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | الإضافات. ويزيد أيضًا طول المتجهات. |
اختيار مقياس التشابه
وعلى عكس جيب التمام، يتناسب ناتج الضرب النقطي مع طول الخط المتجه. هذا مهم لأنّ الأمثلة التي تظهر بشكل متكرر جدًا في التدريب (على سبيل المثال، مقاطع فيديو YouTube الشائعة) تميل إلى تضمين متجهات مع بأطوال كبيرة. إذا كنت للحصول على مدى الرواج، ثم اختَر المنتج النقطي. ومع ذلك، فإن الخطر يكمن في وقد تؤدي الأمثلة الشائعة إلى تحريف مقياس التشابه. لموازنة هذا الانحراف، يمكنك ارفع الطول إلى أُس \(\alpha\ < 1\) لحساب ناتج الضرب النقطي باسم \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)
ولفهم كيفية تغيير طول الخط المتجه في مقياس التشابه، قم بوضع أطوال الخط المتجه إلى 1 ولاحظ أن المقاييس الثلاثة تصبح متناسبة لبعضنا البعض.
- المسافة الإقليدية = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- الناتج النقطي = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- جيب التمام = \(\cos(\theta_{ab})\).
مراجعة مقاييس التشابه
يحدد مقياس التشابه التشابه بين زوج من مقارنة بأزواج أخرى من الأمثلة. يُطلق على النوعين، اليدوية تحت الإشراف، تتم مقارنةهم أدناه:
النوع | كيفية الإنشاء | أفضل مع | الآثار |
---|---|---|---|
يدوي | دمج بيانات الميزات يدويًا | مجموعات البيانات الصغيرة ذات الميزات التي يسهل دمجها. | يقدم نظرة ثاقبة على نتائج حسابات التشابه. إذا كانت الميزة البيانات، فيجب تحديث مقياس التشابه يدويًا. |
الأجهزة الخاضعة للإشراف | قياس المسافة بين التضمينات التي تم إنشاؤها بواسطة رقم DNN خاضع للإشراف | مجموعات بيانات كبيرة ذات ميزات يصعب دمجها. | لا يقدّم أي إحصاءات حول النتائج. ومع ذلك، يمكن أن يتكيّف DNN تلقائيًا إلى تغيير بيانات الخصائص. |