مقياس التشابه اليدوي

وكما هو موضح، تعيّن الخوارزمية التصنيفية نقاطًا إلى أقرب نقطة مركزية لها. ولكن ما الذي "الأقرب" أعني؟

لتطبيق الخوارزمية التصنيفية على بيانات الخصائص، ستحتاج إلى تحديد مقياس الذي يجمع جميع بيانات الخصائص في قيمة رقمية واحدة، يُسمى مقياس التشابه اليدوي.

ضع في اعتبارك مجموعة بيانات الأحذية. إذا كانت مجموعة البيانات هذه تتضمن مقاس الحذاء كسمتها الوحيدة، يمكنك تحديد التشابه بين حذاءين من حيث الفرق بين أحجامها. كلما كان الفرق العددي بين الأحجام أصغر، زاد والتشابه بين الأحذية.

إذا كانت مجموعة بيانات الأحذية هذه تحتوي على سمتين رقميتين، هما الحجم والسعر، فيمكنك الجمع بين في رقم واحد يمثل التشابه. أولاً، قم بقياس البيانات بحيث كلا الميزتين قابلتين للمقارنة:

  • المقاس (s): غالبًا ما يشكل مقاس الحذاء توزيع غاوس. أكِّد هذا الإجراء. ثم قم بتسوية البيانات.
  • السعر (p): من المحتمل أن تكون البيانات توزيع بواسون. أكِّد هذا الإجراء. إذا كنت بيانات كافية، فقم بتحويل البيانات إلى أجزاء وقياسها إلى \([0,1]\).

بعد ذلك، ادمج الميزتين من خلال حساب جذر متوسط الخطأ التربيعي (RMSE). يُعطى هذا المقياس التقريبي للتشابه من خلال \(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\)

في ما يلي مثال بسيط، حساب التشابه لحذاءَين بمقاسات أمريكية 8 و11 والأسعار 120 و150. نظرًا لعدم وجود بيانات كافية لفهم التوزيع، سنقوم بقياس البيانات دون تسوية أو استخدام الأجزاء.

الإجراءالطريقة
تغيير الحجم لنفترض أنّ أقصى حجم ممكن للحذاء هو 20. اقسِم 8 و11 على. الحد الأقصى للحجم 20 للحصول على 0.4 و0.55.
توسيع نطاق السعر: اقسِم 120 و150 على الحد الأقصى للسعر 150 للحصول على 0.8 و1.
ابحث عن الفرق في الحجم. \(0.55 - 0.4 = 0.15\)
تعرف على فرق السعر. \(1 - 0.8 = 0.2\)
احسب متوسط الخطأ التربيعي المتوسط. \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

من البديهي أن يزداد مقياس التشابه عندما تكون بيانات الميزات أكثر مماثلة. بدلاً من ذلك، ينخفض مقياس التشابه (RMSE) بالفعل. تخصيص مقياس التماثل يتبعون حدسك بطرحه من 1.

\[\text{Similarity} = 1 - 0.17 = 0.83\]

بشكل عام، يمكنك إعداد البيانات الرقمية كما هو موضح في إعداد البيانات، ثم دمج البيانات باستخدام المسافة الإقليدية.

ماذا لو تضمنت مجموعة البيانات هذه كلاً من مقاس الحذاء ولون الحذاء؟ اللون هو البيانات الفئوية، سنناقشه في دورة مكثّفة عن تعلّم الآلة في استخدام البيانات الفئوية: من الصعب دمج البيانات الفئوية مع بيانات الحجم الرقمية. يمكن أن يكون:

  • أحادي القيمة (غير التكافؤ)، مثل لون السيارة ("أبيض" أو "أزرق" ولكن ليس مطلقًا كليهما)
  • متعدد القيم (متعدد التكافؤ)، مثل نوع الفيلم (يمكن أن يكون الفيلم معًا "إجراء" و"الكوميديا" أو "الإجراء") فقط

فإذا تطابقت البيانات غير التكافؤ، على سبيل المثال في حالة زوجين من الأحذية الزرقاء، التشابه بين الأمثلة هو 1. وبخلاف ذلك، يكون التشابه 0.

يصعب التعامل مع البيانات متعددة التكافؤ، مثل أنواع الأفلام. إذا كانت هناك مجموعة ثابتة من أنواع الأفلام، فيمكن حساب التشابه باستخدام نسبة القيم المشتركة، تسمى تشابه جاكار: مثال حسابات تشابه جاكار:

  • ["كوميديا""،"إجراء"] و["كوميدي"،"إجراء"] = 1
  • ["كوميديا""] و["حركة"] = 1⁄2
  • ["كوميديا""،" حركة"] و["حركة"، "دراما"] = 1⁄3
  • ["كوميديا""، حركة"] و["غير خيالية"،"سيرة ذاتية"] = 0

إن تشابه جاكار ليس مقياس التشابه اليدوي الوحيد المحتمل البيانات الفئوية. في ما يلي مثالان آخران:

  • يمكن تحويل الرموز البريدية إلى خطوط الطول والعرض قبل حساب المسافة الإقليدية بينهما.
  • يمكن تحويل اللون إلى قيم نموذج أحمر أخضر أزرق رقمية، مع وجود اختلافات في القيم مجتمعة في المسافة الإقليدية.

راجِع استخدام البيانات الفئوية. لمعرفة المزيد.

وبشكلٍ عام، يجب أن يتوافق مقياس التشابه اليدوي بشكل مباشر مع التشابه الفعلي. إذا لم يتم ترميز المقياس الذي اخترته، فهو لا يعمل على ترميز المعلومات التي تريد ترميزها.

قم بمعالجة بياناتك مسبقًا بعناية قبل حساب مقياس التشابه. تشير رسالة الأشكال البيانية تبسيط الأمثلة الموجودة في هذه الصفحة. معظم مجموعات البيانات في العالم الحقيقي كبيرة ومعقدة. كما ذكرنا سابقًا، تعد الكميات خيارًا افتراضيًا جيدًا لمعالجة البيانات الرقمية.

مع زيادة تعقيد البيانات، يصبح من الصعب إنشاء دليل مقياس التماثل. في هذه الحالة، قم بالتبديل إلى مقياس التشابه الخاضع للإشراف، والذي يستخدم فيه جهاز خاضع للإشراف نموذج التعلم وحساب التشابه. سنناقش ذلك بمزيد من التفصيل لاحقًا.