كما هو موضّح للتو، تُحدِّد الخوارزمية التصنيفية النقاط إلى أقرب نقطة مركزية لها. ولكن ماذا يعني "أقرب"؟
لتطبيق طريقة "متوسطة عدد النقاط" على بيانات العناصر، عليك تحديد مقياس تشابه يجمع جميع بيانات العناصر في قيمة رقمية واحدة، ويُعرَف باسم مقياس التشابه اليدوي.
لنفترض أنّ لدينا مجموعة بيانات أحذية. إذا كانت مجموعة البيانات هذه تتضمّن مقاس الحذاء كسمّة وحيدة، يمكنك تحديد تشابه حذائين من حيث الفرق بين مقاساتهما. كلما قلّ الفرق العددي بين المقاسات، زاد التشابه بين الأحذية.
إذا كانت مجموعة بيانات الأحذية هذه تتضمّن سمتَين رقميتَين، هما المقاس والسعر، يمكنك دمجهما في رقم واحد يمثّل التشابه. أولاً، وسِّع نطاق البيانات لكي تتمكّن من مقارنة سمتَين:
- المقاس: من المرجّح أن يشكّل مقاس الحذاء توزيعًا غاوسيًا. يُرجى تأكيد ذلك. بعد ذلك، عليك توحيد البيانات.
- السعر (p): من المحتمل أن تكون البيانات توزيعًا ببواسون. يُرجى تأكيد ذلك. إذا كان لديك بيانات كافية، يمكنك تحويل البيانات إلى شرائح كمية وتغيير مقياسها إلى .
بعد ذلك، يمكنك دمج السمتَين من خلال احتساب جذر متوسط الخطأ التربيعي (RMSE). يتم الحصول على هذا المقياس التقريبي للتشابه من خلال .
في ما يلي مثال بسيط على احتساب التشابه بين حذائين بمقاسات أمريكية هي 8 و11 وبسعرَين هما 120 و150. بما أنّنا لا نملك بيانات كافية لفهم التوزيع، سنوسّع نطاق البيانات بدون تسويتها أو استخدام النسب المئوية.
الإجراء | الطريقة |
---|---|
وسِّع الحجم. | لنفترض أنّ الحدّ الأقصى لحجم الحذاء هو 20. اقسم 8 و11 على الحد الأقصى للحجم 20 للحصول على 0.4 و0.55. |
اضبط السعر. | اقسم 120 و150 على الحد الأقصى للسعر 150 للحصول على 0.8 و1. |
ابحث عن الفرق في الحجم. | |
ابحث عن الفرق في السعر. | |
احتسِب RMSE. |
من المفترض أن يزداد مقياس التشابه بشكلٍ حدسي عندما تكون بيانات العناصر أكثر تشابهًا. بدلاً من ذلك، ينخفض مقياس التشابه (RMSE). اجعل قياس التشابه يتّبع حدسك من خلال طرحه من 1.
بشكل عام، يمكنك إعداد البيانات الرقمية كما هو موضّح في إعداد البيانات، ثم دمج البيانات باستخدام المسافة الإقليدية.
ماذا لو كانت مجموعة البيانات هذه تتضمّن مقاس الحذاء ولونه؟ اللون هو بيانات تصنيفية، تمّت مناقشته في الدورة التدريبية المكثّفة حول تعلُّم الآلة في العمل مع البيانات التصنيفية. من الصعب دمج البيانات الفئوية مع بيانات الحجم الرقمي. يمكن أن يكون:
- ذات قيمة واحدة (أحادية القيمة)، مثل لون السيارة ("أبيض" أو "أزرق" ولكن ليس كلاهما)
- القيم المتعدّدة (المتعدّدة القيمة)، مثل نوع الفيلم (يمكن أن يكون الفيلم من النوعين "حركة" و"كوميديا" أو "حركة" فقط)
إذا تطابقت البيانات الأحادية القيمة، على سبيل المثال في حال تطابق زوجَين من الأحذية الزرقاء، يكون التشابه بين المثالَين هو 1. بخلاف ذلك، يكون التشابه 0.
إنّ البيانات المتعدّدة القيم، مثل أنواع الأفلام، يصعب التعامل معها. إذا كانت هناك مجموعة ثابتة من أنواع الأفلام، يمكن احتساب التشابه باستخدام نسبة القيم الشائعة، والتي تُعرف باسم تشابه جاكارد. مثال على حساب تقاسيم Jaccard:
- [“comedy”,”action”] and [“comedy”,”action”] = 1
- [“comedy”,”action”] و[“action”] = ½
- [“comedy”,”action”] and [“action”, "drama"] = ⅓
- [“comedy”,”action”] and [“non-fiction”,”biographical”] = 0
لا يُعدّ تشابه Jaccard هو مقياس التشابه اليدوي الوحيد المُحتمَل للبيانات الفئوية. مثالان آخران:
- يمكن تحويل الرموز البريدية إلى خطوط الطول والعرض قبل حساب المسافة الإقليدية بينهما.
- يمكن تحويل اللون إلى قيم رقمية لنموذج RGB، مع دمج الاختلافات في القيم في المسافة الإقليدية.
اطّلِع على العمل مع البيانات الفئوية لمزيد من المعلومات.
بشكل عام، يجب أن يتطابق مقياس التشابه اليدوي مباشرةً مع التشابه الفعلي. وإذا لم يكن المقياس الذي اخترته يفعل ذلك، يعني ذلك أنّه لا يُشفّر المعلومات التي تريد تشفيرها.
يجب معالجة بياناتك مسبقًا بعناية قبل احتساب مقياس التشابه. المثالان المعروضان في هذه الصفحة مبسّطان. معظم مجموعات البيانات الواقعية كبيرة ومعقدة. كما ذكرنا سابقًا، فإنّ الشرائح المئوية هي خيار تلقائي جيد لمعالجة البيانات الرقمية.
مع زيادة تعقيد البيانات، يصبح من الصعب إنشاء قياس يدوي للتشابه. في هذه الحالة، يمكنك التبديل إلى مقياس التشابه الخاضع للإشراف، حيث يحسب نموذج التعلم الآلي الخاضع للإشراف التشابه. وسنناقش ذلك بالتفصيل لاحقًا.