لنبدأ بإلقاء نظرة سريعة على فكرة رئيسية من الدورة التدريبية لتعلّم الآلة. انظر إلى التوزيع في الرسم البياني أدناه.
الشكل 1: أسعار المنازل مقابل خطوط العرض.
بالنسبة إلى السؤال التالي، انقر على السهم المطلوب للاطّلاع على إجابتك:
في حالات مثل مثال لخط العرض، تحتاج إلى تقسيم خطوط العرض إلى مجموعات بيانات لمعرفة المزيد عن قيم الإسكان لكل مجموعة. يُطلق على هذه الميزات التحويل الرقمي للميزات إلى فئات تصنيفية، باستخدام مجموعة من الحدود، مجموعة البيانات (أو تجميع البيانات). في هذا المثال للمجموعة، يتم الفصل بين الحدود بالتساوي.
الشكل 2: أسعار المنازل مقابل خط العرض، مقسّمة الآن إلى مجموعات بيانات.
حزمة الكمية
لنستعرض مجموعة بيانات أسعار السيارات مع إضافة حِزم. باستخدام ميزة واحدة لكل مجموعة، يستخدم النموذج أكبر قدر من السعة لمثال واحد في النطاق >45000 كما هو الحال مع جميع الأمثلة في النطاق 5000-10000. يبدو هذا مُهدرًا. كيف يمكننا تحسين هذا الموقف؟
الشكل 3: عدد السيارات التي يتم بيعها بأسعار مختلفة.
تكمن المشكلة في أنّ حِزم البيانات المتباعدة بشكل متساوٍ لا تلتقط هذا التوزيع بشكلٍ جيد. يتمثّل الحل في إنشاء حِزم تحتوي كل منها على العدد نفسه من النقاط. تُعرَف هذه التقنية باسم التجميع الربعي. على سبيل المثال، يقسّم الشكل التالي أسعار السيارات إلى حِزم. للحصول على العدد نفسه من الأمثلة في كلّ مجموعة، تتضمّن بعض الحِزم نطاقًا زمنيًا ضيقًا للسعر في حين أنّ باقي الحِزم تشمل نطاق سعر واسعًا جدًا.
الشكل 4: يمنح كل من الشريحة الربعية كل مجموعة تقريبًا حول العدد نفسه من السيارات.
ملخّص الحزمة
إذا اخترت تجميع الميزات الرقمية في جهازك، كن واضحًا بشأن كيفية ضبط الحدود ونوع الحزمة التي تطبّقها:
- الحاويات ذات الحدود المتساوية: تكون الحدود ثابتة وتتضمّن النطاق نفسه (مثل من 0 إلى 4 درجات و5 إلى 9 درجات و10-14 درجة أو من 5,000 إلى 9,999 دولار و10,000 إلى 14,999 دولار أمريكي و15,000 إلى 19,99 دولار أمريكي). يمكن أن تحتوي بعض الحِزم على العديد من النقاط، بينما يمكن أن يكون لدى البعض الآخر القليل منها أو لا شيء.
- الحِزم ذات الحدود الربعية: تحتوي كل مجموعة على العدد نفسه من النقاط. الحدود غير ثابتة ويمكن أن تشمل نطاقًا ضيقًا أو واسعًا من القيم.