إنشاء مجموعة البيانات

لنبدأ بإلقاء نظرة سريعة على فكرة رئيسية من الدورة التدريبية لتعلّم الآلة. انظر إلى التوزيع في الرسم البياني أدناه.

رسم بياني لعدد المنازل في كل خط عرض المؤامرة غير منتظمة إلى حد كبير، وتحتوي على قضبان حول خط العرض 36 وارتفاعات هائلة حول خطوط العرض 34 و38. الشكل 1: أسعار المنازل مقابل خطوط العرض.

 

بالنسبة إلى السؤال التالي، انقر على السهم المطلوب للاطّلاع على إجابتك:

ضع في اعتبارك الشكل 1. إذا كنت تعتقد أنّ خط العرض قد يكون مُنبّهًا جيدًا لقيم الإسكان، هل يجب ترك خط العرض كقيمة نقطة عائمة؟ يُرجى شرح إجابتك، سواء كانت نعم أو لا. (بافتراض أن هذا نموذج خطي).
نعم، إذا كانت قيمة خط العرض هي نقطة عائمة في مجموعة البيانات، عليك عدم تغييرها.
إذا تم إدخال قيم النقاط العائمة هذه في الشبكة، ستحاول التعرّف على علاقة خطية بين الميزة والتصنيف. ولكن من غير المحتمل أن تكون علاقة خطية لخط العرض. قد تؤدي زيادة درجة واحدة في خط العرض (من 34 إلى 35 درجة مثلاً) إلى حدوث قدر من التغيير في مخرجات النموذج، في حين أن الزيادة المختلفة بمقدار درجة واحدة (على سبيل المثال، من 35 إلى 36 درجة) قد تؤدي إلى تغيير مختلف. هذا السلوك غير الخطي.
لا، ليست هناك علاقة خطي بين خط العرض وقيم الإسكان.
أنت تشتبه في أن خطوط العرض الفردية وقيم الإسكان مرتبطة، ولكن العلاقة غير خطية.

في حالات مثل مثال لخط العرض، تحتاج إلى تقسيم خطوط العرض إلى مجموعات بيانات لمعرفة المزيد عن قيم الإسكان لكل مجموعة. يُطلق على هذه الميزات التحويل الرقمي للميزات إلى فئات تصنيفية، باستخدام مجموعة من الحدود، مجموعة البيانات (أو تجميع البيانات). في هذا المثال للمجموعة، يتم الفصل بين الحدود بالتساوي.

نفس مخطط خط العرض مقابل أسعار السكن كما في الشكل السابق. ولكن هذه المرة، ينقسم الرسم البياني إلى 11 "bins" بين عدد خطوط عرض كاملة.

 

الشكل 2: أسعار المنازل مقابل خط العرض، مقسّمة الآن إلى مجموعات بيانات.

حزمة الكمية

لنستعرض مجموعة بيانات أسعار السيارات مع إضافة حِزم. باستخدام ميزة واحدة لكل مجموعة، يستخدم النموذج أكبر قدر من السعة لمثال واحد في النطاق >45000 كما هو الحال مع جميع الأمثلة في النطاق 5000-10000. يبدو هذا مُهدرًا. كيف يمكننا تحسين هذا الموقف؟

رسم بياني لسعر السيارة لكل عدد من السيارات المُباعة بذلك السعر. يتم تقسيم المخطّط إلى 10 حِزم بحجم متساوٍ يبلغ نطاقها 5000 (سعر السيارة). تتضمّن الحِزم الثلاث الأولى عدة أمثلة، ولكن الحِزم السبعة الأخيرة تحتوي على عدد قليل جدًا من الأمثلة.

الشكل 3: عدد السيارات التي يتم بيعها بأسعار مختلفة.

 

تكمن المشكلة في أنّ حِزم البيانات المتباعدة بشكل متساوٍ لا تلتقط هذا التوزيع بشكلٍ جيد. يتمثّل الحل في إنشاء حِزم تحتوي كل منها على العدد نفسه من النقاط. تُعرَف هذه التقنية باسم التجميع الربعي. على سبيل المثال، يقسّم الشكل التالي أسعار السيارات إلى حِزم. للحصول على العدد نفسه من الأمثلة في كلّ مجموعة، تتضمّن بعض الحِزم نطاقًا زمنيًا ضيقًا للسعر في حين أنّ باقي الحِزم تشمل نطاق سعر واسعًا جدًا.

مثل الشكل 3، باستثناء الحِزم الربعية. وهذا يعني أنّ الحِزم
لديك الآن أحجام مختلفة. يبلغ حجم الحزمة الصغيرة أصغر من 1000 دولار أمريكي تقريبًا، بينما يصل حجم أكبر حزمة إلى حوالي 25,000 دولار أمريكي.
أصبح عدد السيارات في كل مجموعة الآن تقريبًا.

الشكل 4: يمنح كل من الشريحة الربعية كل مجموعة تقريبًا حول العدد نفسه من السيارات.

ملخّص الحزمة

إذا اخترت تجميع الميزات الرقمية في جهازك، كن واضحًا بشأن كيفية ضبط الحدود ونوع الحزمة التي تطبّقها:

  • الحاويات ذات الحدود المتساوية: تكون الحدود ثابتة وتتضمّن النطاق نفسه (مثل من 0 إلى 4 درجات و5 إلى 9 درجات و10-14 درجة أو من 5,000 إلى 9,999 دولار و10,000 إلى 14,999 دولار أمريكي و15,000 إلى 19,99 دولار أمريكي). يمكن أن تحتوي بعض الحِزم على العديد من النقاط، بينما يمكن أن يكون لدى البعض الآخر القليل منها أو لا شيء.
  • الحِزم ذات الحدود الربعية: تحتوي كل مجموعة على العدد نفسه من النقاط. الحدود غير ثابتة ويمكن أن تشمل نطاقًا ضيقًا أو واسعًا من القيم.