الربط (ويسمى أيضًا تجميع البيانات) هو
هندسة الميزات
تقوم بتجميع النطاقات الفرعية العددية المختلفة في سلال أو
الحِزم:
في كثير من الحالات، يحول الربط البيانات الرقمية إلى بيانات فئوية.
على سبيل المثال، ننصحك باستخدام ميزة
باسم X
والذي تساوي أدنى قيمة فيه 15
أعلى قيمة هي 425. باستخدام الربط، يمكنك تمثيل X
باستخدام
السلال الخمس التالية:
- السلة 1: من 15 إلى 34
- السلة 2: من 35 إلى 117
- السلة 3: من 118 إلى 279
- السلة 4: من 280 إلى 392
- السلة 5: من 393 إلى 425
تمتد السلة 1 إلى النطاق من 15 إلى 34، وبالتالي فإن كل قيمة X
تتراوح بين 15 و34
ينتهي في السلة 1. أي نموذج تم تدريبه على هذه الصناديق لن يتفاعل بشكل مختلف
إلى X
وهي 17 و29 نظرًا لأن كلتا القيمتين في السلة 1.
يمثل متّجه الميزة السلال الخمسة على النحو التالي:
رقم السلة | النطاق | متجه الميزة |
---|---|---|
1 | 15-34 | [1.0، 0.0، 0.0، 0.0، 0.0] |
2 | 35-117 | [0.0، 1.0، 0.0، 0.0، 0.0] |
3 | 118-279 | [0.0، 0.0، 1.0، 0.0، 0.0] |
4 | 280-392 | [0.0، 0.0، 0.0، 1.0، 0.0] |
5 | 393-425 | [0.0، 0.0، 0.0، 0.0، 1.0] |
على الرغم من أن X
عبارة عن عمود واحد في مجموعة البيانات، إلا أن الربط يتسبب في نموذج
التعامل مع X
على أنّها خمس ميزات منفصلة. ومن ثم، يتعلم النموذج
أوزان منفصلة لكل سلة.
تشكّل عملية الربط بديلاً جيدًا للتحجيم أو الاقتصاص عندما استيفاء الشروط التالية:
- العلاقة الخطية الإجمالية بين العنصر و التصنيف ضعيف أو غير متوفّر.
- عندما يتم تجميع قيم الخصائص في مجموعات.
قد يبدو الربط متعارضًا، نظرًا لأن النموذج في يتعامل المثال السابق مع القيمتين 37 و115 بشكل متماثل. ولكن عندما إحدى الميزات تبدو غير مرتبة أكثر من الارتباط الخطي، فإن الربط يعد طريقة أفضل لتمثيل البيانات.
مثال على الربط: عدد المتسوقين مقابل درجة الحرارة
لنفترض أنك تنشئ نموذجًا للتنبؤ بعدد المتسوقين بدرجة الحرارة الخارجية لذلك اليوم. إليك مخطط درجة الحرارة مقابل عدد المتسوّقين:
يظهر المخطط، وليس من المستغرب، أن عدد المتسوقين كان أعلى عندما كانت درجة الحرارة أكثر راحة.
يمكنك تمثيل الميزة كقيم أولية: درجة حرارة 35.0 في مجموعة البيانات ستكون 35.0 في الخط المتجه للخاصية. هل هذه أفضل فكرة؟
أثناء التدريب، يتعلم نموذج الانحدار الخطي وزنًا واحدًا لكل الجديدة. وبالتالي، إذا تم تمثيل درجة الحرارة كخاصية واحدة، عندها وتبلغ درجة الحرارة 35.0 درجة تأثير خمسة أضعاف التأثير (أو خمسة التأثير) في أحد التنبؤات عندما تكون درجة الحرارة 7.0. ومع ذلك، فإن المخطط أي نوع من العلاقة الخطية بين التصنيف قيمة الميزة.
يقترح الرسم البياني ثلاث مجموعات في النطاقات الفرعية التالية:
- السلة 1 هي نطاق درجة الحرارة من 4 إلى 11.
- السلة 2 هي نطاق درجة الحرارة 12-26.
- السلة 3 هي نطاق درجة الحرارة 27-36.
ويحدد النموذج الأوزان المنفصلة لكل سلة.
في حين أنه من الممكن إنشاء أكثر من ثلاث سلال، حتى لو كان منفصلاً كل قياس لدرجة الحرارة، فهذا غالبًا ما يكون فكرة سيئة للأسباب التالية:
- يستطيع النموذج فقط معرفة الارتباط بين السلة والتسمية إذا كان هناك أمثلة كافية في تلك السلة. في المثال المقدم، كل من السلال الثلاث يحتوي على 10 أمثلة على الأقل، والتي قد تكون كافية للتدريب. مع 33 سلة منفصلة، لن تحتوي أي من السلال على أمثلة كافية للتدريب عليها.
- يؤدي استخدام سلة منفصلة لكل درجة حرارة إلى 33 ميزة منفصلة لدرجة الحرارة ومع ذلك، عليك عادةً تقليل عدد الميزات في أي نموذج.
تمرين: التحقق من فهمك
يوضح الرسم البياني التالي متوسط سعر المنزل لكل 0.2 درجة من خط العرض للبلد الأسطوري وهو فريدونيا:
يوضح الرسم البياني نمطًا غير خطي بين القيمة الرئيسية وخط العرض، لذا من غير المحتمل أن يساعد تمثيل خط العرض كقيمة نقطة عائمة في النموذج ينتج تنبؤات جيدة. ربما يكون وضع خطوط العرض حجرية أفضل فكرة؟
- 41.0 إلى 41.8
- 42.0 إلى 42.6
- 42.8 إلى 43.4
- 43.6 إلى 44.8
تخزين كمية البيانات
تُنشئ تجميع البيانات الكمّية حدود تجميع، بحيث يكون الأمثلة في كل مجموعة تساوي بالضبط أو تكاد تكون. تجميع الكمية تخفي في الغالب القيم الاستثنائية.
لتوضيح المشكلة التي تحلها عملية تجميع الكمية، ضع في الاعتبار مجموعات ذات مسافات متساوية كما هو موضح في الشكل التالي، حيث تم تحديد من المجموعات العشر يمثل مساحة قدرها 10000 دولار بالضبط. لاحظ أن المجموعة من 0 إلى 10000 تحتوي على عشرات الأمثلة لكن المجموعة من 50000 إلى 60000 تحتوي على 5 أمثلة فقط. وبالتالي، يحتوي النموذج على أمثلة كافية للتدرّب على الأعداد من 0 إلى 10000 لكن لا تتوفّر أمثلة كافية للتدريب عليها لمجموعة من 50,000 إلى 60,000.
في المقابل، يستخدم الشكل التالي تجميع الكمية لقسمة أسعار السيارات في سلال تحتوي على العدد نفسه تقريبًا من الأمثلة في كل مجموعة. لاحظ أن بعض السلال تشمل نطاقًا ضيقًا للسعر بينما البعض الآخر نطاق سعر واسع جدًا.