تسوية

الهدف من التسوية هو تحويل الميزات بحيث تكون على نطاق مماثل. سيؤدي ذلك إلى تحسين أداء النموذج وتدريبه على الاستقرار.

نظرة سريعة على أساليب التسوية

قد تكون أربعة أساليب تسوية شائعة مفيدة:

  • التوسّع إلى نطاق
  • اقتصاص
  • تغيير حجم السجلّ
  • درجة z

تعرض الرسوم البيانية التالية تأثير كل أسلوب تسوية على توزيع الميزة الأولية (السعر) على اليمين. تستند الرسوم البيانية إلى مجموعة البيانات الواردة من العام 1985 Ward&#39s’ Automotive Automotive، والتي تشكّل جزءًا من مستودع تكنولوجيا تعلُّم الآلة من UCI ضمن مجموعة بيانات السيارات.

خمسة رسوم بيانية: 1- توزيع أولي: 2- يتم توزيع التوزيع الأولي على نطاق، بحيث يكون له نفس شكل التوزيع الأولي. 3- مقتطفات التوزيع الأولية التي تم قصها، ما يستبعد أعلى القيم. 4- التوزيع الأولي للمقياس الذي يتم إرساله حسب اللوغاريتم، والذي يجمع البيانات في منتصف التوزيع. 5- النتيجة z للتوزيع، والتي تشبه
 الشكل الأولي للتوزيع الأولي.

الشكل 1. ملخّص لتقنيات التسوية.

تحجيم النطاق

تذكّر من MLCC أن تحجيم يعني تحويل قيم الميزات العائمة من نطاقها الطبيعي (على سبيل المثال، 100 إلى 900) إلى نطاق عادي، وعادةً ما يكون 0 و1 (أو أحيانًا -1 إلى +1). استخدِم الصيغة البسيطة التالية للتوسّع إلى نطاق:

\[ x' = (x - x_{min}) / (x_{max} - x_{min}) \]

ويُعتبر التوسع إلى نطاق مناسبًا إذا تم استيفاء كلا الشرطين التاليين:

  • إذا كنت تعرِف الحدود القصوى والأدنى تقريبًا لبياناتك على بيانات قليلة أو بدون قيم خارجية.
  • ويتم توزيع بياناتك بشكل موحد تقريبًا على مستوى هذا النطاق.

ومن الأمثلة الجيدة على العمر. تقع معظم قيم العمر بين 0 و90، ويحتوي كل جزء من النطاق على عدد كبير من المستخدمين.

في المقابل، لن تستخدم مقياس الدخل، لأن عددًا قليلاً فقط من الأشخاص لديهم دخل كبير. سيكون الحد العلوي للمقياس الخطي للدخل مرتفعًا جدًا، وسيتم ضغط معظم الأشخاص على جزء صغير من المقياس.

قص المقطع

إذا كانت مجموعة البيانات تحتوي على قيم متطرفة جدًا، يمكنك تجربة اقتصاص الميزات، ما يؤدي إلى تحديد كل قيم الميزات أعلى (أو أقل) قيمة معيّنة لقيمة ثابتة. على سبيل المثال، يمكنك قص كل قيم الحرارة التي تزيد عن 40 لتصبح 40 بالضبط.

يمكنك تطبيق قص الميزة قبل أو بعد تعديلات أخرى.

الصيغة: اضبط الحد الأدنى/الأقصى للقيم لتجنب القيم الشاذّة.

مقارنة للتوزيع الأصلي وتوزيع الحد الأقصى. في التوزيع الأصلي، تقع جميع القيم تقريبًا ضمن النطاق 1 إلى 4، ولكن تقع نسبة صغيرة من القيم بين 5 و55. في التوزيع المحدّد لعدد كبير من القيم،
جميع القيم التي تزيد عن 4 في الأصل تحتوي الآن على
القيمة 4.

الشكل 2. مقارنة بين بيانات التوزيع الأولي والنسخة التي تم اقتصاصها.

تتمثل استراتيجية الاستراتيجية البسيطة الأخرى في اقتصاص المقاطع باستخدام z-score إلى +-NSEC (على سبيل المثال، حصرها على +-3{/9}). يُرجى العِلم أنّ xlsx هو الانحراف العادي.

تحجيم السجلات

تحسب ميزة "تحجيم السجلّ" سجلّ القيم لضغط نطاق واسع إلى نطاق ضيق.

\[ x' = log(x) \]

يكون تغيير حجم السجلّ مفيدًا عندما تحتوي مجموعة من القيم على نقاط كثيرة، في حين أنّ معظم القيم الأخرى تحتوي على نقاط قليلة. ويُعرف توزيع البيانات هذا باسم توزيع قانون الطاقة. تشكّل تقييمات الأفلام مثالاً جيدًا على ذلك. في الرسم البياني أدناه، تعرض معظم الأفلام عددًا قليلاً جدًا من التقييمات (البيانات في الذيل)، بينما حصل بعضها على الكثير من التقييمات (البيانات التي تظهر في الرأس). يؤدي تغيير حجم السجلّ إلى تغيير التوزيع، ما يساعد على تحسين أداء النموذج الخطي.

رسمان بيانيان يقارنان البيانات الأولية في مقابل سجل البيانات الأولية. يُظهر الرسم البياني للبيانات الأولية الكثير من التقييمات في الرأس، يليها ذيل طويل. ويعرض الرسم البياني للسجلات
توزيعًا متساويًا.

الشكل 3. مقارنة التوزيع الأولي بسجلّه

Z-Score

تُعدّ الدرجة "س" صيغة متغيّرة تمثّل عدد الانحرافات العادية عن المتوسط. يمكنك استخدام z-score لضمان أن توزيعات الميزات تعني = 0 وstd = 1. يكون ذلك مفيدًا عندما يتوفّر عدد قليل من القيم الشاذّة، ولكن ليس صارمًا جدًا بحيث لا تحتاج إلى اقتصاص.

تكون صيغة حساب z-النقطة لنقطة x كما يلي:

\[ x' = (x - μ) / σ \]

رسمان بيانيان يقارنان البيانات الأولية مقابل البيانات التي تمت تسويتها باستخدام نتيجة z. تعرض البيانات الأولية توزيع بواسون التقريبي الذي يتراوح بين 5000 و45000.
وتتراوح نطاقات البيانات العادية بين -1 و+4.

الشكل 4. إمكانية مقارنة توزيع أوّلي بتوزيع z-score.

لاحظ أن z-score تضغط القيم الأولية التي يتراوح نطاقها بين 40,000 تقريبًا وأسفله في نطاق يتراوح بين -1 و+4 تقريبًا.

لنفترض أنك لست متأكدًا مما إذا كانت القيم الشاذّة متطرفة للغاية. في هذه الحالة، ابدأ بنتيجة z-ما لم تكن لديك قيم ميزات لا تريد أن يتعلّمها النموذج، مثل القيم الناتجة عن خطأ في القياس أو المراوغة.

ملخّص

أسلوب التسويةالصيغةحالات الاستخدام المناسبة
التحجيم الخطي $$ x' = (x - x_{min}) / (x_{max} - x_{min}) $$ وعندما يتم توزيع الميزة بشكل موحّد تقريبًا على نطاق ثابت
قص إذا كان x > max، ثم x&#39؛ = الحد الأقصى إذا كان x &lt؛ الحد الأدنى، ثم x&#39؛ = الحد الأدنى عندما تحتوي الميزة على بعض القيم الشاذّة
تحجيم السجلات x' = سجلّ(x) عندما تتوافق الميزة مع قانون الطاقة
درجة ع x&#39؛ = (x - ميكروة) / CE عندما لا يحتوي توزيع الميزة على قيم شاذّة للغاية