إعداد البيانات

يراجع هذا القسم خطوات إعداد البيانات الأكثر صلة بالتجميع العنقودي من صفحة العمل باستخدام البيانات الرقمية في دورة مكثّفة عن تعلّم الآلة.

وفي التجميع العنقودي، يتم حساب التشابه بين مثالين من خلال جمع جميع بيانات الخصائص لهذه الأمثلة في قيمة رقمية. يتطلب هذا والميزات على نفس المقياس، وهو ما يمكن إنجازه من خلال تسوية أو تحويل أو إنشاء النقاط. إذا كنت ترغب في تحويل بياناتك دون فحص توزيعها، يمكنك بشكل افتراضي استخدام الكميات.

تقليل التكرار في البيانات

يمكنك تحويل البيانات لميزات متعددة إلى نفس المقياس عن طريق تسوية البيانات.

الدرجة المعيارية

كلما رأيت مجموعة بيانات في شكل تقريبًا مثل التوزيع الغاوسي، يجب عليك حساب الدرجة المعيارية للحصول على البيانات. النقاط المعيارية هي عدد الانحرافات المعيارية التي توجد قيمة عن المتوسط. يمكنك أيضًا استخدام درجات z عندما لا تكون مجموعة البيانات كبيرة بما يكفي الأجزاء.

عرض توسيع نطاق درجة Z لمراجعة الخطوات.

فيما يلي تصور لميزتين لمجموعة البيانات قبل وبعد التحجيم بالدرجة z:

رسمان بيانيان يقارنان بيانات الميزات قبل التسوية وبعدها
الشكل 1: مقارنة بين بيانات الميزات قبل التسوية وبعدها

في مجموعة البيانات غير العادية على اليسار، الميزة 1 والميزة 2، على التوالي في الرسم البياني على المحورين "س" و"ص". في صفحة على اليسار، المثال الأحمر أقرب إلى اللون الأزرق أو أكثر تشابهًا مع اللون الأزرق. على اليمين، بعد تحجيم درجة z، فإن الميزة 1 والميزة 2 لهما نفس المقياس، واللون الأحمر أقرب إلى المثال الأصفر. تعطي مجموعة البيانات التي تمت تسويتها لقياس التشابه بين النقاط بدقة أكبر.

سجلات التحويلات

عندما تتوافق مجموعة البيانات بشكل تام مع قانون الطاقة، حيث تقدر البيانات مجمعة بشكل كبير عند أدنى القيم، فاستخدم تحويل السجل. عرض تحجيم السجل لمراجعة الخطوات.

في ما يلي تصور لمجموعة بيانات قانون القوة قبل تحويل السجل وبعده:

مخطط شريطي يحتوي على غالبية البيانات في النهاية المنخفضة
الشكل 2: توزيع قانون الطاقة
رسم بياني يوضح توزيعًا طبيعيًا (غاوسي)
الشكل 3: تحويل لوغاريتمي للشكل 2

قبل تحجيم السجل (الشكل 2)، يبدو المثال الأحمر أشبه باللون الأصفر. بعد تحجيم السجل (الشكل 3)، يظهر اللون الأحمر بشكل أكثر تشابهًا مع اللون الأزرق.

الكميات

يعمل ربط البيانات في الكميات بشكل جيد عندما لا تتوافق مجموعة البيانات بتوزيع معروف. خذ مجموعة البيانات هذه، على سبيل المثال:

رسم بياني يعرض توزيع البيانات قبل أي معالجة مسبقة
الشكل 4: توزيع غير قابل للتصنيف قبل أي معالجة مسبقة

من البديهي أن مثالين أكثر تشابهًا إذا تقع بعض الأمثلة فقط بين بغض النظر عن قيمها، وتكون أكثر اختلافًا إذا كانت الأمثلة كثيرة تقع بينهما. يجعل التصور أعلاه من الصعب رؤية الإجمالي عدد الأمثلة التي تقع بين الأحمر والأصفر أو بين الأحمر والأزرق.

ويمكن تحقيق التشابه هذا عن طريق قسمة مجموعة البيانات إلى الأجزاء أو الفواصل التي يحتوي كل منها على عدد متساوٍ من الأمثلة، تعيين مؤشر الجزء لكل مثال. عرض تجميع الكمية لمراجعة الخطوات.

فيما يلي التوزيع السابق مقسم إلى أجزاء، يوضح أن الأحمر هو جزء واحد من اللون الأصفر وثلاثة أجزاء بعيدًا عن اللون الأزرق:

رسم بياني يعرض البيانات بعد التحويل
  إلى أجزاء. ويمثل الخط 20 فاصلاً.]
الشكل 5: التوزيع في الشكل 4 بعد التحويل إلى 20 جزءًا.

يمكنك اختيار أي عدد \(n\) من الوحدات. ومع ذلك، بالنسبة إلى نقاط تمثل البيانات الأساسية بشكل هادف، يجب أن تحتوي مجموعة البيانات على \(10n\) أمثلة. إذا لم تكن لديك بيانات كافية، فقم بوضعها بدلاً من ذلك.

التحقق من فهمك

بالنسبة للأسئلة التالية، افترض أن لديك بيانات كافية لإنشاء أجزاء.

السؤال الأول

مخطط يعرض ثلاثة توزيعات للبيانات
كيف يجب معالجة توزيع البيانات الموضح في الأقسام السابقة الرسم البياني؟
قم بإنشاء أجزاء.
إجابة صحيحة. ولأن التوزيع لا يتطابق مع توزيعًا قياسيًا للبيانات، فيجب عليك الافتراضي إنشاء الأجزاء.
تطبيع.
عادةً ما تقوم بتسوية البيانات في الحالات التالية:
  • توزيع البيانات هو غاوس.
  • لديك بعض الأفكار حول ما تمثله البيانات في تشير إلى أنه لا ينبغي تحويل البيانات بشكل غير خطي.
لا تنطبق أيٌ من الحالتين هنا. لا يعتبر توزيع البيانات غاوس لأنه غير متماثل. وأنت لا تعرف ما هذه القيم لتمثيلها في العالم الحقيقي.
تحويل السجل.
هذا ليس توزيعًا مثاليًا لقانون السلطة، لذا لا تستخدم تحويل.

السؤال الثاني

مخطط يعرض ثلاثة توزيعات للبيانات
كيف ستعالج توزيع البيانات هذا؟
تطبيع.
إجابة صحيحة. هذا توزيع غاوس.
قم بإنشاء أجزاء.
إجابة غير صحيحة ونظرًا لأن هذا توزيع غاوس، فهو يفضل التحويل هو التسوية.
تحويل السجل.
إجابة غير صحيحة لا يتم تطبيق تحويل السجلّ إلا على توزيعات قانون السلطة.

البيانات الناقصة

إذا كانت مجموعة البيانات لديك تحتوي على أمثلة ذات قيم مفقودة لميزة معينة، ولكن هذه الأمثلة نادرًا ما تحدث، فيمكنك إزالة هذه الأمثلة. إذا كانت هذه الأمثلة بشكل متكرر، فيمكنك إما إزالة هذه الميزة تمامًا، أو يمكنك التنبؤ بالقيم المفقودة من خلال أمثلة أخرى باستخدام آلة نموذج التعلم. على سبيل المثال، يمكنك تحديد البيانات الرقمية المفقودة باستخدام تم تدريب نموذج الانحدار على بيانات الخصائص الموجودة.