يراجع هذا القسم خطوات إعداد البيانات الأكثر صلة بالتجميع العنقودي من صفحة العمل باستخدام البيانات الرقمية في دورة مكثّفة عن تعلّم الآلة.
وفي التجميع العنقودي، يتم حساب التشابه بين مثالين من خلال جمع جميع بيانات الخصائص لهذه الأمثلة في قيمة رقمية. يتطلب هذا والميزات على نفس المقياس، وهو ما يمكن إنجازه من خلال تسوية أو تحويل أو إنشاء النقاط. إذا كنت ترغب في تحويل بياناتك دون فحص توزيعها، يمكنك بشكل افتراضي استخدام الكميات.
تقليل التكرار في البيانات
يمكنك تحويل البيانات لميزات متعددة إلى نفس المقياس عن طريق تسوية البيانات.
الدرجة المعيارية
كلما رأيت مجموعة بيانات في شكل تقريبًا مثل التوزيع الغاوسي، يجب عليك حساب الدرجة المعيارية للحصول على البيانات. النقاط المعيارية هي عدد الانحرافات المعيارية التي توجد قيمة عن المتوسط. يمكنك أيضًا استخدام درجات z عندما لا تكون مجموعة البيانات كبيرة بما يكفي الأجزاء.
عرض توسيع نطاق درجة Z لمراجعة الخطوات.
فيما يلي تصور لميزتين لمجموعة البيانات قبل وبعد التحجيم بالدرجة z:
في مجموعة البيانات غير العادية على اليسار، الميزة 1 والميزة 2، على التوالي في الرسم البياني على المحورين "س" و"ص". في صفحة على اليسار، المثال الأحمر أقرب إلى اللون الأزرق أو أكثر تشابهًا مع اللون الأزرق. على اليمين، بعد تحجيم درجة z، فإن الميزة 1 والميزة 2 لهما نفس المقياس، واللون الأحمر أقرب إلى المثال الأصفر. تعطي مجموعة البيانات التي تمت تسويتها لقياس التشابه بين النقاط بدقة أكبر.
سجلات التحويلات
عندما تتوافق مجموعة البيانات بشكل تام مع قانون الطاقة، حيث تقدر البيانات مجمعة بشكل كبير عند أدنى القيم، فاستخدم تحويل السجل. عرض تحجيم السجل لمراجعة الخطوات.
في ما يلي تصور لمجموعة بيانات قانون القوة قبل تحويل السجل وبعده:
قبل تحجيم السجل (الشكل 2)، يبدو المثال الأحمر أشبه باللون الأصفر. بعد تحجيم السجل (الشكل 3)، يظهر اللون الأحمر بشكل أكثر تشابهًا مع اللون الأزرق.
الكميات
يعمل ربط البيانات في الكميات بشكل جيد عندما لا تتوافق مجموعة البيانات بتوزيع معروف. خذ مجموعة البيانات هذه، على سبيل المثال:
من البديهي أن مثالين أكثر تشابهًا إذا تقع بعض الأمثلة فقط بين بغض النظر عن قيمها، وتكون أكثر اختلافًا إذا كانت الأمثلة كثيرة تقع بينهما. يجعل التصور أعلاه من الصعب رؤية الإجمالي عدد الأمثلة التي تقع بين الأحمر والأصفر أو بين الأحمر والأزرق.
ويمكن تحقيق التشابه هذا عن طريق قسمة مجموعة البيانات إلى الأجزاء أو الفواصل التي يحتوي كل منها على عدد متساوٍ من الأمثلة، تعيين مؤشر الجزء لكل مثال. عرض تجميع الكمية لمراجعة الخطوات.
فيما يلي التوزيع السابق مقسم إلى أجزاء، يوضح أن الأحمر هو جزء واحد من اللون الأصفر وثلاثة أجزاء بعيدًا عن اللون الأزرق:
يمكنك اختيار أي عدد \(n\) من الوحدات. ومع ذلك، بالنسبة إلى نقاط تمثل البيانات الأساسية بشكل هادف، يجب أن تحتوي مجموعة البيانات على \(10n\) أمثلة. إذا لم تكن لديك بيانات كافية، فقم بوضعها بدلاً من ذلك.
التحقق من فهمك
بالنسبة للأسئلة التالية، افترض أن لديك بيانات كافية لإنشاء أجزاء.
السؤال الأول
- توزيع البيانات هو غاوس.
- لديك بعض الأفكار حول ما تمثله البيانات في تشير إلى أنه لا ينبغي تحويل البيانات بشكل غير خطي.
السؤال الثاني
البيانات الناقصة
إذا كانت مجموعة البيانات لديك تحتوي على أمثلة ذات قيم مفقودة لميزة معينة، ولكن هذه الأمثلة نادرًا ما تحدث، فيمكنك إزالة هذه الأمثلة. إذا كانت هذه الأمثلة بشكل متكرر، فيمكنك إما إزالة هذه الميزة تمامًا، أو يمكنك التنبؤ بالقيم المفقودة من خلال أمثلة أخرى باستخدام آلة نموذج التعلم. على سبيل المثال، يمكنك تحديد البيانات الرقمية المفقودة باستخدام تم تدريب نموذج الانحدار على بيانات الخصائص الموجودة.