يراجع هذا القسم خطوات إعداد البيانات الأكثر صلةً بالتجميع من وحدة العمل مع البيانات الرقمية في الدورة التدريبية المكثّفة حول تعلُّم الآلة.
في التجميع، يتم احتساب التشابه بين مثالَين من خلال دمج كل بيانات السمات الخاصة بهذين المثالَين في قيمة رقمية. يتطلّب ذلك أن تتضمّن السمات المقياس نفسه، ويمكن تحقيق ذلك من خلال تسويتها أو تحويلها أو إنشاء كميات أساسية. إذا كنت تريد تحويل بياناتك بدون فحص توزيعها، يمكنك استخدام الشرائح الكمية التلقائية.
تقليل التكرار في البيانات
يمكنك تحويل بيانات ميزات متعددة إلى المقياس نفسه من خلال تسويتها.
الدرجات المعيارية
عندما ترى مجموعة بيانات ذات شكل يشبه تقريبًا التوزيع الغوسي، عليك احتساب النتائج المعيارية للبيانات. "النتائج المعيارية" هي عدد الانحرافات المعيارية التي تبعد بها قيمة عن المتوسّط. يمكنك أيضًا استخدام نتائج اختبار z-score عندما لا تكون مجموعة البيانات كبيرة بما يكفي لتحديد النسب المئوية.
اطّلِع على تصغير درجة Z لمراجعة الخطوات.
في ما يلي عرض مرئي لميزتَين من ميزات مجموعة بيانات قبل وبعد تصغير درجة z:

في مجموعة البيانات غير المُعدَّلة على اليسار، لا تتطابق مقياسَي السمة 1 والسمة 2، اللتين تمّ رسمهما على محورَي س وy على التوالي. على الجانب الأيسر، يبدو المثال الأحمر أقرب إلى الأزرق أو أكثر تشابهًا معه مقارنةً بالأصفر. على يسار الصفحة، بعد تصغير النتيجة المعيارية، تتضمّن السمة 1 والسمة 2 المقياس نفسه، ويبدو المثال الأحمر أقرب إلى المثال الأصفر. توفّر مجموعة البيانات التي تمت تسويتها قياسًا أكثر دقة للتشابه بين النقاط.
عمليات تحويل السجلّات
عندما تكون مجموعة البيانات متوافقة تمامًا مع توزيع قانون القوة، حيث يتم تجميع البيانات بكثافة في القيم الأدنى، استخدِم تحويلًا لوغاريتميًا. راجِع تصغير السجلّ لمراجعة الخطوات.
في ما يلي عرض مرئي لمجموعة بيانات قانون القوة قبل وبعد التحويل اللوغاريتمي:


قبل تكبير السجلّ (الشكل 2)، يبدو المثال الأحمر أكثر شبهاً بالأصفر. بعد توسيع النطاق اللوغاريتمي (الشكل 3)، يبدو اللون الأحمر أكثر شبهاً باللون الأزرق.
الشرائح المئوية
تعمل عملية تجميع البيانات في شرائح كمية بشكل جيد عندما لا تكون مجموعة البيانات متوافقة مع توزيع معروف. لنأخذ مجموعة البيانات هذه كمثال:

من البديهي أنّ المثالَين أكثر تشابهًا إذا كان هناك عدد قليل من الأمثلة بين هما، بغض النظر عن قيمتهما، وأكثر اختلافًا إذا كان هناك العديد من الأمثلة بينهما. يصعِّب العرض المرئي أعلاه الاطّلاع على إجمالي عدد الأمثلة التي تقع بين الأحمر والأصفر أو بين الأحمر والأزرق.
يمكن توضيح هذا الفهم للتشابه من خلال تقسيم مجموعة البيانات إلى شرائح كمية أو فواصل تحتوي كلّ منها على أعداد متساوية من الأمثلة، و تخصيص مؤشر الشريحة الكمّية لكلّ مثال. اطّلِع على تجميع الشرائح حسب الشركاء لمراجعة الخطوات.
في ما يلي التوزيع السابق مقسّمًا إلى شرائح عشرية، ما يشير إلى أنّ اللون الأحمر يبعد شريحة عشرية واحدة عن اللون الأصفر وثلاث شرائح عشرية عن اللون الأزرق:
![رسم بياني يعرض البيانات بعد تحويلها
إلى شرائح كمية يمثّل الخط 20 فاصلاً زمنيًا.]](https://developers.google.cn/static/machine-learning/clustering/images/Quantize.png?hl=ar)
يمكنك اختيار أي عدد من الشرائح المئوية. ومع ذلك، لكي تمثل الشرائح المئوية البيانات الأساسية بشكل ذي مغزى، يجب أن تحتوي مجموعة البيانات على مثال على الأقل. إذا لم تتوفّر لديك بيانات كافية، يمكنك تسويتها بدلاً من ذلك.
التحقّق من فهمك
بالنسبة إلى الأسئلة التالية، نفترض أنّ لديك بيانات كافية لإنشاء الشرائح المئوية.
السؤال الأول

السؤال الثاني

البيانات الناقصة
إذا كانت مجموعة البيانات تحتوي على أمثلة لا تتضمّن قيمًا لسمة معيّنة، ولكن تظهر هذه الأمثلة نادرًا، يمكنك إزالتها. إذا كانت هذه الأمثلة تحدث بشكل متكرّر، يمكنك إزالة هذه الميزة بالكامل، أو يمكنك توقّع القيم المفقودة من أمثلة أخرى باستخدام نموذج تعلُّم الآلة. على سبيل المثال، يمكنك استنتاج البيانات الرقمية غير المتوفّرة باستخدام نموذج انحدار تم تدريبه على بيانات السمات الحالية.