Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

إعداد البيانات

يراجع هذا القسم خطوات إعداد البيانات الأكثر صلةً بالتجميع من وحدة العمل مع البيانات الرقمية في الدورة التدريبية المكثّفة حول تعلُّم الآلة.

في التجميع، يتم احتساب التشابه بين مثالَين من خلال دمج كل بيانات السمات الخاصة بهذين المثالَين في قيمة رقمية. يتطلّب ذلك أن تتضمّن السمات المقياس نفسه، ويمكن تحقيق ذلك من خلال تسويتها أو تحويلها أو إنشاء كميات أساسية. إذا كنت تريد تحويل بياناتك بدون فحص توزيعها، يمكنك استخدام الشرائح الكمية التلقائية.

تقليل التكرار في البيانات

يمكنك تحويل بيانات ميزات متعددة إلى المقياس نفسه من خلال تسويتها.

الدرجات المعيارية

عندما ترى مجموعة بيانات ذات شكل يشبه تقريبًا التوزيع الغوسي، عليك احتساب النتائج المعيارية للبيانات. "النتائج المعيارية" هي عدد الانحرافات المعيارية التي تبعد بها قيمة عن المتوسّط. يمكنك أيضًا استخدام نتائج اختبار z-score عندما لا تكون مجموعة البيانات كبيرة بما يكفي لتحديد النسب المئوية.

اطّلِع على تصغير درجة Z لمراجعة الخطوات.

في ما يلي عرض مرئي لميزتَين من ميزات مجموعة بيانات قبل وبعد تصغير درجة z:

رسمان بيانيان يقارنان بيانات العناصر قبل وبعد التسويف — **الشكل 1: مقارنة بين بيانات العناصر قبل وبعد التسويّة**

في مجموعة البيانات غير المُعدَّلة على اليسار، لا تتطابق مقياسَي السمة 1 والسمة 2، اللتين تمّ رسمهما على محورَي س وy على التوالي. على الجانب الأيسر، يبدو المثال الأحمر أقرب إلى الأزرق أو أكثر تشابهًا معه مقارنةً بالأصفر. على يسار الصفحة، بعد تصغير النتيجة المعيارية، تتضمّن السمة 1 والسمة 2 المقياس نفسه، ويبدو المثال الأحمر أقرب إلى المثال الأصفر. توفّر مجموعة البيانات التي تمت تسويتها قياسًا أكثر دقة للتشابه بين النقاط.

عمليات تحويل السجلّات

عندما تكون مجموعة البيانات متوافقة تمامًا مع توزيع قانون القوة، حيث يتم تجميع البيانات بكثافة في القيم الأدنى، استخدِم تحويلًا لوغاريتميًا. راجِع تصغير السجلّ لمراجعة الخطوات.

في ما يلي عرض مرئي لمجموعة بيانات قانون القوة قبل وبعد التحويل اللوغاريتمي:

رسم بياني شريطي يتضمّن معظم البيانات في الطرف الأدنى — **الشكل 2: توزيع قانون الطاقة**

رسم بياني يعرض توزيعًا طبيعيًا (غاوسيًا) — **الشكل 3: تحويل لوغاريتمي للشكل 2.**

قبل تكبير السجلّ (الشكل 2)، يبدو المثال الأحمر أكثر شبهاً بالأصفر. بعد توسيع النطاق اللوغاريتمي (الشكل 3)، يبدو اللون الأحمر أكثر شبهاً باللون الأزرق.

الشرائح المئوية

تعمل عملية تجميع البيانات في شرائح كمية بشكل جيد عندما لا تكون مجموعة البيانات متوافقة مع توزيع معروف. لنأخذ مجموعة البيانات هذه كمثال:

رسم بياني يعرض توزيع البيانات قبل أي معالجة مسبقة — **الشكل 4: توزيع لا يمكن تصنيفه قبل أي معالجة مسبقة**

من البديهي أنّ المثالَين أكثر تشابهًا إذا كان هناك عدد قليل من الأمثلة بين هما، بغض النظر عن قيمتهما، وأكثر اختلافًا إذا كان هناك العديد من الأمثلة بينهما. يصعِّب العرض المرئي أعلاه الاطّلاع على إجمالي عدد الأمثلة التي تقع بين الأحمر والأصفر أو بين الأحمر والأزرق.

يمكن توضيح هذا الفهم للتشابه من خلال تقسيم مجموعة البيانات إلى شرائح كمية أو فواصل تحتوي كلّ منها على أعداد متساوية من الأمثلة، و تخصيص مؤشر الشريحة الكمّية لكلّ مثال. اطّلِع على تجميع الشرائح حسب الشركاء لمراجعة الخطوات.

في ما يلي التوزيع السابق مقسّمًا إلى شرائح عشرية، ما يشير إلى أنّ اللون الأحمر يبعد شريحة عشرية واحدة عن اللون الأصفر وثلاث شرائح عشرية عن اللون الأزرق:

رسم بياني يعرض البيانات بعد تحويلها
إلى شرائح كمية يمثّل الخط 20 فاصلاً زمنيًا.] — **الشكل 5: التوزيع في الشكل 4 بعد التحويل إلى 20 شريحة عشرية.**

يمكنك اختيار أي عدد \(n\) من الشرائح المئوية. ومع ذلك، لكي تمثل الشرائح المئوية البيانات الأساسية بشكل ذي مغزى، يجب أن تحتوي مجموعة البيانات على \(10n\) مثال على الأقل. إذا لم تتوفّر لديك بيانات كافية، يمكنك تسويتها بدلاً من ذلك.

التحقّق من فهمك

بالنسبة إلى الأسئلة التالية، نفترض أنّ لديك بيانات كافية لإنشاء الشرائح المئوية.

السؤال الأول

كيف يجب معالجة توزيع البيانات المعروض في الرسم البياني السابق؟

أنشئ كميات أساسية.

إجابة صحيحة. ولأنّ التوزيع لا يتطابق مع توزيع البيانات العادي، يجب البدء تلقائيًا في إنشاء الشرائح المئوية.

تسوية

يتم عادةً تقليل التكرار في البيانات في الحالات التالية:

توزيع البيانات هو توزيع غاوسي.
لديك بعض الإحصاءات حول ما تمثله البيانات في الواقع والتي تشير إلى أنّه لا يجب تحويل البيانات بشكل غير خطي.

لا تنطبق أيّ من الحالتَين هنا. توزيع البيانات ليس توزيعًا غاوسيًا لأنّه غير متناظر. ولا تعرف ما تمثله هذه القيم في الواقع.

التحويل اللوغاريتمي

هذا ليس توزيعًا مثاليًا للقانون القوي، لذا لا تستخدِم تحويل log.

السؤال الثاني

كيف ستعالج توزيع البيانات هذا؟

تسوية

إجابة صحيحة. هذا توزيع غاوس.

أنشئ كميات أساسية.

إجابة غير صحيحة وبما أنّ هذا التوزيع هو توزيع غاوس، فإنّ التحويل المفضّل هو التسويف.

التحويل اللوغاريتمي

إجابة غير صحيحة لا تطبِّق تحويلًا لوغاريتميًا إلا على توزيعات قوانين الطاقة.

البيانات الناقصة

إذا كانت مجموعة البيانات تحتوي على أمثلة لا تتضمّن قيمًا لسمة معيّنة، ولكن تظهر هذه الأمثلة نادرًا، يمكنك إزالتها. إذا كانت هذه الأمثلة تحدث بشكل متكرّر، يمكنك إزالة هذه الميزة بالكامل، أو يمكنك توقّع القيم المفقودة من أمثلة أخرى باستخدام نموذج تعلُّم الآلة. على سبيل المثال، يمكنك استنتاج البيانات الرقمية غير المتوفّرة باستخدام نموذج انحدار تم تدريبه على بيانات السمات الحالية.

سير عمل التجميع العنقودي

ما الخوارزمية التصنيفية؟