مجموعات البيانات: خصائص البيانات

مجموعة البيانات هي مجموعة من أمثلة:

تقوم العديد من مجموعات البيانات بتخزين البيانات في جداول (الشبكات)، على سبيل المثال، قيم مفصولة بفواصل (CSV) أو مباشرة من جداول البيانات أو جداول قاعدة البيانات. الجداول هي تنسيق إدخال بديهي للجهاز النماذج التعليمية. يمكنك أن تتخيل كل صف من صفوف الجدول كمثال وكل عمود كميزة أو تسمية محتملة. ومع ذلك، قد يتم اشتقاق مجموعات البيانات أيضًا من التنسيقات الأخرى، بما في ذلك ملفات السجل والمخازن المؤقتة للبروتوكولات.

بغض النظر عن التنسيق، فإن نموذج تعلُّم الآلة الخاص بك لا يقل جودة البيانات التي يتدرب عليها. يفحص هذا القسم خصائص البيانات الرئيسية.

أنواع البيانات

يمكن أن تحتوي مجموعة البيانات على أنواع عديدة من أنواع البيانات، بما في ذلك ولكن بالتأكيد لا يقتصر على:

  • بيانات عددية، والتي يتم تناولها في فصل وحدة
  • البيانات الفئوية، التي يتم تناولها في قسم وحدة
  • للغة البشرية، بما في ذلك الكلمات والجمل الفردية، وصولاً إلى المستندات النصية بأكملها
  • وسائط متعددة (مثل الصور والفيديوهات والملفات الصوتية)
  • المخرجات من أنظمة تعلُّم الآلة الأخرى
  • تضمين المتجهات، وهي تناولها في وحدة لاحقة

ويمكن تقسيم أنواع البيانات السابقة بشكل فرعي أكثر. الوحدات اللاحقة في هذه الدورة، على سبيل المثال، النموذج وحدة البيانات: التفاصيل ونضع أنواع البيانات هذه في فئة فرعية.

كمية البيانات

كقاعدة إرشادية تقريبية، يجب أن يعتمد نموذجك على طلب واحد على الأقل المقدار (أو مثالين) أكثر من المعامل القابلة للتدريب. ومع ذلك، لا بأس يتدربون عادةً على أمثلة أكثر من ذلك جديًا.

تم تدريب النماذج على مجموعات البيانات الكبيرة مع عدد قليل من الميزات بشكل عام من النماذج المُدرَّبة على مجموعات البيانات الصغيرة الكثير من الميزات. قد حققت Google نجاحًا كبيرًا في تدريب النماذج البسيطة على مجموعات البيانات الكبيرة.

قد تتطلب مجموعات البيانات المختلفة لبرامج التعلم الآلي المختلفة مجموعات كبيرة كميات مختلفة من الأمثلة لإنشاء نموذج مفيد. بالنسبة للبعض الآخر نسبيًا مسائل بسيطة، فقد تكون بضع عشرات الأمثلة كافية. بالنسبة للمشكلات الأخرى، قد لا يكون هناك تريليون مثال غير كافٍ.

من الممكن الحصول على نتائج جيدة من مجموعة بيانات صغيرة إذا كنت تتكيف أي نموذج حالي تم تدريبه بالفعل على كميات كبيرة من البيانات نفس المخطط.

جودة وموثوقية البيانات

يفضّل الجميع الجودة العالية على الجودة المنخفضة، لكنّ الجودة غامضة للغاية. مفهوم يمكن تعريفه بعدة طرق مختلفة. تحدد هذه الدورة التدريبية الجودة بشكل عملي:

تساعد مجموعة البيانات العالية الجودة النموذج في تحقيق هدفه. تمنع مجموعة البيانات منخفضة الجودة النموذج من تحقيق هدفه.

عادة ما تكون مجموعة البيانات عالية الجودة موثوقة أيضًا. تشير الموثوقية إلى درجة الثقة في بياناتك. من المرجح أن يقدم نموذج تم تدريبه على مجموعة بيانات موثوقة من النموذج المدرَّب على بيانات غير موثوقة.

أثناء قياس الموثوقية، عليك تحديد ما يلي:

  • ما مدى شيوعًا أخطاء التصنيفات؟ على سبيل المثال، إذا كانت بياناتك التي صنفها البشر، كم مرة ارتكب المصنِّفون التابعون لك أخطاء؟
  • هل ميزاتك مزعجة؟ أي، تنفيذ القيم في الميزات تحتوي على أخطاء؟ كن واقعيا - لا يمكنك إزالة مجموعة البيانات من كل الضوضاء. بعض الضوضاء طبيعية؛ على سبيل المثال، تتيح قياسات نظام تحديد المواقع العالمي (GPS) لأي يتقلّب موقعك الجغرافي دائمًا بشكل طفيف من أسبوع لآخر.
  • هل تمت تصفية البيانات بشكل صحيح لمشكلتك؟ على سبيل المثال: هل يجب أن تتضمّن مجموعة البيانات طلبات بحث من برامج التتبّع؟ إذا كنت إنشاء نظام للكشف عن المحتوى غير المرغوب فيه، فإن الإجابة هي نعم. أما إذا كنت تحاول تحسين نتائج البحث للمستخدمين، فلن تحتاج إلى ذلك.

فيما يلي الأسباب الشائعة للبيانات غير الموثوقة في مجموعات البيانات:

  • القيم المحذوفة على سبيل المثال، نسي شخص ما إدخال قيمة وعمر المنزل.
  • أمثلة مكررة. على سبيل المثال، حمّل أحد الخوادم البيانات نفسها عن طريق الخطأ السجلات مرتين.
  • قيم غير صالحة للميزات. على سبيل المثال، كتب أحد الأشخاص رقمًا إضافيًا أو الذي تم تركه تحت أشعة الشمس.
  • تصنيفات غير صالحة. على سبيل المثال، أشار شخص إلى خطأ في وصف صورة وشجرة البلوط مثل شجرة القيقب.
  • أقسام غير صالحة من البيانات. فعلى سبيل المثال، ميزة معينة موثوقة للغاية، باستثناء ذلك اليوم الذي كانت فيه الشبكة تتعطل.

ننصحك باستخدام الأساليب المبرمَجة للإبلاغ عن البيانات غير الموثوق بها. على سبيل المثال: اختبارات الوحدة التي تحدد أو تعتمد على مخطط بيانات رسمي خارجي يمكن أن على القيم التي تقع خارج النطاق المحدد.

الأمثلة الكاملة في مقابل الأمثلة غير المكتملة

في عالم مثالي، تكون كل مثال كاملاً؛ أي أن كل مثال يحتوي على قيمة لكل ميزة.

الشكل 1. مثال يحتوي على قيم لكافة
       الجديدة.
الشكل 1. مثال كامل.

 

للأسف، غالبًا ما تكون الأمثلة الواقعية غير كاملة، مما يعني أنه في هناك قيمة ميزة واحدة على الأقل مفقودة.

الشكل 2.  مثال يحتوي على قيم لأربع من الخمس
            الجديدة. تم وضع علامة على ميزة واحدة على أنها مفقودة.
الشكل 2. مثال غير مكتمل.

 

لا تدرِّب نموذجًا على أمثلة غير مكتملة. بدلاً من ذلك، قم بإصلاح أو إزالة أمثلة غير مكتملة من خلال القيام بأحد ما يلي:

  • احذف الأمثلة غير المكتملة.
  • Impute القيم غير المتوفرة أي تحويل المثال غير المكتمل إلى مثال كامل من خلال تقديم تخمينات منطقية للقيم المفقودة.
الشكل 3. مجموعة بيانات تحتوي على ثلاثة أمثلة، اثنان منها
            الأمثلة غير المكتملة. أصاب شخص ما بهذين الشخصيين غير المكتملين
            أمثلة من مجموعة البيانات.
الشكل 3. حذف الأمثلة غير المكتملة من مجموعة البيانات.

 

الشكل 4.  مجموعة بيانات تحتوي على ثلاثة أمثلة، اثنان منها
            الأمثلة غير المكتملة التي تحتوي على بيانات مفقودة. كيان ما (شخص
            أو برنامج حوسبة) له قيم حلت محل
            البيانات المفقودة.
الشكل 4. احتساب القيم المفقودة للأمثلة غير المكتملة.

 

فإذا كانت مجموعة البيانات تحتوي على أمثلة كاملة كافية لتطبيق نموذج مفيد، ثم ضع في اعتبارك حذف الأمثلة غير المكتملة. وبالمثل، إذا كانت ميزة واحدة فقط تنقصها كمية كبيرة من البيانات ربما لا يمكن لميزة واحدة أن تساعد النموذج كثيرًا، لذا ضع في اعتبارك حذف تلك الميزة من إدخالات النموذج ومعرفة مقدار الجودة التي فُقدت بسبب الإزالة. إذا كان النموذج يعمل بالطريقة نفسها أو تقريبًا بدونها، فهذا أمر رائع. وبالعكس، إذا لم تتوفر لديك الأمثلة الكاملة الكافية لتدريب نموذج مفيد، فمن ثم، قد تفكر في حساب القيم المفقودة.

لا بأس في حذف الأمثلة غير المفيدة أو المكرّرة، ولكن ليس من الجيّد حذف الأمثلة. الأمثلة المهمة. ولسوء الحظ، قد يكون من الصعب التمييز بين الأمثلة غير المفيدة والمفيدة. إذا لم تستطع أن تقرر ما إذا لحذفها أو تقديرها، ففكر في إنشاء مجموعتي بيانات: إحداهما تشكلت عن طريق حذف الأمثلة غير المكتملة والأخرى من خلال حسابها. ثم حدد مجموعة البيانات التي تدرب النموذج الأفضل.


إحدى الخوارزميات الشائعة هي استخدام المتوسط أو الوسيط كقيمة محتسبة. وبالتالي، عندما تمثل سمة عددية باستخدام درجات Z، ثم تكون القيمة المحتسبة عادةً 0 (لأن 0 هو عادةً متوسط الدرجة المعيارية).

تمرين: التحقق من فهمك

في ما يلي عمودان من مجموعة بيانات تم ترتيبهما حسب Timestamp.

الطابع الزمني درجة الحرارة
8 حزيران (يونيو) 2023 الساعة 9:00 12
8 حزيران (يونيو) 2023 عند الساعة 10:00 18
8 حزيران (يونيو) 2023 عند الساعة 11:00 غير متاحة
8 حزيران (يونيو) 2023 عند الساعة 12:00 24
8 حزيران (يونيو) 2023، 13:00 38

أي مما يلي سيكون قيمة معقولة لحسابه عن القيمة غير المتوفّرة لمقياس درجة الحرارة؟

23
على الأرجح. 23 هو متوسط القيم المجاورة (12 و18 و24 و38). ومع ذلك، لا يمكننا رؤية بقية مجموعة البيانات، لذا من الممكن أن 23 سيكون قيمة استثنائية في الساعة 11:00 في أيام أخرى.
31
غير مرجّح. يشير الجزء المحدود من مجموعة البيانات الذي يمكننا رؤيته إلى أنّ الرقم 31 أعلى بكثير من درجة الحرارة عند الساعة 11:00. ومع ذلك، لا يمكننا التأكد دون الاعتماد على عدد أكبر من الأمثلة.
51
هذا مُستبعَد تمامًا. الرقم 51 أعلى بكثير من أي من القيم المعروضة (وبالتالي، أعلى بكثير من المتوسط).