مجموعات البيانات: خصائص البيانات

مجموعة البيانات هي مجموعة من الأمثلة.

تخزِّن العديد من مجموعات البيانات البيانات في جداول (شبكات)، على سبيل المثال، كملف CSV أو مباشرةً من جداول البيانات أو جداول جداول البيانات. الجداول هي تنسيق إدخال بسيط لنماذج تعلُّم الآلة . يمكنك اعتبار كل صف من الجدول مثالاً وكل عمود ميزة أو تصنيفًا محتمَلاً. ومع ذلك، يمكن أيضًا اشتقاق مجموعات البيانات من تنسيقات أخرى، بما في ذلك ملفات السجلّ ووحدات تخزين بروتوكول البيانات.

بغض النظر عن التنسيق، تعتمد جودة نموذج تعلُّم الآلة على البيانات التي يتدرب عليها. يتناول هذا القسم خصائص البيانات الرئيسية.

أنواع البيانات

يمكن أن تحتوي مجموعة البيانات على العديد من أنواع أنواع البيانات، بما في ذلك على سبيل المثال لا الحصر:

  • البيانات الرقمية، والتي يتم تناولها في وحدة منفصلة
  • البيانات الفئوية، والتي يتم تناولها في وحدة منفصلة
  • اللغة البشرية، بما في ذلك الكلمات والعبارات الفردية، وصولاً إلى المستندات النصية الكاملة
  • الوسائط المتعددة (مثل الصور والفيديوهات والملفات الصوتية)
  • النتائج الواردة من أنظمة تعلُّم الآلة الأخرى
  • متجهات التضمين، والتي يتم تناولها في وحدة لاحقة

كمية البيانات

كقاعدة عامة تقريبية، يجب تدريب النموذج على عدد من الأمثلة أكبر بمرتَين (أو أكثر) على الأقل من عدد المَعلمات القابلة للتدريب. ومع ذلك، يتم تدريب نماذج الجيدة بشكل عام على أمثلة أكثر بكثير من ذلك.

إنّ النماذج التي تم تدريبها على مجموعات بيانات كبيرة تتضمّن عددًا قليلاً من السمات تحقّق بشكل عام أداءً أفضل من النماذج التي تم تدريبها على مجموعات بيانات صغيرة تتضمّن الكثير من السمات. حققت Google نجاحًا كبيرًا في السابق من خلال تدريب نماذج بسيطة على مجموعات بيانات كبيرة.

قد تتطلّب مجموعات البيانات المختلفة لبرامج تعلُّم الآلة المختلفة كميات مختلفة تمامًا من الأمثلة لإنشاء نموذج مفيد. بالنسبة إلى بعض المشكلات ال relativamente بسيطة، قد يكون بضع عشرات من الأمثلة كافية. بالنسبة إلى المشاكل الأخرى، قد لا يكون ترليون مثال كافيًا.

من الممكن الحصول على نتائج جيدة من مجموعة بيانات صغيرة إذا كنت بصدد تعديل نموذج حالي تم تدريبه من قبل على كميات كبيرة من البيانات من المخطط نفسه.

جودة البيانات وموثوقيتها

يفضّل الجميع المحتوى العالي الجودة على المحتوى المنخفض الجودة، ولكن الجودة هي مفهوم ملتبس يمكن تعريفه بطرق مختلفة. تحدّد هذه الدورة التدريبية الجودة بشكل عملي:

تساعد مجموعة البيانات العالية الجودة النموذج في تحقيق هدفه. تمنع مجموعة البيانات المنخفضة الجودة النموذج من تحقيق هدفه.

وتكون مجموعة البيانات العالية الجودة موثوقة أيضًا عادةً. تشير الموثوقية إلى درجة الثقة التي يمكنك من خلالها الاعتماد على بياناتك. من المرجّح أن يقدّم نموذج تم تدريبه على مجموعة بيانات موثوقة تنبؤات مفيدة مقارنةً بنموذج تم تدريبه على بيانات غير موثوقة.

في ما يتعلّق بقياس الموثوقية، عليك تحديد ما يلي:

  • ما مدى شيوع أخطاء التصنيفات؟ على سبيل المثال، إذا كان يتم تصنيف بياناتك من قِبل أشخاص، كم مرة أخطأ المقيّمون؟
  • هل تُصدر ميزاتك ضوضاء؟ بمعنى آخر، هل تحتوي القيم في ميزاتك على أخطاء؟ يجب أن تكون واقعيًا، فلا يمكنك إزالة كل مصادر التشويش من مجموعة البيانات. إنّ بعض الضوضاء أمر طبيعي، على سبيل المثال، تتغيّر قياسات نظام تحديد المواقع العالمي (GPS) لأي موقع جغرافي دائمًا قليلاً من أسبوع لآخر.
  • هل تم فلترة البيانات بشكل صحيح لحل مشكلتك؟ على سبيل المثال، هل يجب أن تتضمّن مجموعة البيانات طلبات بحث من برامج التتبّع؟ إذا كنت بصدد إنشاء نظام لرصد المحتوى غير المرغوب فيه، ستكون الإجابة على الأرجح "نعم". أمّا إذا كنت تحاول تحسين نتائج البحث للمستخدمين، فلا.

في ما يلي الأسباب الشائعة للبيانات غير الموثوقة في مجموعات البيانات:

  • القيم التي تم حذفها على سبيل المثال، نسي أحد الأشخاص إدخال قيمة لسنه المنزل.
  • أمثلة مكرّرة على سبيل المثال، حمّل خادم عن طريق الخطأ إدخالات log نفسها مرتين.
  • قيم ميزة غير صحيحة على سبيل المثال، كتب أحد الأشخاص رقمًا إضافيًا أو تم ترك ميزان حرارة تحت أشعة الشمس.
  • التصنيفات غير الصالحة على سبيل المثال، قد يصنّف أحد الأشخاص عن طريق الخطأ صورة شجرة بلوط على أنّها شجرة قيقب.
  • أقسام البيانات غير الصالحة على سبيل المثال، تكون ميزة معيّنة موثوقة جدًا، باستثناء يوم واحد عندما استمرت شبكة الاتصال في التعطل.

ننصحك باستخدام عمليات التشغيل الآلي للإبلاغ عن البيانات غير الموثوق بها. على سبيل المثال، يمكن أن تُبلغ اختبارات الوحدة التي تحدّد مخطّط بيانات رسميًا خارجيًا أو تعتمد عليه عن القيم التي تقع خارج نطاق محدّد.

الأمثلة الكاملة مقابل الأمثلة غير المكتملة

في حال مثالية، يكون كل مثال مكتملاً، أي أنّ كل مثال يحتوي على قيمة لكل سمة.

الشكل 1. مثال يحتوي على قيم لكلّ
       من ميزاته الخمس
الشكل 1. مثال كامل

 

غالبًا ما تكون الأمثلة الواقعية غير مكتملة، ما يعني أنّه لا تتوفّر قيمة واحدة على الأقل للعنصر.

الشكل 2.  مثال يحتوي على قيم لأربع من ميزاته
            الخمس تم وضع علامة "غير متوفّرة" على ميزة واحدة.
الشكل 2. مثال غير مكتمل

 

لا تدرِّب نموذجًا على أمثلة غير مكتملة. بدلاً من ذلك، يمكنك تصحيح المثال المعني أو إزالته أو إزالة الأمثلة غير المكتملة باتّباع أحد الإجراءَين التاليَين:

  • حذف الأمثلة غير المكتملة
  • Impute القيم غير المتوفّرة، أي تحويل المثال غير المكتمل إلى مثال كامل من خلال تقديم تخمينات مستندة إلى أسباب وجيهة للقيم غير المتوفّرة
الشكل 3. مجموعة بيانات تحتوي على ثلاثة أمثلة، اثنان منها
            غير مكتملان أزال أحد المستخدمين المثالين التاليين غير المكتملين
            من مجموعة البيانات.
الشكل 3. حذف الأمثلة غير المكتملة من مجموعة البيانات

 

الشكل 4.  مجموعة بيانات تحتوي على ثلاثة أمثلة، كان اثنان منها
            أمثلة غير مكتملة تحتوي على بيانات غير متوفّرة أدخلت جهة معيّنة (شخص
            أو برنامج تحديد مصدر البيانات) قيمًا بديلة بدلاً من
            البيانات غير المتوفّرة.
الشكل 4. إدخال قيم مفقودة للأمثلة غير المكتملة

 

إذا كانت مجموعة البيانات تحتوي على أمثلة كاملة كافية لتدريب نموذج مفيد، ننصحك بحذف الأمثلة غير المكتملة. وبالمثل، إذا كانت سمة واحدة فقط لا تتضمّن قدرًا كبيرًا من البيانات ومن المحتمل أنّ هذه السمة لا يمكنها مساعدة النموذج كثيرًا، ننصحك بحذف هذه السمة من مدخلات النموذج ومعرفة مقدار الجودة التي يتم فقدانها عند إزالتها. إذا كان النموذج يعمل بشكل جيد بدونها أو تقريبًا، هذا أمر رائع. في المقابل، إذا لم يكن لديك أمثلة كاملة كافية لتدريب نموذج مفيد، يمكنك التفكير في استنتاج القيم غير المتوفّرة.

لا بأس بحذف الأمثلة غير المفيدة أو المتكرّرة، ولكن من السيئ حذف الأمثلة المهمة. قد يكون من الصعب التفريق بين الأمثلة غير المفيدة والمفيدة. إذا لم تتمكّن من تحديد ما إذا كان عليك الحذف أو الاستبدال، ننصحك بإنشاء مجموعتَي بيانات: إحداهما تم إنشاؤها من خلال حذف الأمثلة غير المكتملة والأخرى من خلال الاستبدال. بعد ذلك، حدِّد مجموعة البيانات التي تدرّب النموذج الأفضل.


ومن الخوارزميات الشائعة استخدام المتوسط أو المتوسط الحسابي كقيمة مُستخدَمة. ونتيجةً لذلك، عند تمثيل سمة رقمية باستخدام نقاط Z، تكون القيمة المقدَّرة عادةً 0 (لأنّ 0 هو بشكل عام متوسّط نقاط Z).

تمرين: التحقّق من فهمك

في ما يلي عمودان من مجموعة بيانات تم ترتيبهما حسب Timestamp.

الطابع الزمني درجة الحرارة
8 حزيران (يونيو) 2023، الساعة 9:00 12
8 حزيران (يونيو) 2023، الساعة 10:00 18
8 حزيران (يونيو) 2023، الساعة 11:00 غير متاحة
8 حزيران (يونيو) 2023، الساعة 12:00 24
8 حزيران (يونيو) 2023، الساعة 13:00 38

أي مما يلي سيكون قيمة معقولة للاستنتاج للقيمة غير المتوفّرة درجة الحرارة؟

23
على الأرجح. 23 هي متوسّط القيم المجاورة (12 و18 و24 و38). ومع ذلك، لا نرى بقية مجموعة البيانات، لذا من الممكن أن يكون العدد 23 قيمة شاذة لساعة 11:00 في الأيام الأخرى.
31
لا أعتقد ذلك. يشير الجزء المحدود من مجموعة البيانات الذي يمكننا الاطّلاع عليه إلى أنّ 31 درجة مئوية هي قيمة مرتفعة جدًا لـ درجة الحرارة عند الساعة 11:00. ومع ذلك، لا يمكننا التأكّد من ذلك بدون استناد عملية الإسناد إلى عدد أكبر من الأمثلة.
51
احتمال مُستبعَد تمامًا إنّ القيمة 51 أعلى بكثير من أيّ من القيم المعروضة (وبالتالي، أعلى بكثير من المتوسط).