البيانات الرقمية: التقديم والترجيع

تُنتج أشجار التفاح مزيجًا من الفاكهة الرائعة والفوضى المليئة بالديدان. ومع ذلك، تعرض التفاح في متاجر البقالة الراقية فاكهة مثالية بنسبة 100%. بين البستان والبقالة، يقضي شخص وقتًا طويلاً في الابتعاد عن الأنظار التفاح الرديء أو رش الشمع على التفاحات القابلة للإنقاذ. بصفتك مهندسًا في مجال تعلُّم الآلة، ستقضي قدرًا هائلاً من وقتك والتخلص من الأمثلة السيئة وإزالة الأمثلة السيئة. حتى القليل من التفاح السيئ يمكن أن يفسد مجموعة بيانات كبيرة.

تعد العديد من الأمثلة في مجموعات البيانات غير موثوقة بسبب واحد أو أكثر من المشكلات التالية:

فئة المشكلة مثال
القيم المحذوفة تعذّر على مسجِّل التعداد تسجيل عمر المقيم.
أمثلة مكرّرة يقوم الخادم بتحميل نفس السجلات مرتين.
قيم الميزات خارج النطاق. يُدخل شخص عن طريق الخطأ رقمًا إضافيًا.
تصنيفات سيئة مقيِّم بشري يخطئ في تسمية صورة شجرة بلوط قيقب.

يمكنك كتابة برنامج أو نص برمجي لاكتشاف أي من المشكلات التالية:

  • القيم المحذوفة
  • أمثلة مكرّرة
  • قيم الميزات خارج النطاق

على سبيل المثال، تحتوي مجموعة البيانات التالية على ست قيم متكررة:

الشكل 15. يتم تكرار القيم الست الأولى. الثمانية الأخيرة
            والقيم ليست كذلك.
الشكل 15. يتم تكرار القيم الست الأولى.

كمثال آخر، لنفترض أن نطاق درجة الحرارة لميزة معينة يجب بين 10 و30 درجة، بشكل شامل. لكن الحوادث تحدث - ربما يتعرض ميزان الحرارة مؤقتًا للشمس وهو ما يؤدي إلى حدوث انحراف سيئ. يجب أن يحدّد البرنامج أو النص البرمجي قيم درجة الحرارة التي تقل عن 10 أو أعلى. من 30:

الشكل 16. تسع عشرة قيمة داخل النطاق وقيمة واحدة خارج النطاق.
الشكل 16. قيمة خارج النطاق.

عندما ينشئ عدة أشخاص التصنيفات، نقترح إحصائيًا. لتحديد ما إذا كان كل مصنّف قد أنشأ مجموعات مكافئة من التصنيفات. ربما كان أحد المصنفين أكثر صرامة من المصنفين الآخرين أو استخدم مجموعة مختلفة من معايير التقييم؟

بمجرد اكتشافه، يمكنك عادةً "إصلاح" الأمثلة التي تحتوي على ميزات سيئة أو التصنيفات السيئة عن طريق إزالتها من مجموعة البيانات أو حساب قيمها. للحصول على التفاصيل، يمكنك مراجعة خصائص البيانات في مجموعات البيانات والتعميم والتوافق المفرط واحدة.