حجم مجموعة البيانات وجودتها

"القمامة في النفايات"

تنطبق الحكمة السابقة على تقنية تعلُّم الآلة. في النهاية، النموذج الذي أنشأته يتساوى مع جودة بياناتك. ولكن كيف يمكنك قياس جودة مجموعة البيانات وتحسينها؟ وما مقدار البيانات التي تحتاجها للحصول على نتائج مفيدة؟ تعتمد الإجابات على نوع المشكلة التي تحلّها.

حجم مجموعة البيانات

كقاعدة عامة، يجب أن يتدرّب النموذج على عدد كبير من المقاسات على الأقل مقارنةً بالمعلّمات القابلة للتدريب. بشكل عام، تفوق النماذج البسيطة في مجموعات البيانات الكبيرة النماذج الضخمة على مجموعات البيانات الصغيرة. حققت Google نجاحًا كبيرًا في تدريب نماذج التراجع الخطي البسيطة على مجموعات بيانات كبيرة.

ما الذي يُحتسب ضمن البيانات &quot؟ يعتمد ذلك على المشروع. ضع في اعتبارك الحجم النسبي لمجموعات البيانات هذه:

مجموعة البيانات الحجم (عدد الأمثلة)
مجموعة بيانات زهرة السوسن 150 (إجمالي المجموعة)
MovieLens (مجموعة بيانات 20 مليونًا) 20000263 (إجمالي المجموعة)
الرد السريع على Google Gmail 238000000 (مجموعة التدريب)
كتب Google 468,000,000,000 (إجمالي المجموعة)
ترجمة Google تريليون

كما ترى، تتوفّر مجموعات البيانات بأحجام مختلفة.

جودة مجموعة البيانات

ولا تكمن أهمية استخدام الكثير من البيانات في حال وجود بيانات غير صحيحة، ولكن لا يهمّ سوى الجودة. ولكن ما الذي يتم احتسابه كـ "quality"؟ عبارة غير واضحة. ننصحك باتّباع نهج تجريبي وتحديد الخيار الذي يؤدي إلى أفضل نتيجة. وباتباع طريقة التفكير هذه، مجموعة بيانات الجودة هي التي تتيح لك النجاح في حل مشكلة العمل التي تهمك. وبعبارة أخرى، تكون البيانات جيدة إذا حقّقت هدفها المقصود.

ومع ذلك، أثناء جمع البيانات، من المفيد أن يكون لديك تعريف أكثر وضوحًا للجودة. ثمة جوانب معيّنة من الجودة تتوافق مع النماذج الأفضل أداءً:

  • الموثوقية
  • تمثيل الميزات
  • تصغير الصورة

الموثوقية

تشير الموثوقية إلى الدرجة التي يمكنك بها الثقة في بياناتك. إنّ النموذج الذي يتم تدريبه على مجموعة بيانات موثوق به من المرجّح أن يؤدي إلى توقّعات مفيدة أكثر من النموذج الذي تم تدريبه على بيانات غير موثوق بها. عند قياس الموثوقية، يجب تحديد ما يلي:

  • ما مدى تكرار أخطاء التصنيفات؟ على سبيل المثال، إذا صنّف البشر بياناتك، يخطئ المستخدمون أحيانًا.
  • هل ميزاتك صاخبة؟ على سبيل المثال، تتقلّب قياسات نظام تحديد المواقع العالمي (GPS). هناك ضوضاء جيدة. لن تعمل أبدًا على إزالة مجموعة بياناتك من كل الضجيج. يمكنك جمع مزيد من الأمثلة أيضًا.
  • هل تمت فلترة البيانات بشكل صحيح لمشكلتك؟ على سبيل المثال، هل يجب أن تتضمن مجموعة بياناتك طلبات بحث من برامج التتبُّع؟ إذا كنت تنشئ نظامًا للكشف عن المحتوى غير المرغوب فيه، من المرجح أن تكون الإجابة هي "نعم"، ولكن إذا كنت تحاول تحسين نتائج البحث للبشر، ثم لا.

ما الذي يجعل البيانات غير موثوقة؟ تذكّر من خلال الدورة التدريبية لتعلّم الآلة أن العديد من الأمثلة في مجموعات البيانات لا يمكن الاعتماد عليها بسبب واحد أو أكثر مما يلي:

  • القيم المحذوفة على سبيل المثال، نسي شخص إدخال قيمة لعمر المنزل.
  • أمثلة مكررة. على سبيل المثال، حمّل خادم عن طريق الخطأ السجلات نفسها عن طريق الخطأ.
  • تصنيفات سيئة. على سبيل المثال، شخص بالغ أخطأ في تصنيف صورة شجرة بلوط
  • قيم ميزات غير صحيحة. على سبيل المثال، كتب شخص رقمًا إضافيًا أو تُرَك مقياس درجة الحرارة خارج الشمس.

ركّزت خدمة "ترجمة Google" على الموثوقية من أجل اختيار "&أفضل" مجموعة فرعية من بياناتها، أي أنّ بعض البيانات كانت تحمل تصنيفات أعلى جودة من غيرها.

تمثيل الميزات

تذكّر من خلال الدورة التدريبية لتعلّم الآلة أن التمثيل هو تعيين البيانات لميزات مفيدة. سترغب في وضع الأسئلة التالية في الاعتبار:

سيركز قسم تحويل بياناتك من هذه الدورة التدريبية على تمثيل الميزات.

التدريب مقابل التوقعات

لنبدأ بالحصول على نتائج رائعة بلا اتصال بالإنترنت. وبعد ذلك، في تجربتك المباشرة، لا تثبُت هذه النتائج. ما الذي قد يحدث؟

تقترح هذه المشكلة التدريب/التمايل، أي حساب نتائج مختلفة للمقاييس في وقت التدريب مقابل وقت العرض. قد تكون أسباب الانحراف دقيقة، ولكن لها تأثيرات فادحة في نتائجك. ضع في اعتبارك دائمًا البيانات المتاحة لنموذجك في وقت التوقع. أثناء التدريب، استخدِم فقط الميزات التي ستتوفّر لك، وتأكّد من أنّ مجموعة التدريب تمثّل عدد الزيارات التي يتم عرضها.