إعداد البيانات وهندسة الميزات في تعلُّم الآلة

تساعدنا تقنية تعلُّم الآلة في العثور على أنماط للبيانات، وهي الأنماط التي نستخدمها لتوقّع نمط جديد من البيانات. لتصحيح هذه التوقعات، يجب إنشاء مجموعة البيانات وتحويل البيانات بشكل صحيح. تتناول هذه الدورة التدريبية الخطوتَين الرئيسيتَين. وسنرى أيضًا كيفية مراعاة اعتبارات التدريب/العرض في هذه الخطوات.

تم تنظيم مشروع تعلُّم الآلة إلى خمس مراحل. 1- حدِّد مشكلة تعلُّم الآلة
واقترح حلاً. 2. أنشئ مجموعة البيانات. 3. تحويل البيانات
4- تدريب نموذج: 5. استخدام النموذج لوضع توقعات  تتضمن هذه الدورة التدريبية
إنشاء مجموعة بيانات وتحويل
البيانات.

المتطلبات الأساسية

تفترض هذه الدورة التدريبية أنّ لديك:

ما أهمية إعداد البيانات وهندسة الميزات؟

يمكن النظر إلى هندسة الميزات على أنها مساعدة النموذج على فهم مجموعة البيانات بالطريقة نفسها التي تتّبعها. وغالبًا ما يقصد المتعلّمون دورة تعلُّم الآلة التي تركّز على إنشاء النماذج، ولكنهم يقضون وقتًا أطول في التركيز على البيانات.

بالنسبة إلى السؤال التالي، انقر على السهم المطلوب للتحقّق من إجابتك:

إذا اضطررت إلى إعطاء الأولوية لتحسين أحد المجالات التالية في مشروع تعلُّم الآلة، ما هو التأثير الأكبر؟
جودة بياناتك وحجمها
البيانات هي الأفضل على الإطلاق. صحيح أنّ تعديل خوارزمية التعلُّم أو بنية النموذج سيتيح لك التعرّف على أنواع مختلفة من الأنماط، ولكن إذا كانت بياناتك سيئة، يؤدي ذلك إلى إنشاء دوال تلائم الخطأ. إنّ جودة مجموعة البيانات وحجمها مهمة جدًا عن الخوارزمية اللامعة التي تستخدمها.
استخدام أحدث خوارزمية للتحسين
يمكنك بالطبع رؤية بعض المكاسب في دفع مُحسّنات الأداء، ولكن لن يكون لها أي تأثير كبير في نموذجك كعنصر آخر في هذه القائمة.
شبكة أقوى
وعلى الرغم من أنّ إنشاء شبكة أعمق قد يُحسّن النموذج، لن يكون التأثير كبيرًا مثل عنصر آخر في هذه القائمة.
وظائف أكثر ذكاءً
إغلاق ويمكن أن تمنحك ميزة الخسارة الأفضل أداءً أفضل، ولكن لا تزال في المرتبة الثانية بعنصر آخر في هذه القائمة.

ما أهمية جمع مجموعة بيانات جيدة؟

ترجمة Google

"...من أفضل التطورات في مجال الجودة منذ الترجمة الآلية العصبية هي تحديد أفضل مجموعة فرعية من بيانات التدريب التي يمكننا استخدامها".

- مهندس برامج، ترجمة Google

يقدّم فريق "ترجمة Google" بيانات تدريبية أكثر مما يمكن استخدامه. وبدلاً من ضبط النموذج، نجح الفريق في تحقيق المزيد من المكاسب باستخدام أفضل الميزات في بياناته.

 

 

 

"...في معظم الأوقات، عندما حاولت تصحيح الأخطاء التي تبدو مثيرة للاهتمام، كان يمكن نسبها إلى مشاكل في بيانات التدريب." - مهندس برامج، ترجمة Google

تحدث الأخطاء "مثيرة للاهتمام" عادةً بسبب البيانات. قد تسبب البيانات الخاطئة نموذجك في تعلم الأنماط غير الصحيحة، بغض النظر عن أساليب وضع النماذج التي تحاولها.

 

 

مشروع العلاج العقلي لمرضى السكري

استخدم مشروع Google Brain لاعتلال الشبكية السكري بنية بنية عصبونية، تُعرف باسم Incetion، لاكتشاف الأمراض من خلال تصنيف الصور. ولم يُجرِ الفريق تعديلات على النماذج. وبدلاً من ذلك، تم إنشاء مجموعة بيانات تضم 120,000 مثال مُصنّفة على يد أطباء عيون. (مزيد من المعلومات على https://research.google.com/pubs/pub43022.html)