تقود التجارب المشروع نحو تحقيق الجدوى. هي فرضيات قابلة للاختبار وقابلة للتكرار. عند إجراء التجارب، يكون الهدف هو إجراء تحسينات تدريجية ومستمرة من خلال تقييم مجموعة متنوعة من هياكل وميزات النماذج. عند التجربة، سترغب في القيام بما يلي:
تحديد أداء المتوقع: ابدأ بإنشاء مقياس أساسي. يعمل المتوقع كعصا قياس لمقارنة التجارب بها.
في بعض الحالات، يمكن أن يوفّر الحل الحالي غير المستند إلى تعلُّم الآلة أول مقياس أساسي. في حال عدم توفّر أي حل حاليًا، يمكنك إنشاء نموذج تعلُّم الآلة باستخدام بنية بسيطة، وبضع ميزات، واستخدام مقاييسه كخط الأساس.
أجرِ تغييرات فردية صغيرة. قم بإجراء تغيير واحد صغير فقط في كل مرة، على سبيل المثال، على المعلمات الفائقة أو البنية أو الميزات. إذا أدى التغيير إلى تحسين النموذج، تصبح مقاييس هذا النموذج الأساس الجديد لمقارنة التجارب المستقبلية بها.
في ما يلي أمثلة على تجارب تُحدث تغييرًا واحدًا صغيرًا:
- تضمين الميزة X
- نستخدم 0.5 بدون استبعاد في أول طبقة مخفية.
- التحويل اللوغاريتمي للميزة Y.
- تغيير معدل التعلم إلى 0.001.
تسجيل مستوى تقدّم التجارب: ستحتاج على الأرجح إلى إجراء الكثير من التجارب. لا تزال التجارب ذات الجودة الرديئة (أو المحايدة) مقارنة بالخط المرجعي مفيدة للتتبع. إنها تشير إلى الأساليب التي لن تنجح. نظرًا لأن التقدم عادةً غير خطي، فمن المهم إظهار أنك تعمل على المشكلة من خلال تمييز جميع الطرق التي وجدت أنها لا تعمل - بالإضافة إلى تقدمك في زيادة الجودة الأساسية.
نظرًا لأنّ كل تدريب كامل على مجموعة بيانات حقيقية يمكن أن يستغرق ساعات (أو أيام)، ننصحك بإجراء تجارب مستقلة متعددة في الوقت نفسه لاستكشاف المجال بسرعة. بينما تستمر في التكرار التحسيني، آمل أن تقترب أكثر من مستوى الجودة الذي تحتاجه للإنتاج.
التشويش في النتائج التجريبية
تجدر الإشارة إلى أنّك قد تواجه تشويشًا في النتائج التجريبية التي لا تتعلق بالتغييرات على النموذج أو البيانات، ما يجعل من الصعب تحديد ما إذا كان التغيير الذي أجريته قد أدى إلى تحسين النموذج أم لا. فيما يلي أمثلة على الأشياء التي يمكن أن تحدث تشويشًا في النتائج التجريبية:
ترتيب البيانات عشوائيًا: إنّ الترتيب الذي تظهر به البيانات للنموذج قد يؤثر في أداء النموذج.
إعداد المتغير: يمكن أن تؤثر الطريقة التي يتم بها تهيئة متغيرات النموذج في أدائه أيضًا.
التوازي غير المتزامن: إذا تم تدريب النموذج باستخدام التوازي غير المتزامن، يمكن أن يؤثر الترتيب الذي يتم به تحديث الأجزاء المختلفة من النموذج في أدائه.
مجموعات التقييم الصغيرة: إذا كانت مجموعة التقييم صغيرة جدًا، قد لا تمثّل الأداء العام للنموذج، ما يؤدي إلى إنتاج تباينات متفاوتة في جودة النموذج.
يساعد إجراء التجربة عدة مرات في تأكيد نتائج التجربة.
التوافق مع ممارسات التجارب
يجب أن يكون لدى فريقك فهم واضح لماهية "التجربة" بالضبط، مع مجموعة محددة من الممارسات والأدوات. ستحتاج إلى وثائق توضح ما يلي:
الأدوات: ما هي الأدوات المستخدَمة في التجربة؟ في معظم الحالات، تكون التجربة فرضية مُختبَرة يمكن إعادة إنتاجها، عادةً عن طريق تسجيل بيانات التعريف (مثل الميزات والمعلَمات الفائقة) التي تشير إلى التغييرات بين التجارب ومدى تأثيرها في جودة النموذج.
ممارسات البرمجة: هل سيستخدم الجميع بيئاتهم التجريبية الخاصة؟ ما مدى (أو سهولة) توحيد عمل الجميع في المكتبات المشتركة؟
إعادة الإنتاج والتتبُّع: ما معايير التكاثر؟ على سبيل المثال، هل يجب أن يستخدم الفريق نفس ممارسات مسار البيانات وتحديد الإصدارات، أم أنه من المقبول عرض المخططات فقط؟ كيف سيتم حفظ البيانات التجريبية: كاستعلامات SQL أم كلقطات نموذج؟ أين سيتم توثيق السجلات من كل تجربة: في مستند أو جدول بيانات أو في نظام إدارة المحتوى (CMS) لإدارة التجارب؟
توقعات خاطئة
لا يوجد نموذج واقعي مثالي. كيف سيتعامل النظام مع التوقّعات الخاطئة؟ ابدأ بالتفكير في كيفية التعامل معها.
تشجع استراتيجية أفضل الممارسات المستخدمين على تصنيف التوقعات الخاطئة بشكل صحيح. على سبيل المثال، تلتقط تطبيقات البريد الرسائل الإلكترونية التي تم تصنيفها عن طريق الخطأ من خلال تسجيل عمليات نقل مستخدمي البريد إلى مجلد الرسائل غير المرغوب فيها، إضافةً إلى عكس ذلك. من خلال الحصول على تصنيفات حقيقية من المستخدمين، يمكنك تصميم حلقات ملاحظات تلقائية لجمع البيانات وإعادة تدريب النموذج.
لاحظ أنه على الرغم من أن الاستطلاعات المضمنة في واجهة المستخدم تلتقط ملاحظات المستخدم، إلا أن البيانات عادةً ما تكون نوعية ولا يمكن دمجها في بيانات إعادة التدريب.
تنفيذ حل شامل
أثناء تجربة فريقك على النموذج، من الجيد البدء في إنشاء أجزاء من المسار النهائي (إذا كانت لديك الموارد للقيام بذلك).
يسهّل إنشاء أجزاء مختلفة من مسار العملية - مثل تناول البيانات وإعادة تدريب النموذج - نقل النموذج النهائي إلى الإنتاج. على سبيل المثال، يمكن أن يساعد الحصول على مسار شامل لنقل البيانات وتقديم التنبؤات الفريق على بدء دمج النموذج في المنتج والبدء في إجراء اختبار المستخدم في مرحلة مبكرة.
استكشاف أخطاء المشروعات المتوقفة وإصلاحها
قد تكون في سيناريوهات يتباطأ فيها تقدم المشروع. ربما كان فريقك يعمل على تجربة واعدة ولكنه لم ينجح في تحسين النموذج لأسابيع. ما هي الإجراءات التي عليك اتخاذها؟ فيما يلي بعض المناهج المحتملة:
استراتيجي: قد تحتاج إلى إعادة صياغة المشكلة. بعد قضاء الوقت في مرحلة التجربة، ربما تفهم المشكلة والبيانات والحلول الممكنة بشكل أفضل. مع معرفة أعمق بالمجال، ربما يمكنك تأطير المشكلة بشكل أكثر دقة.
على سبيل المثال، ربما أردت في البداية استخدام الانحدار الخطي للتنبؤ بقيمة رقمية. ولسوء الحظ، لم تكن البيانات جيدة بما يكفي لتدريب نموذج انحدار خطي قابل للتطبيق. ربما يكشف المزيد من التحليل عن المشكلة التي يمكن حلها من خلال التنبؤ بما إذا كان أحد الأمثلة أعلى أو أقل من قيمة محددة. ويتيح لك هذا إعادة صياغة المسألة كتصنيف ثنائي.
إذا كان التقدم أبطأ من المتوقع، لا تستسلم. قد تكون التحسينات الإضافية بمرور الوقت هي الطريقة الوحيدة لحل المشكلة. كما ذكرنا سابقًا، لا نتوقع نفس القدر من التقدم من أسبوع لآخر. غالبًا ما يتطلب الحصول على إصدار جاهز للإنتاج من نموذج كميات كبيرة من الوقت. قد يكون تحسين النموذج غير منتظم ولا يمكن توقُّعه. يمكن أن تتبع فترات التقدم البطيء حدوث زيادات في التحسين أو العكس.
المسائل الفنية: يمكنك قضاء بعض الوقت في تشخيص التوقعات الخاطئة وتحليلها. وفي بعض الحالات، يمكنك العثور على المشكلة من خلال عزل بعض التوقعات الخاطئة وتشخيص سلوك النموذج في تلك الحالات. على سبيل المثال، قد تكشف عن مشكلات في البنية أو البيانات. في حالات أخرى، يمكن أن يساعد الحصول على المزيد من البيانات. قد تحصل على إشارة أوضح تشير إلى أنك على المسار الصحيح، أو قد ينتج عن ذلك المزيد من الضوضاء، مما يشير إلى وجود مشكلات أخرى في النهج.
إذا كنت تعمل على حل مشكلة تتطلب مجموعات بيانات مصنفة بشريًا، فقد يكون من الصعب الحصول على مجموعة بيانات مصنفة لتقييم النموذج. ابحث عن موارد للحصول على مجموعات البيانات التي ستحتاجها للتقييم.
ربما لا يكون هناك أي حل ممكن. ضع إطارًا زمنيًا لنهجك، وتوقف إذا لم تحرز تقدمًا خلال الإطار الزمني. ومع ذلك، إذا كان لديك بيان مشكلة قوي، فمن المحتمل أن يتطلب حلاً.