التجارب

تدفع التجارب المشروع نحو تحقيق الجدوى. وهي عبارة عن فرضيات قابلة للاختبار والتكرار. عند إجراء التجارب، يكون الهدف هو إجراء تحسينات تدريجية ومستمرة من خلال تقييم مجموعة متنوعة من تصاميم نماذج وميزاتها. عند إجراء التجربة، عليك تنفيذ ما يلي:

  • تحديد الأداء الأساسي: ابدأ بإنشاء مقياس أساسي. يعمل الأساس كأداة قياس لمقارنة التجارب.

    في بعض الحالات، يمكن أن يقدّم الحلّ الحالي غير المستنِد إلى الذكاء الاصطناعي المقياس الأساسي الأول. إذا لم يتوفّر حلّ حاليًا، أنشئ نموذج تعلُّم آليًا باستخدام بنية بسيطة وبعض الميزات واستخدِم مقاييس النموذج كأساس.

  • إجراء تغييرات صغيرة فردية: إجراء تغيير واحد صغير فقط في كل مرة، على سبيل المثال، في المَعلمات الفائقة أو البنية أو الميزات إذا كان التغيير يحسّن النموذج، تصبح مقاييس هذا النموذج هي الأساس الجديد الذي يتم مقارنة التجارب المستقبلية به.

    في ما يلي أمثلة على التجارب التي تُجري تغييرًا صغيرًا واحدًا:

    • أن تتضمّن الميزة X
    • استخدِم نسبة إيقاف 0.5 في الطبقة المخفية الأولى.
    • تطبيق التحويل اللوغاريتمي على الميزة Y
    • غيِّر معدّل التعلّم إلى 0.001.
  • تسجيل مستوى تقدّم التجارب من المرجّح أن تحتاج إلى إجراء العديد من التجارب. لا تزال التجارب التي تتسم بجودة توقّعات ضعيفة (أو محايدة) مقارنةً بقاعدة البيانات الأساسية مفيدة لتتبّعها. وتشير إلى ال approaches التي لن تنجح. ولأنّ مستوى التقدّم عادةً ما يكون غير خطي، من المهم إعلام الفريق بأنّك تعمل على حلّ المشكلة من خلال تسليط الضوء على كل الحلول التي اتّبعتها ولم تنجح، بالإضافة إلى مستوى تقدّمك في تحسين الجودة الأساسية.

بما أنّ كل تدريب كامل على مجموعة بيانات واقعية يمكن أن يستغرق ساعات (أو أيامًا)، ننصح بإجراء عدة تجارب مستقلة في الوقت نفسه لاستكشاف المجال بسرعة. مع مواصلة تكرار العملية، من المرجّح أن تحقّق مستوى الجودة المطلوب للنشر.

التشويش في النتائج التجريبية

يُرجى العِلم أنّك قد تواجه شوشرة في النتائج التجريبية ليست ناتجة عن تغييرات في النموذج أو البيانات، ما يجعل من الصعب تحديد ما إذا كان التغيير الذي أجريته قد حسّن النموذج فعلاً. في ما يلي أمثلة على العوامل التي يمكن أن تؤدي إلى حدوث تشويش في النتائج التجريبية:

  • ترتيب البيانات: يمكن أن يؤثر ترتيب عرض البيانات على النموذج في أدائه.

  • إعداد المتغيّرات: يمكن أن تؤثر أيضًا الطريقة التي يتم بها إعداد المتغيّرات في النموذج في أدائه.

  • التوازُن غير المتزامن: إذا تم تدريب النموذج باستخدام التوازُن غير المتزامن، يمكن أن يؤثر الترتيب الذي يتم به تعديل الأجزاء المختلفة من النموذج في أدائه أيضًا.

  • مجموعات التقييم الصغيرة: إذا كانت مجموعة التقييم صغيرة جدًا، قد لا تمثّل الأداء العام للنموذج، ما يؤدي إلى اختلافات غير متكافئة في جودة النموذج.

يساعد إجراء التجربة عدة مرات في تأكيد النتائج التجريبية.

التوافق مع ممارسات التجارب

يجب أن يكون لدى فريقك فهم واضح لماهية "التجربة" بالضبط، مع مجموعة محدّدة من الممارسات والعناصر. يجب تقديم مستندات تحدد ما يلي:

  • العناصر: ما هي العناصر في التجربة؟ في معظم الحالات، تمثل المحاولة التجريبية فرضية تم اختبارها ويمكن إعادة إنتاجها، وذلك عادةً من خلال تسجيل البيانات الوصفية (مثل الميزات والمَعلمات الفائقة) التي تشير إلى التغييرات بين التجارب ومدى تأثيرها في جودة النموذج.

  • ممارسات الترميز هل سيستخدم الجميع بيئات تجريبية خاصة بهم؟ ما مدى إمكانية (أو سهولة) توحيد أعمال الجميع في مكتبات مشترَكة؟

  • إمكانية إعادة الإجراء والتتبّع: ما هي معايير إعادة الإجراء؟ على سبيل المثال، هل يجب أن يستخدم الفريق مسار بيانات وممارسات إصدار البيانات نفسها، أم أنّه لا بأس بعرض المخططات فقط؟ كيف سيتم حفظ البيانات التجريبية: كطلبات بحث SQL أو كلقطات نموذجية؟ أين سيتم تسجيل السجلّات من كل تجربة: في مستند أو جدول بيانات أو نظام إدارة محتوى لإدارة التجارب؟

التوقعات الخاطئة

لا يوجد نموذج مثالي في العالم الواقعي. كيف سيتعامل نظامك مع التوقّعات الخاطئة؟ ابدأ التفكير مبكرًا في كيفية التعامل مع هذه المشاكل.

تشجّع استراتيجية أفضل الممارسات المستخدمين على تصنيف التوقّعات الخاطئة بشكل صحيح. على سبيل المثال، تلتقط تطبيقات البريد الرسائل الإلكترونية التي تم تصنيفها بشكل خاطئ عن طريق تسجيل الرسائل التي ينقلها مستخدمو البريد إلى مجلد الرسائل غير المرغوب فيها، بالإضافة إلى العكس. من خلال الحصول على تصنيفات الحقيقة الأساسية من المستخدمين، يمكنك تصميم حلقات ملاحظات آلية لجمع البيانات وإعادة تدريب النماذج.

تجدر الإشارة إلى أنّه على الرغم من أنّ الاستطلاعات المضمّنة في واجهة المستخدم تُسجّل ملاحظات المستخدمين، إلا أنّ البيانات تكون نوعية في الغالب ولا يمكن دمجها في بيانات إعادة التدريب.

تنفيذ حلّ شامل

بينما يجرّب فريقك النموذج، من الأفضل أن يبدأ في تطوير أجزاء من مسار التحسين النهائي (إذا كانت لديك الموارد اللازمة لإجراء ذلك).

إنّ إنشاء أجزاء مختلفة من مسار الإحالة الناجحة، مثل نقل البيانات وإعادة تدريب النموذج، يسهّل نقل النموذج النهائي إلى مرحلة الإنتاج. على سبيل المثال، يمكن أن يساعد الحصول على مسار عمل شامل لاستيراد البيانات وعرض التوقعات الفريق على بدء دمج النموذج في المنتج وبدء إجراء اختبارات المستخدمين في المرحلة المبكرة.

تحديد المشاكل وحلّها في المشاريع التي توقفت

قد تكون في سيناريوهات يتوقّف فيها تقدّم المشروع. ربما كان فريقك يعمل على تجربة واعدة ولكن لم ينجح في تحسين النموذج لعدة أسابيع. ما هي الإجراءات التي عليك اتخاذها؟ في ما يلي بعض الطرق الممكنة:

  • استراتيجية: قد تحتاج إلى إعادة صياغة المشكلة. بعد قضاء بعض الوقت في مرحلة الاختبار، من المرجّح أن تفهم المشكلة والبيانات والحلول المحتملة بشكل أفضل. من خلال معرفة أكثر تفصيلاً عن المجال، يمكنك على الأرجح تحديد المشكلة بدقة أكبر.

    على سبيل المثال، ربما أردت في البداية استخدام الانحدار الخطي للتنبؤ بقيمة رقمية. لم تكن البيانات جيدة بما يكفي لتدريب نموذج انحدار خطي قابل للاستخدام. قد يكشف تحليل إضافي أنّه يمكن حلّ المشكلة من خلال توقّع ما إذا كان المثال أعلى قيمة معيّنة أو أقل منها. يتيح لك ذلك إعادة صياغة المشكلة على أنّها مشكلة تصنيف ثنائي.

    إذا كان مستوى التقدّم أبطأ من المتوقع، لا تستسلم. قد تكون التحسينات المتزايدة بمرور الوقت هي الطريقة الوحيدة لحلّ المشكلة. كما ذكرنا سابقًا، لا تتوقّع تحقيق القدر نفسه من التقدّم من أسبوع لآخر. غالبًا ما يستغرق الحصول على إصدار جاهز للنشر من أحد النماذج وقتًا طويلاً. يمكن أن يكون تحسين النموذج غير منتظم وغير متوقّع. يمكن أن تتبع فترات التقدّم المحدود ارتفاعات في التحسين، أو العكس.

  • الجانب الفني: اقضِ بعض الوقت في تشخيص التوقعات الخاطئة وتحليلها. في بعض الحالات، يمكنك العثور على المشكلة من خلال عزل بعض التوقّعات الخاطئة وتشخيص سلوك النموذج في هذه الحالات. على سبيل المثال، قد يتم اكتشاف مشاكل في البنية أو البيانات. وفي حالات أخرى، يمكن أن يساعدك الحصول على المزيد من البيانات. قد تتلقّى إشارة أوضح تشير إلى أنّك على الطريق الصحيح، أو قد تنتج المزيد من الضوضاء، ما يشير إلى وجود مشاكل أخرى في النهج.

    إذا كنت تعمل على حلّ مشكلة تتطلّب مجموعات بيانات مصنّفة من قِبل البشر، قد يكون من الصعب الحصول على مجموعة بيانات مصنّفة لتقييم النموذج. ابحث عن مراجع للحصول على مجموعات البيانات التي ستحتاجها لإجراء التقييم.

قد لا يتوفّر حلّ. حدِّد إطارًا زمنيًا لأسلوبك، وتوقف عن اتّباعه إذا لم تحقّق تقدّمًا خلال الإطار الزمني. في المقابل، إذا كان لديك بيان مشكلة قوي، من المرجّح أن يتطلّب حلًا.

التحقّق من الفهم

عثر أحد أعضاء الفريق على مجموعة من المَعلمات الفائقة التي تحسِّن مقياس النموذج الأساسي. ماذا يجب أن يفعله أعضاء الفريق الآخرون؟
تغيير جميع المَعلمات الفائقة في تجربته الحالية لتتطابق مع المَعلمات الفائقة التي يستخدمها زميله
ابدأ في إنشاء مسار عمل شامل سيتم استخدامه لتنفيذ نموذجك.
قد يُدمج مَعلمة متغيرة واحدة، ولكن يواصل إجراء تجاربه.