قياس النجاح

كيف يمكنك معرفة ما إذا كان تطبيق تعلُّم الآلة يستحق الجهد أم لا؟ متى ينبغي لك البدء في الاحتفال: مباشرة بعد انتقال النموذج إلى الإنتاج وتقديم تنبؤه الأول، أم فقط بعد أن يبدأ مقياس أعمال كمي في التحرك في الاتجاه الصحيح؟

قبل بدء المشروع، من المهم تحديد مقاييس نجاحك والاتفاق على المُخرَجات النهائية. ستحتاج إلى تحديد وتتبع النوعين التاليين من المقاييس:

مقاييس الأعمال

مقاييس الأعمال هي الأهم. هذه هي سبب استخدامك لتعلُّم الآلة: أنك تريد تحسين الأعمال.

ابدأ بمقاييس المنتج أو النشاط التجاري القابلة للقياس الكمي. ينبغي أن يكون المقياس دقيقًا ومركزًا قدر الإمكان. فيما يلي أمثلة على مقاييس الأعمال المركزة والقابلة للقياس الكمي:

  • خفض التكاليف الكهربائية الشهرية لمركز البيانات بنسبة 30 في المائة.
  • زيادة الأرباح من اقتراحات المنتجات بنسبة 12 في المئة.
  • زيادة نسبة النقر إلى الظهور بنسبة 9%
  • ارفع معنويات العملاء من خلال استطلاعات الموافقة بنسبة 20 في المئة.
  • زيادة الوقت المستغرَق في الصفحة بنسبة 4 بالمائة.

تتبع مقاييس النشاط التجاري

إذا كنت لا تتبّع مقياس الأعمال الذي تريد تحسينه، ابدأ بتنفيذ البنية الأساسية لإجراء ذلك. تحديد هدف لزيادة نسبة النقر إلى الظهور بنسبة% 15 ليس منطقيًا إذا كنت لا تقيس حاليًا نِسب النقر إلى الظهور.

والأهم من ذلك، تأكد من أنك تقيس المقياس الصحيح لمشكلتك. على سبيل المثال، لا تهدر وقتك في كتابة أدوات لتتبع معدلات النقر إلى الظهور إذا كان المقياس الأكثر أهمية قد يكون الأرباح الناتجة عن الاقتراحات.

مع تقدم مشروعك، ستدرك ما إذا كان مقياس النجاح المستهدف هدفًا واقعيًا أم لا. في بعض الحالات، قد تقرر أن المشروع غير قابل للتطبيق بالنظر إلى مقاييس النجاح المحددة.

مقاييس النماذج

متى يجب إنشاء النموذج؟ متى تكون قيمة AUC عند قيمة معيّنة؟ متى يصل النموذج إلى درجة F1 معينة؟ تعتمد الإجابة عن هذا السؤال على نوع المشكلة التي تحلها وجودة التنبؤ التي تعتقد أنك بحاجة إلى تحسين مقياس الأعمال.

عند تحديد المقاييس المطلوب تقييم نموذجك وفقًا لها، ضع في اعتبارك ما يلي:

  • تحديد مقياس واحد لتحسينه: على سبيل المثال، يمكن تقييم نماذج التصنيف مقابل مجموعة متنوعة من المقاييس (AUC وAUC-PR، وغير ذلك). قد يمثل اختيار أفضل نموذج تحديًا عندما تفضّل المقاييس المختلفة نماذج مختلفة. لذلك، اتفق على مقياس واحد لتقييم النماذج وفقًا له.

  • تحديد أهداف القبول المطلوب تحقيقها: تختلف أهداف القبول عن مقاييس تقييم النماذج. وهي تشير إلى الأهداف التي يجب أن يلبيها النموذج حتى يُعد مقبولاً لحالة الاستخدام المقصودة. على سبيل المثال، قد يكون الهدف المقبول "إنتاج غير صحيح أقل من 0.1%"، أو "استدعاء الفئات الخمس الأولى أكبر من 97%".

على سبيل المثال، لنفترض أنّ نموذج التصنيف الثنائي يرصد المعاملات الاحتيالية. قد يتذكر مقياس التحسين الخاص به، بينما قد يكون هدف القبول هو الدقة. بمعنى آخر، سنعطي الأولوية لاستدعاء الإجراءات (تحديد عمليات الاحتيال بشكل صحيح في معظم الأوقات) مع الرغبة في الدقة في البقاء عند قيمة معيّنة أو فوقها (تحديد المعاملات الاحتيالية الحقيقية).

العلاقة بين مقاييس النموذج ومقاييس النشاط التجاري

ونحاول أساسًا تطوير نموذج ترتبط جودة توقّعه بمقياس نشاطك التجاري. لا تتضمن مقاييس النماذج العظيمة بالضرورة مقاييس أعمال محسّنة. قد يقوم فريقك بإعداد نموذج بمقاييس مثيرة للإعجاب، لكن تنبؤات النموذج قد تفشل في تحسين مقياس العمل.

عندما تكون راضيًا عن جودة توقع النموذج، حاول تحديد مدى تأثير مقاييس النموذج على مقياس الأعمال. ستنشر الفرق عادةً النموذج لـ 1٪ من المستخدمين ثم تراقب مقياس الأعمال.

على سبيل المثال، لنفترض أن فريقك يطور نموذجًا لزيادة الأرباح من خلال التنبؤ بانسحاب العملاء. نظريًا، إذا كان بإمكانك توقُّع ما إذا كان العميل سيغادر المنصة أم لا، يمكنك تشجيعه على البقاء.

يقوم فريقك بإنشاء نموذج بجودة توقع بنسبة 95٪ واختباره على عينة صغيرة من المستخدمين. ومع ذلك، لا تزيد الأرباح. يزداد انسحاب العملاء في الواقع. وفي ما يلي بعض التفسيرات المحتملة:

  • لا تظهر التوقّعات مبكرًا بما يكفي لتكون قابلة للتنفيذ. لا يمكن للنموذج التنبؤ بانسحاب العملاء إلا خلال فترة زمنية تبلغ سبعة أيام، وهو أمر غير كافٍ لتقديم حوافز لإبقائهم على المنصة.

  • الميزات غير المكتملة. ربما تسهم عوامل أخرى في خسارة العملاء والتي لم تكن واردة في مجموعة بيانات التدريب.

  • الحدّ الأدنى ليس مرتفعًا بما يكفي. قد يحتاج النموذج إلى الحصول على جودة تنبؤ بنسبة 97٪ أو أعلى حتى يكون مفيدًا.

ويسلط هذا المثال البسيط الضوء على النقطتَين التاليتَين:

  • من المهم إجراء اختبار مبكر للمستخدم لإثبات (وفهم) الصلة بين مقاييس النموذج ومقاييس العمل.
  • لا تضمن مقاييس النماذج الممتازة تحسين مقاييس النشاط التجاري.

الذكاء الاصطناعي التوليدي

إنّ تقييم نتائج الذكاء الاصطناعي التوليدي يفرض تحديات فريدة. في كثير من الحالات، مثل المخرجات المفتوحة أو الإبداعية، يكون الأمر أكثر صعوبة من تقييم مخرجات تعلُّم الآلة التقليدية.

يمكن قياس النماذج اللغوية الكبيرة وتقييمها وفقًا لمجموعة متنوّعة من المقاييس. يعتمد تحديد المقاييس التي سيتم تقييم نموذجك عليها على حالة استخدامك. يُرجى الاطّلاع على المقالة مقدّمة حول تقييم النماذج اللغوية الكبيرة.

تنبيه

لا تخلط بين نجاح النموذج ونجاح النشاط التجاري. بمعنى آخر، لا يضمن النموذج ذو المقاييس البارزة نجاح النشاط التجاري.

يمكن للعديد من المهندسين المهرة إنشاء نماذج بمقاييس مبهرة. لا عادة ما يكون التدريب على نموذج جيد بما يكفي. بل بدلاً من ذلك، لا يحسن النموذج مقياس الأعمال. يمكن أن يكون مشروع تعلُّم الآلة موجَّهًا إلى الفشل بسبب عدم الاتساق بين مقاييس الأعمال ومقاييس النماذج.

التحقّق من فهمك