قياس النجاح

كيف ستعرف ما إذا كان تنفيذ تعلُّم الآلة يستحق الجهد؟ متى يجب أن تبدأ الاحتفال: بعد طرح النموذج مباشرةً وبدء عرض أول نتيجة توقّع، أو بعد أن يبدأ مقياس كمي للأداء التجاري في التحسّن؟

قبل البدء في مشروع، من المهم تحديد مقاييس النجاح والاتفاق على المخرجات. عليك تحديد نوعَي المقاييس التاليَين وتتبُّعهما:

مقاييس الأنشطة التجارية

مقاييس الأداء التجاري هي الأهم. وهي السبب الذي يدفعك إلى استخدام تعلُّم الآلة، لأنّك تريد تحسين نشاطك التجاري.

ابدأ بمقاييس قابلة للقياس للمنتج أو النشاط التجاري. يجب أن يكون المقياس دقيقًا ومركّزًا قدر الإمكان. في ما يلي أمثلة على مقاييس الأداء المركّزة والقابلة للقياس:

  • تقليل تكاليف الكهرباء الشهرية لمركز البيانات بنسبة %30
  • زيادة الإيرادات من اقتراحات المنتجات بنسبة %12
  • زيادة نسبة النقر إلى الظهور بنسبة %9
  • زيادة نسبة رضا العملاء من خلال الاستطلاعات التي تتطلّب الموافقة بنسبة %20
  • زيادة الوقت المستغرَق في الصفحة بنسبة %4

تتبُّع مقاييس النشاط التجاري

إذا لم تكن تتتبّع مقياس الأداء الخاص بنشاطك التجاري الذي تريد تحسينه، ابدأ بتنفيذ البنية الأساسية اللازمة لذلك. فوضع هدف لزيادة نسبة النقر إلى الظهور بنسبة% 15 ليس منطقيًا إذا لم تكن تقيس حاليًا نسب النقر إلى الظهور.

والأهم من ذلك، تأكَّد من قياس المقياس المناسب لمشكلتك. على سبيل المثال، لا تضيّع وقتك في كتابة أدوات لتتبُّع معدّلات النقر إلى الظهور إذا كان المقياس الأكثر أهمية هو الإيرادات الناتجة من الاقتراحات.

مع تقدّم مشروعك، ستدرك ما إذا كان مقياس النجاح المستهدَف هدفًا واقعيًا أم لا. في بعض الحالات، قد تتوصل إلى أنّ المشروع غير قابل للتطبيق بالنظر إلى مقاييس النجاح المحدّدة.

مقاييس النماذج

متى يجب نشر النموذج واستخدامه؟ متى يكون AUC بقيمة معيّنة؟ عندما يصل النموذج إلى مقياس دقة اختبار معيّن تعتمد الإجابة عن هذا السؤال على نوع المشكلة التي تحاول حلّها وجودة التوقّع التي تعتقد أنّك بحاجة إلى تحسينها في مقياس الأداء التجاري.

عند تحديد المقاييس التي سيتم تقييم نموذجك استنادًا إليها، يجب مراعاة ما يلي:

  • تحديد مقياس واحد لتحسينه على سبيل المثال، يمكن تقييم نماذج التصنيف وفقًا لمجموعة متنوعة من المقاييس (AUC وAUC-PR وما إلى ذلك). قد يكون اختيار النموذج الأفضل أمرًا صعبًا عندما تفضّل المقاييس المختلفة نماذج مختلفة. لذلك، اتّفِق على مقياس واحد لتقييم النماذج.

  • تحديد أهداف القبول التي يجب استيفاؤها: تختلف أهداف القبول عن مقاييس تقييم النماذج. وتشير إلى الأهداف التي يجب أن يحقّقها النموذج لكي يُعتبر مقبولاً لحالة استخدام معيّنة. على سبيل المثال، قد يكون هدف القبول هو "أن يكون الناتج غير الصحيح أقل من %0.1" أو "أن يكون معدل الاسترجاع لأهم خمس فئات أكبر من %97".

على سبيل المثال، لنفترض أنّ نموذج تصنيف ثنائي يرصد المعاملات الاحتيالية. قد يكون مقياس التحسين هو الاسترجاع، بينما قد يكون هدف القبول هو الدقة. بعبارة أخرى، سنعطي الأولوية لمعدّل الاسترجاع (تحديد عمليات الاحتيال بشكل صحيح في معظم الأحيان) مع الحرص على أن تظل الدقة عند قيمة معيّنة أو أعلى منها (تحديد المعاملات الاحتيالية الحقيقية).

العلاقة بين مقاييس النماذج ومقاييس الأنشطة التجارية

بشكل أساسي، أنت تحاول تطوير نموذج تكون جودة توقّعاته مرتبطة بشكل سببي بمقياس نشاطك التجاري. لا تعني مقاييس النماذج الجيدة بالضرورة تحسّن مقاييس الأداء. قد يطوّر فريقك نموذجًا يتضمّن مقاييس رائعة، ولكن قد لا تؤدي توقّعات النموذج إلى تحسين مقياس الأداء التجاري.

عندما تكون راضيًا عن جودة توقّعات النموذج، حاوِل تحديد كيفية تأثير مقاييس النموذج في مقياس النشاط التجاري. عادةً، تنشر الفِرق النموذج على% 1 من المستخدمين ثم تراقب مقياس النشاط التجاري.

على سبيل المثال، لنفترض أنّ فريقك يطوّر نموذجًا لزيادة الأرباح من خلال توقّع خسارة العملاء. من الناحية النظرية، إذا كان بإمكانك توقّع ما إذا كان العميل سيغادر المنصة أم لا، يمكنك تشجيعه على البقاء.

ينشئ فريقك نموذجًا بجودة توقّع تبلغ% 95 ويختبره على عيّنة صغيرة من المستخدمين. ومع ذلك، لا تزداد الإيرادات. في الواقع، يزداد معدّل توقُّف العملاء عن استخدام الخدمة أو المنتج. إليك بعض التفسيرات المحتملة:

  • لا تظهر التوقّعات في وقت مبكر بما يكفي لتكون قابلة للتنفيذ. لا يمكن للنموذج توقّع توقّف العملاء عن استخدام الخدمة إلا خلال فترة سبعة أيام، وهي فترة غير كافية لتقديم حوافز لإبقائهم على المنصة.

  • الميزات غير المكتملة: ربما تساهم عوامل أخرى في معدل توقّف العملاء عن استخدام الخدمة لم تكن مضمّنة في مجموعة بيانات التدريب.

  • الحدّ الأدنى غير مرتفع بما يكفي: قد يحتاج النموذج إلى دقة توقّع تبلغ% 97 أو أعلى ليكون مفيدًا.

يوضّح هذا المثال البسيط النقطتَين التاليتَين:

  • من المهم إجراء اختبارات مبكرة للمستخدمين لإثبات (وفهم) العلاقة بين مقاييس النموذج ومقاييس النشاط التجاري.
  • لا تضمن مقاييس النماذج الرائعة تحسّن مقاييس الأداء في النشاط التجاري.

الذكاء الاصطناعي التوليدي

يمثّل تقييم نتائج الذكاء الاصطناعي التوليدي تحديات فريدة. في كثير من الحالات، مثل النتائج المفتوحة أو الإبداعية، يكون الأمر أكثر صعوبة من تقييم نتائج تعلُّم الآلة التقليدية.

يمكن قياس وتقييم النماذج اللغوية الكبيرة باستخدام مجموعة متنوعة من المقاييس. يعتمد تحديد المقاييس التي سيتم تقييم النموذج استنادًا إليها على حالة الاستخدام.

تنبيه

لا تخلط بين نجاح النموذج ونجاح النشاط التجاري. بعبارة أخرى، لا يضمن النموذج الذي يتضمّن مقاييس ممتازة تحقيق النجاح في النشاط التجاري.

يمكن للعديد من المهندسين المهرة إنشاء نماذج تتضمّن مقاييس رائعة. لا يشكّل تدريب نموذج جيد بما يكفي عادةً مشكلة. بل إنّ المشكلة تكمن في أنّ النموذج لا يحسّن مقياس الأداء التجاري. قد يفشل مشروع تعلُّم الآلة بسبب عدم التوافق بين مقاييس الأداء التجاري ومقاييس النموذج.

التحقّق من فهمك

لديك مشكلة واضحة في نشاطك التجاري وحلّ محدّد جيدًا لاستخدام نموذج لغوي كبير كوكيل لدعم العملاء. كيف يمكن قياس نجاح الحل؟
انخفاض عدد طلبات الدعم التي تم حلّها وتتطلّب تدخّلاً بشريًا من% 72 إلى %50
إجابة صحيحة. هذا مقياس كمّي للنشاط التجاري يمكنك تتبُّعه.
تكون مقاييس التقييم الخاصة بالنماذج اللغوية الكبيرة مرتفعة باستمرار.
لا تضمن مقاييس النموذج الجيدة تحسُّن مقاييس النشاط التجاري.
وقد كانت الملاحظات الواردة من اختبار المستخدم الأوّلي إيجابية للغاية.
عادةً ما تكون ملاحظات المستخدمين الأوائل نوعية أكثر من كونها كمية. عليك تحديد مقياس كمّي للنشاط التجاري من أجل قياس النجاح.