فهم المشكلة

لفهم المشكلة، قم بتنفيذ المهام التالية:

  • حدد هدف المنتج الذي تقوم بإعداده أو تعيد الهيكل.
  • حدد ما إذا كان من الأفضل حل الهدف باستخدام التعلم الآلي التنبؤي، أو الذكاء الاصطناعي التوليدي أو الحلول التي لا تعتمد على تعلُّم الآلة.
  • تحقق من أن لديك البيانات المطلوبة لتدريب نموذج إذا كنت تستخدم لنهج التعلم الآلي التنبؤي.

تحديد الهدف

ابدأ بذكر هدفك بعبارات ليست لتعلُّم الآلة. إن الهدف هو الإجابة عن "ما الذي أحاول تحقيقه؟"

يوضح الجدول التالي بوضوح أهداف التطبيقات الافتراضية:

التطبيق الهدف
تطبيق الطقس احسب نسبة هطول الأمطار بزيادات تبلغ ست ساعات لمنطقة جغرافية.
تطبيق الموضة إنشاء مجموعة متنوعة من تصميمات القمصان.
تطبيق الفيديو اقتراح فيديوهات مفيدة
تطبيق البريد رصد المحتوى غير المرغوب فيه
تطبيق مالي يمكنك تلخيص المعلومات المالية من مصادر إخبارية متعدّدة.
تطبيق الخريطة حساب وقت السفر.
تطبيق الخدمات المصرفية تحديد المعاملات الاحتيالية
تطبيق لتناول الطعام تحديد المطبخ من خلال قائمة طعام المطعم.
تطبيق التجارة الإلكترونية الردّ على المراجعات بإجابات مفيدة

محو حالة الاستخدام لتعلُّم الآلة

يرى البعض أنّ تعلُّم الآلة أداة شاملة يمكن تطبيقها على جميع المشاكل. ضِمن فإن التعلم الآلي هو أداة متخصصة مناسبة فقط لمشكلات معينة. إِنْتَ لا يرغبون في تنفيذ حل معقد لتعلُّم الآلة عند استخدام حلّ أبسط غير تعلُّم الآلة مناسبة.

يمكن تقسيم أنظمة تعلُّم الآلة إلى فئتَين واسعتَين: تعلُّم الآلة القائم على التوقّعات الذكاء الاصطناعي التوليدي: ما يلي: السمات المحددة لها:

الإدخال الناتج أسلوب التدريب
تعلُّم الآلة القائم على التوقّعات نص
صورة
صوت
فيديو

رقمي
لعمل تنبؤ، على سبيل المثال، تصنيف إرسال بريد إلكتروني كرسائل غير مرغوب فيها أو ليست من الرسائل غير المرغوب فيها، أو تخمين هطول الأمطار غدًا، أو للتنبؤ بسعر السهم. ويمكن عادةً التحقق من النتائج وفقًا للواقع. عادةً ما تستخدم الكثير من البيانات لتدريب المدرب أو غير المُوجّه أو التشجيعي لتنفيذ مهمة محددة.
الذكاء الاصطناعي التوليدي نص
صورة
صوت
فيديو
رقمي
تؤدي إلى إنشاء نتائج استنادًا إلى نية المستخدم بالشراء، على سبيل المثال: تلخيصًا لمقالة أو إنتاج مقطع صوتي أو فيديو قصير تستخدم عادةً الكثير من البيانات غير المصنّفة لتدريب نموذج لغوي كبير أو منشئ الصور لملء البيانات المفقودة. ويمكن بعد ذلك استخدام النموذج للمهام التي يمكن تأطيرها كمهام ملء الفراغ، أو يمكن أن تكون من خلال تدريبها على البيانات المصنفة لبعض المهام المحددة، مثل الفئات.

للتأكّد من أنّ تعلُّم الآلة هو النهج الصحيح، يجب أولاً التحقّق من أنّ لديك خبرة سابقة في مجال تعلُّم الآلة تحسين الحلّ. إذا لم يتم تنفيذ حل بخلاف تكنولوجيا تعلُّم الآلة، جرِّب حل المشكلة يدويًا باستخدام الإرشادي:

إن الحل غير المعتمد على تعلُّم الآلة هو المعيار الذي ستستخدمه لتحديد ما إذا كان تعلُّم الآلة وهي حالة استخدام جيدة لمشكلتك. ضع في اعتبارك الأسئلة التالية عند المقارنة نهج غير التعلم الآلي لتعلُّم الآلة:

  • الجودة: إلى أي مدى يمكن حلّ مشكلة تعلُّم الآلة من وجهة نظرك؟ إذا كنت أعتقد أن حل التعلم الآلي قد لا يكون سوى تحسين صغير، وقد يشير ذلك إلى فإن الحل الحالي هو الأفضل.

  • التكلفة والصيانة: ما مدى تكلفة حل تعلُّم الآلة في كلّ من على المدى القصير والطويل؟ وفي بعض الحالات، يكلف الأمر أكثر بكثير من حيث لحساب الموارد والوقت لتنفيذ التعلم الآلي. ضع في اعتبارك ما يلي الأسئلة:

    • هل يمكن أن يبرّر حل تعلُّم الآلة الزيادة في التكلفة؟ لاحظ أن صغيرة يمكن للتحسينات في الأنظمة الكبيرة تبرير التكلفة صيانة تنفيذ حل تعلُّم الآلة.
    • ما مقدار الصيانة التي سيتطلبها الحل؟ وفي كثير من الحالات، قد يكون تعلُّم الآلة عمليات التنفيذ بحاجة إلى صيانة مخصّصة على المدى الطويل.
    • هل يحتوي منتجك على الموارد اللازمة لدعم التدريب أو التوظيف إلى الأشخاص الذين لديهم خبرة في مجال تعلُّم الآلة؟

التحقّق من فهمك

ما سبب أهمية توفُّر حلّ لا يستند إلى تعلُّم الآلة أو توجيه إرشادي قبل؟ لحل مشكلات التعلم الآلي؟
أمّا الحل غير المستنِد إلى تعلُّم الآلة، فهو المعيار الذي يتم قياسه وفقًا له.
تساعدك الحلول غير المتعلّقة بتعلُّم الآلة في تحديد تكلفة حلّ تعلُّم الآلة.

تعلُّم الآلة القائم على التوقّعات والبيانات

البيانات هي القوة الدافعة لتعلم الآلة التنبؤية. صنع الخير التنبؤات، فأنت بحاجة إلى بيانات يحتوي على ميزات ذات توقّعات القوة. يجب أن تحتوي بياناتك على الخصائص التالية:

  • وفرة. كلما كانت الأمثلة الأكثر صلة وفائدة في لمجموعة البيانات، كانت نموذجك.

  • متسقة وموثوقة: إن امتلاك بيانات متسقة وموثوقة جمعتها إلى إنشاء نموذج أفضل. على سبيل المثال، يستخدم تطبيق تعلُّم الآلة من البيانات التي تم جمعها على مدار سنوات عديدة من نفس الآلات.

  • موثوق به: فهم من أين ستأتي بياناتك. هل ستكون البيانات من مصادر موثوقة تتحكم فيها، مثل السجلات من منتجك، أو هل من مصادر لا تعرف الكثير من المعلومات عنها، مثل مخرجات من مصدر آخر تعلُّم الآلة؟

  • متاح. تأكد من توفر كل البيانات التي تم إدخالها في وقت التنبؤ في التنسيق الصحيح. إذا كان سيكون من الصعب الحصول على قيم خصائص معينة في وقت التنبؤ، احذف هذه الميزات من مجموعات البيانات لديك.

  • صحيح. في مجموعات البيانات الكبيرة، لا مفر من أن بعض التصنيفات على قيم غير صحيحة، ولكن إذا كانت هناك نسبة مئوية صغيرة من التصنيفات غير صحيحة، فسيُعرض النموذج ينتج عنها تنبؤات ضعيفة.

  • الممثل: ينبغي أن تكون مجموعات البيانات ممثلة للنتائج العالم قدر الإمكان. بمعنى آخر، يجب أن تعكس مجموعات البيانات بدقة للأحداث وسلوكيات المستخدم و/أو الظواهر الواقعية المنمذجة. يمكن أن يتسبب التدريب على مجموعات البيانات غير التمثيلية في ضعف الأداء عندما يُطلب من النموذج تقديم تنبؤات واقعية.

إذا لم تتمكن من الحصول على البيانات التي تحتاجها بالتنسيق المطلوب، فسينشئ النموذج التوقعات السيئة.

القوة التنبؤية

لكي يقوم أي نموذج بتقديم تنبؤات جيدة، ينبغي أن تحتوي الميزات في مجموعة البيانات على القوة التنبؤية. كلما زاد ارتباط الميزة بتسمية، زادت احتمالية التنبؤ بها.

سيكون لبعض الميزات قدرة توقّعية أكبر من غيرها. على سبيل المثال، في إحدى مجموعة بيانات الطقس، وميزات مثل cloud_coverage وtemperature من المفترض أن تكون التوقّعات المتعلقة بالأمطار أفضل على dew_point مقارنةً بتوقّعات الأمطار moon_phase. day_of_week بالنسبة لمثال تطبيق الفيديو، يمكنك أن تفترض أن ميزات مثل video_description وlength وviews مؤشرات جيدة بشأن مقاطع الفيديو التي يرغب المستخدم في مشاهدتها.

واعلم أن قوة الميزة التنبؤية يمكن أن تتغير لأن السياق أو تغييرات النطاق. على سبيل المثال، في تطبيق الفيديو، ميزة مثل upload_date بشكل عام - ارتباطًا ضعيفًا بالتسمية. ومع ذلك، في النطاق الفرعي لفيديوهات الألعاب، يمكن أن يكون upload_date مرتبطًا ارتباطًا وثيقًا التسمية.

قد يستغرق تحديد الميزات التي لها قوة تنبؤية وقتًا طويلاً الدفع. يمكنك استكشاف قدرة الميزة على التنبؤ يدويًا عن طريق إزالة وإضافته أثناء تطبيق أحد النماذج. يمكنك برمجة عملية البحث عن القوة التنبؤية باستخدام خوارزميات مثل ارتباط بيرسون، المعلومات المتبادلة المعدّلة (AMI) أو Shapley value والتي تقدم تقييمًا رقميًا لتحليل القوة التنبؤية feature.

التحقّق من فهمك

عند تحليل مجموعات البيانات الخاصة بك، ما هي السمات الرئيسية الثلاث التي يجب التي تبحث عنها؟
ممثل العالم الحقيقي.
يحتوي على قيم صحيحة.
يكون للميزات القدرة على التنبؤ.
صغيرة بما يكفي لتحميلها على جهاز محلي.
يتم جمعها من مجموعة متنوعة من المصادر غير المتوقعة.

لمزيد من الإرشادات حول تحليل مجموعات البيانات وإعدادها، راجع إعداد البيانات وهندسة الميزات لتعلُّم الآلة:

التوقعات مقابل الإجراءات

لا قيمة للتنبؤ بشيء ما إذا لم تتمكن من تحويله إلى إجراءً يساعد المستخدمين. أي أنه يجب أن يتخذ منتجك إجراءً بدءًا من مخرج النموذج.

فعلى سبيل المثال، نموذج يتوقّع ما إذا كان المستخدم سيجد فيديو مفيدًا أم لا إلى تطبيق يقترح مقاطع فيديو مفيدة. وهو نموذج للتنبؤ ما إذا كانت ستتساقط أمطار في تطبيق الطقس.

التحقّق من فهمك

بناءً على السيناريو التالي، حدد ما إذا كان استخدام التعلم الآلي هو الأفضل نهجك لحل المشكلة.

يعد الفريق الهندسي في مؤسسة كبيرة مسئولاً عن إدارة المكالمات الهاتفية الواردة.

الهدف: إعلام المتصلين بالمدة التي سينتظرونها في وضع الانتظار المحدد مستوى الاتصال الحالي.

وليس لديهم أي حل في مكانه، لكنهم يعتقدون أن الإرشاد سيجعله تقسيم القيمة الحالية عدد العملاء المعلقين من خلال عدد الموظفين الذين يجيبون على الهواتف، ثم ضرب الناتج في 10 دقائق. ومع ذلك، ويعرف أن بعض العملاء قد تم حل مشكلاتهم في دقيقتين، في حين أنّ البعض الآخر قد يستغرق مدة تصل إلى 45 دقيقة أو أكثر

ربما لن يوفر لهم إرشاداتهم عددًا دقيقًا كافيًا من البيانات. هم إنشاء مجموعة بيانات بالأعمدة التالية: number_of_callcenter_phones، user_issue، time_to_resolve، call_time، time_on_hold

استخدام تعلُّم الآلة: الفريق الهندسي لديه هدف محدد بوضوح. الإرشادي لن يكون جيدًا بما يكفي لحالة الاستخدام لديهم. تظهر مجموعة البيانات لكي يكون لديها ميزات تنبؤية للتصنيف، time_on_hold.
لا تستخدِم تعلُّم الآلة: على الرغم من أن لها هدفًا محددًا بوضوح، إلا أنها استخدام حلّ غير مخصّص لتعلُّم الآلة وتحسينه أولاً أيضًا، أن مجموعة البيانات لا تحتوي على خصائص كافية بقدرة التنبؤ.