فهم المشكلة

لفهم المشكلة، عليك تنفيذ المهام التالية:

  • حدِّد هدف المنتج الذي تُطوّره أو تُعيد هيكلته.
  • حدد ما إذا كان من الأفضل حل الهدف باستخدام التعلم الآلي التنبؤي، أو الذكاء الاصطناعي التوليدي أو الحلول التي لا تعتمد على تعلُّم الآلة.
  • تأكَّد من توفّر البيانات المطلوبة لتدريب نموذج إذا كنت تستخدِم أسلوبًا تعلُّم آلة تنبؤيًا.

تحديد الهدف

ابدأ بتحديد هدفك بمصطلحات غير متعلّقة بالذكاء الاصطناعي. إن الهدف هو الإجابة عن "ما الذي أحاول تحقيقه؟"

ينص الجدول التالي بوضوح على أهداف التطبيقات الافتراضية:

التطبيق الهدف
تطبيق الطقس احسب نسبة هطول الأمطار بزيادات تبلغ ست ساعات لمنطقة جغرافية.
تطبيق الموضة إنشاء مجموعة متنوعة من تصميمات القمصان.
تطبيق الفيديو اقتراح فيديوهات مفيدة
تطبيق البريد رصد المحتوى غير المرغوب فيه
تطبيق مالي يمكنك تلخيص المعلومات المالية من مصادر إخبارية متعدّدة.
تطبيق الخريطة احتساب مدة الرحلة
تطبيق الخدمات المصرفية تحديد المعاملات الاحتيالية
تطبيق تناول الطعام تحديد المأكولات من خلال قائمة طعام المطعم.
تطبيق التجارة الإلكترونية الردّ على المراجعات من خلال تقديم إجابات مفيدة

حالة استخدام واضحة لاستخدام تعلُّم الآلة

يرى البعض أنّ تعلُّم الآلة أداة شاملة يمكن تطبيقها على جميع المشاكل. في الواقع، الذكاء الاصطناعي هو أداة متخصصة مناسبة فقط لمشاكل معيّنة. لا تريد تنفيذ حلّ معقد لتعلُّم الآلة عندما يكون حلّ أبسط غير مستند إلى تعلُّم الآلة مناسبًا.

يمكن تقسيم أنظمة تعلُّم الآلة إلى فئتَين واسعتَين: تعلُّم الآلة القائم على التوقّعات الذكاء الاصطناعي التوليدي: يسرد الجدول التالي الخصائص المحدّدة لكل منها:

الإدخال النتيجة أسلوب التدريب
تعلُّم الآلة القائم على التوقّعات نص
صورة
صوت
فيديو

رقمي
لعمل تنبؤ، على سبيل المثال، تصنيف إرسال بريد إلكتروني كرسائل غير مرغوب فيها أو ليست من الرسائل غير المرغوب فيها، أو تخمين هطول الأمطار غدًا، أو للتنبؤ بسعر السهم. ويمكن عادةً التحقق من النتائج وفقًا للواقع. عادةً ما تستخدم الكثير من البيانات لتدريب المدرب أو غير المُوجّه أو التشجيعي لتنفيذ مهمة محددة.
الذكاء الاصطناعي التوليدي نص
صورة
صوت
فيديو
رقمي
إنشاء مخرجات استنادًا إلى نية المستخدم، على سبيل المثال، تلخيص مقالة أو إنشاء مقطع صوتي أو فيديو قصير تستخدم عادةً الكثير من البيانات غير المصنّفة لتدريب نموذج لغوي كبير أو منشئ الصور لملء البيانات المفقودة. ويمكن بعد ذلك استخدام النموذج للمهام التي يمكن تأطيرها كمهام ملء الفراغ، أو يمكن أن تكون من خلال تدريبها على البيانات المصنفة لبعض المهام المحددة، مثل الفئات.

للتأكّد من أنّ الذكاء الاصطناعي هو النهج المناسب، عليك أولاً التأكّد من تحسين الحلول الحالية التي لا تعتمد على الذكاء الاصطناعي. إذا لم يكن لديك حلّ غير مستند إلى الذكاء الاصطناعي، حاوِل حلّ المشكلة يدويًا باستخدام إحصاءات تقريبية.

إن الحل غير المعتمد على تعلُّم الآلة هو المعيار الذي ستستخدمه لتحديد ما إذا كان تعلُّم الآلة وهي حالة استخدام جيدة لمشكلتك. ضع في اعتبارك الأسئلة التالية عند مقارنة النهج غير المستنِد إلى الذكاء الاصطناعي بالنهج المستنِد إليه:

  • الجودة: إلى أي مدى يمكن حلّ مشكلة تعلُّم الآلة من وجهة نظرك؟ إذا كان برأيك أنّ حلّ تعلُّم الآلة قد يحقّق تحسينًا بسيطًا فقط، قد يشير ذلك إلى أنّ الحلّ الحالي هو الأفضل.

  • التكلفة والصيانة: ما هي تكلفة حلّ الذكاء الاصطناعي على الصعيدين القصير والطويل المدى؟ في بعض الحالات، ترتفع التكلفة بشكل كبير من حيث موارد الحوسبة والوقت اللازم لتنفيذ الذكاء الاصطناعي. ضع في اعتبارك الأسئلة التالية:

    • هل يمكن أن يبرّر حل تعلُّم الآلة الزيادة في التكلفة؟ يُرجى العِلم أنّ التحسينات الصغيرة في الأنظمة الكبيرة يمكن أن تبرر بسهولة تكلفة تنفيذ حلّ تعلُّم الآلة وصعوبة صيانته.
    • ما هو مستوى الصيانة المطلوب للحلّ؟ وفي كثير من الحالات، قد يكون تعلُّم الآلة عمليات التنفيذ بحاجة إلى صيانة مخصّصة على المدى الطويل.
    • هل يحتوي منتجك على الموارد اللازمة لدعم التدريب أو التوظيف إلى الأشخاص الذين لديهم خبرة في مجال تعلُّم الآلة؟

التحقّق من الفهم

ما أهمية توفُّر حلّ أو طريقة استقرائية غير مستندة إلى تعلُّم الآلة قبل تحليل حلّ مستند إلى تعلُّم الآلة؟
أمّا الحل غير المستنِد إلى تعلُّم الآلة، فهو المعيار الذي يتم قياسه وفقًا له.
تساعدك الحلول غير المتعلّقة بتعلُّم الآلة في تحديد تكلفة حلّ تعلُّم الآلة.

تعلُّم الآلة القائم على التوقّعات والبيانات

البيانات هي القوة الدافعة لتعلم الآلة التنبؤية. صنع الخير التنبؤات، فأنت بحاجة إلى بيانات يحتوي على ميزات ذات توقّعات القوة. يجب أن تحتوي بياناتك على الخصائص التالية:

  • متوفرة بكثرة: كلما كانت الأمثلة الأكثر صلة وفائدة في dataset، كانت نموذجك.

  • متّسق وموثوق: إن امتلاك بيانات متسقة وموثوقة جمعتها إلى إنشاء نموذج أفضل. على سبيل المثال، يستخدم تطبيق تعلُّم الآلة من البيانات التي تم جمعها على مدار سنوات عديدة من نفس الآلات.

  • موثوق: فهم من أين ستأتي بياناتك. هل ستكون البيانات من مصادر موثوق بها تتحكّم فيها، مثل السجلات من منتجك، أم ستكون من مصادر لا تتوفّر لديك إحصاءات كثيرة عنها، مثل النتائج الواردة من نظام تعلُّم آلي آخر؟

  • متاحة: تأكد من توفر كل البيانات التي تم إدخالها في وقت التنبؤ في التنسيق الصحيح. إذا كان من الصعب الحصول على قيم معيّنة للسمات في وقت التنبؤ، احذف هذه السمات من مجموعات البيانات.

  • صحيح. في مجموعات البيانات الكبيرة، لا مفر من أن بعض التصنيفات على قيم غير صحيحة، ولكن إذا كانت هناك نسبة مئوية صغيرة من التصنيفات غير صحيحة، فسيُعرض النموذج ينتج عنها تنبؤات ضعيفة.

  • الممثل: ينبغي أن تكون مجموعات البيانات ممثلة للنتائج العالم قدر الإمكان. بعبارة أخرى، يجب أن تعكس مجموعات البيانات بدقة الأحداث و/أو سلوكيات المستخدمين و/أو ظواهر العالم الحقيقي التي يتم وضع نماذج لها. يمكن أن يتسبب التدريب على مجموعات البيانات غير التمثيلية في ضعف الأداء عندما يُطلب من النموذج تقديم تنبؤات واقعية.

إذا لم تتمكّن من الحصول على البيانات التي تحتاجها بالتنسيق المطلوب، سيقدّم نموذجك توقّعات سيئة.

القوة التنبؤية

لكي يقوم أي نموذج بتقديم تنبؤات جيدة، ينبغي أن تحتوي الميزات في مجموعة البيانات على القوة التنبؤية. كلما زاد ارتباط الميزة بتسمية، زادت احتمالية التنبؤ بها.

سيكون لبعض الميزات قدرة توقّعية أكبر من غيرها. على سبيل المثال، في مجموعة بيانات الطقس، ستكون ميزات مثل cloud_coverage وtemperature و dew_point مؤشرات أفضل لتساقط الأمطار من moon_phase أو day_of_week. في مثال تطبيق الفيديو، يمكنك افتراض أنّ الميزات مثل video_description وlength وviews قد تكون مؤشرات جيدة لتحديد الفيديوهات التي قد يرغب المستخدم في مشاهدتها.

يُرجى العِلم أنّ قدرة الميزة على التوقّع يمكن أن تتغيّر بسبب تغيُّر السياق أو النطاق. على سبيل المثال، في تطبيق الفيديو، ميزة مثل upload_date بشكل عام - ارتباطًا ضعيفًا بالتسمية. ومع ذلك، في النطاق الفرعي للفيديوهات المتعلقة بالألعاب، قد يكون upload_date مرتبطًا ارتباطًا وثيقًا بالتصنيف.

قد يستغرق تحديد الميزات التي لها قوة تنبؤية وقتًا طويلاً الدفع. يمكنك استكشاف قدرة الميزة على التوقّع يدويًا من خلال إزالتها وإضافتها أثناء تدريب نموذج. يمكنك إجراء عملية البحث عن قدرة التنبؤ للسمة تلقائيًا باستخدام خوارزميات مثل معامل الارتباط بين متغيرَين (Pearson correlation)، معلومات متبادلة معدَّلة (AMI)، وقيمة Shapley، التي تقدّم تقييمًا رقميًا لتحليل قدرة التنبؤ للسمة.

التحقّق من الفهم

عند تحليل مجموعات البيانات الخاصة بك، ما هي السمات الرئيسية الثلاث التي يجب أن التي تبحث عنها؟
تمثيل العالم الحقيقي
يحتوي على قيم صحيحة.
يكون للميزات القدرة على التنبؤ.
صغيرة بما يكفي لتحميلها على جهاز محلي
يتم جمعها من مجموعة متنوعة من المصادر غير المتوقعة.

لمزيد من الإرشادات حول تحليل مجموعات البيانات وإعدادها، اطّلِع على مقالة إعداد البيانات وهندسة الميزات لتكنولوجيات تعلُّم الآلة.

التوقعات مقابل الإجراءات

لا قيمة للتنبؤ بشيء ما إذا لم تتمكن من تحويله إلى إجراءً يساعد المستخدمين. وهذا يعني أنّ منتجك يجب أن يتّخذ إجراءً بناءً على ناتج النموذج.

فعلى سبيل المثال، نموذج يتوقّع ما إذا كان المستخدم سيجد فيديو مفيدًا أم لا إلى تطبيق يقترح مقاطع فيديو مفيدة. وهو نموذج للتنبؤ ما إذا كانت ستتساقط أمطار في تطبيق الطقس.

التحقّق من الفهم

بناءً على السيناريو التالي، حدد ما إذا كان استخدام التعلم الآلي هو الأفضل نهجك لحل المشكلة.

يتولّى فريق هندسي في مؤسسة كبيرة إدارة المكالمات الهاتفية الواردة.

الهدف: إعلام المتصلين بالمدة التي سينتظرونها في وضع الانتظار نظرًا لحجم المكالمات الحالي

وليس لديهم أي حل في مكانه، لكنهم يعتقدون أن الإرشاد سيجعله تقسيم القيمة الحالية عدد العملاء المعلقين من خلال عدد الموظفين الذين يجيبون على الهواتف، ثم ضرب الناتج في 10 دقائق. ومع ذلك، ويعرف أن بعض العملاء قد تم حل مشكلاتهم في دقيقتين، في حين أنّ البعض الآخر قد يستغرق مدة تصل إلى 45 دقيقة أو أكثر

ربما لن يوفر لهم إرشاداتهم عددًا دقيقًا كافيًا من البيانات. ويمكنهم إنشاء مجموعة بيانات تتضمّن الأعمدة التالية: number_of_callcenter_phones وuser_issue time_to_resolve وcall_time time_on_hold.

استخدام تعلُّم الآلة: الفريق الهندسي لديه هدف محدد بوضوح. لن تكون استراتيجية البحث العميق هذه جيدة بما يكفي لحالة الاستخدام. يبدو أنّ مجموعة البيانات تتضمّن ميزات توقّعية للتصنيف time_on_hold.
عدم استخدام الذكاء الاصطناعي على الرغم من أنّها تمتلك هدفًا محدّدًا بوضوح، يجب أن تطبّق حلًا غير مستند إلى الذكاء الاصطناعي (ML) وتُحسّنه أولاً. أيضًا، أن مجموعة البيانات لا تحتوي على خصائص كافية بقدرة التنبؤ.