الإمكانية

خلال مرحلة التصور والتخطيط، يمكنك استكشاف عناصر حلّ لتعلُّم الآلة. أثناء مهمة تحديد المشكلة، يمكنك تحديد مشكلة من خلال حلّ يعتمد على تعلُّم الآلة. تغطّي دورة مقدمة في تحديد إطار مشاكل تعلُّم الآلة هذه الخطوات بالتفصيل. أثناء مهمة التخطيط، يمكنك تقدير مدى جدوى الحلول، وتخطيط طرق التنفيذ، وتحديد مقاييس النجاح.

على الرغم من أنّ تعلُّم الآلة قد يكون حلاً جيدًا من الناحية النظرية، إلا أنّه لا يزال عليك تقدير مدى جدواه في الواقع. على سبيل المثال، قد يكون الحلّ صالحًا من الناحية الفنية، ولكن قد يكون من غير العملي أو المستحيل تنفيذه. تؤثر العوامل التالية في جدوى المشروع:

  • مدى توفّر البيانات
  • مستوى صعوبة المشكلة
  • جودة التوقّع
  • المتطلبات الفنية
  • التكلفة

مدى توفّر البيانات

تعتمد جودة نماذج تعلُّم الآلة على جودة البيانات التي يتم تدريبها عليها. وهي تحتاج إلى الكثير من البيانات العالية الجودة لإجراء توقّعات عالية الجودة. يمكن أن تساعدك الإجابة عن الأسئلة التالية في تحديد ما إذا كانت لديك البيانات اللازمة لتدريب نموذج:

  • الكمية: هل يمكنك الحصول على بيانات عالية الجودة بما يكفي لتدريب نموذج؟ هل الأمثلة المصنّفة شحيحة أو يصعب الحصول عليها أو باهظة التكلفة؟ على سبيل المثال، من الصعب جدًا الحصول على صور طبية مصنّفة أو ترجمات للغات نادرة. لتقديم توقّعات جيدة، تتطلّب نماذج التصنيف العديد من الأمثلة لكل تصنيف. إذا كانت مجموعة بيانات التدريب تحتوي على أمثلة محدودة لبعض التصنيفات، لن يتمكّن النموذج من تقديم توقعات جيدة.

  • مدى توفّر الميزة في وقت العرض: هل ستكون جميع الميزات المستخدَمة في التدريب متاحة عند العرض؟ وقد استغرقت الفرق وقتًا طويلاً في تدريب النماذج، ثم تبيّن لها أنّ بعض الميزات لم تصبح متاحة إلا بعد أيام من الوقت الذي كانت تحتاج فيه النماذج إليها.

    على سبيل المثال، لنفترض أنّ نموذجًا يتوقّع ما إذا كان العميل سينقر على عنوان URL، وأنّ إحدى الميزات المستخدَمة في التدريب تتضمّن user_age. ومع ذلك، عندما يعرض النموذج نتيجة توقّع، لا تتوفّر قيمة user_age، ربما لأنّ المستخدم لم ينشئ حسابًا بعد.

  • اللوائح التنظيمية: ما هي اللوائح التنظيمية والمتطلبات القانونية لاكتساب البيانات واستخدامها؟ على سبيل المثال، تفرض بعض المتطلبات قيودًا على تخزين أنواع معيّنة من البيانات واستخدامها.

الذكاء الاصطناعي التوليدي

غالبًا ما تتطلّب نماذج الذكاء الاصطناعي التوليدي المدرَّبة مسبقًا مجموعات بيانات منتقاة للتفوّق في المهام الخاصة بمجال معيّن. قد تحتاج إلى مجموعات بيانات لحالات الاستخدام التالية:

  • هندسة الطلبات و الضبط الفعّال للمَعلمات و الضبط الدقيق استنادًا إلى حالة الاستخدام، قد تحتاج إلى ما بين 10 و10,000 مثال عالي الجودة لتحسين نتائج النموذج. على سبيل المثال، إذا كان النموذج بحاجة إلى ضبط دقيق للتفوّق في مهمة معيّنة، مثل الإجابة عن أسئلة طبية، ستحتاج إلى مجموعة بيانات عالية الجودة تمثّل أنواع الأسئلة التي سيُطرح عليه بالإضافة إلى أنواع الإجابات التي يجب أن يقدمها.

    يوضّح الجدول التالي تقديرات لعدد الأمثلة اللازمة لتحسين نتائج نموذج الذكاء الاصطناعي التوليدي لأسلوب معيّن:

  • الأسلوب عدد الأمثلة المطلوبة
    الطلب بلا مثال 0
    الطلب بأمثلة قليلة ‫~10 ثوانٍ إلى 100 ثانية
    الضبط الفعّال للمَعلمات 1 من 100 إلى 10,000 تقريبًا
    ضبط النماذج من 1,000 إلى 10,000 (أو أكثر)
    1 تعديل الترتيب المنخفض (LoRA) وتعديل الطلبات
  • معلومات حديثة: بعد التدريب المُسبَق، تتضمّن نماذج الذكاء الاصطناعي التوليدي قاعدة معرفة ثابتة. إذا كان المحتوى في نطاق النموذج يتغيّر بشكل متكرّر، ستحتاج إلى استراتيجية للحفاظ على تحديث النموذج، مثل:

مستوى صعوبة المشكلة

قد يكون من الصعب تقدير مستوى صعوبة المشكلة. فما يبدو في البداية نهجًا معقولاً قد يتحوّل في الواقع إلى سؤال بحثي مفتوح، وما يبدو عمليًا وقابلاً للتنفيذ قد يتحوّل إلى أمر غير واقعي أو غير قابل للتنفيذ. يمكن أن تساعد الإجابة عن الأسئلة التالية في قياس صعوبة المشكلة:

  • هل تم حلّ مشكلة مشابهة من قبل؟ على سبيل المثال، هل استخدمت الفِرق في مؤسستك بيانات مشابهة (أو متطابقة) لإنشاء نماذج؟ هل سبق أن حلّ أشخاص أو فِرق خارج مؤسستك مشاكل مماثلة، مثلاً في Kaggle أو TensorFlow Hub؟ إذا كان الأمر كذلك، من المحتمل أن تتمكّن من استخدام أجزاء من نموذجهم لإنشاء نموذجك.

  • هل طبيعة المشكلة صعبة؟ يمكن أن تساعد معرفة الأداء البشري المعياري للمهمة في تحديد مستوى صعوبة المشكلة. على سبيل المثال:

    • يمكن للبشر تصنيف نوع الحيوان في صورة بدقة تبلغ% 95 تقريبًا.
    • يمكن للبشر تصنيف الأرقام المكتوبة بخط اليد بدقة تبلغ% 99 تقريبًا.

    تشير البيانات السابقة إلى أنّ إنشاء نموذج لتصنيف الحيوانات أصعب من إنشاء نموذج لتصنيف الأرقام المكتوبة بخط اليد.

  • هل هناك جهات سيئة محتملة؟ هل سيحاول المستخدمون استغلال نموذجك؟ في هذه الحالة، ستكون في سباق دائم لتعديل النموذج قبل أن تتم إساءة استخدامه. على سبيل المثال، لا يمكن لفلاتر الرسائل غير المرغوب فيها رصد أنواع جديدة من الرسائل غير المرغوب فيها عندما يستغلّ أحد المستخدمين النموذج لإنشاء رسائل إلكترونية تبدو مشروعة.

الذكاء الاصطناعي التوليدي

تتضمّن نماذج الذكاء الاصطناعي التوليدي ثغرات محتملة يمكن أن تزيد من صعوبة المشكلة:

  • مصدر الإدخال: من أين ستأتي البيانات؟ هل يمكن أن تؤدي الطلبات الخصومية إلى تسريب بيانات التدريب أو مواد المقدّمة أو محتوى قاعدة البيانات أو معلومات الأدوات؟
  • استخدام الناتج: كيف سيتم استخدام النتائج؟ هل سيصدر النموذج محتوًى أوليًا أم ستكون هناك خطوات وسيطة لاختبار المحتوى والتحقّق من ملاءمته؟ على سبيل المثال، يمكن أن يؤدي تقديم ناتج أولي إلى الإضافات إلى حدوث عدد من المشاكل الأمنية.
  • الضبط الدقيق: يمكن أن يؤثر الضبط الدقيق باستخدام مجموعة بيانات تالفة سلبًا في أوزان النموذج. سيؤدي هذا التلف إلى أن يعرض النموذج محتوًى غير صحيح أو سامًا أو متحيزًا. كما ذكرنا سابقًا، تتطلّب عملية الضبط الدقيق مجموعة بيانات تم التحقّق من أنّها تتضمّن أمثلة عالية الجودة.

جودة التوقّع

عليك التفكير مليًا في تأثير التوقعات التي يقدمها النموذج على المستخدمين وتحديد جودة التوقعات اللازمة للنموذج.

تعتمد جودة التوقّع المطلوبة على نوع التوقّع. على سبيل المثال، لن تكون جودة التوقّع المطلوبة لنظام الاقتراحات هي نفسها المطلوبة لنموذج يحدّد المخالفات للسياسات. قد يؤدي اقتراح الفيديو غير المناسب إلى تقديم تجربة سيئة للمستخدم. مع ذلك، قد يؤدي الإبلاغ بشكل خاطئ عن فيديو باعتباره ينتهك سياسات إحدى المنصات إلى تكبّد تكاليف دعم أو، الأسوأ من ذلك، رسوم قانونية.

هل يحتاج نموذجك إلى أن يتمتّع بجودة تنبؤ عالية جدًا لأنّ التنبؤات الخاطئة مكلفة للغاية؟ بشكل عام، كلما زادت جودة التوقّع المطلوبة، زادت صعوبة المشكلة. لسوء الحظ، غالبًا ما تصل المشروعات إلى نقطة تناقص العائدات أثناء محاولة تحسين الجودة. على سبيل المثال، قد تؤدي زيادة الدقة في أحد النماذج من% 99.9 إلى% 99.99 إلى زيادة تكلفة المشروع بمقدار 10 مرات (أو أكثر).

كلما زادت جودة التوقعات، زادت تكاليف المشروع.

الشكل 2 عادةً ما يتطلّب مشروع تعلُّم الآلة المزيد من الموارد كلما زادت جودة التوقّعات المطلوبة.

الذكاء الاصطناعي التوليدي

عند تحليل ناتج الذكاء الاصطناعي التوليدي، يجب مراعاة ما يلي:

  • المعلومات الصحيحة: مع أنّ نماذج الذكاء الاصطناعي التوليدي يمكنها إنتاج محتوى بطلاقة واتساق، لا يمكن ضمان أن يكون هذا المحتوى دقيقًا. تُعرف البيانات الخاطئة التي تصدر عن نماذج الذكاء الاصطناعي التوليدي باسم الافتراءات. على سبيل المثال، يمكن أن تتضمّن نماذج الذكاء الاصطناعي التوليدي معلومات ملفّقة، وأن تقدّم ملخّصات غير صحيحة للنصوص، أو إجابات خاطئة عن أسئلة رياضية، أو بيانات غير صحيحة عن العالم. لا تزال العديد من حالات الاستخدام تتطلّب أن يتحقّق شخص من صحة المحتوى من إنشاء الذكاء الاصطناعي التوليدي قبل استخدامه في بيئة إنتاج، مثل الرموز البرمجية من إنشاء نماذج اللغات الكبيرة.

    وكما هو الحال مع تعلُّم الآلة التقليدي، كلما زادت متطلبات الدقة الوقائعية، زادت تكلفة التطوير والصيانة.

  • جودة الإخراج: ما هي العواقب القانونية والمالية (أو الآثار الأخلاقية) للمخرجات السيئة، مثل المحتوى المتحيّز أو المسروق أو المسيء؟

المتطلبات الفنية

تتضمّن النماذج عددًا من المتطلبات الفنية التي تؤثر في مدى جدواها. في ما يلي المتطلبات الفنية الرئيسية التي يجب استيفاؤها لتحديد مدى جدوى مشروعك:

  • وقت الاستجابة: ما هي متطلبات وقت الاستجابة؟ ما هي السرعة التي يجب أن تظهر بها التوقّعات؟
  • الطلبات في الثانية (QPS): ما هي متطلبات عدد الطلبات في الثانية؟
  • استخدام ذاكرة الوصول العشوائي ما هي متطلبات ذاكرة الوصول العشوائي (RAM) للتدريب والعرض؟
  • المنصة: مكان تنفيذ النموذج: على الإنترنت (يتم إرسال طلبات البحث إلى خادم RPC)، أو WebML (داخل متصفّح ويب)، أو ODML (على هاتف أو جهاز لوحي)، أو بلا إنترنت (يتم حفظ التوقعات في جدول)
  • القابلية للتفسير: هل يجب أن تكون التوقعات قابلة للتفسير؟ على سبيل المثال، هل سيحتاج منتجك إلى الإجابة عن أسئلة مثل "لماذا تم تصنيف جزء معيّن من المحتوى على أنّه غير مرغوب فيه؟" أو "لماذا تم تحديد أنّ فيديو معيّن ينتهك سياسة المنصة؟"

  • معدّل تكرار إعادة التدريب: عندما تتغيّر البيانات الأساسية لنموذجك بسرعة، قد يكون من الضروري إعادة التدريب بشكل متكرّر أو مستمر. ومع ذلك، يمكن أن تؤدي إعادة التدريب المتكررة إلى تكاليف كبيرة قد تفوق فوائد تعديل توقّعات النموذج.

في معظم الحالات، سيكون عليك على الأرجح التنازل عن جودة النموذج من أجل الالتزام بالمواصفات الفنية. في هذه الحالات، عليك تحديد ما إذا كان بإمكانك إنتاج نموذج جيد بما يكفي لطرحه.

الذكاء الاصطناعي التوليدي

يُرجى مراعاة المتطلبات الفنية التالية عند استخدام الذكاء الاصطناعي التوليدي:

  • المنصة: تتوفّر العديد من النماذج المدرَّبة مسبقًا بأحجام مختلفة، ما يتيح استخدامها على مجموعة متنوعة من المنصات التي تتضمّن موارد حسابية مختلفة. على سبيل المثال، يمكن أن تتراوح النماذج المدرَّبة مسبقًا بين نماذج كبيرة الحجم في مراكز البيانات ونماذج صغيرة الحجم يمكن استخدامها على الهواتف. عليك مراعاة قيود وقت الاستجابة والخصوصية والجودة الخاصة بمنتجك أو خدمتك عند اختيار حجم النموذج. في كثير من الأحيان، يمكن أن تتعارض هذه القيود. على سبيل المثال، قد تتطلّب قيود الخصوصية أن يتم تشغيل عمليات الاستنتاج على جهاز المستخدم. ومع ذلك، قد تكون جودة الإخراج رديئة لأنّ الجهاز يفتقر إلى الموارد الحسابية اللازمة لتقديم نتائج جيدة.
  • وقت الاستجابة: يؤثّر حجم الإدخال والإخراج للنموذج في وقت الاستجابة. على وجه الخصوص، يؤثر حجم الناتج في وقت الاستجابة أكثر من حجم المدخلات. على الرغم من أنّ النماذج يمكنها معالجة المدخلات بالتوازي، لا يمكنها إنشاء المخرجات إلا بالتسلسل. بعبارة أخرى، قد يكون وقت الاستجابة هو نفسه عند إدخال 500 كلمة أو 10 كلمات، في حين أنّ إنشاء ملخّص من 500 كلمة يستغرق وقتًا أطول بكثير من إنشاء ملخّص من 10 كلمات.
  • استخدام الأدوات وواجهات برمجة التطبيقات: هل يحتاج النموذج إلى استخدام أدوات وواجهات برمجة تطبيقات، مثل البحث على الإنترنت أو استخدام آلة حاسبة أو الوصول إلى برنامج بريد إلكتروني لإكمال مهمة؟ وعادةً، كلما زاد عدد الأدوات اللازمة لإكمال مهمة، زادت فرص انتشار الأخطاء وزادت نقاط ضعف النموذج.

التكلفة

هل يستحق تنفيذ تعلُّم الآلة التكاليف التي يتطلّبها؟ لن تتم الموافقة على معظم مشاريع تعلُّم الآلة إذا كانت تكلفة تنفيذ حلول تعلُّم الآلة وصيانتها أعلى من الأموال التي تجنيها (أو توفّرها). تتضمّن مشاريع تعلُّم الآلة تكاليف بشرية وتكاليف متعلقة بالآلات.

  • التكاليف البشرية: كم عدد الأشخاص الذين سيستغرقهم المشروع للانتقال من مرحلة إثبات المفهوم إلى مرحلة الإنتاج؟ ومع تطوّر مشاريع تعلُّم الآلة، تزداد النفقات عادةً. على سبيل المثال، تتطلّب مشاريع تعلُّم الآلة عددًا أكبر من الأشخاص لنشر نظام جاهز للاستخدام وصيانته مقارنةً بإنشاء نموذج أولي. حاوِل تقدير عدد وأنواع الأدوار التي سيحتاج إليها المشروع في كل مرحلة.

  • تكاليف الآلات: يتطلّب تدريب النماذج ونشرها وصيانتها الكثير من موارد الحوسبة والذاكرة. على سبيل المثال، قد تحتاج إلى حصة من وحدات معالجة Tensor لتدريب النماذج وعرض التوقعات، بالإضافة إلى البنية الأساسية اللازمة لخط أنابيب البيانات. قد تحتاج إلى الدفع مقابل تصنيف البيانات أو دفع رسوم ترخيص البيانات. قبل تدريب نموذج، ننصحك بتقدير تكاليف الآلة اللازمة لإنشاء ميزات تعلُّم الآلة والحفاظ عليها على المدى الطويل.

  • تكلفة الاستدلال: هل سيحتاج النموذج إلى إجراء مئات أو آلاف الاستنتاجات التي تتجاوز تكلفتها الإيرادات المحقّقة؟

تنبيه

يمكن أن تؤدي المشاكل المتعلّقة بأي من المواضيع السابقة إلى صعوبة تنفيذ حلول تعتمد على تعلُّم الآلة، ولكن يمكن أن تؤدي المواعيد النهائية الضيقة إلى تفاقم هذه الصعوبات. حاوِل التخطيط وتخصيص وقت كافٍ استنادًا إلى الصعوبة المتوقّعة للمشكلة، ثم حاوِل تخصيص وقت إضافي أكثر مما قد تخصّصه لمشروع غير مرتبط بتعلُّم الآلة.

التحقّق من فهمك

تعمل في شركة للحفاظ على الطبيعة وتدير برنامج الشركة للتعرّف على النباتات. تريد إنشاء نموذج لتصنيف 60 نوعًا من أنواع النباتات الغازية لمساعدة خبراء الحفاظ على البيئة في إدارة الموائل الخاصة بالحيوانات المهددة بالانقراض.

عثرت على نموذج تعليمات برمجية يحلّ مشكلة مشابهة للتعرّف على النباتات، وكانت التكاليف المقدّرة لتنفيذ الحلّ ضمن ميزانية المشروع. على الرغم من أنّ مجموعة البيانات تتضمّن الكثير من الأمثلة التدريبية، إلا أنّها تتضمّن عددًا قليلاً من الأمثلة الخاصة بالأنواع الخمسة الأكثر غزوًا. لا تشترط القيادة أن تكون توقّعات النموذج قابلة للتفسير، ولا يبدو أنّ هناك عواقب سلبية مرتبطة بالتوقّعات السيئة. هل حلّ تعلُّم الآلة الذي اخترته مناسب؟

لا.
إجابة صحيحة. على الرغم من استيفاء معظم معايير الجدوى، من المحتمل ألا تتوفّر أمثلة كافية لكل نوع لتدريب نموذج بشكل جيد بما يكفي لتقديم توقعات جيدة.
نعم.
على الرغم من استيفاء معظم معايير الجدوى، لا تتوفّر أمثلة كافية لكل نوع من الكائنات الحية لتدريب نموذج بشكل جيد بما يكفي لتقديم توقعات دقيقة.