أثناء مرحلة التصور والتخطيط، تقوم بالتحقيق في عناصر حل تعلُّم الآلة. أثناء مهمة تحديد المشكلة، يمكنك تحديد إطار لمشكلة من حيث حل تعلُّم الآلة. وتتناول دورة مقدمة عن تأطير مشكلات التعلم الآلي هذه الخطوات بالتفصيل. أثناء مهمة التخطيط، يمكنك تقدير إمكانية الحل والتخطيط للنهج وتعيين مقاييس النجاح.
رغم أن تعلُّم الآلة قد يكون حلاً جيدًا من الناحية النظرية، لا تزال بحاجة إلى تقدير دراسة الجدوى به في الواقع. على سبيل المثال، قد يعمل الحل من الناحية الفنية ولكنه غير عملي أو من المستحيل تنفيذه. تؤثر العوامل التالية على جدوى المشروع:
- مدى توفُّر البيانات
- صعوبة المشكلة
- جودة التوقّع
- المتطلبات الفنية
- التكلفة
مدى توفُّر البيانات
تكون نماذج تعلُّم الآلة بنفس جودة البيانات التي يتم تدريبها عليها. إنها بحاجة إلى الكثير من البيانات عالية الجودة لعمل تنبؤات عالية الجودة. يمكن أن تساعدك معالجة الأسئلة التالية في الحكم على ما إذا كانت لديك البيانات الضرورية لتدريب نموذج ما:
الكمية: هل يمكنك الحصول على بيانات كافية عالية الجودة لتدريب نموذج؟ هل الأمثلة المصنَّفة نادرة أو يصعب الحصول عليها أو باهظة الثمن؟ على سبيل المثال، من المعروف أن الحصول على صور طبية أو ترجمات للغات نادرة. لتقديم توقعات جيدة، تتطلّب نماذج التصنيف العديد من الأمثلة لكل تصنيف. إذا كانت مجموعة بيانات التدريب تحتوي على أمثلة محدودة لبعض التصنيفات، لن يتمكّن النموذج من تقديم توقّعات جيدة.
مدى توفُّر الميزة في وقت العرض: هل ستكون جميع الميزات المستخدمة في التدريب متاحة في وقت العرض؟ قضت الفرق قدرًا كبيرًا من الوقت في التدريب على نماذج فقط لإدراك أن بعض الميزات لم تصبح متاحة إلا بعد أيام من طلب النموذج لها.
على سبيل المثال، لنفترض أنّ أحد النماذج يتنبأ بما إذا كان العميل سينقر على عنوان URL أم لا، وتشتمل إحدى الميزات المستخدمة في التدريب على
user_age
. مع ذلك، عندما يعرض النموذج توقّعًا، لا تكون السمةuser_age
متاحة، ربما لأنّ المستخدم لم ينشئ حسابًا بعد.اللوائح: ما اللوائح والمتطلبات القانونية للحصول على البيانات واستخدامها؟ على سبيل المثال، تضع بعض المتطلبات حدودًا لتخزين واستخدام أنواع معينة من البيانات.
الذكاء الاصطناعي التوليدي
غالبًا ما تتطلّب نماذج الذكاء الاصطناعي التوليدي المدرَّبة مسبقًا مجموعات بيانات منظَّمة للنجاح في مهام خاصة بالنطاق. من المحتمل أن تحتاج إلى مجموعات بيانات لحالات الاستخدام التالية:
-
الهندسة من خلال الطلبات
وضبط كفاءة المعلَمات
و
الضبط.
واستنادًا إلى حالة الاستخدام، قد تحتاج إلى ما بين 10 و10,000 مثال عالي الجودة لتحسين نتائج النموذج بشكل أكبر. على سبيل المثال، إذا كان هناك حاجة إلى تحسين أحد النماذج
لتحسينه في مهمة معيّنة، مثل الإجابة عن أسئلة طبية، ستحتاج إلى مجموعة بيانات عالية الجودة
تمثّل أنواع الأسئلة التي سيتم طرحها عليه مع أنواع الإجابات التي يجب أن يجيب من خلالها هذا النموذج.
يقدّم الجدول التالي تقديرات لعدد الأمثلة اللازمة لتحسين نتائج نموذج الذكاء الاصطناعي التوليدي لتقنية معيّنة:
-
معلومات حديثة: بعد تدريب نماذج الذكاء الاصطناعي التوليدي مسبقًا،
لديها قاعدة معرفية ثابتة. إذا كان المحتوى في نطاق النموذج يتغيّر باستمرار،
ستحتاج إلى استراتيجية لإبقاء النموذج محدّثًا، مثل:
- توليف
- الإنشاء المعزز باسترداد البيانات (RAG)
- تدريب مسبق دوري
الأسلوب | عدد الأمثلة المطلوبة |
---|---|
طلب التنفيذ بدون أي لقطة | 0 |
طلب بضع لقطات | بين 10 ثوانٍ و100 ثانية تقريبًا |
توليف فعّال للمعلَمات 1 | بين 100 و10,000 ثانية تقريبًا |
الضبط الدقيق | من 1000 إلى 10,000 ثانية تقريبًا (أو أكثر) |
صعوبة المشكلة
قد يكون من الصعب تقدير مستوى صعوبة المشكلة. ما يبدو في البداية نهجًا معقولاً قد يتحول في الواقع إلى سؤال بحثي مفتوح؛ ما يبدو عمليًا وقابلاً للتنفيذ قد يتبين أنه غير واقعي أو غير عملي. يمكن أن تساعد الإجابة عن الأسئلة التالية في قياس مدى صعوبة المشكلة:
هل تم حلّ مشكلة مماثلة؟ على سبيل المثال، هل استخدمت الفرق في مؤسستك بيانات مماثلة (أو متطابقة) لإنشاء نماذج؟ هل قام أشخاص أو فرق من خارج مؤسستك بحل مشكلات مماثلة، على سبيل المثال، في Kaggle أو TensorFlow Hub؟ إذا كان الأمر كذلك، فمن المحتمل أنك ستتمكن من استخدام أجزاء من نموذجهم لإنشاء نموذجك.
هل طبيعة المشكلة صعبة؟ يمكن أن تساعد معرفة المعايير البشرية للمهمة في إبلاغ مستوى المشكلة. مثال:
- ويمكن للبشر تصنيف نوع الحيوان في صورة بنسبة دقة تبلغ% 95 تقريبًا.
- يمكن للبشر تصنيف الأرقام المكتوبة بخط اليد بدقة تصل إلى% 99 تقريبًا.
تشير البيانات السابقة إلى أن إنشاء نموذج لتصنيف الحيوانات أصعب من إنشاء نموذج لتصنيف الأرقام المكتوبة بخط اليد.
هل هناك جهات مسيئة محتملة؟ هل سيحاول الأشخاص استغلال نموذجك بنشاط؟ فإذا كان الأمر كذلك، فأنت في سباق مستمر لتحديث النموذج قبل إساءة استخدامه. على سبيل المثال، لا يمكن لفلاتر الرسائل غير المرغوب فيها اكتشاف أنواع جديدة من المحتوى غير المرغوب فيه عندما يستغل شخص ما النموذج لإنشاء رسائل بريد إلكتروني تبدو شرعية.
الذكاء الاصطناعي التوليدي
تتضمّن نماذج الذكاء الاصطناعي التوليدي ثغرات محتملة يمكن أن تزيد من صعوبة المشكلة:
- مصدر الإدخال: من أين سيأتي الإدخال؟ هل يمكن أن تسرب المطالبات الخادعة بيانات التدريب أو مواد التمهيد أو محتوى قاعدة البيانات أو معلومات عن الأدوات؟
- استخدام النتائج: كيف سيتم استخدام المخرجات؟ هل سيخرج النموذج محتوًى أوليًا أم ستكون هناك خطوات وسيطة تختبر وتتحقّق من مدى ملاءمة النموذج؟ على سبيل المثال، قد يؤدي توفير مخرجات أولية للمكونات الإضافية إلى حدوث عدد من مشاكل الأمان.
- الضبط الدقيق: ويمكن أن يؤثر الضبط الدقيق مع مجموعة البيانات التالفة سلبًا في ترجيح النموذج. وسيؤدي هذا التلف إلى عرض النموذج لمحتوى غير صحيح أو غير لائق أو متحيّز. وكما ذكرنا سابقًا، يتطلب الضبط الدقيق مجموعة بيانات تم إثبات صحتها لتحتوي على أمثلة عالية الجودة.
جودة التوقّع
ستحتاج إلى التفكير بعناية في تأثير توقعات النموذج على المستخدمين وتحديد جودة التنبؤ اللازمة المطلوبة للنموذج.
تعتمد جودة التوقعات المطلوبة على نوع التنبؤ. على سبيل المثال، لن تكون جودة التنبؤ المطلوبة لنظام التوصية هي نفسها في النموذج الذي يُبلغ عن انتهاكات السياسات. قد يؤدي اقتراح فيديو خاطئ إلى ترك انطباع سيئ لدى المستخدم. إنّ الإبلاغ عن فيديو بشكل خاطئ على أنّه ينتهك سياسات المنصة قد يؤدي إلى فرض تكاليف دعم أو رسوم قانونية أو أسوأ من ذلك.
هل سيحتاج نموذجك إلى جودة تنبؤ عالية جدًا لأن التوقعات الخاطئة مكلفة للغاية؟ بشكل عام، كلما ارتفعت جودة التنبؤ المطلوبة، زادت صعوبة المشكلة. ولسوء الحظ، غالبًا ما تحقق المشروعات عائدات متدنية أثناء محاولتك تحسين الجودة. على سبيل المثال، قد تؤدي زيادة دقة النموذج من 99.9% إلى 99.99% إلى زيادة بمقدار 10 مرات في تكلفة المشروع (إن لم يكن أكثر).
الشكل 2. يتطلب مشروع تعلُّم الآلة عادةً المزيد والمزيد من الموارد مع زيادة جودة التنبؤ المطلوبة.
الذكاء الاصطناعي التوليدي
عند تحليل نتائج الذكاء الاصطناعي التوليدي، يجب مراعاة ما يلي:
-
الدقة في الواقع: مع أنّ نماذج الذكاء الاصطناعي التوليدي يمكن أن تنتج محتوى بطلاقة
ومترابطة، لا يمكن ضمان أن يكون المحتوى من الوقائع. تُسمّى العبارات
الزائفة من نماذج الذكاء الاصطناعي التوليدي
التغاير.
على سبيل المثال، يمكن لنماذج الذكاء الاصطناعي التوليدي أن تشوّق وتنشئ
ملخّصات غير صحيحة للنص أو إجابات خاطئة عن أسئلة في الرياضيات
أو بيانات كاذبة حول العالم. لا تزال العديد من حالات الاستخدام
تتطلّب التحقّق البشري من نتائج الذكاء الاصطناعي التوليدي قبل استخدامها
في بيئة إنتاج، على سبيل المثال الرمز اللغوي الكبير.
وعلى غرار تعلُّم الآلة التقليدي، كلما ارتفعت دقة الوقائع، زادت تكلفة تطوير المحتوى وصيانته.
- جودة النتائج: ما هي العواقب القانونية والمالية (أو الآثار الأخلاقية) للمخرجات السيئة، مثل المحتوى المتحيّز أو السرقة أو التي تتضمّن لغة غير لائقة؟
المتطلبات الفنية
للنماذج عدد من المتطلبات الفنية التي تؤثر في إمكانية تنفيذها. فيما يلي المتطلبات الفنية الرئيسية التي ستحتاج إلى تلبيتها لتحديد جدوى مشروعك:
- وقت الاستجابة: ما هي متطلبات وقت الاستجابة؟ ما مدى سرعة عرض التوقعات؟
- طلبات البحث في الثانية (QPS). ما هي متطلبات QPS؟
- استخدام ذاكرة الوصول العشوائي: ما متطلبات ذاكرة الوصول العشوائي (RAM) للتدريب والعرض؟
- النظام الأساسي. أين سيتم تشغيل النموذج: عبر الإنترنت (طلبات البحث المرسلة إلى خادم RPC)، WebML (داخل متصفح الويب)، أو ODML (على هاتف أو جهاز لوحي)، أم بلا اتصال (التوقعات المحفوظة في جدول)؟
سهولة التفسير: هل يجب أن تكون التوقعات قابلة للتفسير؟ على سبيل المثال، هل يجب أن يجيب منتجك عن أسئلة مثل "لماذا تم وضع علامة على محتوى معيّن كمحتوى غير مرغوب فيه؟" أو "لماذا تم تحديد فيديو يخالف سياسة المنصة؟"
معدل تكرار إعادة التدريب: عندما تتغير البيانات الأساسية لنموذجك بسرعة، قد يكون من الضروري إعادة التدريب بشكل متكرر أو مستمر. ومع ذلك، يمكن أن تؤدي إعادة التدريب المتكررة إلى تكاليف كبيرة قد تفوق فوائد تحديث تنبؤات النموذج.
في معظم الحالات، يتعين عليك على الأرجح التنازل عن جودة النموذج للالتزام بمواصفاته الفنية. في هذه الحالات، ستحتاج إلى تحديد ما إذا كان لا يزال بإمكانك إنتاج نموذج جيد بما يكفي للذهاب إلى الإنتاج.
الذكاء الاصطناعي التوليدي
يُرجى مراعاة المتطلبات الفنية التالية عند استخدام الذكاء الاصطناعي التوليدي:
- النظام الأساسي. تتوفّر العديد من النماذج المدرّبة مسبقًا بأحجام مختلفة، ما يتيح لها العمل على مجموعة متنوعة من المنصات ذات موارد حاسوبية مختلفة. على سبيل المثال، يمكن أن تتراوح النماذج المدرَّبة مسبقًا بين مقياس مركز البيانات والمقاسات على الهاتف. وعند اختيار حجم الطراز، يجب أن تأخذ في الاعتبار وقت الاستجابة والخصوصية وجودة قيود متعلقة بالمنتج أو الخدمة التي تقدّمها. غالبًا ما تتعارض هذه القيود. على سبيل المثال، قد تتطلب قيود الخصوصية تطبيق الاستنتاجات على جهاز المستخدم. ومع ذلك، قد تكون جودة الإخراج رديئة لأنّ الجهاز يفتقر إلى الموارد الحسابية اللازمة لتقديم نتائج جيدة.
- وقت الاستجابة: يؤثر إدخال النموذج وحجم الإخراج في وقت الاستجابة. وعلى وجه التحديد، يؤثر حجم الإخراج في وقت الاستجابة مقارنةً بحجم الإدخال. بإمكان النماذج موازاة إدخالاتها، ولكن يمكنها إنشاء مخرجات بشكل تسلسلي فقط. بعبارة أخرى، قد يكون وقت الاستجابة هو نفسه عند نقل بيانات الإدخال المكوّنة من 500 كلمة أو 10 كلمات، بينما يستغرق إنشاء ملخّص مكوّن من 500 كلمة وقتًا أطول بكثير من إنشاء ملخّص مكوّن من 10 كلمات.
- استخدام الأدوات وواجهة برمجة التطبيقات: هل سيحتاج النموذج إلى استخدام أدوات وواجهات برمجة تطبيقات، مثل البحث على الإنترنت أو استخدام آلة حاسبة أو الوصول إلى برنامج بريد إلكتروني لإكمال مهمة؟ وكلما زاد عدد الأدوات اللازمة لإكمال المهمة، زادت فرص نشر الأخطاء وزيادة عدد الثغرات الأمنية في النموذج.
التكلفة
هل يستحق تطبيق تعلُّم الآلة التكاليف؟ لن تتم الموافقة على معظم مشاريع تعلُّم الآلة إذا كان تنفيذ حلّ تعلُّم الآلة وصيانته أكثر تكلفة من الأموال التي ينشئها (أو يحفظها). تتحمّل مشاريع تعلُّم الآلة التكاليف البشرية والآلية على حدّ سواء.
التكاليف البشرية: كم عدد الأشخاص الذين سيستغرقها المشروع للانتقال من إثبات المفهوم إلى الإنتاج؟ مع تطور مشروعات تعلُّم الآلة، تزداد النفقات عادةً. على سبيل المثال، تتطلب مشروعات تعلُّم الآلة عددًا أكبر من الأشخاص لنشر نظام جاهز للإنتاج وصيانته مقارنةً بإنشاء نموذج أوّلي. حاول تقدير عدد وأنواع الأدوار التي سيحتاجها المشروع في كل مرحلة.
تكاليف الأجهزة: يتطلب تدريب النماذج ونشرها وصيانتها الكثير من الحوسبة والذاكرة. على سبيل المثال، قد تحتاج إلى حصة من وحدات معالجة الموتّرات (TPU) لنماذج التدريب وعرض التوقّعات، إلى جانب البنية الأساسية اللازمة لمسار البيانات. قد تضطر إلى الدفع للحصول على تصنيف البيانات أو دفع رسوم ترخيص البيانات. قبل تدريب نموذج، ننصحك بتقدير تكاليف الآلة لإنشاء ميزات تعلُّم الآلة وصيانتها على المدى الطويل.
تكلفة الاستنتاج: هل سيحتاج النموذج إلى تقديم المئات أو الآلاف من الاستنتاجات التي تكلف المزيد من الأرباح الناتجة عن ذلك؟
تنبيه
يمكن أن تؤدي مواجهة أي مشاكل ذات صلة بأي من المواضيع السابقة إلى جعل تنفيذ أحد حلول تعلُّم الآلة تحديًا، ولكن المواعيد النهائية القريبة يمكن أن تزيد من التحديات. حاول التخطيط ووضع ميزانية كافية بناءً على الصعوبة المتصورة للمشكلة، ثم حاول تخصيص وقت إضافي أكبر من الوقت الذي قد تحتاج إليه في المشاريع غير التابعة لتعلُّم الآلة.