الاعتبارات المتعلّقة بالسلامة والنزاهة للنماذج الجيلية

يمكن الاستفادة من الذكاء الاصطناعي في إطلاق العنان للإبداع وزيادة الإنتاجية وتبسيط المهام اليومية. ومع ذلك، يجب استخدامها مع الاحتياطات المناسبة بصفتها تقنية في مرحلة مبكرة. يوفّر هذا المرجع نهجًا عالي المستوى لمراعاة الاعتبارات المتعلّقة بالأمان والنزاهة في المنتجات التي تعمل بالذكاء الاصطناعي (AI).

المقدمة

أدى التطوير السريع للذكاء الاصطناعي (AI) إلى توفير الميزات والمنتجات في السوق خلال أُطر زمنية قصيرة نسبيًا. يجب أن تهدف الفِرق التي تطلق المنتجات التي تحتوي على إمكانات الذكاء الاصطناعي إلى ضمان توفير تجارب عالية الجودة وآمنة وعادلة للمستخدمين وفقًا لمبادئ الذكاء الاصطناعي.

من المفترض أن يوفّر النهج المسؤول عن التطبيقات التعاونية خططًا لإنجاز ما يلي:

  • سياسات المحتوى والأضرار المحتملة وتحليل المخاطر
  • الجيل المسؤول
  • منع الأضرار
  • التقييم والاختبار العدائي

سياسات المحتوى، والأضرار المحتملة، وتحليل المخاطر

يجب أن تتوافق المنتجات أولاً مع نوع المحتوى الذي لا يُسمح للمستخدمين بإنشاءه. وتتضمّن سياسة الاستخدام المحظور وفق الذكاء الاصطناعي في Google حالات استخدام محظورة محدّدة في خدمات Google المشمولة.

ارجع إلى السياسة الرسمية للحصول على مزيد من التفاصيل عن كل حالة من حالات الاستخدام المحظورة هذه. بالنسبة إلى حالات استخدام منتجاتك، حدِّد المحتوى الذي يشكّل محتوى "جيدًا"، بدلاً من عدم الانتهاك للسياسة أو "سيء" بهدف التوافق مع أهداف الجيل المسؤول. وعلى فريقك أيضًا تحديد حالات الاستخدام التي قد تُعتبر انتهاكات للسياسة أو التي تستخدم "أوضاع التعذُّر" مع توضيحها بوضوح.

تشكّل سياسات المحتوى خطوة واحدة فقط لمنع المستخدمين من إلحاق الضرر. من المهم أيضًا أن تأخذ في الاعتبار الأهداف والمبادئ التوجيهية بشأن الجودة والأمان والنزاهة والتضمين.

الجودة

على الفِرق وضع استراتيجيات للردّ على طلبات البحث في المجالات الحساسة مثل المعلومات الطبية بهدف توفير تجارب عالية الجودة للمستخدم. تشمل الاستراتيجيات المسؤولة تقديم وجهات نظر متعدّدة أو تأجيل المواضيع بدون تقديم أدلة علمية أو توفير معلومات واقعية في حال تحديد المصدر.

دفاع

إنّ الهدف من إجراءات السلامة التي يتم تنفيذها باستخدام الذكاء الاصطناعي هو منع أو تضمين إجراءات يمكن أن تؤدي إلى إلحاق الضرر عمدًا أو بغير قصد. في حال عدم تطبيق إجراءات التخفيف المناسبة، قد تنتج نماذج جيل عن محتوى غير آمن قد يخالف سياسات المحتوى أو يسبّب الانزعاج للمستخدمين. ننصحك بتقديم تفسيرات للمستخدمين إذا تم حظر المخرجات أو تعذّر على النموذج إنشاء مخرجات مقبولة.

الإنصاف والشمولية

تأكَّد من تنوع الردود ضمن الردود المختلفة على السؤال نفسه. على سبيل المثال، يجب ألا تتضمّن الإجابة عن سؤال عن موسيقيين مشهورين أسماء أو صورًا لأشخاص يحملون هويتك أو لون بشرتك نفسهم. يجب أن تعمل الفِرق على توفير محتوى لمنتديات مختلفة عندما يتم طلبها. فحص بيانات التدريب للتنوع والتمثيل على مستوى مختلف الهويات والثقافات والخصائص الديمغرافية. فكِّر في كيفية تمثيل النتائج بعدة طلبات بحث في مجموعات متنوعة، بدون فكرة نمطية شائعة (على سبيل المثال، يجب ألا تتضمّن الردود على "أفضل الوظائف للنساء" مقارنةً بـ "أفضل الوظائف للرجال" محتوًى نمطيًا تقليديًا، مثل "ممرّضة" حيث تظهر تحت "أفضل الوظائف للنساء"، ولكن تظهر عبارة "طبيب" ضمن "أفضل الوظائف للرجال".

تحليل الضرر والمخاطر المحتملة

يُنصَح باتّباع الخطوات التالية عند إنشاء تطبيقات باستخدام تطبيقات أبرز المستويات (عبر إرشادات السلامة من PaLM):

  • فهم مخاطر أمان التطبيق
  • مراعاة إجراء تعديلات للحدّ من مخاطر السلامة
  • إجراء اختبار أمان ملائم لحالة استخدامك
  • طلب الملاحظات من المستخدمين ومراقبة الاستخدام

للاطّلاع على مزيد من المعلومات عن هذا الأسلوب، انتقِل إلى وثائق واجهة برمجة التطبيقات PaLM.

للحصول على المزيد من التفاصيل، يسلّط هذا الحديث إرشادات حول الحدّ من المخاطر وتطوير تطبيقات آمنة ومسؤولة بدعم من LLM:

الجيل المسؤول

تقنيات أمان مدمجة للطراز

في أحد أمثلة ميزات الأمان، تتضمن PaLM API إعدادات أمان قابلة للتعديل تحظر المحتوى الذي يُحتمل أن يكون غير آمن في ست فئات منها: الازدراء أو المحتوى الجنسي أو العنيف أو الخطير أو الطبي. تتيح هذه الإعدادات للمطوّرين تحديد ما يناسب حالات الاستخدام، ولكنّها تحتوي أيضًا على إجراءات حماية مدمجة ضد الأضرار الأساسية، مثل المحتوى الذي يعرّض سلامة الأطفال للخطر، وهو المحتوى الذي يتم حظره دائمًا ولا يمكن تعديله.

ضبط النموذج

يمكن أن يؤدي ضبط النموذج إلى تعليمه كيفية الإجابة استنادًا إلى متطلبات التطبيق. تُستخدَم أمثلة رسائل المطالبة والإجابات لتعليم نموذج كيفية دعم حالات الاستخدام الجديدة بشكل أفضل، أو معالجة أنواع الضرر، أو الاستفادة من الاستراتيجيات المختلفة التي يريدها المنتج في الرد.

مثلاً، ضع في اعتبارك:

  • ضبط إخراج النموذج ليعكس بشكل أفضل ما هو مقبول في سياق تطبيقك.
  • تقديم طريقة إدخال تسهّل المخرجات الأكثر أمانًا، مثل حصر الإدخالات على قائمة منسدلة
  • يؤدي ذلك إلى حظر المدخلات غير الآمنة وفلترة النتائج قبل عرضها للمستخدم.

اطّلِع على الإرشادات المتعلّقة بالأمان الخاصة بواجهة برمجة تطبيقات PaLM للحصول على مزيد من الأمثلة حول التعديلات التي تهدف إلى الحدّ من مخاطر السلامة.

الحماية من الضرر

وقد تتضمن الطرق الإضافية لمنع حدوث الأضرار استخدام المصنِّفات المدرّبة لتصنيف كل رسالة مطالبة بالأضرار المحتملة أو الإشارات العدائية. بالإضافة إلى ذلك، يمكنك تنفيذ إجراءات وقائية ضد إساءة الاستخدام المتعمّدة من خلال الحدّ من عدد طلبات المستخدم التي يرسلها مستخدم واحد في فترة زمنية معيّنة، أو محاولة الحماية من خلال إدخال رسائل المطالبة المحتمَلة.

كما هو الحال مع تدابير وقاية الإدخال، يمكن وضع حواجز على الإخراج. يمكن استخدام أنظمة الحماية من الإشراف على المحتوى، مثل المصنِّفات، لرصد المحتوى الذي ينتهك السياسات. إذا حدّدت الإشارات أن المخرجات ضارة، يمكن أن يقدّم التطبيق خطأً أو استجابة فارغة، أو يمكن أن يقدّم مخرجات مكتوبة مسبقًا، أو ترتيب نتائج متعددة من الإشعار نفسه للحفاظ على السلامة.

التقييم والمقاييس والاختبار

ويجب إجراء تقييم دقيق لمنتجات الذكاء الاصطناعي (AI) بشكل دقيق للتأكّد من توافقها مع سياسات الأمان والمبادئ الإرشادية قبل الإطلاق. لإنشاء خط مرجعي لتقييم الأداء وتحسينه بمرور الوقت، يجب تحديد المقاييس لكل سمة من سمات جودة المحتوى البارز. بعد تحديد المقاييس، يمكن أن يحدد تحليل المخاطر المنفصلة أهداف الأداء لإطلاقها، مع مراعاة أنماط الخسارة، ومدى احتمال حدوثها، وتأثيرات الضرر.

أمثلة على المقاييس التي يجب أخذها في الاعتبار:

مقاييس الأداء الآمنة: يمكنك تصميم مقاييس السلامة التي تعكس الطرق التي قد يكون تطبيقك غير آمن في سياق الطريقة التي يُحتمل أن يُستخدَم فيها، ثم اختبار مستوى أداء تطبيقك على المقاييس باستخدام مجموعات بيانات التقييم.

معدّل الانتهاك: وفقًا لمجموعة البيانات المضادة المتوازنة (في جميع حالات الإيذاء وحالات الاستخدام السارية)، عدد النتائج الناتجة عن انتهاك السياسات، وعادةً ما يتم قياسه من خلال موثوقية الوسيط.

معدّل الاستجابة فارغًا: وفقًا لمجموعة متوازنة من رسائل المطالبة التي يهدف المنتج إلى تقديم استجابة لها، عدد الردود الفارغة (أي عندما يتعذّر على المنتج تقديم مخرج آمن بغض النظر عن الإدخال أو الإخراج الذي يتم حظره).

التنوّع: وفقًا لمجموعة من الإشعارات، يتم عرض التنوع في سمات السمات التي يتم تمثيلها في النتائج.

العدالة (لجودة الخدمة): استنادًا إلى مجموعة من الإشعارات التي تحتوي على آثار سمة حساسة، والقدرة على تقديم جودة الخدمة نفسها.

الاختبار العدائي

يتضمّن الاختبار العدائي محاولة استباقية "لإيقاف" تطبيقك. والهدف هو تحديد نقاط الضعف حتى تتمكن من اتخاذ خطوات للتعامل معها.

الاختبار العدائي هو طريقة لتقييم نموذج تعلُّم الآلة بشكل منهجي بهدف التعرّف على سلوكه عند تقديمه من خلال مدخلات ضارة أو غير مقصودة:

  • ويكون الإدخال ضارًا عندما يكون الإدخال مصمَّمًا بوضوح لإنتاج نتائج غير آمنة أو ضارة، على سبيل المثال، طلب نموذج إنشاء نص لإنشاء شوق يحض على ديانة معينة.
  • قد يكون الإدخال غير ضار بدون قصد عندما يكون الإدخال نفسه غير عادل، ولكنه يؤدي إلى نتائج ضارة، مثل طلب نموذج إنشاء نص لوصف شخص من عِرق معيّن وتلقّي مخرجات عنصرية.

يتمثل الاختبار الاختباري في هدفين أساسيين: مساعدة الفِرق على تحسين النماذج والمنتجات بشكل منهجي من خلال الكشف عن أنماط التعذّر الحالية وتوجيه مسارات التخفيف من تأثيرها واتّخاذ قرارات مدروسة بشأن المنتجات من خلال تقييم مدى التوافق مع سياسات منتجات الأمان وقياس المخاطر التي قد لا يتم تخفيفها بالكامل.

يتّبع الاختبار المعارض سير عمل مشابهًا لتقييم النموذج العادي:

  1. البحث عن مجموعة بيانات تجريبية أو إنشاؤها
  2. إجراء استنتاج النموذج باستخدام مجموعة البيانات التجريبية
  3. إضافة تعليقات توضيحية إلى النموذج
  4. تحليل النتائج والإبلاغ عنها

ما يميّز الاختبار الاختباري عن التقييم العادي هو إنشاء البيانات المستخدمة في الاختبار. بالنسبة إلى الاختبارات الخادعة، اختَر بيانات الاختبار التي يُرجح أن تسبب المخرجات التي تسبب مشاكل من النموذج. وهذا يعني فحص سلوك النموذج لجميع أنواع الضرر التي يمكن حدوثها، بما في ذلك الأمثلة النادرة أو غير المعتادة وحالات الحافة ذات الصلة بسياسات السلامة. يجب أن تتضمّن أيضًا التنوّع في سمات مختلفة للجملة، مثل البنية والمعنى والطول.