ایمنی & ملاحظات انصاف برای مدل های مولد

هوش مصنوعی مولد می‌تواند ابزاری قدرتمند برای باز کردن قفل خلاقیت، افزایش بهره‌وری و ساده‌سازی کارهای روزمره باشد. با این حال، به عنوان یک فناوری مرحله اولیه، باید با اقدامات احتیاطی مناسب استفاده شود. این منبع یک رویکرد سطح بالا برای ملاحظات ایمنی و عادلانه برای محصولات هوش مصنوعی مولد ارائه می دهد.

مقدمه

توسعه سریع هوش مصنوعی مولد ویژگی‌ها و محصولات را در بازه‌های زمانی نسبتاً کوتاه وارد بازار کرده است. هدف تیم‌هایی که محصولاتی با قابلیت‌های هوش مصنوعی تولید می‌کنند باید اطمینان حاصل کنند که از تجربه‌های کاربری با کیفیت بالا، ایمن، منصفانه و عادلانه مطابق با اصول هوش مصنوعی برخوردارند.

یک رویکرد مسئولانه به برنامه های کاربردی باید برنامه هایی را برای انجام موارد زیر ارائه دهد:

  • خط‌مشی‌های محتوا، آسیب‌های احتمالی و تحلیل ریسک‌ها
  • نسل مسئول
  • پیشگیری از آسیب
  • ارزیابی و آزمون خصمانه

سیاست های محتوا، آسیب های احتمالی و تجزیه و تحلیل خطرات

محصولات ابتدا باید بر اساس نوع محتوایی که کاربران مجاز به تولید آن نیستند هماهنگ شوند. خط‌مشی استفاده ممنوعه هوش مصنوعی Google شامل موارد استفاده ممنوعه خاص برای سرویس‌های تحت پوشش Google است.

برای جزئیات بیشتر در مورد هر یک از این موارد استفاده ممنوع، به سیاست رسمی مراجعه کنید. برای موارد استفاده از محصول خودتان، تعریف کنید که چه محتوایی «خوب» است، فراتر از عدم وجود خط‌مشی نقض‌کننده یا «بد» تا با اهداف تولید مسئولانه همسو شود. تیم شما همچنین باید موارد استفاده را که نقض خط‌مشی تلقی می‌شوند یا از «حالت‌های شکست» استفاده می‌کنند، به وضوح تعریف و توصیف کند.

خط‌مشی‌های محتوا تنها یک مرحله برای جلوگیری از آسیب به کاربران است. همچنین در نظر گرفتن اهداف و اصول راهنما برای کیفیت , ایمنی , انصاف و شمول مهم است .

کیفیت

تیم‌ها باید استراتژی‌هایی را برای پاسخگویی به پرسش‌ها در بخش‌های حساس مانند اطلاعات پزشکی طراحی کنند تا به ارائه تجربیات کاربر با کیفیت بالا کمک کنند. استراتژی‌های مسئول شامل ارائه دیدگاه‌های متعدد، به تعویق انداختن موضوعات بدون شواهد علمی، یا فقط ارائه اطلاعات واقعی با ذکر منبع است.

ایمنی

هدف از اقدامات ایمنی هوش مصنوعی جلوگیری یا مهار اقداماتی است که می‌تواند به عمد یا ناخواسته منجر به آسیب شود. بدون کاهش‌های مناسب، مدل‌های تولیدی ممکن است محتوای ناامنی را تولید کنند که ممکن است خط‌مشی‌های محتوا را نقض کند یا باعث ناراحتی کاربران شود. اگر خروجی مسدود شده بود یا مدل قادر به تولید خروجی قابل قبول نبود، توضیحاتی را به کاربران ارائه دهید.

انصاف و شمول

از تنوع در یک پاسخ و در بین پاسخ های متعدد برای یک سوال اطمینان حاصل کنید. به عنوان مثال، پاسخ به سؤالی در مورد موسیقیدانان مشهور نباید فقط شامل نام یا تصاویر افرادی با هویت جنسی یا رنگ پوست باشد. تیم ها باید در صورت درخواست برای ارائه محتوا برای جوامع مختلف تلاش کنند. داده‌های آموزشی را برای تنوع و بازنمایی در هویت‌ها، فرهنگ‌ها و جمعیت‌شناسی چندگانه بررسی کنید. در نظر بگیرید که چگونه خروجی‌های چند پرس‌وجو نشان‌دهنده تنوع در گروه‌ها هستند، بدون اینکه کلیشه‌های رایج را تداوم بخشند (به عنوان مثال، پاسخ‌ها به «بهترین مشاغل برای زنان» در مقایسه با «بهترین مشاغل برای مردان» نباید حاوی محتوای کلیشه‌ای سنتی باشد، مانند «پرستار» که در زیر نشان داده می‌شود. "بهترین مشاغل برای زنان"، اما "پزشک" در زیر "بهترین مشاغل برای مردان" ظاهر می شود).

تجزیه و تحلیل مضرات و خطرات بالقوه

مراحل زیر هنگام ساخت برنامه‌های کاربردی با LLM توصیه می‌شود (از طریق راهنمای ایمنی PalM API):

  • درک خطرات ایمنی برنامه شما
  • در نظر گرفتن تنظیمات برای کاهش خطرات ایمنی
  • انجام تست ایمنی متناسب با مورد استفاده شما
  • درخواست بازخورد از کاربران و نظارت بر استفاده

برای مطالعه بیشتر درباره این رویکرد، از مستندات API PalM دیدن کنید.

برای یک غواصی عمیق تر، این گفتار راهنمایی برای مهار خطرات و توسعه برنامه های کاربردی ایمن و مسئولانه با پشتیبانی LLM را بررسی می کند:

نسل مسئول

ایمنی مدل داخلی

در یکی از نمونه‌های ویژگی‌های ایمنی، PaLM API شامل تنظیمات ایمنی قابل تنظیمی است که محتوا را با احتمالات قابل تنظیم ناامن بودن در شش دسته مسدود می‌کند: تحقیرکننده، سمی، جنسی، خشونت‌آمیز، خطرناک و پزشکی. این تنظیمات به توسعه‌دهندگان امکان می‌دهد تعیین کنند چه چیزی برای موارد استفاده آنها مناسب است، اما همچنین دارای محافظ‌های داخلی در برابر آسیب‌های اصلی است، مانند محتوایی که ایمنی کودک را به خطر می‌اندازد، که همیشه مسدود هستند و قابل تنظیم نیستند.

تیونینگ مدل

تنظیم دقیق یک مدل می تواند به آن آموزش دهد که چگونه بر اساس نیازهای یک برنامه پاسخ دهد. از اعلان‌ها و پاسخ‌های مثالی برای آموزش مدلی استفاده می‌شود که چگونه از موارد استفاده جدید، رسیدگی به انواع آسیب‌ها، یا استفاده از استراتژی‌های مختلف مورد نظر محصول در پاسخ، بهتر پشتیبانی کند.

به عنوان مثال، در نظر بگیرید:

  • تنظیم خروجی مدل برای منعکس کردن بهتر آنچه در زمینه برنامه شما قابل قبول است.
  • ارائه یک روش ورودی که خروجی های ایمن تر را تسهیل می کند، مانند محدود کردن ورودی ها به لیست کشویی.
  • مسدود کردن ورودی های ناامن و فیلتر کردن خروجی قبل از نمایش آن به کاربر.

برای مثال‌های بیشتر از تنظیمات برای کاهش خطرات ایمنی، به راهنمای ایمنی PalM API مراجعه کنید.

پیشگیری از آسیب

روش‌های اضافی پیشگیری از آسیب‌ها ممکن است شامل استفاده از طبقه‌بندی‌کننده‌های آموزش‌دیده برای برچسب‌گذاری هر پیام با آسیب‌های احتمالی یا سیگنال‌های متخاصم باشد. علاوه بر این، می‌توانید با محدود کردن حجم درخواست‌های کاربر ارسال شده توسط یک کاربر در یک بازه زمانی معین، تدابیری را در برابر سوء استفاده عمدی اعمال کنید، یا سعی کنید در برابر تزریق سریع احتمالی محافظت کنید.

مشابه محافظ های ورودی، نرده های محافظ را می توان روی خروجی ها قرار داد. برای شناسایی محتوای نقض‌کننده خط‌مشی می‌توان از حفاظ‌های تعدیل محتوا، مانند طبقه‌بندی‌کننده‌ها استفاده کرد. اگر سیگنال‌ها تشخیص دهند که خروجی مضر است، برنامه می‌تواند یک خطا یا پاسخ خالی ارائه کند، یک خروجی از پیش تعیین‌شده ارائه کند، یا چندین خروجی را از یک فرمان برای ایمنی رتبه‌بندی کند.

ارزیابی، متریک و تست

محصولات مولد هوش مصنوعی باید به دقت ارزیابی شوند تا اطمینان حاصل شود که با خط مشی های ایمنی و اصول راهنما قبل از عرضه مطابقت دارند. برای ایجاد مبنایی برای ارزیابی و سنجش بهبود در طول زمان، معیارهایی باید برای هر بعد کیفیت محتوای برجسته تعریف شود. پس از تعریف معیارها، تجزیه و تحلیل ریسک جداگانه می تواند اهداف عملکرد را برای راه اندازی تعیین کند، با در نظر گرفتن الگوهای زیان، احتمال مواجه شدن با آنها و تأثیر آسیب ها.

نمونه هایی از معیارهایی که باید در نظر گرفته شوند:

معیارهای ایمنی: معیارهای ایمنی طراحی کنید که نشان دهنده راه هایی است که برنامه شما ممکن است در زمینه نحوه استفاده از آن ناامن باشد، سپس با استفاده از مجموعه داده های ارزیابی، میزان عملکرد برنامه شما را در معیارها آزمایش کنید.

نرخ نقض: با توجه به مجموعه داده های متضاد متوازن (در بین مضرات و موارد استفاده قابل اجرا)، تعداد خروجی های نقض کننده، معمولاً با قابلیت اطمینان بین ارزیاب اندازه گیری می شود.

نرخ پاسخ خالی: با توجه به مجموعه‌ای متعادل از اعلان‌هایی که محصول قصد دارد پاسخی برای آن‌ها ارائه کند، تعداد پاسخ‌های خالی (یعنی زمانی که محصول قادر به ارائه خروجی امن بدون توجه به ورودی یا خروجی مسدود شده نیست).

تنوع: با توجه به مجموعه ای از دستورات، تنوع در طول ابعاد ویژگی های هویتی که در خروجی ها نشان داده می شود.

انصاف (برای کیفیت خدمات): با توجه به مجموعه‌ای از اعلان‌ها که حاوی خلاف واقع یک ویژگی حساس، توانایی ارائه همان کیفیت خدمات است.

تست دشمن

تست خصمانه شامل تلاش پیشگیرانه برای "شکستن" برنامه شما است. هدف شناسایی نقاط ضعف است تا بتوانید برای رفع آنها قدم بردارید.

تست خصمانه روشی برای ارزیابی سیستماتیک یک مدل ML با هدف یادگیری نحوه رفتار آن در صورت ارائه ورودی های مخرب یا سهوا مضر است:

  • زمانی که ورودی به وضوح برای تولید خروجی ناامن یا مضر طراحی شده باشد، یک ورودی مخرب است - برای مثال، درخواست از یک مدل تولید متن برای ایجاد یک ناسزای نفرت‌انگیز در مورد یک مذهب خاص.
  • یک ورودی به طور ناخواسته مضر است زمانی که خود ورودی ممکن است بی ضرر باشد، اما خروجی مضر ایجاد کند - برای مثال، درخواست از یک مدل تولید متن برای توصیف فردی از یک قومیت خاص و دریافت خروجی نژادپرستانه.

آزمایش خصمانه دو هدف اصلی دارد: کمک به تیم‌ها به طور سیستماتیک مدل‌ها و محصولات را با افشای الگوهای خرابی فعلی بهبود بخشند و مسیرهای کاهش را هدایت کنند و با ارزیابی همسویی با خط‌مشی‌های محصول ایمنی و اندازه‌گیری خطراتی که ممکن است به طور کامل کاهش پیدا نکنند، تصمیم‌گیری‌های محصول را آگاه کنند .

تست خصمانه از یک گردش کاری مشابه با ارزیابی مدل استاندارد پیروی می کند:

  1. یک مجموعه داده آزمایشی را پیدا یا ایجاد کنید
  2. استنتاج مدل را با استفاده از مجموعه داده آزمایشی اجرا کنید
  3. حاشیه نویسی خروجی مدل
  4. تجزیه و تحلیل و گزارش نتایج

چیزی که یک آزمون مخالف را از یک ارزیابی استاندارد متمایز می کند، ترکیب داده های مورد استفاده برای آزمایش است. برای آزمایش‌های متخاصم، داده‌های آزمایشی را انتخاب کنید که به احتمال زیاد خروجی مشکل‌ساز را از مدل استخراج کنند. این به معنای بررسی رفتار مدل برای همه انواع آسیب‌های ممکن است، از جمله نمونه‌های نادر یا غیرعادی و موارد لبه‌ای که به سیاست‌های ایمنی مربوط می‌شوند. همچنین باید شامل تنوع در ابعاد مختلف جمله مانند ساختار، معنا و طول باشد.