هوش مصنوعی مولد میتواند ابزاری قدرتمند برای باز کردن قفل خلاقیت، افزایش بهرهوری و سادهسازی کارهای روزمره باشد. با این حال، به عنوان یک فناوری مرحله اولیه، باید با اقدامات احتیاطی مناسب استفاده شود. این منبع یک رویکرد سطح بالا برای ملاحظات ایمنی و عادلانه برای محصولات هوش مصنوعی مولد ارائه می دهد.
مقدمه
توسعه سریع هوش مصنوعی مولد ویژگیها و محصولات را در بازههای زمانی نسبتاً کوتاه وارد بازار کرده است. هدف تیمهایی که محصولاتی با قابلیتهای هوش مصنوعی تولید میکنند باید اطمینان حاصل کنند که از تجربههای کاربری با کیفیت بالا، ایمن، منصفانه و عادلانه مطابق با اصول هوش مصنوعی برخوردارند.
یک رویکرد مسئولانه به برنامه های کاربردی باید برنامه هایی را برای انجام موارد زیر ارائه دهد:
- خطمشیهای محتوا، آسیبهای احتمالی و تحلیل ریسکها
- نسل مسئول
- پیشگیری از آسیب
- ارزیابی و آزمون خصمانه
سیاست های محتوا، آسیب های احتمالی و تجزیه و تحلیل خطرات
محصولات ابتدا باید بر اساس نوع محتوایی که کاربران مجاز به تولید آن نیستند هماهنگ شوند. خطمشی استفاده ممنوعه هوش مصنوعی Google شامل موارد استفاده ممنوعه خاص برای سرویسهای تحت پوشش Google است.
برای جزئیات بیشتر در مورد هر یک از این موارد استفاده ممنوع، به سیاست رسمی مراجعه کنید. برای موارد استفاده از محصول خودتان، تعریف کنید که چه محتوایی «خوب» است، فراتر از عدم وجود خطمشی نقضکننده یا «بد» تا با اهداف تولید مسئولانه همسو شود. تیم شما همچنین باید موارد استفاده را که نقض خطمشی تلقی میشوند یا از «حالتهای شکست» استفاده میکنند، به وضوح تعریف و توصیف کند.
خطمشیهای محتوا تنها یک مرحله برای جلوگیری از آسیب به کاربران است. همچنین در نظر گرفتن اهداف و اصول راهنما برای کیفیت , ایمنی , انصاف و شمول مهم است .
کیفیت
تیمها باید استراتژیهایی را برای پاسخگویی به پرسشها در بخشهای حساس مانند اطلاعات پزشکی طراحی کنند تا به ارائه تجربیات کاربر با کیفیت بالا کمک کنند. استراتژیهای مسئول شامل ارائه دیدگاههای متعدد، به تعویق انداختن موضوعات بدون شواهد علمی، یا فقط ارائه اطلاعات واقعی با ذکر منبع است.
ایمنی
هدف از اقدامات ایمنی هوش مصنوعی جلوگیری یا مهار اقداماتی است که میتواند به عمد یا ناخواسته منجر به آسیب شود. بدون کاهشهای مناسب، مدلهای تولیدی ممکن است محتوای ناامنی را تولید کنند که ممکن است خطمشیهای محتوا را نقض کند یا باعث ناراحتی کاربران شود. اگر خروجی مسدود شده بود یا مدل قادر به تولید خروجی قابل قبول نبود، توضیحاتی را به کاربران ارائه دهید.
انصاف و شمول
از تنوع در یک پاسخ و در بین پاسخ های متعدد برای یک سوال اطمینان حاصل کنید. به عنوان مثال، پاسخ به سؤالی در مورد موسیقیدانان مشهور نباید فقط شامل نام یا تصاویر افرادی با هویت جنسی یا رنگ پوست باشد. تیم ها باید در صورت درخواست برای ارائه محتوا برای جوامع مختلف تلاش کنند. دادههای آموزشی را برای تنوع و بازنمایی در هویتها، فرهنگها و جمعیتشناسی چندگانه بررسی کنید. در نظر بگیرید که چگونه خروجیهای چند پرسوجو نشاندهنده تنوع در گروهها هستند، بدون اینکه کلیشههای رایج را تداوم بخشند (به عنوان مثال، پاسخها به «بهترین مشاغل برای زنان» در مقایسه با «بهترین مشاغل برای مردان» نباید حاوی محتوای کلیشهای سنتی باشد، مانند «پرستار» که در زیر نشان داده میشود. "بهترین مشاغل برای زنان"، اما "پزشک" در زیر "بهترین مشاغل برای مردان" ظاهر می شود).
تجزیه و تحلیل مضرات و خطرات بالقوه
مراحل زیر هنگام ساخت برنامههای کاربردی با LLM توصیه میشود (از طریق راهنمای ایمنی PalM API):
- درک خطرات ایمنی برنامه شما
- در نظر گرفتن تنظیمات برای کاهش خطرات ایمنی
- انجام تست ایمنی متناسب با مورد استفاده شما
- درخواست بازخورد از کاربران و نظارت بر استفاده
برای مطالعه بیشتر درباره این رویکرد، از مستندات API PalM دیدن کنید.
برای یک غواصی عمیق تر، این گفتار راهنمایی برای مهار خطرات و توسعه برنامه های کاربردی ایمن و مسئولانه با پشتیبانی LLM را بررسی می کند:
نسل مسئول
ایمنی مدل داخلی
در یکی از نمونههای ویژگیهای ایمنی، PaLM API شامل تنظیمات ایمنی قابل تنظیمی است که محتوا را با احتمالات قابل تنظیم ناامن بودن در شش دسته مسدود میکند: تحقیرکننده، سمی، جنسی، خشونتآمیز، خطرناک و پزشکی. این تنظیمات به توسعهدهندگان امکان میدهد تعیین کنند چه چیزی برای موارد استفاده آنها مناسب است، اما همچنین دارای محافظهای داخلی در برابر آسیبهای اصلی است، مانند محتوایی که ایمنی کودک را به خطر میاندازد، که همیشه مسدود هستند و قابل تنظیم نیستند.
تیونینگ مدل
تنظیم دقیق یک مدل می تواند به آن آموزش دهد که چگونه بر اساس نیازهای یک برنامه پاسخ دهد. از اعلانها و پاسخهای مثالی برای آموزش مدلی استفاده میشود که چگونه از موارد استفاده جدید، رسیدگی به انواع آسیبها، یا استفاده از استراتژیهای مختلف مورد نظر محصول در پاسخ، بهتر پشتیبانی کند.
به عنوان مثال، در نظر بگیرید:
- تنظیم خروجی مدل برای منعکس کردن بهتر آنچه در زمینه برنامه شما قابل قبول است.
- ارائه یک روش ورودی که خروجی های ایمن تر را تسهیل می کند، مانند محدود کردن ورودی ها به لیست کشویی.
- مسدود کردن ورودی های ناامن و فیلتر کردن خروجی قبل از نمایش آن به کاربر.
برای مثالهای بیشتر از تنظیمات برای کاهش خطرات ایمنی، به راهنمای ایمنی PalM API مراجعه کنید.
پیشگیری از آسیب
روشهای اضافی پیشگیری از آسیبها ممکن است شامل استفاده از طبقهبندیکنندههای آموزشدیده برای برچسبگذاری هر پیام با آسیبهای احتمالی یا سیگنالهای متخاصم باشد. علاوه بر این، میتوانید با محدود کردن حجم درخواستهای کاربر ارسال شده توسط یک کاربر در یک بازه زمانی معین، تدابیری را در برابر سوء استفاده عمدی اعمال کنید، یا سعی کنید در برابر تزریق سریع احتمالی محافظت کنید.
مشابه محافظ های ورودی، نرده های محافظ را می توان روی خروجی ها قرار داد. برای شناسایی محتوای نقضکننده خطمشی میتوان از حفاظهای تعدیل محتوا، مانند طبقهبندیکنندهها استفاده کرد. اگر سیگنالها تشخیص دهند که خروجی مضر است، برنامه میتواند یک خطا یا پاسخ خالی ارائه کند، یک خروجی از پیش تعیینشده ارائه کند، یا چندین خروجی را از یک فرمان برای ایمنی رتبهبندی کند.
ارزیابی، متریک و تست
محصولات مولد هوش مصنوعی باید به دقت ارزیابی شوند تا اطمینان حاصل شود که با خط مشی های ایمنی و اصول راهنما قبل از عرضه مطابقت دارند. برای ایجاد مبنایی برای ارزیابی و سنجش بهبود در طول زمان، معیارهایی باید برای هر بعد کیفیت محتوای برجسته تعریف شود. پس از تعریف معیارها، تجزیه و تحلیل ریسک جداگانه می تواند اهداف عملکرد را برای راه اندازی تعیین کند، با در نظر گرفتن الگوهای زیان، احتمال مواجه شدن با آنها و تأثیر آسیب ها.
نمونه هایی از معیارهایی که باید در نظر گرفته شوند:
معیارهای ایمنی: معیارهای ایمنی طراحی کنید که نشان دهنده راه هایی است که برنامه شما ممکن است در زمینه نحوه استفاده از آن ناامن باشد، سپس با استفاده از مجموعه داده های ارزیابی، میزان عملکرد برنامه شما را در معیارها آزمایش کنید.
نرخ نقض: با توجه به مجموعه داده های متضاد متوازن (در بین مضرات و موارد استفاده قابل اجرا)، تعداد خروجی های نقض کننده، معمولاً با قابلیت اطمینان بین ارزیاب اندازه گیری می شود.
نرخ پاسخ خالی: با توجه به مجموعهای متعادل از اعلانهایی که محصول قصد دارد پاسخی برای آنها ارائه کند، تعداد پاسخهای خالی (یعنی زمانی که محصول قادر به ارائه خروجی امن بدون توجه به ورودی یا خروجی مسدود شده نیست).
تنوع: با توجه به مجموعه ای از دستورات، تنوع در طول ابعاد ویژگی های هویتی که در خروجی ها نشان داده می شود.
انصاف (برای کیفیت خدمات): با توجه به مجموعهای از اعلانها که حاوی خلاف واقع یک ویژگی حساس، توانایی ارائه همان کیفیت خدمات است.
تست دشمن
تست خصمانه شامل تلاش پیشگیرانه برای "شکستن" برنامه شما است. هدف شناسایی نقاط ضعف است تا بتوانید برای رفع آنها قدم بردارید.
تست خصمانه روشی برای ارزیابی سیستماتیک یک مدل ML با هدف یادگیری نحوه رفتار آن در صورت ارائه ورودی های مخرب یا سهوا مضر است:
- زمانی که ورودی به وضوح برای تولید خروجی ناامن یا مضر طراحی شده باشد، یک ورودی مخرب است - برای مثال، درخواست از یک مدل تولید متن برای ایجاد یک ناسزای نفرتانگیز در مورد یک مذهب خاص.
- یک ورودی به طور ناخواسته مضر است زمانی که خود ورودی ممکن است بی ضرر باشد، اما خروجی مضر ایجاد کند - برای مثال، درخواست از یک مدل تولید متن برای توصیف فردی از یک قومیت خاص و دریافت خروجی نژادپرستانه.
آزمایش خصمانه دو هدف اصلی دارد: کمک به تیمها به طور سیستماتیک مدلها و محصولات را با افشای الگوهای خرابی فعلی بهبود بخشند و مسیرهای کاهش را هدایت کنند و با ارزیابی همسویی با خطمشیهای محصول ایمنی و اندازهگیری خطراتی که ممکن است به طور کامل کاهش پیدا نکنند، تصمیمگیریهای محصول را آگاه کنند .
تست خصمانه از یک گردش کاری مشابه با ارزیابی مدل استاندارد پیروی می کند:
- یک مجموعه داده آزمایشی را پیدا یا ایجاد کنید
- استنتاج مدل را با استفاده از مجموعه داده آزمایشی اجرا کنید
- حاشیه نویسی خروجی مدل
- تجزیه و تحلیل و گزارش نتایج
چیزی که یک آزمون مخالف را از یک ارزیابی استاندارد متمایز می کند، ترکیب داده های مورد استفاده برای آزمایش است. برای آزمایشهای متخاصم، دادههای آزمایشی را انتخاب کنید که به احتمال زیاد خروجی مشکلساز را از مدل استخراج کنند. این به معنای بررسی رفتار مدل برای همه انواع آسیبهای ممکن است، از جمله نمونههای نادر یا غیرعادی و موارد لبهای که به سیاستهای ایمنی مربوط میشوند. همچنین باید شامل تنوع در ابعاد مختلف جمله مانند ساختار، معنا و طول باشد.