تست خصمانه برای هوش مصنوعی مولد

تست خصمانه روشی برای ارزیابی سیستماتیک یک مدل ML با هدف یادگیری نحوه رفتار آن در صورت ارائه ورودی های مخرب یا سهوا مضر است. این راهنما یک نمونه گردش کار تست خصمانه برای هوش مصنوعی مولد را شرح می دهد.

تست خصمانه چیست؟

آزمایش بخش مهمی از ساخت برنامه های هوش مصنوعی قوی و ایمن است. تست خصمانه شامل تلاش پیشگیرانه برای "شکستن" یک برنامه با ارائه داده هایی است که به احتمال زیاد خروجی مشکل ساز را ایجاد می کند. جستارهای خصمانه احتمالاً باعث می شود که یک مدل به روشی ناامن (به عنوان مثال، نقض خط مشی ایمنی) شکست بخورد، و ممکن است باعث خطاهایی شود که تشخیص آن برای انسان آسان است، اما تشخیص آن برای ماشین ها دشوار است.

پرس و جوها ممکن است به طرق مختلف "متضاد" باشند. درخواست‌های خصمانه صریح ممکن است حاوی زبان نقض‌کننده خط‌مشی یا بیان دیدگاه‌های نقض‌کننده خط‌مشی باشند، یا ممکن است مدل را برای گفتن چیزی ناامن، مضر یا توهین‌آمیز بررسی کنند یا سعی کنند مدل را فریب دهند. پرس و جوهای خصمانه ضمنی ممکن است بی ضرر به نظر برسند، اما می توانند حاوی موضوعات حساسی باشند که بحث برانگیز، از نظر فرهنگی حساس یا بالقوه مضر هستند. اینها ممکن است شامل اطلاعات جمعیت شناختی، بهداشت، امور مالی یا مذهب باشد.

آزمایش خصمانه می‌تواند به تیم‌ها کمک کند تا مدل‌ها و محصولات را با افشای خرابی‌های فعلی برای هدایت مسیرهای کاهش، مانند تنظیم دقیق، محافظ‌های مدل یا فیلترها، بهبود بخشند . علاوه بر این، می‌تواند با اندازه‌گیری ریسک‌هایی که ممکن است کاهش نیافته باشد، به اطلاع‌رسانی تصمیم‌گیری در مورد راه‌اندازی محصول کمک کند، مانند احتمال اینکه مدل دارای محتوای نقض‌کننده خط‌مشی خروجی باشد.

این راهنما به عنوان بهترین روش در حال ظهور برای هوش مصنوعی مسئول، گردش کار نمونه ای را برای آزمایش خصمانه برای مدل ها و سیستم های مولد ارائه می دهد.

نمونه گردش کار تست خصمانه

آزمایش خصمانه از یک گردش کاری که مشابه ارزیابی مدل استاندارد است پیروی می کند.

ورودی ها را شناسایی و تعریف کنید

اولین گام در گردش کار تست خصمانه، تعیین ورودی ها برای یادگیری نحوه رفتار یک سیستم در هنگام حمله عمدی و سیستماتیک است. ورودی‌های متفکرانه می‌توانند مستقیماً بر کارایی گردش کار آزمایش تأثیر بگذارند. ورودی‌های زیر می‌توانند به تعریف دامنه و اهداف آزمون خصمانه کمک کنند:

  • خط مشی محصول و حالت های شکست
  • موارد استفاده کنید
  • الزامات تنوع

خط مشی محصول و حالت های شکست

محصولات هوش مصنوعی مولد باید خط‌مشی‌های ایمنی را تعریف کنند که رفتار محصول را توصیف می‌کنند و خروجی‌هایی را مدل می‌کنند که مجاز نیستند (یعنی «ناامن» در نظر گرفته می‌شوند). این خط‌مشی باید حالت‌های خرابی را که نقض خط‌مشی تلقی می‌شوند، برشمرد. این لیست از حالت های خرابی باید به عنوان مبنایی برای آزمایش دشمن استفاده شود. برخی از حالت‌های شکست نمونه ممکن است شامل محتوایی باشد که حاوی زبان توهین‌آمیز یا توصیه‌های مالی، حقوقی یا پزشکی است.

موارد استفاده کنید

ورودی مهم دیگر برای آزمایش خصمانه، موارد استفاده است که مدل یا محصول تولیدی به دنبال ارائه آن است، به طوری که داده‌های آزمایشی حاوی برخی از روش‌های تعامل کاربران با محصول در دنیای واقعی است. هر محصول تولیدی دارای موارد استفاده کمی متفاوت است، اما برخی موارد رایج عبارتند از: حقیقت‌یابی، خلاصه‌سازی و تولید کد برای مدل‌های زبان. یا تولید تصویر پس زمینه بر اساس جغرافیا یا زمین، هنر یا سبک لباس.

الزامات تنوع

مجموعه داده‌های آزمایش خصمانه باید به اندازه کافی متنوع و معرف با توجه به تمام حالت‌های شکست هدف و موارد استفاده باشد. اندازه‌گیری تنوع مجموعه داده‌های آزمایشی به شناسایی سوگیری‌های بالقوه کمک می‌کند و تضمین می‌کند که مدل‌ها به طور گسترده با در نظر گرفتن جمعیت کاربری متنوع آزمایش می‌شوند.

سه روش برای تفکر در مورد تنوع عبارتند از:

  • تنوع واژگانی: اطمینان حاصل کنید که پرس و جوها دارای طیفی با طول های مختلف هستند (مثلاً تعداد کلمات)، از دامنه واژگان وسیعی استفاده می کنند، حاوی موارد تکراری نیستند و فرمول های مختلف پرس و جو را نشان می دهند (مثلاً سؤالات wh، درخواست های مستقیم و غیر مستقیم).
  • تنوع معنایی: اطمینان حاصل کنید که پرس و جوها طیف وسیعی از موضوعات مختلف را در هر خط مشی (مثلاً دیابت برای سلامت) از جمله ویژگی های حساس و مبتنی بر هویت (مانند جنسیت، قومیت)، در موارد مختلف استفاده و زمینه های جهانی پوشش می دهند.
  • تنوع خط‌مشی و موارد استفاده: اطمینان حاصل کنید که درخواست‌ها همه موارد نقض خط‌مشی (مانند سخنان مشوق نفرت) و موارد استفاده (مثلاً توصیه‌های متخصص) را پوشش می‌دهند.

یافتن یا ایجاد مجموعه داده (های) آزمایشی

مجموعه داده‌های آزمایشی برای آزمایش خصمانه متفاوت از مجموعه‌های تست ارزیابی مدل استاندارد ساخته شده‌اند. در ارزیابی‌های مدل استاندارد، مجموعه داده‌های آزمایشی معمولاً برای منعکس کردن دقیق توزیع داده‌هایی که مدل در محصول با آن مواجه می‌شود، طراحی می‌شوند. برای آزمایش‌های خصمانه ، داده‌های آزمایشی انتخاب می‌شوند تا با اثبات رفتار مدل در نمونه‌های خارج از توزیع و موارد لبه‌ای که به سیاست‌های ایمنی مرتبط هستند، خروجی مشکل‌ساز را از مدل استخراج کند. یک مجموعه تست متخاصم با کیفیت بالا باید تمام ابعاد سیاست ایمنی را پوشش دهد و پوشش موارد استفاده را که مدل در نظر گرفته شده برای پشتیبانی از آنها به حداکثر برساند. باید از نظر واژگانی (مثلاً شامل پرسش‌هایی با طول‌ها و زبان‌های مختلف) و از نظر معنایی (مثلاً موضوعات مختلف و جمعیت‌شناسی) متنوع باشد.

مجموعه داده‌های آزمایشی موجود را برای پوشش سیاست‌های ایمنی، حالت‌های خرابی و موارد استفاده برای تولید متن و مدل‌های متن به تصویر بررسی کنید. تیم‌ها می‌توانند از مجموعه داده‌های موجود برای ایجاد یک خط پایه از عملکرد محصولات خود استفاده کنند و سپس تحلیل‌های عمیق‌تری در مورد حالت‌های خرابی خاص محصولاتشان انجام دهند.

اگر مجموعه داده‌های آزمایشی موجود کافی نباشد، تیم‌ها می‌توانند داده‌های جدیدی را برای هدف قرار دادن حالت‌های خرابی خاص و موارد استفاده تولید کنند. یکی از راه‌های ایجاد مجموعه‌های داده جدید این است که با ایجاد دستی یک مجموعه داده کوچک از پرس و جوها (یعنی ده‌ها نمونه در هر دسته) شروع کنید و سپس با استفاده از ابزارهای سنتز داده، این مجموعه داده «seed» را گسترش دهید.

مجموعه داده‌های Seed باید حاوی نمونه‌هایی باشد که تا حد امکان مشابه آنچه سیستم در تولید با آن مواجه می‌شود باشد و با هدف ایجاد نقض خط‌مشی ایجاد شده باشد. زبان بسیار سمی احتمالاً توسط ویژگی‌های ایمنی تشخیص داده می‌شود، بنابراین عبارت‌های خلاقانه و ورودی‌های تلویحی تلویحی را در نظر بگیرید.

شما می توانید از ارجاع مستقیم یا غیرمستقیم به ویژگی های حساس (مانند سن، جنسیت، نژاد، مذهب) در مجموعه داده آزمایشی خود استفاده کنید. به خاطر داشته باشید که استفاده از این اصطلاحات ممکن است بین فرهنگ ها متفاوت باشد. لحن، ساختار جمله، انتخاب طول کلمه و معنی را تغییر دهید. نمونه‌هایی که برچسب‌های متعدد (مثلاً سخنان مشوق عداوت و تنفر در مقابل فحاشی) می‌توانند اعمال شوند، ممکن است سر و صدا و تکراری ایجاد کنند، و ممکن است توسط سیستم‌های ارزیابی یا آموزش به درستی مدیریت نشوند.

مجموعه‌های آزمون متخاصم باید برای درک ترکیب آنها از نظر تنوع واژگانی و معنایی، پوشش در سراسر نقض خط‌مشی و موارد استفاده، و کیفیت کلی از نظر منحصربه‌فرد بودن، مخالفت و سر و صدا تجزیه و تحلیل شوند.

تولید خروجی مدل

مرحله بعدی تولید خروجی های مدل بر اساس مجموعه داده های آزمایشی است. نتایج به تیم‌های محصول اطلاع می‌دهد که مدل‌های آن‌ها چگونه ممکن است در معرض کاربران مخرب یا ورودی‌های ناخواسته مضر قرار گیرند. شناسایی این رفتارهای سیستم و الگوهای پاسخ می‌تواند اندازه‌گیری‌های پایه را ارائه دهد که می‌تواند در توسعه مدل آینده کاهش یابد.

حاشیه نویسی خروجی ها

هنگامی که خروجی های آزمایش خصمانه تولید شد، آنها را حاشیه نویسی کنید تا آنها را در حالت های خرابی و/یا آسیب ها دسته بندی کنید. این برچسب ها می توانند به ارائه سیگنال های ایمنی برای محتوای متن و تصویر کمک کنند. علاوه بر این، سیگنال‌ها می‌توانند به اندازه‌گیری و کاهش آسیب‌های بین مدل‌ها و محصولات کمک کنند.

طبقه‌بندی‌کننده‌های ایمنی را می‌توان برای حاشیه‌نویسی خودکار خروجی‌ها (یا ورودی‌های) مدل برای نقض خط‌مشی استفاده کرد. دقت ممکن است برای سیگنال‌هایی که سعی می‌کنند ساختارهایی را که دقیقاً تعریف نشده‌اند شناسایی کنند، مانند سخنان نفرت، پایین باشد. برای آن سیگنال‌ها، استفاده از ارزیاب‌های انسانی برای بررسی و تصحیح برچسب‌های تولید شده توسط طبقه‌بندی‌کننده که امتیاز آنها «نامشخص است» ضروری است.

علاوه بر حاشیه نویسی خودکار، شما همچنین می توانید از ارزیاب های انسانی برای حاشیه نویسی نمونه ای از داده های خود استفاده کنید. توجه به این نکته مهم است که حاشیه نویسی خروجی های مدل به عنوان بخشی از آزمایش خصمانه لزوماً شامل نگاه کردن به متن یا تصاویر مشکل ساز و بالقوه مضر است، شبیه به تعدیل محتوای دستی. علاوه بر این، ارزیابی‌کنندگان انسانی ممکن است بر اساس پیش‌زمینه شخصی، دانش یا اعتقادات خود، یک محتوا را به‌طور متفاوتی حاشیه‌نویسی کنند. ایجاد دستورالعمل‌ها یا الگوهایی برای ارزیاب‌ها می‌تواند مفید باشد، در نظر داشته باشید که تنوع گروه ارزیابی‌کننده شما می‌تواند بر نتایج حاشیه‌نویسی تأثیر بگذارد.

گزارش دهید و کاهش دهید

مرحله آخر خلاصه کردن نتایج آزمون در یک گزارش است. معیارها را محاسبه کرده و نتایج را گزارش کنید تا نرخ های ایمنی، تجسم ها و نمونه هایی از خرابی های مشکل ساز را ارائه دهید. این نتایج می‌تواند به بهبود مدل‌ها کمک کند و به محافظت‌های مدل، مانند فیلترها یا فهرست‌های بلاک، کمک کند. گزارش ها همچنین برای ارتباط با سهامداران و تصمیم گیرندگان مهم هستند.

منابع اضافی

تیم قرمز هوش مصنوعی گوگل: هکرهای اخلاقی که هوش مصنوعی را ایمن تر می کنند

مدل‌های زبان تیمی قرمز با مدل‌های زبان

تست انصاف محصول برای توسعه دهندگان یادگیری ماشین (ویدئو):

تست انصاف محصول برای توسعه دهندگان (Codelab)