تست خصمانه روشی برای ارزیابی سیستماتیک یک مدل ML با هدف یادگیری نحوه رفتار آن در صورت ارائه ورودی های مخرب یا سهوا مضر است. این راهنما یک نمونه گردش کار تست خصمانه برای هوش مصنوعی مولد را شرح می دهد.
تست خصمانه چیست؟
آزمایش بخش مهمی از ساخت برنامه های هوش مصنوعی قوی و ایمن است. تست خصمانه شامل تلاش پیشگیرانه برای "شکستن" یک برنامه با ارائه داده هایی است که به احتمال زیاد خروجی مشکل ساز را ایجاد می کند. جستارهای خصمانه احتمالاً باعث می شود که یک مدل به روشی ناامن (به عنوان مثال، نقض خط مشی ایمنی) شکست بخورد، و ممکن است باعث خطاهایی شود که تشخیص آن برای انسان آسان است، اما تشخیص آن برای ماشین ها دشوار است.
پرس و جوها ممکن است به طرق مختلف "متضاد" باشند. درخواستهای خصمانه صریح ممکن است حاوی زبان نقضکننده خطمشی یا بیان دیدگاههای نقضکننده خطمشی باشند، یا ممکن است مدل را برای گفتن چیزی ناامن، مضر یا توهینآمیز بررسی کنند یا سعی کنند مدل را فریب دهند. پرس و جوهای خصمانه ضمنی ممکن است بی ضرر به نظر برسند، اما می توانند حاوی موضوعات حساسی باشند که بحث برانگیز، از نظر فرهنگی حساس یا بالقوه مضر هستند. اینها ممکن است شامل اطلاعات جمعیت شناختی، بهداشت، امور مالی یا مذهب باشد.
آزمایش خصمانه میتواند به تیمها کمک کند تا مدلها و محصولات را با افشای خرابیهای فعلی برای هدایت مسیرهای کاهش، مانند تنظیم دقیق، محافظهای مدل یا فیلترها، بهبود بخشند . علاوه بر این، میتواند با اندازهگیری ریسکهایی که ممکن است کاهش نیافته باشد، به اطلاعرسانی تصمیمگیری در مورد راهاندازی محصول کمک کند، مانند احتمال اینکه مدل دارای محتوای نقضکننده خطمشی خروجی باشد.
این راهنما به عنوان بهترین روش در حال ظهور برای هوش مصنوعی مسئول، گردش کار نمونه ای را برای آزمایش خصمانه برای مدل ها و سیستم های مولد ارائه می دهد.
نمونه گردش کار تست خصمانه
آزمایش خصمانه از یک گردش کاری که مشابه ارزیابی مدل استاندارد است پیروی می کند.
ورودی ها را شناسایی و تعریف کنید
اولین گام در گردش کار تست خصمانه، تعیین ورودی ها برای یادگیری نحوه رفتار یک سیستم در هنگام حمله عمدی و سیستماتیک است. ورودیهای متفکرانه میتوانند مستقیماً بر کارایی گردش کار آزمایش تأثیر بگذارند. ورودیهای زیر میتوانند به تعریف دامنه و اهداف آزمون خصمانه کمک کنند:
- خط مشی محصول و حالت های شکست
- موارد استفاده کنید
- الزامات تنوع
خط مشی محصول و حالت های شکست
محصولات هوش مصنوعی مولد باید خطمشیهای ایمنی را تعریف کنند که رفتار محصول را توصیف میکنند و خروجیهایی را مدل میکنند که مجاز نیستند (یعنی «ناامن» در نظر گرفته میشوند). این خطمشی باید حالتهای خرابی را که نقض خطمشی تلقی میشوند، برشمرد. این لیست از حالت های خرابی باید به عنوان مبنایی برای آزمایش دشمن استفاده شود. برخی از حالتهای شکست نمونه ممکن است شامل محتوایی باشد که حاوی زبان توهینآمیز یا توصیههای مالی، حقوقی یا پزشکی است.
موارد استفاده کنید
ورودی مهم دیگر برای آزمایش خصمانه، موارد استفاده است که مدل یا محصول تولیدی به دنبال ارائه آن است، به طوری که دادههای آزمایشی حاوی برخی از روشهای تعامل کاربران با محصول در دنیای واقعی است. هر محصول تولیدی دارای موارد استفاده کمی متفاوت است، اما برخی موارد رایج عبارتند از: حقیقتیابی، خلاصهسازی و تولید کد برای مدلهای زبان. یا تولید تصویر پس زمینه بر اساس جغرافیا یا زمین، هنر یا سبک لباس.
الزامات تنوع
مجموعه دادههای آزمایش خصمانه باید به اندازه کافی متنوع و معرف با توجه به تمام حالتهای شکست هدف و موارد استفاده باشد. اندازهگیری تنوع مجموعه دادههای آزمایشی به شناسایی سوگیریهای بالقوه کمک میکند و تضمین میکند که مدلها به طور گسترده با در نظر گرفتن جمعیت کاربری متنوع آزمایش میشوند.
سه روش برای تفکر در مورد تنوع عبارتند از:
- تنوع واژگانی: اطمینان حاصل کنید که پرس و جوها دارای طیفی با طول های مختلف هستند (مثلاً تعداد کلمات)، از دامنه واژگان وسیعی استفاده می کنند، حاوی موارد تکراری نیستند و فرمول های مختلف پرس و جو را نشان می دهند (مثلاً سؤالات wh، درخواست های مستقیم و غیر مستقیم).
- تنوع معنایی: اطمینان حاصل کنید که پرس و جوها طیف وسیعی از موضوعات مختلف را در هر خط مشی (مثلاً دیابت برای سلامت) از جمله ویژگی های حساس و مبتنی بر هویت (مانند جنسیت، قومیت)، در موارد مختلف استفاده و زمینه های جهانی پوشش می دهند.
- تنوع خطمشی و موارد استفاده: اطمینان حاصل کنید که درخواستها همه موارد نقض خطمشی (مانند سخنان مشوق نفرت) و موارد استفاده (مثلاً توصیههای متخصص) را پوشش میدهند.
یافتن یا ایجاد مجموعه داده (های) آزمایشی
مجموعه دادههای آزمایشی برای آزمایش خصمانه متفاوت از مجموعههای تست ارزیابی مدل استاندارد ساخته شدهاند. در ارزیابیهای مدل استاندارد، مجموعه دادههای آزمایشی معمولاً برای منعکس کردن دقیق توزیع دادههایی که مدل در محصول با آن مواجه میشود، طراحی میشوند. برای آزمایشهای خصمانه ، دادههای آزمایشی انتخاب میشوند تا با اثبات رفتار مدل در نمونههای خارج از توزیع و موارد لبهای که به سیاستهای ایمنی مرتبط هستند، خروجی مشکلساز را از مدل استخراج کند. یک مجموعه تست متخاصم با کیفیت بالا باید تمام ابعاد سیاست ایمنی را پوشش دهد و پوشش موارد استفاده را که مدل در نظر گرفته شده برای پشتیبانی از آنها به حداکثر برساند. باید از نظر واژگانی (مثلاً شامل پرسشهایی با طولها و زبانهای مختلف) و از نظر معنایی (مثلاً موضوعات مختلف و جمعیتشناسی) متنوع باشد.
مجموعه دادههای آزمایشی موجود را برای پوشش سیاستهای ایمنی، حالتهای خرابی و موارد استفاده برای تولید متن و مدلهای متن به تصویر بررسی کنید. تیمها میتوانند از مجموعه دادههای موجود برای ایجاد یک خط پایه از عملکرد محصولات خود استفاده کنند و سپس تحلیلهای عمیقتری در مورد حالتهای خرابی خاص محصولاتشان انجام دهند.
اگر مجموعه دادههای آزمایشی موجود کافی نباشد، تیمها میتوانند دادههای جدیدی را برای هدف قرار دادن حالتهای خرابی خاص و موارد استفاده تولید کنند. یکی از راههای ایجاد مجموعههای داده جدید این است که با ایجاد دستی یک مجموعه داده کوچک از پرس و جوها (یعنی دهها نمونه در هر دسته) شروع کنید و سپس با استفاده از ابزارهای سنتز داده، این مجموعه داده «seed» را گسترش دهید.
مجموعه دادههای Seed باید حاوی نمونههایی باشد که تا حد امکان مشابه آنچه سیستم در تولید با آن مواجه میشود باشد و با هدف ایجاد نقض خطمشی ایجاد شده باشد. زبان بسیار سمی احتمالاً توسط ویژگیهای ایمنی تشخیص داده میشود، بنابراین عبارتهای خلاقانه و ورودیهای تلویحی تلویحی را در نظر بگیرید.
شما می توانید از ارجاع مستقیم یا غیرمستقیم به ویژگی های حساس (مانند سن، جنسیت، نژاد، مذهب) در مجموعه داده آزمایشی خود استفاده کنید. به خاطر داشته باشید که استفاده از این اصطلاحات ممکن است بین فرهنگ ها متفاوت باشد. لحن، ساختار جمله، انتخاب طول کلمه و معنی را تغییر دهید. نمونههایی که برچسبهای متعدد (مثلاً سخنان مشوق عداوت و تنفر در مقابل فحاشی) میتوانند اعمال شوند، ممکن است سر و صدا و تکراری ایجاد کنند، و ممکن است توسط سیستمهای ارزیابی یا آموزش به درستی مدیریت نشوند.
مجموعههای آزمون متخاصم باید برای درک ترکیب آنها از نظر تنوع واژگانی و معنایی، پوشش در سراسر نقض خطمشی و موارد استفاده، و کیفیت کلی از نظر منحصربهفرد بودن، مخالفت و سر و صدا تجزیه و تحلیل شوند.
تولید خروجی مدل
مرحله بعدی تولید خروجی های مدل بر اساس مجموعه داده های آزمایشی است. نتایج به تیمهای محصول اطلاع میدهد که مدلهای آنها چگونه ممکن است در معرض کاربران مخرب یا ورودیهای ناخواسته مضر قرار گیرند. شناسایی این رفتارهای سیستم و الگوهای پاسخ میتواند اندازهگیریهای پایه را ارائه دهد که میتواند در توسعه مدل آینده کاهش یابد.
حاشیه نویسی خروجی ها
هنگامی که خروجی های آزمایش خصمانه تولید شد، آنها را حاشیه نویسی کنید تا آنها را در حالت های خرابی و/یا آسیب ها دسته بندی کنید. این برچسب ها می توانند به ارائه سیگنال های ایمنی برای محتوای متن و تصویر کمک کنند. علاوه بر این، سیگنالها میتوانند به اندازهگیری و کاهش آسیبهای بین مدلها و محصولات کمک کنند.
طبقهبندیکنندههای ایمنی را میتوان برای حاشیهنویسی خودکار خروجیها (یا ورودیهای) مدل برای نقض خطمشی استفاده کرد. دقت ممکن است برای سیگنالهایی که سعی میکنند ساختارهایی را که دقیقاً تعریف نشدهاند شناسایی کنند، مانند سخنان نفرت، پایین باشد. برای آن سیگنالها، استفاده از ارزیابهای انسانی برای بررسی و تصحیح برچسبهای تولید شده توسط طبقهبندیکننده که امتیاز آنها «نامشخص است» ضروری است.
علاوه بر حاشیه نویسی خودکار، شما همچنین می توانید از ارزیاب های انسانی برای حاشیه نویسی نمونه ای از داده های خود استفاده کنید. توجه به این نکته مهم است که حاشیه نویسی خروجی های مدل به عنوان بخشی از آزمایش خصمانه لزوماً شامل نگاه کردن به متن یا تصاویر مشکل ساز و بالقوه مضر است، شبیه به تعدیل محتوای دستی. علاوه بر این، ارزیابیکنندگان انسانی ممکن است بر اساس پیشزمینه شخصی، دانش یا اعتقادات خود، یک محتوا را بهطور متفاوتی حاشیهنویسی کنند. ایجاد دستورالعملها یا الگوهایی برای ارزیابها میتواند مفید باشد، در نظر داشته باشید که تنوع گروه ارزیابیکننده شما میتواند بر نتایج حاشیهنویسی تأثیر بگذارد.
گزارش دهید و کاهش دهید
مرحله آخر خلاصه کردن نتایج آزمون در یک گزارش است. معیارها را محاسبه کرده و نتایج را گزارش کنید تا نرخ های ایمنی، تجسم ها و نمونه هایی از خرابی های مشکل ساز را ارائه دهید. این نتایج میتواند به بهبود مدلها کمک کند و به محافظتهای مدل، مانند فیلترها یا فهرستهای بلاک، کمک کند. گزارش ها همچنین برای ارتباط با سهامداران و تصمیم گیرندگان مهم هستند.
منابع اضافی
تیم قرمز هوش مصنوعی گوگل: هکرهای اخلاقی که هوش مصنوعی را ایمن تر می کنند
مدلهای زبان تیمی قرمز با مدلهای زبان
تست انصاف محصول برای توسعه دهندگان یادگیری ماشین (ویدئو):
تست انصاف محصول برای توسعه دهندگان (Codelab)