প্রতিকূল পরীক্ষা হল দূষিত বা অসাবধানতাবশত ক্ষতিকারক ইনপুট প্রদান করা হলে এটি কীভাবে আচরণ করে তা শেখার অভিপ্রায়ে একটি এমএল মডেলকে পদ্ধতিগতভাবে মূল্যায়ন করার একটি পদ্ধতি। এই নির্দেশিকা জেনারেটিভ এআই-এর জন্য একটি উদাহরণ প্রতিপক্ষের পরীক্ষার ওয়ার্কফ্লো বর্ণনা করে।
প্রতিপক্ষ পরীক্ষা কি?
শক্তিশালী এবং নিরাপদ এআই অ্যাপ্লিকেশন তৈরির জন্য পরীক্ষা একটি গুরুত্বপূর্ণ অংশ। প্রতিকূল পরীক্ষায় সমস্যাযুক্ত আউটপুট বের করার সম্ভাবনা সবচেয়ে বেশি ডেটা দিয়ে একটি অ্যাপ্লিকেশনকে "ব্রেক" করার জন্য সক্রিয়ভাবে চেষ্টা করা জড়িত। প্রতিকূল প্রশ্নগুলির কারণে একটি মডেল অসুরক্ষিত পদ্ধতিতে ব্যর্থ হতে পারে (অর্থাৎ, নিরাপত্তা নীতি লঙ্ঘন), এবং এমন ত্রুটির কারণ হতে পারে যা মানুষের পক্ষে সনাক্ত করা সহজ, কিন্তু মেশিনগুলির পক্ষে সনাক্ত করা কঠিন।
প্রশ্নগুলি বিভিন্ন উপায়ে "বিরোধী" হতে পারে। স্পষ্টভাবে প্রতিপক্ষের প্রশ্নে নীতি-লঙ্ঘনকারী ভাষা থাকতে পারে বা নীতি-লঙ্ঘনকারী দৃষ্টিভঙ্গি প্রকাশ করতে পারে, অথবা মডেলটিকে অনিরাপদ, ক্ষতিকারক বা আপত্তিকর কিছু বলার জন্য তদন্ত বা "চাল" করার চেষ্টা করতে পারে। অস্পষ্টভাবে প্রতিপক্ষের প্রশ্নগুলি নিরীহ বলে মনে হতে পারে তবে এতে সংবেদনশীল বিষয় থাকতে পারে যা বিতর্কিত, সাংস্কৃতিকভাবে সংবেদনশীল বা সম্ভাব্য ক্ষতিকারক। এর মধ্যে জনসংখ্যা, স্বাস্থ্য, অর্থ বা ধর্ম সম্পর্কিত তথ্য অন্তর্ভুক্ত থাকতে পারে।
প্রতিকূল পরীক্ষা টিমগুলিকে মডেল এবং পণ্য উন্নত করতে সাহায্য করতে পারে বর্তমান ব্যর্থতাগুলিকে প্রশমনের পথ নির্দেশ করতে, যেমন ফাইন টিউনিং, মডেল সুরক্ষা বা ফিল্টার। অধিকন্তু, এটি ঝুঁকি পরিমাপ করে পণ্য লঞ্চের সিদ্ধান্ত জানাতে সাহায্য করতে পারে যা নিরবচ্ছিন্ন হতে পারে, যেমন সম্ভাবনা যে মডেলটি আউটপুট নীতি-লঙ্ঘনকারী সামগ্রী সহ।
দায়ী এআই-এর জন্য একটি উদীয়মান সর্বোত্তম অনুশীলন হিসাবে, এই নির্দেশিকা জেনারেটিভ মডেল এবং সিস্টেমগুলির জন্য প্রতিকূল পরীক্ষার জন্য একটি উদাহরণ কর্মপ্রবাহ প্রদান করে।
প্রতিকূল পরীক্ষার উদাহরণ কর্মপ্রবাহ
প্রতিকূল পরীক্ষা একটি কর্মপ্রবাহ অনুসরণ করে যা আদর্শ মডেল মূল্যায়নের অনুরূপ।
ইনপুট সনাক্ত করুন এবং সংজ্ঞায়িত করুন
প্রতিকূল পরীক্ষার কর্মপ্রবাহের প্রথম ধাপ হল ইচ্ছাকৃতভাবে এবং পদ্ধতিগতভাবে আক্রমণ করার সময় একটি সিস্টেম কীভাবে আচরণ করে তা শিখতে ইনপুটগুলি নির্ধারণ করা। চিন্তাশীল ইনপুটগুলি পরীক্ষার কার্যপ্রবাহের কার্যকারিতাকে সরাসরি প্রভাবিত করতে পারে। নিম্নলিখিত ইনপুটগুলি একটি প্রতিকূল পরীক্ষার সুযোগ এবং উদ্দেশ্যগুলিকে সংজ্ঞায়িত করতে সাহায্য করতে পারে:
- পণ্য নীতি এবং ব্যর্থতা মোড
- কেস ব্যবহার করুন
- বৈচিত্র্যের প্রয়োজনীয়তা
পণ্য নীতি এবং ব্যর্থতা মোড
জেনারেটিভ এআই পণ্যগুলির সুরক্ষা নীতিগুলি সংজ্ঞায়িত করা উচিত যা পণ্যের আচরণ এবং মডেল আউটপুটগুলি বর্ণনা করে যা অনুমোদিত নয় (যেমন, "অনিরাপদ" হিসাবে বিবেচিত হয়)৷ নীতিতে ব্যর্থতার মোডগুলি গণনা করা উচিত যা নীতি লঙ্ঘন হিসাবে বিবেচিত হবে৷ ব্যর্থতার মোডের এই তালিকাটি প্রতিপক্ষের পরীক্ষার ভিত্তি হিসাবে ব্যবহার করা উচিত। কিছু উদাহরণ ব্যর্থতার মোডের মধ্যে অশ্লীল ভাষা, বা আর্থিক, আইনি, বা চিকিৎসা পরামর্শ রয়েছে এমন সামগ্রী অন্তর্ভুক্ত থাকতে পারে।
কেস ব্যবহার করুন
প্রতিকূল পরীক্ষার আরেকটি গুরুত্বপূর্ণ ইনপুট হল ব্যবহার কেস(গুলি) যা জেনারেটিভ মডেল বা পণ্য পরিবেশন করতে চায়, যাতে পরীক্ষার ডেটাতে ব্যবহারকারীরা বাস্তব জগতে পণ্যটির সাথে যোগাযোগ করবে এমন উপায়গুলির কিছু উপস্থাপনা ধারণ করে। প্রতিটি জেনারেটিভ পণ্যের ব্যবহারের ক্ষেত্রে সামান্য ভিন্নতা রয়েছে, তবে কিছু সাধারণের মধ্যে রয়েছে: সত্য অনুসন্ধান, সংক্ষিপ্তকরণ এবং ভাষার মডেলের জন্য কোড তৈরি করা; বা ভূগোল বা ভূখণ্ড, শিল্প বা পোশাক শৈলী দ্বারা ব্যাকগ্রাউন্ডের চিত্র তৈরি করা।
বৈচিত্র্যের প্রয়োজনীয়তা
সমস্ত লক্ষ্য ব্যর্থতার মোড এবং ব্যবহারের ক্ষেত্রে প্রতিপক্ষের পরীক্ষার ডেটাসেটগুলি যথেষ্ট বৈচিত্র্যময় এবং প্রতিনিধিত্বপূর্ণ হওয়া উচিত। পরীক্ষার ডেটাসেটের বৈচিত্র্য পরিমাপ সম্ভাব্য পক্ষপাতগুলি সনাক্ত করতে সাহায্য করে এবং নিশ্চিত করে যে মডেলগুলি বিভিন্ন ব্যবহারকারীর জনসংখ্যার কথা মাথায় রেখে ব্যাপকভাবে পরীক্ষা করা হয়েছে।
বৈচিত্র্য সম্পর্কে চিন্তা করার তিনটি উপায় অন্তর্ভুক্ত:
- আভিধানিক বৈচিত্র্য: নিশ্চিত করুন যে প্রশ্নগুলির বিভিন্ন দৈর্ঘ্যের পরিসর রয়েছে (যেমন, শব্দ সংখ্যা), একটি বিস্তৃত শব্দভাণ্ডার পরিসর ব্যবহার করুন, সদৃশ ধারণ করবেন না এবং বিভিন্ন ক্যোয়ারী ফর্মুলেশন (যেমন, wh-প্রশ্ন, প্রত্যক্ষ এবং পরোক্ষ অনুরোধ) প্রতিনিধিত্ব করুন।
- শব্দার্থগত বৈচিত্র্য: বিভিন্ন ব্যবহারের ক্ষেত্রে এবং বৈশ্বিক প্রেক্ষাপটে সংবেদনশীল এবং পরিচয় ভিত্তিক বৈশিষ্ট্য (যেমন, লিঙ্গ, জাতিগত) সহ পলিসি প্রতি বিভিন্ন বিষয়ের বিস্তৃত পরিসর (যেমন, স্বাস্থ্যের জন্য ডায়াবেটিস) কভার করে তা নিশ্চিত করুন।
- নীতি এবং ব্যবহারের ক্ষেত্রে বৈচিত্র্য: নিশ্চিত করুন যে প্রশ্নগুলি সমস্ত নীতি লঙ্ঘন (যেমন, ঘৃণাত্মক বক্তব্য) কভার করে এবং কেস ব্যবহার করে (যেমন, বিশেষজ্ঞের পরামর্শ)।
পরীক্ষা ডেটাসেট খুঁজুন বা তৈরি করুন
প্রতিকূল পরীক্ষার জন্য টেস্ট ডেটাসেটগুলি স্ট্যান্ডার্ড মডেল মূল্যায়ন পরীক্ষার সেট থেকে আলাদাভাবে তৈরি করা হয়। স্ট্যান্ডার্ড মডেল মূল্যায়নে, পরীক্ষার ডেটাসেটগুলি সাধারণত পণ্যটিতে মডেলটি যে ডেটার মুখোমুখি হবে তার বিতরণকে সঠিকভাবে প্রতিফলিত করার জন্য ডিজাইন করা হয়। প্রতিকূল পরীক্ষার জন্য, পরীক্ষার ডেটা নির্বাচন করা হয় মডেল থেকে সমস্যাযুক্ত আউটপুট বের করার জন্য মডেলের আচরণ প্রমাণ করে বন্টনের বাইরের উদাহরণ এবং প্রান্তের ক্ষেত্রে যা নিরাপত্তা নীতির সাথে প্রাসঙ্গিক। একটি উচ্চ-মানের প্রতিকূল পরীক্ষার সেটে সমস্ত নিরাপত্তা নীতির মাত্রাগুলিকে কভার করা উচিত এবং মডেলটি সমর্থন করার উদ্দেশ্যে ব্যবহার করা ক্ষেত্রের কভারেজকে সর্বাধিক করা উচিত। এটি আভিধানিকভাবে বৈচিত্র্যময় হওয়া উচিত (যেমন, বিভিন্ন দৈর্ঘ্য এবং ভাষার প্রশ্ন সহ) এবং শব্দার্থগতভাবে (যেমন, বিভিন্ন বিষয় এবং জনসংখ্যার কভার করা)।
নিরাপত্তা নীতির কভারেজ, ব্যর্থতার মোড, এবং টেক্সট জেনারেশন এবং টেক্সট-টু-ইমেজ মডেলের ক্ষেত্রে ব্যবহার করার জন্য বিদ্যমান টেস্ট ডেটাসেটগুলি তদন্ত করুন। দলগুলি তাদের পণ্যের কর্মক্ষমতার একটি বেসলাইন স্থাপন করতে বিদ্যমান ডেটাসেটগুলি ব্যবহার করতে পারে এবং তারপরে তাদের পণ্যগুলির সাথে লড়াই করে নির্দিষ্ট ব্যর্থতার মোডগুলির উপর গভীর বিশ্লেষণ করতে পারে।
যদি বিদ্যমান পরীক্ষার ডেটাসেটগুলি অপর্যাপ্ত হয়, দলগুলি নির্দিষ্ট ব্যর্থতার মোডগুলি লক্ষ্য করতে এবং কেসগুলি ব্যবহার করতে নতুন ডেটা তৈরি করতে পারে। নতুন ডেটাসেট তৈরি করার একটি উপায় হ'ল ম্যানুয়ালি প্রশ্নের একটি ছোট ডেটাসেট তৈরি করে শুরু করা (যেমন, প্রতি বিভাগে কয়েক ডজন উদাহরণ) এবং তারপর ডেটা সংশ্লেষণ সরঞ্জাম ব্যবহার করে এই "বীজ" ডেটাসেটে প্রসারিত করা।
বীজ ডেটাসেটগুলিতে এমন উদাহরণ থাকা উচিত যা উৎপাদনে সিস্টেমটি কী সম্মুখীন হবে এবং নীতি লঙ্ঘনের লক্ষ্যে তৈরি করা হয়। অত্যন্ত বিষাক্ত ভাষা নিরাপত্তা বৈশিষ্ট্য দ্বারা সনাক্ত করা যেতে পারে, তাই সৃজনশীল বাক্যাংশ এবং অন্তর্নিহিতভাবে প্রতিপক্ষের ইনপুট বিবেচনা করুন।
আপনি আপনার পরীক্ষার ডেটাসেটে সংবেদনশীল বৈশিষ্ট্যের (যেমন, বয়স, লিঙ্গ, জাতি, ধর্ম) প্রত্যক্ষ বা পরোক্ষ উল্লেখ ব্যবহার করতে পারেন। মনে রাখবেন যে এই পদগুলির ব্যবহার সংস্কৃতির মধ্যে পরিবর্তিত হতে পারে। স্বর, বাক্যের গঠন, দৈর্ঘ্যের শব্দ চয়ন, এবং অর্থ পরিবর্তন করুন। উদাহরণ যেখানে একাধিক লেবেল (যেমন, ঘৃণাত্মক বক্তৃতা বনাম অশ্লীলতা) প্রয়োগ করতে পারে সেগুলি গোলমাল এবং অনুলিপি তৈরি করতে পারে এবং মূল্যায়ন বা প্রশিক্ষণ ব্যবস্থা দ্বারা সঠিকভাবে পরিচালনা নাও হতে পারে৷
আভিধানিক পরীক্ষার সেটগুলি আভিধানিক এবং শব্দার্থগত বৈচিত্র্য, নীতি লঙ্ঘন এবং ব্যবহারের ক্ষেত্রে কভারেজ এবং স্বতন্ত্রতা, প্রতিকূলতা এবং গোলমালের পরিপ্রেক্ষিতে সামগ্রিক গুণমানের পরিপ্রেক্ষিতে তাদের রচনাটি বোঝার জন্য বিশ্লেষণ করা উচিত।
মডেল আউটপুট তৈরি করুন
পরবর্তী ধাপ হল পরীক্ষার ডেটাসেটের উপর ভিত্তি করে মডেল আউটপুট তৈরি করা। ফলাফলগুলি পণ্য দলগুলিকে জানাবে যে দূষিত ব্যবহারকারীদের বা অসাবধানতাবশত ক্ষতিকারক ইনপুটগুলির সংস্পর্শে এলে তাদের মডেলগুলি কীভাবে কার্য সম্পাদন করতে পারে৷ এই সিস্টেমের আচরণ এবং প্রতিক্রিয়ার ধরণগুলি সনাক্ত করা বেসলাইন পরিমাপ প্রদান করতে পারে যা ভবিষ্যতে মডেল বিকাশে প্রশমিত হতে পারে।
টীকা আউটপুট
প্রতিপক্ষের পরীক্ষা থেকে আউটপুট তৈরি হয়ে গেলে, তাদের ব্যর্থতার মোড এবং/অথবা ক্ষতির মধ্যে শ্রেণীবদ্ধ করতে তাদের টীকা দিন। এই লেবেলগুলি পাঠ্য এবং চিত্র সামগ্রীর জন্য নিরাপত্তা সংকেত প্রদান করতে সাহায্য করতে পারে৷ অধিকন্তু, সংকেতগুলি মডেল এবং পণ্য জুড়ে ক্ষতি পরিমাপ এবং প্রশমিত করতে সহায়তা করতে পারে।
নীতি লঙ্ঘনের জন্য স্বয়ংক্রিয়ভাবে মডেল আউটপুট (বা ইনপুট) টীকা করতে নিরাপত্তা শ্রেণীবিভাগ ব্যবহার করা যেতে পারে। ঘৃণাত্মক বক্তব্যের মতো কঠোরভাবে সংজ্ঞায়িত নয় এমন গঠন শনাক্ত করার চেষ্টা করে এমন সংকেতগুলির সঠিকতা কম হতে পারে। এই সংকেতগুলির জন্য, ক্লাসিফায়ার-উত্পাদিত লেবেলগুলি পরীক্ষা করতে এবং সংশোধন করতে মানব রেটারগুলি ব্যবহার করা গুরুত্বপূর্ণ যার জন্য স্কোরগুলি "অনিশ্চিত"৷
স্বয়ংক্রিয় টীকা ছাড়াও, আপনি আপনার ডেটার একটি নমুনা টীকা করার জন্য মানব রেটারগুলিকেও ব্যবহার করতে পারেন। এটি লক্ষ করা গুরুত্বপূর্ণ যে প্রতিপক্ষ পরীক্ষার অংশ হিসাবে মডেল আউটপুটগুলিকে টীকা করার জন্য অগত্যা সমস্যাজনক এবং সম্ভাব্য ক্ষতিকারক পাঠ্য বা চিত্রগুলি দেখা জড়িত, ম্যানুয়াল বিষয়বস্তু সংযম করার মতো। উপরন্তু, মানব রেটাররা তাদের ব্যক্তিগত পটভূমি, জ্ঞান বা বিশ্বাসের উপর ভিত্তি করে একই বিষয়বস্তুকে ভিন্নভাবে টীকা করতে পারে। আপনার রেটার পুলের বৈচিত্র্য টীকা ফলাফলকে প্রভাবিত করতে পারে তা মনে রেখে রেটারদের জন্য নির্দেশিকা বা টেমপ্লেট তৈরি করা সহায়ক হতে পারে।
রিপোর্ট করুন এবং প্রশমিত করুন
চূড়ান্ত ধাপ হল একটি রিপোর্টে পরীক্ষার ফলাফলের সংক্ষিপ্তকরণ। নিরাপত্তা হার, ভিজ্যুয়ালাইজেশন এবং সমস্যাযুক্ত ব্যর্থতার উদাহরণ প্রদানের জন্য মেট্রিক্স গণনা করুন এবং ফলাফল রিপোর্ট করুন। এই ফলাফলগুলি মডেলের উন্নতির নির্দেশনা দিতে পারে এবং ফিল্টার বা ব্লকলিস্টের মতো মডেল সুরক্ষাগুলি জানাতে পারে। স্টেকহোল্ডার এবং সিদ্ধান্ত গ্রহণকারীদের সাথে যোগাযোগের জন্য প্রতিবেদনগুলিও গুরুত্বপূর্ণ।
অতিরিক্ত সম্পদ
গুগলের এআই রেড টিম: নৈতিক হ্যাকাররা এআইকে নিরাপদ করে তুলছে
রেড টিমিং ল্যাঙ্গুয়েজ মডেলের সাথে ল্যাঙ্গুয়েজ মডেল
মেশিন লার্নিং ডেভেলপারদের জন্য পণ্য ন্যায্যতা পরীক্ষা (ভিডিও):
ডেভেলপারদের জন্য পণ্য ন্যায্যতা পরীক্ষা (কোডেল্যাব)