জেনারেটিভ মডেলের জন্য নিরাপত্তা এবং ন্যায্যতা বিবেচনা

জেনারেটিভ এআই হতে পারে সৃজনশীলতা আনলক করার, উৎপাদনশীলতা বৃদ্ধি এবং দৈনন্দিন কাজগুলো সহজ করার একটি শক্তিশালী হাতিয়ার। যাইহোক, প্রাথমিক পর্যায়ে প্রযুক্তি হিসাবে, এটি যথাযথ সতর্কতার সাথে ব্যবহার করা উচিত। এই সংস্থানটি জেনারেটিভ এআই পণ্যগুলির জন্য সুরক্ষা এবং ন্যায্যতা বিবেচনার জন্য একটি উচ্চ স্তরের পদ্ধতি প্রদান করে।

ভূমিকা

জেনারেটিভ এআই-এর দ্রুত বিকাশ তুলনামূলকভাবে স্বল্প সময়ের মধ্যে বৈশিষ্ট্য এবং পণ্য বাজারে এনেছে। জেনারেটিভ এআই ক্ষমতা সহ পণ্য লঞ্চ করা দলগুলির লক্ষ্য হওয়া উচিত AI নীতি অনুসারে উচ্চ মানের, নিরাপদ, ন্যায্য এবং ন্যায়সঙ্গত ব্যবহারকারীর অভিজ্ঞতা নিশ্চিত করা।

জেনারেটিভ অ্যাপ্লিকেশনগুলির জন্য একটি দায়িত্বশীল পদ্ধতির নিম্নলিখিতগুলি সম্পন্ন করার জন্য পরিকল্পনা প্রদান করা উচিত:

  • বিষয়বস্তু নীতি, সম্ভাব্য ক্ষতি, এবং ঝুঁকি বিশ্লেষণ
  • দায়িত্বশীল প্রজন্ম
  • ক্ষতি প্রতিরোধ
  • মূল্যায়ন এবং প্রতিপক্ষের পরীক্ষা

বিষয়বস্তু নীতি, সম্ভাব্য ক্ষতি, এবং ঝুঁকি বিশ্লেষণ

পণ্যগুলিকে প্রথমে ব্যবহারকারীদের তৈরি করার অনুমতি দেওয়া হয় না এমন সামগ্রীর ধরণের উপর সারিবদ্ধ করা উচিত৷ Google-এর জেনারেটিভ এআই নিষিদ্ধ ব্যবহার নীতিতে আচ্ছাদিত Google পরিষেবাগুলির জন্য নির্দিষ্ট নিষিদ্ধ ব্যবহারের ক্ষেত্রে অন্তর্ভুক্ত রয়েছে।

এই নিষিদ্ধ ব্যবহারের ক্ষেত্রে আরো বিস্তারিত জানার জন্য অফিসিয়াল নীতি পড়ুন। আপনার নিজের পণ্য ব্যবহারের ক্ষেত্রে, দায়িত্বশীল প্রজন্মের লক্ষ্যগুলির সাথে সারিবদ্ধ করার জন্য নীতি-লঙ্ঘনের অনুপস্থিতির বাইরে "ভাল" সামগ্রী কী গঠন করে তা নির্ধারণ করুন। আপনার টিমেরও স্পষ্টভাবে সংজ্ঞায়িত করা উচিত এবং ব্যবহারের ক্ষেত্রে বর্ণনা করা উচিত যেগুলি নীতি লঙ্ঘন হিসাবে বিবেচিত হবে বা "ব্যর্থতা মোড" ব্যবহার করবে।

বিষয়বস্তু নীতিগুলি ব্যবহারকারীদের ক্ষতি রোধ করার এক ধাপ মাত্র। গুণমান , নিরাপত্তা , ন্যায্যতা এবং অন্তর্ভুক্তির জন্য লক্ষ্য এবং নির্দেশক নীতিগুলি বিবেচনা করাও গুরুত্বপূর্ণ৷

গুণমান

উচ্চ মানের ব্যবহারকারীর অভিজ্ঞতা প্রদানে সহায়তা করার জন্য মেডিকেল তথ্যের মতো সংবেদনশীল উল্লম্বগুলিতে প্রশ্নের উত্তর দেওয়ার জন্য দলগুলির কৌশল তৈরি করা উচিত। দায়িত্বশীল কৌশলগুলির মধ্যে রয়েছে একাধিক দৃষ্টিভঙ্গি প্রদান করা, বৈজ্ঞানিক প্রমাণ ছাড়াই বিষয়গুলিকে স্থগিত করা, অথবা শুধুমাত্র বৈশিষ্ট্যের সাথে বাস্তব তথ্য প্রদান করা।

নিরাপত্তা

এআই সুরক্ষা ব্যবস্থার লক্ষ্য হল এমন কাজগুলি প্রতিরোধ করা বা ধারণ করা যা ইচ্ছাকৃত বা অনিচ্ছাকৃতভাবে ক্ষতির কারণ হতে পারে। উপযুক্ত প্রশমন ছাড়া, জেনারেটিভ মডেলগুলি অনিরাপদ সামগ্রী আউটপুট করতে পারে যা বিষয়বস্তু নীতি লঙ্ঘন করতে পারে বা ব্যবহারকারীদের অস্বস্তির কারণ হতে পারে। কোনো আউটপুট ব্লক করা হলে বা মডেলটি গ্রহণযোগ্য আউটপুট তৈরি করতে অক্ষম হলে ব্যবহারকারীদের ব্যাখ্যা প্রদানের কথা বিবেচনা করুন।

ন্যায্যতা এবং অন্তর্ভুক্তি

একটি উত্তরের মধ্যে এবং একই প্রশ্নের জন্য একাধিক প্রতিক্রিয়া জুড়ে বৈচিত্র্য নিশ্চিত করুন। উদাহরণস্বরূপ, বিখ্যাত সঙ্গীতশিল্পীদের সম্পর্কে একটি প্রশ্নের উত্তরে শুধুমাত্র একই লিঙ্গ পরিচয় বা ত্বকের স্বর বিশিষ্ট ব্যক্তিদের নাম বা ছবি অন্তর্ভুক্ত করা উচিত নয়। অনুরোধ করা হলে দলগুলিকে বিভিন্ন সম্প্রদায়ের জন্য সামগ্রী সরবরাহ করার চেষ্টা করা উচিত। একাধিক পরিচয়, সংস্কৃতি এবং জনসংখ্যা জুড়ে বৈচিত্র্য এবং প্রতিনিধিত্বের জন্য প্রশিক্ষণ ডেটা পরীক্ষা করুন। সাধারণ স্টেরিওটাইপগুলিকে স্থায়ী না করে কীভাবে একাধিক প্রশ্নের আউটপুটগুলি দলে বৈচিত্র্যের প্রতিনিধিত্ব করে তা বিবেচনা করুন (উদাহরণস্বরূপ, "পুরুষদের জন্য সেরা চাকরি" এর তুলনায় "নারীদের জন্য সেরা চাকরি" এর প্রতিক্রিয়াগুলিতে ঐতিহ্যগতভাবে স্টেরিওটাইপ করা বিষয়বস্তু থাকা উচিত নয়, যেমন "নার্স" এর অধীনে প্রদর্শিত "মহিলাদের জন্য সেরা চাকরি," কিন্তু "পুরুষদের জন্য সেরা চাকরি" এর অধীনে "ডাক্তার" দেখা যাচ্ছে)।

সম্ভাব্য ক্ষতি এবং ঝুঁকি বিশ্লেষণ

এলএলএম দিয়ে অ্যাপ্লিকেশন তৈরি করার সময় নিম্নলিখিত পদক্ষেপগুলি সুপারিশ করা হয় (PALM API নিরাপত্তা নির্দেশিকা মাধ্যমে):

  • আপনার আবেদনের নিরাপত্তা ঝুঁকি বোঝা
  • নিরাপত্তা ঝুঁকি প্রশমিত করার জন্য সমন্বয় বিবেচনা করা
  • আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত নিরাপত্তা পরীক্ষা করা
  • ব্যবহারকারীদের কাছ থেকে প্রতিক্রিয়া চাওয়া এবং ব্যবহার পর্যবেক্ষণ করা

এই পদ্ধতি সম্পর্কে আরও পড়তে, PaLM API ডকুমেন্টেশন দেখুন।

আরও গভীরে ডুব দেওয়ার জন্য, এই আলোচনা ঝুঁকিগুলি কমানোর জন্য এবং নিরাপদ এবং দায়িত্বশীল LLM-সমর্থিত অ্যাপ্লিকেশনগুলি বিকাশের জন্য নির্দেশিকা অন্বেষণ করে:

দায়িত্বশীল প্রজন্ম

অন্তর্নির্মিত মডেল নিরাপত্তা

নিরাপত্তা বৈশিষ্ট্যগুলির একটি উদাহরণে, PaLM API-এ সামঞ্জস্যযোগ্য সুরক্ষা সেটিংস অন্তর্ভুক্ত রয়েছে যা ছয়টি বিভাগে অনিরাপদ হওয়ার সামঞ্জস্যযোগ্য সম্ভাবনা সহ সামগ্রী ব্লক করে: অবমাননাকর, বিষাক্ত, যৌন, হিংসাত্মক, বিপজ্জনক এবং চিকিৎসা। এই সেটিংসগুলি ডেভেলপারদের তাদের ব্যবহারের ক্ষেত্রে কী উপযুক্ত তা নির্ধারণ করতে দেয়, তবে মূল ক্ষতির বিরুদ্ধে অন্তর্নির্মিত সুরক্ষাও রয়েছে, যেমন সামগ্রী যা শিশুদের সুরক্ষাকে বিপন্ন করে, যা সর্বদা অবরুদ্ধ থাকে এবং সামঞ্জস্য করা যায় না।

মডেল টিউনিং

একটি মডেল ফাইন-টিউনিং একটি অ্যাপ্লিকেশনের প্রয়োজনীয়তার উপর ভিত্তি করে কিভাবে উত্তর দিতে হয় তা শেখাতে পারে। উদাহরণ প্রম্পট এবং উত্তরগুলি একটি মডেলকে শেখানোর জন্য ব্যবহার করা হয় কীভাবে নতুন ব্যবহারের ক্ষেত্রে আরও ভালভাবে সমর্থন করা যায়, ক্ষতির ধরনগুলি সম্বোধন করা যায়, বা উত্তরে পণ্যের দ্বারা কাঙ্ক্ষিত বিভিন্ন কৌশল ব্যবহার করা হয়।

উদাহরণস্বরূপ, বিবেচনা করুন:

  • আপনার অ্যাপ্লিকেশন প্রসঙ্গে যা গ্রহণযোগ্য তা আরও ভালভাবে প্রতিফলিত করতে মডেল আউটপুট টিউনিং করুন।
  • একটি ইনপুট পদ্ধতি প্রদান করা যা নিরাপদ আউটপুটগুলিকে সহজতর করে, যেমন একটি ড্রপডাউন তালিকায় ইনপুটগুলিকে সীমাবদ্ধ করা।
  • ব্যবহারকারীকে দেখানোর আগে অনিরাপদ ইনপুট ব্লক করা এবং আউটপুট ফিল্টার করা।

নিরাপত্তা ঝুঁকি কমাতে সামঞ্জস্যের আরও উদাহরণের জন্য PaLM API-এর নিরাপত্তা নির্দেশিকা দেখুন।

ক্ষতি প্রতিরোধ

ক্ষতি প্রতিরোধের অতিরিক্ত পদ্ধতিতে সম্ভাব্য ক্ষতি বা প্রতিকূল সংকেত সহ প্রতিটি প্রম্পটকে লেবেল করার জন্য প্রশিক্ষিত শ্রেণীবদ্ধকরণ ব্যবহার করা অন্তর্ভুক্ত থাকতে পারে। অধিকন্তু, আপনি একটি নির্দিষ্ট সময়ের মধ্যে একজন একক ব্যবহারকারীর দ্বারা জমা দেওয়া ব্যবহারকারীর প্রশ্নের পরিমাণ সীমিত করে ইচ্ছাকৃত অপব্যবহারের বিরুদ্ধে সুরক্ষা ব্যবস্থা বাস্তবায়ন করতে পারেন, বা সম্ভাব্য প্রম্পট ইনজেকশন থেকে রক্ষা করার চেষ্টা করতে পারেন।

ইনপুট সুরক্ষার অনুরূপ, আউটপুটগুলিতে গার্ডেল স্থাপন করা যেতে পারে। নীতি লঙ্ঘনকারী বিষয়বস্তু শনাক্ত করতে বিষয়বস্তু সংযম গার্ডেল, যেমন ক্লাসিফায়ার ব্যবহার করা যেতে পারে। যদি সংকেতগুলি আউটপুটকে ক্ষতিকারক বলে নির্ধারণ করে, তবে অ্যাপ্লিকেশনটি একটি ত্রুটি বা খালি প্রতিক্রিয়া প্রদান করতে পারে, একটি প্রি-স্ক্রিপ্টেড আউটপুট প্রদান করতে পারে, বা নিরাপত্তার জন্য একই প্রম্পট থেকে একাধিক আউটপুট র‌্যাঙ্ক করতে পারে।

মূল্যায়ন, মেট্রিক্স এবং পরীক্ষা

উৎপাদিত AI পণ্যগুলি লঞ্চের আগে সুরক্ষা নীতি এবং নির্দেশিকা নীতিগুলির সাথে সামঞ্জস্যপূর্ণ তা নিশ্চিত করার জন্য কঠোরভাবে মূল্যায়ন করা উচিত। মূল্যায়নের জন্য একটি বেসলাইন তৈরি করতে এবং সময়ের সাথে সাথে উন্নতি পরিমাপ করতে, প্রতিটি প্রধান বিষয়বস্তুর মানের মাত্রার জন্য মেট্রিক্স সংজ্ঞায়িত করা উচিত। মেট্রিক্স সংজ্ঞায়িত করার পরে, একটি পৃথক ঝুঁকি বিশ্লেষণ লঞ্চের কার্যক্ষমতা লক্ষ্য নির্ধারণ করতে পারে, অ্যাকাউন্ট ক্ষতির ধরণগুলি বিবেচনা করে, তাদের সম্মুখীন হওয়ার সম্ভাবনা কতটা এবং ক্ষতির প্রভাব।

বিবেচনা করার জন্য মেট্রিক্সের উদাহরণ:

সেফটি বেঞ্চমার্ক: ডিজাইন সেফটি মেট্রিক্স যা প্রতিফলিত করে যে আপনার অ্যাপ্লিকেশানটি কীভাবে ব্যবহার করা হতে পারে তার পরিপ্রেক্ষিতে কীভাবে অনিরাপদ হতে পারে, তারপর পরীক্ষা করুন যে আপনার অ্যাপ্লিকেশনটি মূল্যায়ন ডেটাসেট ব্যবহার করে মেট্রিক্সে কতটা ভাল কাজ করে।

লঙ্ঘনের হার: একটি ভারসাম্যপূর্ণ প্রতিকূল ডেটাসেট দেওয়া (প্রযোজ্য ক্ষতি এবং ব্যবহারের ক্ষেত্রে), লঙ্ঘনকারী আউটপুটের সংখ্যা, সাধারণত ইন্টারেটার নির্ভরযোগ্যতা দ্বারা পরিমাপ করা হয়।

খালি প্রতিক্রিয়া হার: প্রম্পটগুলির একটি সুষম সেট দেওয়া যা একটি পণ্যের জন্য একটি প্রতিক্রিয়া প্রদান করতে চায়, খালি প্রতিক্রিয়ার সংখ্যা (অর্থাৎ, যখন পণ্যটি ইনপুট বা আউটপুট অবরুদ্ধ করা সত্ত্বেও একটি নিরাপদ আউটপুট দিতে অক্ষম হয়)।

বৈচিত্র্য: প্রম্পটগুলির একটি সেট দেওয়া, আউটপুটগুলিতে উপস্থাপিত পরিচয় বৈশিষ্ট্যগুলির মাত্রা সহ বৈচিত্র্য।

ন্যায্যতা (পরিষেবার মানের জন্য): একটি সংবেদনশীল বৈশিষ্ট্যের কাউন্টারফ্যাকচুয়াল ধারণ করে প্রম্পটের একটি সেট দেওয়া, একই মানের পরিষেবা প্রদান করার ক্ষমতা।

প্রতিপক্ষের পরীক্ষা

প্রতিপক্ষের পরীক্ষায় সক্রিয়ভাবে আপনার আবেদনকে "ব্রেক" করার চেষ্টা করা জড়িত। লক্ষ্য হল দুর্বলতার পয়েন্টগুলি চিহ্নিত করা যাতে আপনি তাদের প্রতিকারের জন্য পদক্ষেপ নিতে পারেন।

প্রতিকূল পরীক্ষা হল দূষিত বা অসাবধানতাবশত ক্ষতিকারক ইনপুট দেওয়া হলে এটি কীভাবে আচরণ করে তা শেখার অভিপ্রায়ে একটি এমএল মডেলকে পদ্ধতিগতভাবে মূল্যায়ন করার একটি পদ্ধতি:

  • একটি ইনপুট দূষিত হয় যখন ইনপুটটি পরিষ্কারভাবে একটি অনিরাপদ বা ক্ষতিকারক আউটপুট তৈরি করার জন্য ডিজাইন করা হয় - উদাহরণস্বরূপ, একটি পাঠ্য প্রজন্মের মডেলকে একটি নির্দিষ্ট ধর্ম সম্পর্কে ঘৃণাপূর্ণ রট তৈরি করতে বলা৷
  • একটি ইনপুট অসাবধানতাবশত ক্ষতিকারক হয় যখন ইনপুট নিজেই নিরীহ হতে পারে, কিন্তু ক্ষতিকারক আউটপুট তৈরি করে - উদাহরণস্বরূপ, একটি পাঠ্য প্রজন্মের মডেলকে একটি নির্দিষ্ট জাতিসত্তার ব্যক্তিকে বর্ণনা করতে বলা এবং একটি বর্ণবাদী আউটপুট গ্রহণ করা।

প্রতিকূল পরীক্ষার দুটি প্রাথমিক উদ্দেশ্য রয়েছে: বর্তমান ব্যর্থতার নিদর্শনগুলি প্রকাশ করে দলগুলিকে পদ্ধতিগতভাবে মডেল এবং পণ্যগুলিকে উন্নত করতে সাহায্য করা, এবং প্রশমনের পথগুলিকে গাইড করা, এবং সুরক্ষা পণ্য নীতিগুলির সাথে সারিবদ্ধকরণের মূল্যায়ন করে এবং সম্পূর্ণরূপে প্রশমিত নাও হতে পারে এমন ঝুঁকিগুলি পরিমাপ করে পণ্যের সিদ্ধান্তগুলি জানাতে

প্রতিকূল পরীক্ষা একটি কর্মপ্রবাহ অনুসরণ করে যা আদর্শ মডেল মূল্যায়নের অনুরূপ:

  1. একটি পরীক্ষা ডেটাসেট খুঁজুন বা তৈরি করুন
  2. পরীক্ষা ডেটাসেট ব্যবহার করে মডেল অনুমান চালান
  3. মডেল আউটপুট টীকা
  4. বিশ্লেষণ এবং ফলাফল রিপোর্ট

একটি আদর্শ মূল্যায়ন থেকে একটি প্রতিকূল পরীক্ষাকে যা আলাদা করে তা হল পরীক্ষার জন্য ব্যবহৃত ডেটার সংমিশ্রণ। প্রতিকূল পরীক্ষার জন্য, পরীক্ষার ডেটা নির্বাচন করুন যা মডেল থেকে সমস্যাযুক্ত আউটপুট বের করার সম্ভাবনা বেশি। এর অর্থ হল সম্ভাব্য সমস্ত ধরণের ক্ষতির জন্য মডেলের আচরণ পরীক্ষা করা, যার মধ্যে বিরল বা অস্বাভাবিক উদাহরণ এবং নিরাপত্তা নীতির সাথে প্রাসঙ্গিক এজ কেসগুলি অন্তর্ভুক্ত। এটি একটি বাক্যের বিভিন্ন মাত্রা যেমন গঠন, অর্থ এবং দৈর্ঘ্যের মধ্যে বৈচিত্র্য অন্তর্ভুক্ত করা উচিত।