অন-ডিভাইস ব্যক্তিগতকরণের জন্য ডিফারেনশিয়াল প্রাইভেসি শব্দার্থ

এই দস্তাবেজটি বিশেষত ডিফারেনশিয়াল গোপনীয়তার প্রসঙ্গে অন-ডিভাইস ব্যক্তিগতকরণ (ODP) এর জন্য গোপনীয়তা পদ্ধতির সংক্ষিপ্ত বিবরণ দেয়। অন্যান্য গোপনীয়তার প্রভাব এবং ডিজাইনের সিদ্ধান্ত যেমন ডেটা মিনিমাইজেশন ইচ্ছাকৃতভাবে এই নথিতে ফোকাস রাখার জন্য ছেড়ে দেওয়া হয়।

ডিফারেনশিয়াল গোপনীয়তা

ডিফারেনশিয়াল প্রাইভেসি 1 হল পরিসংখ্যানগত ডেটা বিশ্লেষণ এবং মেশিন লার্নিং 2 3- এ গোপনীয়তা সুরক্ষার একটি ব্যাপকভাবে গৃহীত মান। অনানুষ্ঠানিকভাবে, এটি বলে যে একজন প্রতিপক্ষ একটি ডিফারেনশিয়ালি প্রাইভেট অ্যালগরিদমের আউটপুট থেকে ব্যবহারকারী সম্পর্কে প্রায় একই জিনিস শিখে যে তাদের রেকর্ড অন্তর্নিহিত ডেটাসেটে উপস্থিত হয় বা না হয়। এটি ব্যক্তিদের জন্য দৃঢ় সুরক্ষা বোঝায়: একজন ব্যক্তির সম্পর্কে করা যেকোন অনুমান শুধুমাত্র ডেটাসেটের সমষ্টিগত বৈশিষ্ট্যের কারণে হতে পারে যা সেই ব্যক্তির রেকর্ডের সাথে বা ছাড়াই থাকবে।

মেশিন লার্নিংয়ের প্রেক্ষাপটে, অ্যালগরিদমের আউটপুটকে প্রশিক্ষিত মডেলের পরামিতি হিসাবে বিবেচনা করা উচিত। শব্দগুচ্ছ প্রায় একই জিনিস গাণিতিকভাবে দুটি পরামিতি (ε, δ) দ্বারা পরিমাপ করা হয়, যেখানে ε সাধারণত একটি ছোট ধ্রুবক হিসাবে বেছে নেওয়া হয় এবং δ≪1/(ব্যবহারকারীর সংখ্যা)।

গোপনীয়তা শব্দার্থবিদ্যা

ODP ডিজাইন নিশ্চিত করতে চায় যে প্রতিটি প্রশিক্ষণ চালানো হয় (ε,δ)-ব্যবহারকারীর স্তর পৃথকভাবে ব্যক্তিগত। নিম্নলিখিত এই শব্দার্থক পৌঁছানোর আমাদের পদ্ধতির রূপরেখা.

হুমকি মডেল

আমরা বিভিন্ন দলকে সংজ্ঞায়িত করি, এবং প্রতিটি সম্পর্কে রাষ্ট্রীয় অনুমান:

  • ব্যবহারকারী: যে ব্যবহারকারী ডিভাইসটির মালিক এবং ডেভেলপার কর্তৃক প্রদত্ত পণ্য বা পরিষেবার ভোক্তা। তাদের ব্যক্তিগত তথ্য সম্পূর্ণরূপে নিজেদের কাছে উপলব্ধ।
  • ট্রাস্টেড এক্সিকিউশন এনভায়রনমেন্ট (TEE): ডেটা এবং বিশ্বস্ত কম্পিউটেশন যা TEE-এর মধ্যে ঘটে তা বিভিন্ন প্রযুক্তি ব্যবহার করে আক্রমণকারীদের থেকে সুরক্ষিত থাকে। অতএব, গণনা এবং ডেটার জন্য কোনও অতিরিক্ত সুরক্ষার প্রয়োজন নেই। বিদ্যমান TEE এর প্রজেক্ট অ্যাডমিনদের ভিতরের তথ্য অ্যাক্সেস করার অনুমতি দিতে পারে। আমরা অনুমোদন করার জন্য কাস্টম ক্ষমতা প্রস্তাব করি এবং যাচাই করি যে অ্যাক্সেস একজন প্রশাসকের কাছে অনুপলব্ধ।
  • আক্রমণকারী: ব্যবহারকারীর সম্পর্কে পার্শ্ব তথ্য থাকতে পারে এবং TEE (যেমন প্রকাশিত মডেলের পরামিতি) ত্যাগ করা যেকোনো তথ্যে সম্পূর্ণ অ্যাক্সেস থাকতে পারে।
  • বিকাশকারী: যিনি মডেলটিকে সংজ্ঞায়িত করেন এবং প্রশিক্ষণ দেন। অবিশ্বস্ত হিসাবে বিবেচিত হয় (এবং আক্রমণকারীর ক্ষমতার সম্পূর্ণ পরিমাণ রয়েছে)।

আমরা ডিফারেনশিয়াল গোপনীয়তার নিম্নলিখিত শব্দার্থবিদ্যা সহ ODP ডিজাইন করতে চাই:

  • আস্থার সীমানা: একজন ব্যবহারকারীর দৃষ্টিকোণ থেকে, বিশ্বাসের সীমানায় TEE সহ ব্যবহারকারীর নিজস্ব ডিভাইস থাকে। এই বিশ্বাসের সীমানা ছেড়ে যে কোনো তথ্য ডিফারেনশিয়াল গোপনীয়তা দ্বারা সুরক্ষিত করা উচিত।
  • আক্রমণকারী: আক্রমণকারীর ক্ষেত্রে সম্পূর্ণ ডিফারেনশিয়াল গোপনীয়তা সুরক্ষা। বিশ্বাসের সীমানার বাইরের যেকোন সত্তা আক্রমণকারী হতে পারে (এর মধ্যে বিকাশকারী এবং অন্যান্য ব্যবহারকারীরা অন্তর্ভুক্ত রয়েছে, সমস্ত সম্ভাব্য সংঘবদ্ধ)। আক্রমণকারী, বিশ্বাসের সীমানার বাইরে সমস্ত তথ্য (উদাহরণস্বরূপ, প্রকাশিত মডেল), ব্যবহারকারী সম্পর্কে কোনও পার্শ্ব তথ্য এবং অসীম সংস্থান, ব্যবহারকারীর সম্পর্কে অতিরিক্ত ব্যক্তিগত ডেটা অনুমান করতে সক্ষম নয় (যা ইতিমধ্যেই পাশের তথ্যের বাইরে) , গোপনীয়তা বাজেট দ্বারা প্রদত্ত মতভেদ পর্যন্ত। বিশেষ করে, এটি ডেভেলপারের ক্ষেত্রে সম্পূর্ণ ডিফারেনশিয়াল গোপনীয়তা সুরক্ষা বোঝায়। বিকাশকারীকে প্রকাশিত যেকোন তথ্য (যেমন প্রশিক্ষিত মডেল প্যারামিটার বা সমষ্টিগত অনুমান) ডিফারেনশিয়াল গোপনীয়তা-সুরক্ষিত।

স্থানীয় মডেল পরামিতি

পূর্ববর্তী গোপনীয়তা শব্দার্থবিদ্যা এমন ক্ষেত্রে সামঞ্জস্য করে যেখানে কিছু মডেল প্যারামিটার ডিভাইসে স্থানীয় (উদাহরণস্বরূপ একটি মডেল যাতে প্রতিটি ব্যবহারকারীর জন্য নির্দিষ্ট একটি ব্যবহারকারী এমবেডিং থাকে এবং ব্যবহারকারীদের মধ্যে ভাগ করা হয় না)। এই ধরনের মডেলগুলির জন্য, এই স্থানীয় পরামিতিগুলি বিশ্বাসের সীমানার মধ্যে থাকে (এগুলি প্রকাশিত হয় না) এবং কোনও সুরক্ষার প্রয়োজন হয় না, যখন ভাগ করা মডেল প্যারামিটারগুলি প্রকাশিত হয় (এবং ডিফারেনশিয়াল গোপনীয়তা দ্বারা সুরক্ষিত)৷ এটি কখনও কখনও বিলবোর্ড গোপনীয়তা মডেল 4 হিসাবে উল্লেখ করা হয়।

পাবলিক বৈশিষ্ট্য

কিছু নির্দিষ্ট অ্যাপ্লিকেশনে, কিছু বৈশিষ্ট্য সর্বজনীন। উদাহরণস্বরূপ, একটি মুভি সুপারিশ সমস্যায়, একটি চলচ্চিত্রের বৈশিষ্ট্য (পরিচালক, জেনার, বা চলচ্চিত্রের মুক্তির বছর) হল সর্বজনীন তথ্য এবং সুরক্ষার প্রয়োজন হয় না, যখন ব্যবহারকারীর সাথে সম্পর্কিত বৈশিষ্ট্যগুলি (যেমন জনসংখ্যার তথ্য বা কোন চলচ্চিত্রগুলি ব্যবহারকারী দেখেছেন) ব্যক্তিগত ডেটা এবং সুরক্ষা প্রয়োজন৷

পাবলিক তথ্য একটি পাবলিক ফিচার ম্যাট্রিক্স হিসাবে আনুষ্ঠানিক করা হয় (আগের উদাহরণে, এই ম্যাট্রিক্সে প্রতি মুভিতে একটি সারি এবং প্রতি ফিচারের জন্য একটি কলাম থাকবে), যা সব পক্ষের জন্য উপলব্ধ। ডিফারেনশিয়ালি প্রাইভেট ট্রেনিং অ্যালগরিদম এই ম্যাট্রিক্সটিকে সুরক্ষার প্রয়োজন ছাড়াই ব্যবহার করতে পারে, উদাহরণ 5 দেখুন। ODP প্ল্যাটফর্ম এই ধরনের অ্যালগরিদম বাস্তবায়নের পরিকল্পনা করেছে।

ভবিষ্যদ্বাণী বা অনুমানের সময় গোপনীয়তার দিকে একটি দৃষ্টিভঙ্গি

অনুমানগুলি মডেল প্যারামিটার এবং ইনপুট বৈশিষ্ট্যগুলির উপর ভিত্তি করে। মডেল পরামিতি ডিফারেনশিয়াল গোপনীয়তা শব্দার্থবিদ্যা সঙ্গে প্রশিক্ষিত হয়. এখানে ইনপুট বৈশিষ্ট্যের ভূমিকা নিয়ে আলোচনা করা হয়েছে।

কিছু ব্যবহারের ক্ষেত্রে, যখন বিকাশকারীর ইতিমধ্যে অনুমানে ব্যবহৃত বৈশিষ্ট্যগুলিতে সম্পূর্ণ অ্যাক্সেস থাকে, তখন অনুমান থেকে কোনও গোপনীয়তার উদ্বেগ থাকে না এবং অনুমানের ফলাফল বিকাশকারীর কাছে দৃশ্যমান হতে পারে।

অন্যান্য ক্ষেত্রে (যখন অনুমানে ব্যবহৃত বৈশিষ্ট্যগুলি ব্যক্তিগত হয় এবং বিকাশকারীর কাছে অ্যাক্সেসযোগ্য নয়), অনুমান ফলাফলটি বিকাশকারীর কাছ থেকে লুকিয়ে রাখা যেতে পারে, উদাহরণস্বরূপ, অনুমান (এবং অনুমান ফলাফল ব্যবহার করে এমন যে কোনও ডাউনস্ট্রিম প্রক্রিয়া) চালানোর মাধ্যমে- ডিভাইস, একটি OS-মালিকানাধীন প্রক্রিয়া এবং প্রদর্শন এলাকায়, সেই প্রক্রিয়ার বাইরে সীমাবদ্ধ যোগাযোগ সহ।

প্রশিক্ষণ পদ্ধতি

প্রশিক্ষণ ব্যবস্থা উচ্চ-স্তরের স্থাপত্য
চিত্র 1: প্রশিক্ষণ ব্যবস্থা উচ্চ-স্তরের আর্কিটেকচার।

ওভারভিউ

এই বিভাগটি আর্কিটেকচারের একটি ওভারভিউ দেয়, এবং কীভাবে প্রশিক্ষণ এগিয়ে যায়, চিত্র 1 দেখুন। ODP নিম্নলিখিত উপাদানগুলি প্রয়োগ করে:

  • একটি বিশ্বস্ত পরিবেশক, যেমন ফেডারেটেড নির্বাচন, বিশ্বস্ত ডাউনলোড বা ব্যক্তিগত তথ্য পুনরুদ্ধার, যা ব্রডকাস্টিং মডেল প্যারামিটারের ভূমিকা পালন করে। এটা অনুমান করা হয় যে বিশ্বস্ত পরিবেশক প্রতিটি ক্লায়েন্টের কাছে প্যারামিটারের একটি উপসেট পাঠাতে পারে, কোন ক্লায়েন্ট দ্বারা কোন প্যারামিটার ডাউনলোড করা হয়েছে তা প্রকাশ না করে। এই "আংশিক সম্প্রচার" সিস্টেমটিকে শেষ-ব্যবহারকারীর ডিভাইসে পায়ের ছাপ কমানোর অনুমতি দেয়: মডেলের একটি সম্পূর্ণ অনুলিপি পাঠানোর পরিবর্তে, যে কোনো ব্যবহারকারীকে শুধুমাত্র মডেল প্যারামিটারের একটি ভগ্নাংশ পাঠানো হয়।

  • একটি বিশ্বস্ত এগ্রিগেটর, যা একাধিক ক্লায়েন্ট (যেমন গ্রেডিয়েন্ট বা অন্যান্য পরিসংখ্যান) থেকে তথ্য একত্রিত করে, গোলমাল যোগ করে এবং ফলাফল সার্ভারে পাঠায়। অনুমান হল যে ক্লায়েন্ট এবং এগ্রিগেটরের মধ্যে এবং ক্লায়েন্ট এবং ডিস্ট্রিবিউটরের মধ্যে বিশ্বস্ত চ্যানেল রয়েছে।

  • ডিপি প্রশিক্ষণ অ্যালগরিদম যা এই পরিকাঠামোতে চলে। প্রতিটি প্রশিক্ষণ অ্যালগরিদম বিভিন্ন উপাদানে (সার্ভার, ক্লায়েন্ট, সমষ্টিকারী, পরিবেশক) চলমান বিভিন্ন গণনা নিয়ে গঠিত।

প্রশিক্ষণের একটি সাধারণ রাউন্ড নিম্নলিখিত পদক্ষেপগুলি নিয়ে গঠিত:

  1. সার্ভার বিশ্বস্ত পরিবেশকের কাছে মডেল প্যারামিটার সম্প্রচার করে।
  2. ক্লায়েন্ট গণনা
    • প্রতিটি ক্লায়েন্ট ডিভাইস ব্রডকাস্ট মডেল গ্রহণ করে (বা ব্যবহারকারীর সাথে প্রাসঙ্গিক পরামিতিগুলির উপসেট)।
    • প্রতিটি ক্লায়েন্ট কিছু গণনা করে (উদাহরণস্বরূপ কম্পিউটিং গ্রেডিয়েন্ট বা অন্যান্য পর্যাপ্ত পরিসংখ্যান)।
    • প্রতিটি ক্লায়েন্ট গণনার ফলাফল বিশ্বস্ত সমষ্টিকারীর কাছে পাঠায়।
    • বিশ্বস্ত সমষ্টিকারী ক্লায়েন্টদের কাছ থেকে পরিসংখ্যান সঠিক ডিফারেনশিয়াল প্রাইভেসি মেকানিজম ব্যবহার করে সংগ্রহ করে, একত্রিত করে এবং রক্ষা করে, তারপর ফলাফল সার্ভারে পাঠায়।
  3. সার্ভার গণনা
  4. (অবিশ্বস্ত) সার্ভারটি আলাদাভাবে গোপনীয়তা সুরক্ষিত পরিসংখ্যানে গণনা চালায় (উদাহরণস্বরূপ মডেল প্যারামিটার আপডেট করার জন্য আলাদাভাবে ব্যক্তিগত সমষ্টিগত গ্রেডিয়েন্ট ব্যবহার করে)।

ফ্যাক্টরাইজড মডেল এবং ডিফারেনশিয়ালি প্রাইভেট অল্টারনেটিং মিনিমাইজেশন

ODP প্ল্যাটফর্মটি সাধারণ-উদ্দেশ্যমূলকভাবে ব্যক্তিগত প্রশিক্ষণের অ্যালগরিদম সরবরাহ করার পরিকল্পনা করেছে যা যেকোনো মডেল আর্কিটেকচারে প্রয়োগ করা যেতে পারে (যেমন DP-SGD 6 7 8 বা DP-FTRL 9 10 , সেইসাথে ফ্যাক্টরাইজড মডেলের জন্য বিশেষায়িত অ্যালগরিদম।

ফ্যাক্টরাইজড মডেলগুলি এমন মডেল যা সাব-মডেলে (যাকে এনকোডার বা টাওয়ার বলা হয়) মধ্যে পচে যেতে পারে। উদাহরণস্বরূপ, f(u(θu, xu), v(θv, xv)) ফর্মের একটি মডেল বিবেচনা করুন, যেখানে u() ব্যবহারকারীর বৈশিষ্ট্যগুলি xu (এবং প্যারামিটার θu আছে) এনকোড করে এবং v() অ-ব্যবহারকারী বৈশিষ্ট্যগুলিকে এনকোড করে xv (এবং প্যারামিটার আছে θv )। চূড়ান্ত মডেল পূর্বাভাস তৈরি করতে f() ব্যবহার করে দুটি এনকোডিং একত্রিত করা হয়। উদাহরণস্বরূপ, একটি চলচ্চিত্র সুপারিশ মডেলে, xu হল ব্যবহারকারীর বৈশিষ্ট্য এবং xv হল চলচ্চিত্রের বৈশিষ্ট্য।

এই ধরনের মডেলগুলি পূর্বোক্ত ডিস্ট্রিবিউটেড সিস্টেম আর্কিটেকচারের জন্য উপযুক্ত (যেহেতু তারা ব্যবহারকারী এবং অ-ব্যবহারকারী বৈশিষ্ট্যগুলিকে আলাদা করে)।

ফ্যাক্টরাইজড মডেলগুলিকে ডিফারেনশিয়ালি প্রাইভেট অল্টারনেটিং মিনিমাইজেশন (DPAM) ব্যবহার করে প্রশিক্ষণ দেওয়া হবে, যা পরামিতিগুলি θu ( θv স্থির থাকাকালীন) এবং এর বিপরীতে অপ্টিমাইজ করার মধ্যে বিকল্প হয়। ডিপিএএম অ্যালগরিদমগুলিকে বিভিন্ন সেটিংস 4 11 -এ আরও ভাল ইউটিলিটি অর্জন করতে দেখানো হয়েছে, বিশেষ করে সর্বজনীন বৈশিষ্ট্যের উপস্থিতিতে।

তথ্যসূত্র