معنای متفاوت حریم خصوصی برای شخصی سازی در دستگاه

این سند رویکرد حفظ حریم خصوصی برای شخصی سازی روی دستگاه (ODP) را به طور خاص در زمینه حریم خصوصی متفاوت خلاصه می کند. سایر مفاهیم حریم خصوصی و تصمیمات طراحی مانند به حداقل رساندن داده ها عمداً کنار گذاشته شده اند تا این سند متمرکز بماند.

حریم خصوصی متفاوت

حریم خصوصی دیفرانسیل 1 یک استاندارد گسترده پذیرفته شده برای حفاظت از حریم خصوصی در تجزیه و تحلیل داده های آماری و یادگیری ماشینی است 2 3 . به‌طور غیررسمی، می‌گوید که حریف تقریباً همان چیز را در مورد یک کاربر از خروجی یک الگوریتم خصوصی متفاوت یاد می‌گیرد، خواه رکورد آنها در مجموعه داده‌های زیرین ظاهر شود یا نه. این مستلزم محافظت قوی برای افراد است: هر گونه استنباط انجام شده در مورد یک شخص فقط می تواند به دلیل ویژگی های انبوه مجموعه داده باشد که با یا بدون سابقه آن شخص وجود دارد.

در زمینه یادگیری ماشین، خروجی الگوریتم باید به عنوان پارامترهای مدل آموزش دیده در نظر گرفته شود. عبارت تقریباً یکسان از نظر ریاضی با دو پارامتر (ε, δ)، که در آن ε معمولاً یک ثابت کوچک انتخاب می‌شود و δ≪1/(تعداد کاربران) کمیت می‌یابد.

معناشناسی حریم خصوصی

طراحی ODP به دنبال این است که اطمینان حاصل شود که هر دوره آموزشی (ε, δ) - سطح کاربر به طور متفاوت خصوصی است. در زیر رویکرد ما برای رسیدن به این معنایی را تشریح می کند.

مدل تهدید

ما احزاب مختلف را تعریف می کنیم و مفروضاتی را در مورد هر یک بیان می کنیم:

  • کاربر : کاربری که صاحب دستگاه است و مصرف کنندگان محصولات یا خدمات ارائه شده توسط توسعه دهنده هستند. اطلاعات خصوصی آنها کاملاً در دسترس خودشان است.
  • محیط اجرای مورد اعتماد (TEE): داده ها و محاسبات قابل اعتمادی که در TEE ها اتفاق می افتد با استفاده از فناوری های مختلف در برابر مهاجمان محافظت می شوند. بنابراین، محاسبات و داده ها نیازی به حفاظت اضافی ندارند. TEE های موجود ممکن است به مدیران پروژه خود اجازه دهند به اطلاعات داخل دسترسی داشته باشند. ما قابلیت‌های سفارشی را پیشنهاد می‌کنیم تا اجازه داده نشود و تأیید کنیم که دسترسی برای یک سرپرست در دسترس نیست.
  • مهاجم : ممکن است اطلاعات جانبی در مورد کاربر داشته باشد و به هر اطلاعاتی که از TEE خارج می شود (مانند پارامترهای مدل منتشر شده) دسترسی کامل دارد.
  • توسعه دهنده: کسی که مدل را تعریف و آموزش می دهد. غیرقابل اعتماد در نظر گرفته می شود (و دارای حداکثر توانایی یک مهاجم است).

ما به دنبال طراحی ODP با معنایی زیر از حریم خصوصی دیفرانسیل هستیم:

  • مرز اعتماد: از دیدگاه یک کاربر، مرز اعتماد شامل دستگاه خود کاربر به همراه TEE است. هر اطلاعاتی که از این مرز اعتماد خارج شود باید توسط حریم خصوصی متفاوت محافظت شود.
  • مهاجم : محافظت کامل از حریم خصوصی با توجه به مهاجم. هر موجودیت خارج از مرز اعتماد می تواند یک مهاجم باشد (این شامل توسعه دهنده و سایر کاربران می شود که همگی بالقوه تبانی دارند). مهاجم، با توجه به تمام اطلاعات خارج از مرز اعتماد (به عنوان مثال، مدل منتشر شده)، هرگونه اطلاعات جانبی در مورد کاربر، و منابع نامتناهی، قادر به استنباط اطلاعات خصوصی اضافی در مورد کاربر (فراتر از اطلاعات موجود در اطلاعات جانبی) نیست. ، تا شانس داده شده توسط بودجه حفظ حریم خصوصی. به طور خاص، این به معنای محافظت کامل از حریم خصوصی متفاوت با توجه به توسعه دهنده است. هر اطلاعاتی که برای توسعه‌دهنده منتشر می‌شود (مانند پارامترهای مدل آموزش‌دیده یا استنباط‌های کل) با حریم خصوصی متفاوت محافظت می‌شود.

پارامترهای مدل محلی

معنای حریم خصوصی قبلی مواردی را که برخی از پارامترهای مدل برای دستگاه محلی هستند (به عنوان مثال مدلی که شامل یک کاربر تعبیه شده خاص برای هر کاربر است و بین کاربران به اشتراک گذاشته نمی شود) را در بر می گیرد. برای چنین مدل‌هایی، این پارامترهای محلی در محدوده اعتماد باقی می‌مانند (آنها منتشر نمی‌شوند) و نیازی به محافظت ندارند، در حالی که پارامترهای مدل مشترک منتشر می‌شوند (و توسط حریم خصوصی متفاوت محافظت می‌شوند). این گاهی اوقات به عنوان مدل حریم خصوصی بیلبورد 4 نامیده می شود.

ویژگی های عمومی

در برنامه های خاص، برخی از ویژگی ها عمومی هستند. به عنوان مثال، در یک مشکل توصیه فیلم، ویژگی‌های یک فیلم (کارگردان، ژانر یا سال انتشار فیلم) اطلاعات عمومی هستند و نیازی به محافظت ندارند، در حالی که ویژگی‌های مربوط به کاربر (مانند اطلاعات جمعیتی یا کدام فیلم‌ها) کاربر تماشا شده) داده های خصوصی هستند و نیاز به محافظت دارند.

اطلاعات عمومی به عنوان یک ماتریس ویژگی عمومی رسمیت می یابد (در مثال قبلی، این ماتریس شامل یک ردیف برای هر فیلم و یک ستون برای هر ویژگی فیلم است)، که در دسترس همه طرفین است. الگوریتم آموزشی خصوصی متفاوت می تواند از این ماتریس بدون نیاز به محافظت از آن استفاده کند، به مثال 5 مراجعه کنید. پلتفرم ODP قصد دارد چنین الگوریتم هایی را پیاده سازی کند.

رویکردی به حریم خصوصی در حین پیش‌بینی یا استنتاج

استنتاج ها بر اساس پارامترهای مدل و ویژگی های ورودی است. پارامترهای مدل با معناشناسی حریم خصوصی دیفرانسیل آموزش داده می شوند. در اینجا، نقش ویژگی های ورودی مورد بحث قرار می گیرد.

در برخی موارد استفاده، زمانی که توسعه‌دهنده قبلاً به ویژگی‌های استفاده شده در استنتاج دسترسی کامل دارد، هیچ نگرانی در مورد حفظ حریم خصوصی از استنتاج وجود ندارد و نتیجه استنتاج ممکن است برای توسعه‌دهنده قابل مشاهده باشد.

در موارد دیگر (زمانی که ویژگی‌های مورد استفاده در استنتاج خصوصی هستند و توسعه‌دهنده در دسترس نیستند)، نتیجه استنتاج ممکن است از توسعه‌دهنده پنهان شود، برای مثال، با اجرای استنتاج (و هر فرآیند پایین‌دستی که از نتیجه استنتاج استفاده می‌کند) دستگاه، در یک فرآیند و منطقه نمایش متعلق به سیستم عامل، با ارتباطات محدود خارج از آن فرآیند.

رویه آموزشی

سیستم آموزشی معماری سطح بالا
شکل 1: سیستم آموزشی معماری سطح بالا.

بررسی اجمالی

این بخش یک نمای کلی از معماری و نحوه ادامه آموزش ارائه می دهد، به شکل 1 مراجعه کنید. ODP اجزای زیر را پیاده سازی می کند:

  • یک توزیع کننده قابل اعتماد، مانند انتخاب فدرال، دانلود مورد اعتماد یا بازیابی اطلاعات خصوصی، که نقش پارامترهای مدل پخش را ایفا می کند. فرض بر این است که توزیع‌کننده مورد اعتماد می‌تواند زیرمجموعه‌ای از پارامترها را برای هر مشتری ارسال کند، بدون اینکه مشخص کند چه پارامترهایی توسط کدام مشتری دانلود شده است. این "پخش جزئی" به سیستم اجازه می دهد تا ردپای روی دستگاه کاربر نهایی را به حداقل برساند: به جای ارسال یک نسخه کامل از مدل، تنها کسری از پارامترهای مدل برای هر کاربر معین ارسال می شود.

  • یک جمع‌آوری قابل اعتماد، که اطلاعات را از چندین مشتری (مثلاً گرادیان یا آمارهای دیگر) جمع‌آوری می‌کند، نویز اضافه می‌کند و نتیجه را به سرور ارسال می‌کند. فرض بر این است که کانال های قابل اعتمادی بین مشتری و جمع کننده و بین مشتری و توزیع کننده وجود دارد.

  • الگوریتم های آموزشی DP که روی این زیرساخت اجرا می شوند. هر الگوریتم آموزشی شامل محاسبات مختلفی است که روی اجزای مختلف (سرور، مشتری، جمع‌آور، توزیع‌کننده) اجرا می‌شوند.

یک دور معمولی از آموزش شامل مراحل زیر است:

  1. سرور پارامترهای مدل را برای توزیع کننده مورد اعتماد پخش می کند.
  2. محاسبه مشتری
    • هر دستگاه مشتری مدل پخش (یا زیر مجموعه پارامترهای مربوط به کاربر) را دریافت می کند.
    • هر مشتری محاسباتی را انجام می دهد (مثلاً شیب محاسباتی یا سایر آمارهای کافی).
    • هر مشتری نتیجه محاسبات را برای جمع‌آوری مورد اعتماد ارسال می‌کند.
    • جمع‌آوری مورد اعتماد با استفاده از مکانیزم‌های حریم خصوصی متفاوت، آمار مشتریان را جمع‌آوری، جمع‌آوری و محافظت می‌کند، سپس نتیجه را به سرور ارسال می‌کند.
  3. محاسبات سرور
  4. سرور (نامعتبر) محاسباتی را بر روی آمارهای محافظت شده از حریم خصوصی متفاوت اجرا می کند (به عنوان مثال از گرادیان های مجزای خصوصی متفاوت برای به روز رسانی پارامترهای مدل استفاده می کند).

مدل های فاکتوریزه شده و به حداقل رساندن متناوب خصوصی متفاوت

پلتفرم ODP قصد دارد الگوریتم‌های آموزشی خصوصی متفاوتی را برای همه منظور فراهم کند که می‌توانند برای هر معماری مدلی (مانند DP-SGD 6 7 8 یا DP-FTRL 9 10 ) و همچنین الگوریتم‌های تخصصی برای مدل‌های فاکتوریزه اعمال شوند.

مدل های فاکتوریزه شده مدل هایی هستند که می توانند به مدل های فرعی (که رمزگذار یا برج نامیده می شوند) تجزیه شوند. به عنوان مثال، مدلی از فرم f(u(θu, xu), v(θv, xv)) را در نظر بگیرید که در آن u() ویژگی های کاربر xu را رمزگذاری می کند (و دارای پارامترهای θu ) و v() ویژگی های غیر کاربر را رمزگذاری می کند. xv (و دارای پارامترهای θv است). این دو کدگذاری با استفاده از f() برای تولید پیش‌بینی مدل نهایی ترکیب می‌شوند. به عنوان مثال، در یک مدل توصیه فیلم، xu ویژگی های کاربر و xv ویژگی های فیلم هستند.

چنین مدل هایی با معماری سیستم توزیع شده فوق الذکر مناسب هستند (زیرا ویژگی های کاربر و غیر کاربر را از هم جدا می کنند).

مدل‌های فاکتوریزه شده با استفاده از حداقل‌سازی متناوب خصوصی متفاوت (DPAM) آموزش داده می‌شوند که به طور متناوب بین بهینه‌سازی پارامترهای θu (در حالی که θv ثابت است) و بالعکس. نشان داده شده است که الگوریتم‌های DPAM در تنظیمات مختلف ، به ویژه در حضور ویژگی‌های عمومی، به کاربرد بهتری دست می‌یابند.

منابع