המסמך הזה מסכם את גישת הפרטיות לגבי התאמה אישית במכשיר (ODP) באופן ספציפי בהקשר של פרטיות דיפרנציאלית. השלכות אחרות על הפרטיות והחלטות עיצוב אחרות, כמו צמצום נתונים, לא נכללות במכוון כדי להתמקד במסמך.
פרטיות דיפרנציאלית
פרטיות דיפרנציאלית 1 היא תקן מקובל בתחום ההגנה על פרטיות בניתוח נתונים סטטיסטיים ובלמידת מכונה 2 3. באופן לא רשמי, נאמר שיריב לומד כמעט אותו דבר על משתמש מהפלט של אלגוריתם פרטי דיפרנציאלי, גם אם הרשומה שלו מופיעה במערך הנתונים הבסיסי וגם אם לא. אלה אמצעי הגנה חזקים שמופעלים על אנשים פרטיים: כל מסקנות לגבי אדם מסוים יכולות לנבוע ממאפיינים נצברים של מערך הנתונים, שנשמרים עם התיעוד של אותו אדם או בלעדיו.
בהקשר של למידת מכונה, יש להתייחס לפלט של האלגוריתם כאל פרמטרים מאומנים של המודל. הביטוי כמעט אותו הדבר ניתן לכמת מתמטית באמצעות שני פרמטרים (compare, ####), כאשר ≤ נבחר בדרך כלל כקבוע קטן, והחלק ≤≪1/(מספר המשתמשים).
סמנטיקה של פרטיות
המטרה של תכנון ה-ODP היא להבטיח שכל הפעלת אימון תהיה ברמת המשתמש פרטי באופן דיפרנציאלי (שקשורה) לכל פעילות ב- לילדים. בהמשך מתארה הגישה שלנו להשגת גישה סמנטית זו.
מודל של איום
אנחנו מגדירים את הצדדים השונים, וקובעים את ההנחות של כל אחד מהם:
- משתמש: המשתמש שהמכשיר הוא הבעלים של המכשיר והם צרכנים של מוצרים או שירותים שהמפתח מספק. המידע הפרטי שלהם זמין להם באופן מלא.
- סביבת הפעלה מהימנה (TEE): נתונים וחישובים מהימנות שמתרחשים ב-TEE מוגנים מפני תוקפים שמשתמשים במגוון טכנולוגיות. לכן החישוב והנתונים לא מצריכים הגנה נוספת. צוותי TEE הקיימים עשויים לאפשר למנהלי הפרויקט שלה לגשת למידע שבתוכו. אנחנו מציעים יכולות מותאמות אישית כדי למנוע מאדמין לאמת את הגישה אליו, ולוודא שהגישה לא זמינה לו.
- התוקפים: עשויים להיות פרטים צדדיים על המשתמש וגם גישה מלאה לכל המידע שיוצא מרשת ה-TEE (למשל הפרמטרים של המודל שפורסמו).
- מפתח: מי שמגדיר ומאמן את המודל. נחשב כלא מהימן (ויש לו יכולת מלאה של התוקפים).
אנחנו שואפים לתכנן ODP לפי הסמנטיקה הבאה של פרטיות דיפרנציאלית:
- גבול אמון: מבחינת משתמש אחד, תחום האמון מורכב מהמכשיר של המשתמש עצמו וגם ממכשיר TEE. כל מידע שיוצא מגבולות האמון האלה צריך להיות מוגן באמצעות פרטיות דיפרנציאלית.
- תוקפים: הגנה מלאה על פרטיות דיפרנציאלית ביחס לתוקף. כל ישות שנמצאת מחוץ לגבולות האמון עלולה להיות תוקפת (כולל המפתח ומשתמשים אחרים, שעשויים להיות מתנגשים). התוקף, בהינתן כל המידע שמחוץ לגבולות האמון (לדוגמה, המודל שפורסם), כל מידע צדדי על המשתמש ומשאבים אינסופיים, לא יכול להסיק נתונים פרטיים נוספים על המשתמש (מעבר לנתונים שכבר מופיעים במידע בצד), בכפוף לסיכויים שמתקבלים מתקציב הפרטיות. בפרט, ההגדרה הזו מחייבת הגנה דיפרנציאלית מלאה על הפרטיות ביחס למפתח. כל מידע שנמסר למפתח (למשל פרמטרים מאומנים של מודל או מסקנות מצטברות) מוגן בפרטיות דיפרנציאלית.
פרמטרים של מודל מקומי
הסמנטיקה הקודמת בנושא פרטיות מתאימה למקרים שבהם חלק מהפרמטרים של המודל הם מקומיים במכשיר (לדוגמה, מודל שמכיל הטמעה של משתמש ספציפית לכל משתמש, ולא משותף עם משתמשים אחרים). במודלים כאלה, הפרמטרים המקומיים האלה נשארים במסגרת גבולות האמון (הם לא פורסמו) ולא דורשים הגנה, אבל הפרמטרים המשותפים של המודל מתפרסמים (ומוגנים על ידי פרטיות דיפרנציאלית). הוא נקרא לפעמים מודל הפרטיות של לוחות המודעות 4.
תכונות ציבוריות
באפליקציות מסוימות, חלק מהתכונות הן ציבוריות. לדוגמה, במקרה של בעיה שקשורה להמלצה על סרט, התכונות של הסרט (הבמאי, הז'אנר או שנת ההפצה של הסרט) הן מידע ציבורי ולא מחייבות הגנה. לעומת זאת, תכונות שקשורות למשתמש (כמו מידע דמוגרפי או הסרטים שבהם המשתמש צפה) הן מידע פרטי ומחייבות הגנה.
המידע הציבורי מסודר כמטריצה של פריטים ציבוריים (בדוגמה הקודמת, המטריצה הזו תכלול שורה אחת לכל סרט ועמודה אחת לכל תכונה של סרט), והיא זמינה לכל הצדדים. אלגוריתם האימון הפרטי דיפרנציאלי יכול להשתמש במטריצה הזו ללא צורך להגן עליה, לדוגמה 5. פלטפורמת ODP מתכננת להטמיע אלגוריתמים כאלה.
גישה לשמירה על פרטיות במהלך החיזוי או ההסקה
ההסקה מבוססת על הפרמטרים של המודל ועל תכונות הקלט. הפרמטרים של המודל מאומנים לפי סמנטיקה של פרטיות דיפרנציאלית. כאן נדון בתפקיד של תכונות הקלט.
במקרי שימוש מסוימים, כשלמפתח כבר יש גישה מלאה לתכונות שבהן נעשה שימוש בהסקה, אין חשש לפרטיות מההסקה והתוצאה עשויה להיות גלויה למפתח.
במקרים אחרים (כשהתכונות שמשמשות להסקת ההסקה הן פרטיות והמפתח לא יכול לגשת אליהן), יכול להיות שתוצאת ההסקה תוסתר מהמפתח. לדוגמה, על ידי הפעלת ההסקה (וכל תהליך downstream שמשתמש בתוצאת ההסקה) מופעלת במכשיר, בתהליך בבעלות מערכת ההפעלה ובאזור תצוגה, עם תקשורת מוגבלת מחוץ לתהליך הזה.
הליך האימון
סקירה
בקטע הזה יש סקירה כללית של הארכיטקטורה ואיך מתבצע הליך האימון, באיור 1. ODP מיישם את הרכיבים הבאים:
מפיץ מהימן, כמו בחירה מאוחדת, הורדה מהימנה או אחזור מידע פרטי, שממלא את תפקיד הפרמטרים של מודל השידור. ההנחה היא שהמפיץ המהימן יכול לשלוח קבוצת משנה של פרמטרים לכל לקוח, בלי לחשוף אילו פרמטרים הורידו על ידי הלקוח. 'שידור חלקי' זה מאפשר למערכת לצמצם את טביעת הרגל במכשיר של משתמש הקצה: במקום לשלוח עותק מלא של המודל, רק חלק מהפרמטרים של המודל נשלח לכל משתמש נתון.
אתר אגרגטור מהימן, שצובר מידע ממספר לקוחות (למשל, הדרגה או נתונים סטטיסטיים אחרים), מוסיף רעש ושולח את התוצאה לשרת. ההנחה היא שיש ערוצים מהימנים בין הלקוח לאתר האגרגטור, ובין הלקוח למפיץ.
אלגוריתמים לאימון של DPF שפועלים בתשתית הזו. כל אלגוריתם אימון מורכב מחישובים שונים שרצים על הרכיבים השונים (שרת, לקוח, אתר אגרגטור, מפיץ).
סבב הדרכה אופייני כולל את השלבים הבאים:
- השרת משדר את הפרמטרים של המודל למפיץ המהימן.
- חישוב לקוח
- כל מכשיר לקוח מקבל את מודל השידור (או קבוצת המשנה של הפרמטרים שרלוונטיים למשתמש).
- כל לקוח מבצע חישוב מסוים (לדוגמה, מחשוב הדרגתי או נתונים סטטיסטיים מספיקים אחרים).
- כל לקוח שולח את תוצאת החישוב לאתר האגרגטור המהימן.
- אתר האגרגטור המהימן אוסף את הנתונים הסטטיסטיים מלקוחות, צובר אותם ומגן עליהם באמצעות מנגנוני פרטיות דיפרנציאליים מתאימים, ולאחר מכן שולח את התוצאה לשרת.
- חישוב שרת
- השרת (מהימן) מריץ חישובים על הנתונים הסטטיסטיים המוגנים בפרטיות דיפרנציאלית (לדוגמה, משתמש בהדרגתיות מצטברים פרטיים באופן דיפרנציאלי כדי לעדכן את הפרמטרים של המודל).
מודלים מחולקים לגורמים ומזעור דיפרנציאלי וחלופי פרטי
פלטפורמת ODP מתכננת לספק אלגוריתמים לאימון דיפרנציאלי כללי לשימוש כללי, שאפשר להחיל על כל ארכיטקטורת מודלים (כמו DP-SGD 6 7 8 או DP-FTRL 9 10, וכן אלגוריתמים ספציפיים למודלים מפוקחים.
מודלים מחולקים לגורמים הם מודלים שאפשר לפרק למודלים משנה (שנקראים 'מקודדים' או 'מגדלים'). לדוגמה, נבחן מודל מהצורה f(u(θu, xu), v(θv, xv))
, שבו u()
מקודד תכונות משתמש xu
(וכולל פרמטרים θu
), ו-v()
מקודד תכונות שאינן של משתמשים xv
(וכולל את הפרמטרים θv
). שני הקידודים משולבים באמצעות f()
כדי ליצור את החיזוי הסופי של המודל. לדוגמה, במודל של המלצות לסרטים, xu
הן תכונות המשתמש ו-xv
הן התכונות לסרטים.
מודלים כאלה מתאימים במיוחד לארכיטקטורת המערכת המבוזרת שהוזכרה למעלה (מכיוון שהם מפרידים בין התכונות של המשתמש לתכונות של משתמשים אחרים).
מודלים מחולקים לגורמים ייאמנו באמצעות מינימום דיפרנציאלי משני פרטי (DPAM), שמחליף בין אופטימיזציה של הפרמטרים θu
(בעוד שהפרמטר θv
קבוע) ולהיפך. הוכח כי אלגוריתמים של DPAM משפרים את היעילות במגוון הגדרות 4 11, במיוחד בנוכחות של תכונות ציבוריות.
קובצי עזר
- 1: Dwork et al. כיול רעשים לרגישות בניתוח נתונים פרטיים, TCC'06
- 2: משרד מפקד האוכלוסין של ארה"ב. הסבר על פרטיות דיפרנציאלית, 2020
- 3: Federated Learning with Formal Discial Privacy commitments, פוסט בבלוג של AI מבית Google, 2020
- 4: Jain et al. Discially Private Model Custom, NeurIPS'21
- 5: Krichene et al. למידה פרטית עם תכונות ציבוריות, 2023
- 6: שיר ואחרים
- 7: צמצום סיכונים אמפיריים פרטיים דיפרנציאליים: אלגוריתמים יעילים וגבולות שגיאה מחמירים, FOCS'14
- 8: Abadi et al. Deep Learning with Discial Privacy, CCS '16
- 9: Smith et al. (Nearly) אופטימיזציית אלגוריתמים ללמידה פרטית אונליין במסגרת מידע מלא והגדרות Bandit, NeurIPS'13
- 10: Kairouz et al., למידה מעשית ופרטית (עמוקה) ללא דגימה או ערבוב, ICML'21
- 11: Chien et al. Private Alternating Multi Squares, ICML'21