Semantik privasi diferensial untuk Personalisasi di Perangkat

Dokumen ini merangkum pendekatan privasi untuk Personalisasi di Perangkat (ODP) khususnya dalam konteks privasi diferensial. Implikasi privasi dan keputusan desain lainnya seperti minimalisasi data sengaja diabaikan agar dokumen ini tetap fokus.

Privasi diferensial

Privasi diferensial 1 adalah standar perlindungan privasi yang diadopsi secara luas dalam analisis data statistik dan machine learning 2 3. Secara informal, dikatakan bahwa musuh mempelajari hal yang hampir sama tentang pengguna dari output algoritma pribadi diferensial, terlepas dari apakah data mereka muncul di set data pokok atau tidak. Ini menyiratkan perlindungan yang kuat untuk individu: setiap inferensi yang dibuat tentang seseorang hanya bisa dilakukan karena properti agregat {i>dataset<i} yang akan disimpan dengan atau tanpa catatan orang itu.

Dalam konteks machine learning, output algoritma harus dianggap sebagai parameter model yang dilatih. Frasa yang hampir sama dikuantifikasi secara matematis menggunakan dua parameter (preview, Ubah), dengan ε biasanya dipilih sebagai konstanta kecil, dan berbayar≪1/(jumlah pengguna).

Semantik privasi

Desain ODP berupaya memastikan setiap pelatihan memiliki privasi diferensial pada tingkat pengguna (Gunakan,tetap). Berikut adalah penjelasan pendekatan kami untuk mencapai semantik ini.

Model ancaman

Kami menentukan pihak yang berbeda, dan menentukan asumsi tentang masing-masing pihak:

  • Pengguna: Pengguna yang memiliki perangkat, dan merupakan konsumen produk atau layanan yang disediakan oleh developer. Informasi pribadi mereka sepenuhnya tersedia untuk mereka sendiri.
  • Trusted execution environment (TEE): Data dan komputasi tepercaya yang terjadi dalam TEE dilindungi dari penyerang menggunakan berbagai teknologi. Oleh karena itu, komputasi dan data tidak memerlukan perlindungan tambahan. TEE yang sudah ada dapat mengizinkan admin projectnya untuk mengakses informasi di dalamnya. Kami mengusulkan kemampuan khusus untuk melarang dan memvalidasi bahwa akses tidak tersedia bagi administrator.
  • Penyerang: Mungkin memiliki informasi tambahan tentang pengguna dan memiliki akses penuh ke informasi apa pun yang keluar dari TEE (seperti parameter model yang dipublikasikan).
  • Developer: Orang yang menetapkan dan melatih model. Dianggap tidak tepercaya (dan memiliki kemampuan penyerang sepenuhnya).

Kami berupaya mendesain ODP dengan semantik privasi diferensial berikut:

  • Batas kepercayaan: Dari perspektif satu pengguna, batas kepercayaan terdiri dari perangkat pengguna itu sendiri beserta TEE. Informasi apa pun yang melewati batas kepercayaan ini harus dilindungi oleh privasi diferensial.
  • Penyerang: Perlindungan privasi diferensial penuh sehubungan dengan penyerang. Setiap entitas di luar batas kepercayaan bisa menjadi penyerang (termasuk developer dan pengguna lain, semuanya berpotensi berkolusi). Penyerang, mengingat semua informasi di luar batas kepercayaan (misalnya, model yang dipublikasikan), informasi sampingan tentang pengguna, dan resource yang tak terbatas, tidak dapat menyimpulkan data pribadi tambahan tentang pengguna (di luar yang sudah ada di informasi tambahan), hingga peluang yang diberikan oleh anggaran privasi. Khususnya, hal ini menyiratkan perlindungan privasi diferensial penuh sehubungan dengan developer. Informasi apa pun yang dirilis ke developer (seperti parameter model terlatih atau inferensi agregat) dilindungi privasi diferensial.

Parameter model lokal

Semantik privasi sebelumnya mengakomodasi kasus saat beberapa parameter model bersifat lokal untuk perangkat (misalnya, model yang berisi penyematan pengguna khusus untuk setiap pengguna, dan tidak dibagikan ke seluruh pengguna). Untuk model tersebut, parameter lokal ini tetap berada dalam batas kepercayaan (tidak dipublikasikan) dan tidak memerlukan perlindungan, sementara parameter model bersama dipublikasikan (dan dilindungi oleh privasi diferensial). Hal ini terkadang disebut sebagai model privasi baliho 4.

Fitur publik

Pada aplikasi tertentu, beberapa fitur bersifat publik. Misalnya, dalam masalah rekomendasi film, fitur film (sutradara, genre, atau tahun rilis film) merupakan informasi publik dan tidak memerlukan perlindungan, sedangkan fitur yang terkait dengan pengguna (seperti informasi demografis atau film yang ditonton pengguna) merupakan data pribadi dan memerlukan perlindungan.

Informasi publik diformalkan sebagai matriks fitur publik (pada contoh sebelumnya, matriks ini berisi satu baris per film dan satu kolom per fitur film), yang tersedia untuk semua pihak. Algoritma pelatihan pribadi diferensial dapat menggunakan matriks ini tanpa perlu melindunginya, lihat misalnya 5. Platform ODP berencana untuk mengimplementasikan algoritma tersebut.

Pendekatan terhadap privasi selama prediksi atau inferensi

Inferensi didasarkan pada parameter model dan fitur input. Parameter model dilatih dengan semantik privasi diferensial. Di sini, peran fitur input akan dibahas.

Dalam beberapa kasus penggunaan, jika developer sudah memiliki akses penuh ke fitur yang digunakan dalam inferensi, tidak ada masalah privasi dari inferensi dan hasil inferensi mungkin dapat dilihat oleh developer.

Dalam kasus lain (jika fitur yang digunakan dalam inferensi bersifat pribadi dan tidak dapat diakses oleh developer), hasil inferensi dapat disembunyikan dari developer, misalnya, dengan membuat inferensi (dan proses downstream apa pun yang menggunakan hasil inferensi) berjalan di perangkat, dalam proses milik OS dan area tampilan, dengan komunikasi terbatas di luar proses tersebut.

Prosedur pelatihan

Arsitektur tingkat tinggi sistem pelatihan
Gambar 1: Arsitektur tingkat tinggi sistem pelatihan.

Ringkasan

Bagian ini memberikan ringkasan arsitektur, dan cara pelatihan dilakukan, lihat Gambar 1. ODP menerapkan komponen berikut:

  • Distributor tepercaya, seperti pilihan gabungan, download tepercaya, atau pengambilan informasi pribadi, yang berperan sebagai parameter model penyiaran. Diasumsikan bahwa distributor tepercaya dapat mengirim subset parameter ke setiap klien, tanpa mengungkapkan parameter yang didownload oleh klien yang mana. "Siaran sebagian" ini memungkinkan sistem meminimalkan jejak pada perangkat pengguna akhir: alih-alih mengirim salinan lengkap model, hanya sebagian kecil parameter model yang dikirim ke pengguna tertentu.

  • Agregator tepercaya, yang mengumpulkan informasi dari beberapa klien (misalnya gradien, atau statistik lainnya), menambahkan derau, dan mengirimkan hasilnya ke server. Asumsinya adalah ada saluran terpercaya antara klien dan agregator, dan antara klien dan distributor.

  • Algoritma pelatihan DP yang berjalan di infrastruktur ini. Setiap algoritma pelatihan terdiri dari komputasi berbeda yang berjalan pada komponen yang berbeda (server, klien, agregator, distributor).

Biasanya, pelatihan terdiri dari langkah-langkah berikut:

  1. Parameter model siaran server ke distributor tepercaya.
  2. Komputasi klien
    • Setiap perangkat klien menerima model siaran (atau subset parameter yang relevan dengan pengguna).
    • Setiap klien melakukan beberapa komputasi (misalnya gradien komputasi atau statistik memadai lainnya).
    • Setiap klien mengirimkan hasil komputasi ke agregator yang tepercaya.
    • Agregator tepercaya mengumpulkan, menggabungkan, dan melindungi statistik dari klien menggunakan mekanisme privasi diferensial yang sesuai, lalu mengirimkan hasilnya ke server.
  3. Komputasi server
  4. Server (tidak tepercaya) menjalankan komputasi pada statistik yang dilindungi privasi diferensial (misalnya menggunakan gradien gabungan pribadi diferensial untuk memperbarui parameter model).

Model Terfaktorkan dan Minimalisasi Alternatif Pribadi Diferensial

Platform ODP berencana menyediakan algoritma pelatihan pribadi diferensial dengan tujuan umum yang dapat diterapkan ke arsitektur model apa pun (seperti DP-SGD 6 7 8 atau DP-FTRL 9 10, serta algoritma yang dikhususkan untuk model terfaktorkan.

Model terfaktorkan adalah model yang dapat diurai menjadi sub-model (disebut encoder, atau menara). Misalnya, pertimbangkan model formulir f(u(θu, xu), v(θv, xv)), dengan u() mengenkode fitur pengguna xu (dan memiliki parameter θu), dan v() mengenkode fitur non-pengguna xv (dan memiliki parameter θv). Kedua encoding tersebut dikombinasikan menggunakan f() untuk menghasilkan prediksi model akhir. Misalnya, dalam model rekomendasi film, xu adalah fitur pengguna dan xv adalah fitur film.

Model tersebut sangat cocok dengan arsitektur sistem terdistribusi yang disebutkan di atas (karena memisahkan fitur pengguna dan non-pengguna).

Model faktor akan dilatih menggunakan Differentially Private Alternating Minimization (DPAM), yang berganti-ganti antara mengoptimalkan parameter θu (sementara θv tetap) dan sebaliknya. Algoritma DPAM telah terbukti mencapai utilitas yang lebih baik dalam berbagai setelan 4 11, khususnya dengan adanya fitur publik.

Referensi