Cihaz Üzerinde Kişiselleştirme için diferansiyel gizlilik anlamları

Bu belgede, cihaz üzerinde kişiselleştirme (ODP) ile ilgili gizlilik yaklaşımı, özellikle diferansiyel gizlilik bağlamında özetlenmektedir. Bu belgenin odak noktasını korumak için, gizlilikle ilgili diğer etkileri ve minimum veri toplama gibi tasarım kararları kasıtlı olarak dışarıda tutulmuştur.

Diferansiyel gizlilik

Diferansiyel gizlilik 1, istatistiksel veri analizi ve makine öğreniminde yaygın olarak kullanılan bir gizlilik koruması standardıdır 2 3. Gayriresmi bir şekilde, kaydın temel veri kümesinde görünse de görünmese de düşmanın bir kullanıcı hakkında diferansiyel gizli bir algoritmanın sonucundan neredeyse aynı şeyi öğrendiğini söyler. Bu durum, bireyler için güçlü korumaların sağlandığı anlamına gelir: Bir kişi hakkında yapılan çıkarımlar, yalnızca söz konusu kişinin kaydı olsa da olmasa da saklanacak veri kümesinin toplu özelliklerinden kaynaklanabilir.

Makine öğrenimi bağlamında algoritmanın çıkışı, eğitilen model parametreleri olarak düşünülmelidir. Neredeyse aynı şey ifadesi, matematiksel olarak iki parametreyle (£, 5) ölçülür. Burada dönüşümler, küçük bir sabit değer ve Δ≪1/(kullanıcı sayısı) olarak seçilir.

Gizlilik anlamı

ODP tasarımı, her eğitim çalıştırmasının (£,Δ) kullanıcı düzeyinin diferansiyel bir şekilde özel olmasını sağlamayı amaçlar. Aşağıda, bu anlamlara ulaşma konusundaki yaklaşımımız özetlenmiştir.

Tehdit modeli

Farklı tarafları tanımlıyor ve her biriyle ilgili varsayımları açıklıyoruz:

  • Kullanıcı: Cihazın sahibi olan ve geliştirici tarafından sağlanan ürün veya hizmetlerin tüketicileridir. Özel bilgileri herkes tarafından kullanılabilir.
  • Güvenilir yürütme ortamı (TEE): TEE'lerde gerçekleşen veriler ve güvenilir hesaplamalar, çeşitli teknolojiler kullanılarak saldırganlara karşı korunur. Bu nedenle, hesaplama ve veriler için ek koruma gerekmez. Mevcut TEE'ler, proje yöneticilerinin içerideki bilgilere erişmesine izin verebilir. Bir yöneticiye erişimi engelleyip doğrulamak için özel özellikler sunarız.
  • Saldıran: Kullanıcı hakkında yan bilgilere sahip olabilir ve TEE'den çıkan tüm bilgilere (yayınlanmış model parametreleri gibi) tam erişim sahibi olabilir.
  • Geliştirici: Modeli tanımlayan ve eğiten kişi. Güvenilir olarak kabul edilmeyen (ve saldırganın yeteneklerinin tamamından faydalanan)

ODP'yi, aşağıdaki diferansiyel gizlilik anlamlarını kullanarak tasarlamaya çalışırız:

  • Güven sınırı: Kullanıcı açısından güven sınırı, TEE ile birlikte kullanıcının kendi cihazından oluşur. Bu güven sınırından çıkan tüm bilgiler diferansiyel gizlilikle korunmalıdır.
  • Saldırıcı: Saldırgan ile ilgili tam diferansiyel gizlilik koruması. Güven sınırının dışındaki tüm varlıklar saldırgan olabilir (Buna geliştirici ve diğer kullanıcılar da dahildir, bunların tümü gizliliğe engel olabilir). Güven sınırının dışındaki tüm bilgiler (örneğin, yayınlanan model), kullanıcı hakkındaki herhangi bir yan bilgi ve sınırsız kaynak göz önüne alındığında saldırgan, gizlilik bütçesinin öngördüğü oranda, kullanıcı hakkında (zaten yan yana bulunan bilgilerin ötesinde) ek gizli veriler çıkaramaz. Bu özellikle, geliştirici açısından tam bir diferansiyel gizlilik koruması anlamına gelir. Geliştiriciye sunulan tüm bilgiler (eğitilen model parametreleri veya toplu çıkarımlar gibi) diferansiyel gizlilik korumasına sahiptir.

Yerel model parametreleri

Önceki gizlilik anlamları, model parametrelerinin bazı cihaza özgü olduğu durumlara uyum sağlıyor (örneğin, her kullanıcıya özel bir kullanıcı yerleştirmesini içeren ve kullanıcılar arasında paylaşılmayan bir model). Bu tür modellerde, bu yerel parametreler güven sınırı içinde kalır (yayınlanmazlar) ve koruma gerektirmezken, paylaşılan model parametreleri yayınlanır (ve diferansiyel gizlilikle korunur). Bu bazen ilan tahtası gizlilik modeli 4 olarak da adlandırılır.

Herkese açık özellikler

Belirli uygulamalarda bazı özellikler herkese açıktır. Örneğin, film önerisiyle ilgili bir sorunda filmin özellikleri (filmin yönetmeni, türü veya yayın yılı) herkese açık bilgilerdir ve koruma gerektirmezken, kullanıcıyla ilgili özellikler (demografik bilgiler veya kullanıcının izlediği filmler gibi) gizli veridir ve korunması gerekir.

Herkese açık bilgiler, tüm tarafların erişebildiği herkese açık özellikler matrisi olarak düzenlenir (önceki örnekte, bu matris film başına bir satır ve film özelliği başına bir sütun içerir). Diferansiyel gizli eğitim algoritması, koruma zorunluluğu olmadan bu matrisi kullanabilir (ör. 5). ODP platformu bu tür algoritmaları uygulamayı planlamaktadır.

Tahmin veya çıkarım sırasında gizliliğe yönelik bir yaklaşım

Çıkarımlar, model parametreleri ve giriş özelliklerine dayalıdır. Model parametreleri diferansiyel gizlilik anlamlarıyla eğitilir. Bu aşamada, giriş özelliklerinin rolü ele alınmaktadır.

Geliştiricinin çıkarımda kullanılan özelliklere tam erişimi olduğu bazı kullanım durumlarında, çıkarım yapmanın gizlilikle ilgili bir endişesi olmaz ve çıkarım sonucu geliştirici tarafından görülebilir.

Çıkarımdaki özellikler özel olduğunda ve geliştirici tarafından erişilebilir olmadığında, çıkarım sonucu geliştiriciden gizlenebilir. Örneğin, çıkarım sonucunun (ve çıkarım sonucunu kullanan herhangi bir aşağı akış işleminin) cihazda, işletim sistemine ait bir işlem ve görüntüleme alanında çalıştırılması ve süreç dışında iletişimin kısıtlanması gibi.

Eğitim prosedürü

Eğitim sistemi üst düzey mimarisi
Şekil 1: Eğitim sistemi üst düzey mimarisi.

Genel bakış

Bu bölümde, mimariye ve eğitimin nasıl ilerlediğine dair bir genel bakış sunulmaktadır (Şekil 1'e bakın). ODP aşağıdaki bileşenleri uygular:

  • Yayınlama modeli parametrelerinin rolünü üstlenen birleşik seçim, güvenilir indirme veya özel bilgi alma gibi güvenilir bir dağıtımcı. Güvenilir dağıtımcının hangi istemci tarafından indirildiğini göstermeden her istemciye parametrelerin bir alt kümesini gönderebileceği varsayılır. Bu "kısmi yayın", sistemin son kullanıcı cihazındaki ayak izini en aza indirmesine olanak tanır: Modelin tam bir kopyasını göndermek yerine, herhangi bir kullanıcıya model parametrelerinin yalnızca bir kısmı gönderilir.

  • Birden çok istemciden (ör. gradyanlar veya diğer istatistikler) bilgi toplayan, gürültü ekleyen ve sonucu sunucuya gönderen güvenilir bir toplayıcı. Müşteri ile toplayıcı arasında ve müşteri ile distribütör arasında güvenilir kanallar olduğu varsayılır.

  • Bu altyapı üzerinde çalışan DP eğitim algoritmaları. Her eğitim algoritması, farklı bileşenlerde (sunucu, istemci, toplayıcı, distribütör) çalışan farklı hesaplamalardan oluşur.

Tipik bir eğitim turu aşağıdaki adımlardan oluşur:

  1. Sunucu, model parametrelerini güvenilir dağıtımcıya yayınlar.
  2. İstemci hesaplama
    • Her istemci cihaz, yayın modelini (veya kullanıcıyla alakalı parametre alt kümesini) alır.
    • Her istemci bazı hesaplamalar yapar (örneğin, hesaplama gradyanları veya diğer yeterli istatistikler).
    • Her müşteri, hesaplamanın sonucunu güvenilir toplayıcıya gönderir.
    • Güvenilir toplayıcı, müşterilerden gelen istatistikleri uygun diferansiyel gizlilik mekanizmaları kullanarak toplar, toplar ve korur, ardından sonucu sunucuya gönderir.
  3. Sunucu hesaplama
  4. (Güvenilmeyen) sunucu, diferansiyel gizlilik korumalı istatistikler üzerinde hesaplamalar çalıştırır (örneğin, model parametrelerini güncellemek için diferansiyel gizli toplu gradyanlar kullanır).

Çarpanlara ayrılmış modeller ve farklı şekilde özel alternatif sadeleştirme

ODP platformu, herhangi bir model mimarisine (DP-SGD 6 7 8 veya DP-FTRL 9 10 gibi) uygulanabilecek genel amaçlı diferansiyel gizli eğitim algoritmalarının yanı sıra faktörlere ayrılmış modellere özel algoritmalar sunmayı planlamaktadır.

Çarpanlara ayrılmış modeller, alt modellere (kodlayıcı veya kule adı verilir) ayrıştırılabilir. Örneğin, u() ürününün xu kullanıcı özelliklerini kodladığı (ve θu parametrelerine sahip) f(u(θu, xu), v(θv, xv)) biçimindeki bir modeli ele alalım. v() adresinin, kullanıcı dışı özellikleri xv kodladığı (ve θv parametrelerine sahip). İki kodlama, nihai model tahminini oluşturmak için f() kullanılarak birleştirilir. Örneğin, film öneri modelinde xu kullanıcı özellikleri, xv ise film özellikleridir.

Bu tür modeller, daha önce bahsedilen dağıtılmış sistem mimarisine uygundur (çünkü kullanıcı özelliklerini ve kullanıcı olmayan özelliklerini ayırır).

Çarpanlara ayrılmış modeller, diferansiyel gizli alternatif sadeleştirme (DPAM) kullanılarak eğitilir. Bu yöntem, θu parametrelerini optimize etme (θv sabittir) ve tam tersi arasında geçiş yapar. DPAM algoritmalarının, özellikle herkese açık özelliklerde, çeşitli ayarlarda 4 11 daha iyi fayda sağladığı görülmüştür.

Referanslar