デバイス上のパーソナライズのための差分プライバシー セマンティクス

このドキュメントでは、特に差分プライバシーの観点から、On-Device Personalization(ODP)のプライバシー アプローチを要約します。その他のプライバシーへの影響や、データの最小化などの設計上の決定事項は、このドキュメントの中心となるように意図的に省略しています。

差分プライバシー

差分プライバシー1は、統計データ分析や ML において広く採用されているプライバシー保護の標準です2 3。非公式には、攻撃者は、ユーザーのレコードが基になるデータセットに存在するかどうかにかかわらず、差分プライベート アルゴリズムの出力からユーザーについてほぼ同じことを学習する、ということになります。これは個人を強力に保護することを意味します。ある人物に関して行われる推論は、その人物の記録の有無にかかわらずデータセットの集約プロパティによってのみ行われるということです。

ML のコンテキストでは、アルゴリズムの出力はトレーニング済みモデルのパラメータと考えるべきです。「ほぼ同じ」というフレーズは、2 つのパラメータ(ep、d)によって数学的に定量化されます。ここで、e は通常、小さな定数として選択され、つまり、

プライバシー セマンティクス

ODP の設計では、各トレーニングの実行を (ep, ) - ユーザーレベルで差分プライベートにすることを目指しています。以下は、このセマンティックに到達するためのアプローチの概要です。

脅威モデル

Google は、さまざまな関係者を定義し、それぞれについての前提条件を述べています。

  • ユーザー: デバイスを所有し、デベロッパーが提供する製品やサービスを利用するユーザー。ユーザーの個人情報は、完全に自分でアクセスできる。
  • 高信頼実行環境(TEE): TEE 内で行われるデータと高信頼計算は、さまざまなテクノロジーを使用する攻撃者から保護されます。そのため、コンピューティングとデータに追加の保護は必要ありません。既存の TEE でプロジェクト管理者が内部の情報にアクセスできる場合があります。Google では、管理者がアクセスを禁止および検証するカスタム機能を提案しています。
  • 攻撃者: ユーザーに関する副次的な情報を持っている可能性があり、TEE から流出するすべての情報(公開されたモデル パラメータなど)への完全アクセス権を持ちます。
  • 開発者: モデルを定義してトレーニングする人。信頼できない(攻撃者の能力を完全に持つ)。

Google は、差分プライバシーの以下のセマンティクスを使用して ODP を設計しようとしています。

  • 信頼境界: ユーザーの視点から見ると、信頼境界はユーザー自身のデバイスと TEE で構成されます。この信頼境界の外に出る情報はすべて、差分プライバシーで保護する必要があります。
  • 攻撃者: 攻撃者に関する完全な差分プライバシー保護。信頼境界の外側にあるエンティティは攻撃者になる可能性があります(デベロッパーと他のユーザーも含み、共謀の可能性があります)。攻撃者は、信頼境界の外側にあるすべての情報(公開モデルなど)、ユーザーに関する副情報、無限リソースから、プライバシー バジェットで示される確率まで、ユーザーに関する追加の個人データ(すでに副情報に含まれているデータ以外)を推測することはできません。これは特に、デベロッパーに関して完全な差分プライバシーが保護されることを意味します。デベロッパーに提供される情報(トレーニング済みモデルのパラメータや集計推論など)は、差分プライバシーが保護されています。

ローカルモデル パラメータ

以前のプライバシー セマンティクスは、一部のモデル パラメータがデバイスに対してローカルであるケース(ユーザー間で共有されない、各ユーザーに固有のユーザー エンベディングを含むモデルなど)に対応しています。このようなモデルの場合、これらのローカル パラメータは信頼境界内にとどまり(公開されません)、保護は必要ありませんが、共有モデル パラメータは公開されます(差分プライバシーによって保護されます)。これはビルボード プライバシー モデル4と呼ばれることもあります。

一般公開版の機能

一部のアプリでは、一部の機能が公開されています。たとえば、映画のおすすめの問題では、映画の特徴(映画の監督、ジャンル、公開年)は公開情報であり、保護する必要はありません。一方、ユーザーに関連する機能(ユーザー属性情報やユーザーが視聴した映画など)は非公開データであり、保護する必要があります。

公開情報は、すべての関係者が利用できる公開特徴量マトリックス(前の例では、映画ごとに 1 行、映画の特徴量ごとに 1 列)として形式化されています。差分プライベート トレーニングのアルゴリズムは、この行列を保護しなくても利用できます(例: 5)。ODP プラットフォームでは、このようなアルゴリズムの実装が計画されています。

予測または推論時のプライバシーに対するアプローチ

推論は、モデル パラメータと入力特徴に基づいて行われます。モデル パラメータは、差分プライバシー セマンティクスを使用してトレーニングされます。ここでは、入力特徴量の役割について説明します。

一部のユースケースでは、デベロッパーが推論で使用される特徴への完全アクセス権をすでに持っている場合、推論によるプライバシーに関する懸念はなく、推論の結果はデベロッパーに表示されます。

また、推論(および推論結果を使用するダウンストリーム プロセス)をデバイス上で、OS が所有するプロセスおよび表示領域で実行し、プロセス外の通信を制限して、推論の結果がデベロッパーに対して非公開になっている場合があります。

トレーニング手順

トレーニング システムのアーキテクチャの概要
図 1: トレーニング システムのアーキテクチャの概要

概要

このセクションでは、アーキテクチャの概要とトレーニングの進行について説明します(図 1 を参照)。ODP は、次のコンポーネントを実装します。

  • フェデレーション セレクト、信頼できるダウンロード、個人情報の取得など、モデル パラメータをブロードキャストする役割を果たす信頼できるディストリビューター。信頼できるディストリビューターは、どのクライアントによってどのパラメータがダウンロードされたかを明らかにすることなく、各クライアントにパラメータのサブセットを送信できることを前提としています。この「部分的なブロードキャスト」により、システムはエンドユーザー デバイスのフットプリントを最小限に抑えることができます。つまり、モデルの完全なコピーではなく、モデル パラメータの一部のみが特定のユーザーに送信されます。

  • 複数のクライアント(勾配やその他の統計など)からの情報を集約し、ノイズを追加して、結果をサーバーに送信する、信頼できるアグリゲータ。クライアントとアグリゲータ間、およびクライアントとディストリビューターの間に信頼できるチャネルが存在することを前提としています。

  • このインフラストラクチャで実行される DP トレーニング アルゴリズム。各トレーニング アルゴリズムは、さまざまなコンポーネント(サーバー、クライアント、アグリゲータ、ディストリビューター)で実行されるさまざまな計算で構成されています。

一般的なトレーニング ラウンドは、次のステップで構成されます。

  1. サーバーが信頼できるディストリビューターにモデル パラメータをブロードキャストします。
  2. クライアントの計算
    • 各クライアント デバイスは、ブロードキャスト モデル(またはユーザーに関連するパラメータのサブセット)を受け取ります。
    • 各クライアントは、なんらかの計算(勾配やその他の十分な統計の計算など)を実行します。
    • 各クライアントは、信頼できるアグリゲータに計算結果を送信します。
    • 信頼できるアグリゲータは、適切な差分プライバシー メカニズムを使用してクライアントの統計情報を収集、集約、保護し、その結果をサーバーに送信します。
  3. サーバーの計算
  4. (信頼できない)サーバーは、差分プライバシーで保護された統計情報に対して計算を実行します(たとえば、差分プライベートの集計勾配を使用してモデル パラメータを更新します)。

分解モデルと差分プライベート交互最小化

ODP プラットフォームでは、あらゆるモデル アーキテクチャに適用できる汎用的な差分プライベート トレーニング アルゴリズム(DP-SGD 6 7 8 や DP-FTRL 9 10 など)と、分解モデルに特化したアルゴリズムを提供する予定です。

因数分解されたモデルは、サブモデル(エンコーダまたはタワーと呼ばれる)に分解できるモデルです。たとえば、f(u(θu, xu), v(θv, xv)) という形式のモデルについて考えてみましょう。ここで、u() はユーザー特徴 xu をエンコードし(パラメータ θu)、v() は非ユーザー特徴 xv をエンコードします(パラメータ θv があります)。f() を使用して 2 つのエンコードが結合され、最終的なモデル予測が生成されます。たとえば、映画のレコメンデーション モデルでは、xu がユーザー特徴、xv が映画の特徴です。

このようなモデルは、(ユーザーの特徴と非ユーザーの特徴を分離しているため)前述の分散システム アーキテクチャに非常に適しています。

因数分解されたモデルは、差分プライベート交互最小化(DPAM)を使用してトレーニングされます。DPAM では、パラメータ θu の最適化(θv は固定)、またはその逆を交互に行います。DPAM アルゴリズムは、さまざまな設定4 11で、特に一般公開機能がある場合に、その有用性が向上することがわかっています。

リファレンス