このページは Cloud Translation API によって翻訳されました。

デバイス上のパーソナライズのための差分プライバシーセマンティクス

このドキュメントでは、特に差分プライバシーの観点から、On-Device Personalization（ODP）のプライバシーアプローチを要約します。その他のプライバシーへの影響や、データの最小化などの設計上の決定事項は、このドキュメントの中心となるように意図的に省略しています。

差分プライバシー

差分プライバシー¹は、統計データ分析や ML において広く採用されているプライバシー保護の標準です² ³。非公式には、攻撃者は、ユーザーのレコードが基になるデータセットに存在するかどうかにかかわらず、差分プライベートアルゴリズムの出力からユーザーについてほぼ同じことを学習する、ということになります。これは個人を強力に保護することを意味します。ある人物に関して行われる推論は、その人物の記録の有無にかかわらずデータセットの集約プロパティによってのみ行われるということです。

ML のコンテキストでは、アルゴリズムの出力はトレーニング済みモデルのパラメータと考えるべきです。「ほぼ同じ」というフレーズは、2 つのパラメータ（ep、d）によって数学的に定量化されます。ここで、e は通常、小さな定数として選択され、つまり、

プライバシーセマンティクス

ODP の設計では、各トレーニングの実行を (ep, ) - ユーザーレベルで差分プライベートにすることを目指しています。以下は、このセマンティックに到達するためのアプローチの概要です。

脅威モデル

Google は、さまざまな関係者を定義し、それぞれについての前提条件を述べています。

ユーザー: デバイスを所有し、デベロッパーが提供する製品やサービスを利用するユーザー。ユーザーの個人情報は、完全に自分でアクセスできる。
高信頼実行環境（TEE）: TEE 内で行われるデータと高信頼計算は、さまざまなテクノロジーを使用する攻撃者から保護されます。そのため、コンピューティングとデータに追加の保護は必要ありません。既存の TEE でプロジェクト管理者が内部の情報にアクセスできる場合があります。Google では、管理者がアクセスを禁止および検証するカスタム機能を提案しています。
攻撃者: ユーザーに関する副次的な情報を持っている可能性があり、TEE から流出するすべての情報（公開されたモデルパラメータなど）への完全アクセス権を持ちます。
開発者: モデルを定義してトレーニングする人。信頼できない（攻撃者の能力を完全に持つ）。

Google は、差分プライバシーの以下のセマンティクスを使用して ODP を設計しようとしています。

信頼境界: ユーザーの視点から見ると、信頼境界はユーザー自身のデバイスと TEE で構成されます。この信頼境界の外に出る情報はすべて、差分プライバシーで保護する必要があります。
攻撃者: 攻撃者に関する完全な差分プライバシー保護。信頼境界の外側にあるエンティティは攻撃者になる可能性があります（デベロッパーと他のユーザーも含み、共謀の可能性があります）。攻撃者は、信頼境界の外側にあるすべての情報（公開モデルなど）、ユーザーに関する副情報、無限リソースから、プライバシーバジェットで示される確率まで、ユーザーに関する追加の個人データ（すでに副情報に含まれているデータ以外）を推測することはできません。これは特に、デベロッパーに関して完全な差分プライバシーが保護されることを意味します。デベロッパーに提供される情報（トレーニング済みモデルのパラメータや集計推論など）は、差分プライバシーが保護されています。

ローカルモデルパラメータ

以前のプライバシーセマンティクスは、一部のモデルパラメータがデバイスに対してローカルであるケース（ユーザー間で共有されない、各ユーザーに固有のユーザーエンベディングを含むモデルなど）に対応しています。このようなモデルの場合、これらのローカルパラメータは信頼境界内にとどまり（公開されません）、保護は必要ありませんが、共有モデルパラメータは公開されます（差分プライバシーによって保護されます）。これはビルボードプライバシーモデル⁴と呼ばれることもあります。

一般公開版の機能

一部のアプリでは、一部の機能が公開されています。たとえば、映画のおすすめの問題では、映画の特徴（映画の監督、ジャンル、公開年）は公開情報であり、保護する必要はありません。一方、ユーザーに関連する機能（ユーザー属性情報やユーザーが視聴した映画など）は非公開データであり、保護する必要があります。

公開情報は、すべての関係者が利用できる公開特徴量マトリックス（前の例では、映画ごとに 1 行、映画の特徴量ごとに 1 列）として形式化されています。差分プライベートトレーニングのアルゴリズムは、この行列を保護しなくても利用できます（例: ⁵）。ODP プラットフォームでは、このようなアルゴリズムの実装が計画されています。

予測または推論時のプライバシーに対するアプローチ

推論は、モデルパラメータと入力特徴に基づいて行われます。モデルパラメータは、差分プライバシーセマンティクスを使用してトレーニングされます。ここでは、入力特徴量の役割について説明します。

一部のユースケースでは、デベロッパーが推論で使用される特徴への完全アクセス権をすでに持っている場合、推論によるプライバシーに関する懸念はなく、推論の結果はデベロッパーに表示されます。

また、推論（および推論結果を使用するダウンストリームプロセス）をデバイス上で、OS が所有するプロセスおよび表示領域で実行し、プロセス外の通信を制限して、推論の結果がデベロッパーに対して非公開になっている場合があります。

トレーニング手順

概要

このセクションでは、アーキテクチャの概要とトレーニングの進行について説明します（図 1 を参照）。ODP は、次のコンポーネントを実装します。

フェデレーションセレクト、信頼できるダウンロード、個人情報の取得など、モデルパラメータをブロードキャストする役割を果たす信頼できるディストリビューター。信頼できるディストリビューターは、どのクライアントによってどのパラメータがダウンロードされたかを明らかにすることなく、各クライアントにパラメータのサブセットを送信できることを前提としています。この「部分的なブロードキャスト」により、システムはエンドユーザーデバイスのフットプリントを最小限に抑えることができます。つまり、モデルの完全なコピーではなく、モデルパラメータの一部のみが特定のユーザーに送信されます。
複数のクライアント（勾配やその他の統計など）からの情報を集約し、ノイズを追加して、結果をサーバーに送信する、信頼できるアグリゲータ。クライアントとアグリゲータ間、およびクライアントとディストリビューターの間に信頼できるチャネルが存在することを前提としています。
このインフラストラクチャで実行される DP トレーニングアルゴリズム。各トレーニングアルゴリズムは、さまざまなコンポーネント（サーバー、クライアント、アグリゲータ、ディストリビューター）で実行されるさまざまな計算で構成されています。

一般的なトレーニングラウンドは、次のステップで構成されます。

サーバーが信頼できるディストリビューターにモデルパラメータをブロードキャストします。
クライアントの計算
- 各クライアントデバイスは、ブロードキャストモデル（またはユーザーに関連するパラメータのサブセット）を受け取ります。
- 各クライアントは、なんらかの計算（勾配やその他の十分な統計の計算など）を実行します。
- 各クライアントは、信頼できるアグリゲータに計算結果を送信します。
- 信頼できるアグリゲータは、適切な差分プライバシーメカニズムを使用してクライアントの統計情報を収集、集約、保護し、その結果をサーバーに送信します。
サーバーの計算
（信頼できない）サーバーは、差分プライバシーで保護された統計情報に対して計算を実行します（たとえば、差分プライベートの集計勾配を使用してモデルパラメータを更新します）。

分解モデルと差分プライベート交互最小化

ODP プラットフォームでは、あらゆるモデルアーキテクチャに適用できる汎用的な差分プライベートトレーニングアルゴリズム（DP-SGD ⁶ ⁷ ⁸ や DP-FTRL ⁹ ¹⁰ など）と、分解モデルに特化したアルゴリズムを提供する予定です。

因数分解されたモデルは、サブモデル（エンコーダまたはタワーと呼ばれる）に分解できるモデルです。たとえば、f(u(θu, xu), v(θv, xv)) という形式のモデルについて考えてみましょう。ここで、u() はユーザー特徴 xu をエンコードし（パラメータ θu）、v() は非ユーザー特徴 xv をエンコードします（パラメータ θv があります）。f() を使用して 2 つのエンコードが結合され、最終的なモデル予測が生成されます。たとえば、映画のレコメンデーションモデルでは、xu がユーザー特徴、xv が映画の特徴です。

このようなモデルは、（ユーザーの特徴と非ユーザーの特徴を分離しているため）前述の分散システムアーキテクチャに非常に適しています。

因数分解されたモデルは、差分プライベート交互最小化（DPAM）を使用してトレーニングされます。DPAM では、パラメータ θu の最適化（θv は固定）、またはその逆を交互に行います。DPAM アルゴリズムは、さまざまな設定⁴ ¹¹で、特に一般公開機能がある場合に、その有用性が向上することがわかっています。

デバイス上のパーソナライズのための差分プライバシー セマンティクス