Tài liệu này tóm tắt phương pháp bảo vệ quyền riêng tư cho hoạt động Cá nhân hoá trên thiết bị (ODP), đặc biệt là trong bối cảnh sự riêng tư biệt lập. Các vấn đề liên quan đến quyền riêng tư và các quyết định thiết kế khác như giảm tối đa việc thu thập dữ liệu được cố ý bỏ qua để tài liệu này tập trung vào nội dung của tài liệu này.
Sự riêng tư biệt lập
Sự riêng tư biệt lập 1 là một tiêu chuẩn được áp dụng rộng rãi về biện pháp bảo vệ quyền riêng tư trong việc phân tích dữ liệu thống kê và học máy 2 3. Nói một cách dễ hiểu, đối thủ sẽ tìm hiểu hầu như thông tin tương tự về người dùng qua kết quả của một thuật toán riêng tư khác biệt cho dù bản ghi của họ có xuất hiện trong tập dữ liệu cơ bản hay không. Điều này ngụ ý rằng các biện pháp bảo vệ mạnh mẽ đối với các cá nhân: mọi suy luận được đưa ra về một người chỉ có thể là do các thuộc tính tổng hợp của tập dữ liệu có thể lưu giữ hoặc không có hồ sơ của người đó.
Trong bối cảnh công nghệ học máy, đầu ra của thuật toán nên được coi là các tham số của mô hình đã được huấn luyện. Cụm từ gần như giống nhau được định lượng về mặt toán học bằng hai tham số (Android , trong đó ) thường được chọn là một hằng số nhỏ và d≪1/(số người dùng).
Ngữ nghĩa về quyền riêng tư
Thiết kế ODP cố gắng đảm bảo mỗi lần chạy huấn luyện đều riêng tư riêng biệt ở cấp người dùng ( {, ) . Phần sau đây trình bày cách tiếp cận của chúng tôi để tiếp cận ngữ nghĩa này.
Mô hình mối đe doạ
Chúng tôi xác định các bên khác nhau và nêu giả định cho từng bên:
- Người dùng: Người dùng sở hữu thiết bị và là người tiêu dùng sản phẩm hoặc dịch vụ do nhà phát triển cung cấp. Thông tin riêng tư của họ hoàn toàn hiển thị với chính họ.
- Môi trường thực thi đáng tin cậy (TEE): Dữ liệu và các phép tính đáng tin cậy diễn ra trong các TEE được bảo vệ khỏi những kẻ tấn công bằng nhiều công nghệ. Do đó, việc tính toán và dữ liệu không cần thêm biện pháp bảo vệ nào. Các TEE hiện tại có thể cho phép quản trị viên dự án truy cập vào thông tin bên trong. Chúng tôi đề xuất các tính năng tuỳ chỉnh để không cho phép và xác thực rằng quản trị viên không có quyền truy cập.
- Kẻ tấn công: Có thể có thông tin phụ về người dùng và có toàn quyền truy cập vào mọi thông tin rời khỏi TEE (chẳng hạn như các tham số mô hình đã xuất bản).
- Nhà phát triển: Người xác định và huấn luyện mô hình. Bị coi là không đáng tin cậy (và có đầy đủ năng lực của kẻ tấn công).
Chúng tôi cố gắng thiết kế ODP theo các ngữ nghĩa sau đây về sự riêng tư biệt lập:
- Ranh giới tin cậy: Theo góc nhìn của một người dùng, ranh giới tin cậy bao gồm thiết bị của chính người dùng cùng với TEE. Mọi thông tin nằm ngoài ranh giới tin cậy này đều phải được bảo vệ bằng cơ chế sự riêng tư biệt lập.
- Kẻ tấn công: Biện pháp bảo vệ quyền riêng tư biệt lập hoàn toàn chống lại kẻ tấn công. Bất kỳ thực thể nào bên ngoài ranh giới tin cậy đều có thể là kẻ tấn công (bao gồm cả nhà phát triển và những người dùng khác, tất cả đều có khả năng thông đồng với nhau). Dựa trên tất cả thông tin nằm ngoài ranh giới tin cậy (ví dụ: mô hình được xuất bản), mọi thông tin bên ngoài về người dùng và tài nguyên vô hạn, kẻ tấn công đều không thể suy luận thêm dữ liệu riêng tư về người dùng (ngoài những thông tin đã có trong thông tin bên cạnh), theo tỷ lệ tối đa mà ngân sách quyền riêng tư đưa ra. Cụ thể, điều này ngụ ý rằng nhà phát triển cần phải thực hiện một biện pháp bảo vệ sự riêng tư biệt lập hoàn toàn. Mọi thông tin được phát hành cho nhà phát triển (chẳng hạn như tham số mô hình đã huấn luyện hoặc suy luận tổng hợp) đều được bảo vệ sự riêng tư biệt lập.
Thông số mô hình cục bộ
Ngữ nghĩa về quyền riêng tư trước đây phù hợp với trường hợp một số tham số mô hình cục bộ với thiết bị (ví dụ: mô hình chứa một người dùng nhúng riêng cho từng người dùng và không được chia sẻ cho nhiều người dùng). Đối với những mô hình như vậy, các tham số cục bộ này vẫn nằm trong ranh giới tin cậy (không được xuất bản) và không cần được bảo vệ, trong khi các tham số mô hình dùng chung được xuất bản (và được bảo vệ bằng cơ chế sự riêng tư biệt lập). Mô hình này đôi khi được gọi là mô hình bảo vệ quyền riêng tư trên biển quảng cáo 4.
Các tính năng công khai
Trong một số ứng dụng, một số tính năng là công khai. Ví dụ: trong một sự cố đề xuất phim, các tính năng của phim (đạo diễn, thể loại hoặc năm phát hành phim) là thông tin công khai và không cần được bảo vệ, trong khi các tính năng liên quan đến người dùng (chẳng hạn như thông tin nhân khẩu học hoặc phim người dùng đã xem) là dữ liệu riêng tư và cần được bảo vệ.
Thông tin công khai được chính thức hoá dưới dạng ma trận đối tượng công khai (trong ví dụ trước, ma trận này chứa một hàng cho mỗi phim và một cột cho mỗi đối tượng phim), và ma trận này có sẵn cho tất cả các bên. Thuật toán huấn luyện riêng tư khác biệt có thể sử dụng ma trận này mà không cần phải bảo vệ, xem ví dụ 5. Nền tảng ODP có kế hoạch triển khai những thuật toán như vậy.
Một hướng tiếp cận quyền riêng tư trong quá trình dự đoán hoặc suy luận
Suy luận dựa trên các tham số của mô hình và trên các tính năng đầu vào. Các tham số mô hình được huấn luyện bằng ngữ nghĩa về sự riêng tư biệt lập. Ở đây, vai trò của các tính năng nhập sẽ được thảo luận.
Trong một số trường hợp sử dụng, khi đã có toàn quyền truy cập vào các tính năng dùng trong suy luận, nhà phát triển không phải lo lắng về quyền riêng tư và kết quả suy luận có thể được hiển thị cho nhà phát triển.
Trong các trường hợp khác (khi các tính năng dùng trong suy luận mang tính riêng tư và nhà phát triển không truy cập được), thì kết quả suy luận có thể bị ẩn đối với nhà phát triển, chẳng hạn như bằng cách suy luận (và bất kỳ quy trình hạ nguồn nào sử dụng kết quả suy luận) chạy trên thiết bị, trong khu vực hiển thị và quy trình thuộc sở hữu của hệ điều hành, với việc hạn chế giao tiếp bên ngoài quy trình đó.
Quy trình huấn luyện
Tổng quan
Phần này cung cấp thông tin tổng quan về cấu trúc và cách quá trình huấn luyện, hãy xem Hình 1. ODP triển khai các thành phần sau:
Một nhà phân phối đáng tin cậy, chẳng hạn như lựa chọn liên kết, nội dung tải xuống đáng tin cậy hoặc truy xuất thông tin cá nhân sẽ đóng vai trò là các thông số của mô hình phát sóng. Giả định rằng nhà phân phối đáng tin cậy có thể gửi một nhóm nhỏ các thông số cho mỗi khách hàng mà không tiết lộ những thông số nào đã được khách hàng tải xuống. Tính năng "phát một phần" này cho phép hệ thống giảm thiểu dấu vết trên thiết bị của người dùng cuối: thay vì gửi bản sao đầy đủ của mô hình, chỉ một phần tham số của mô hình được gửi tới bất kỳ người dùng cụ thể nào.
Một trang web tổng hợp đáng tin cậy chuyên tổng hợp thông tin từ nhiều ứng dụng khách (ví dụ: độ dốc hoặc số liệu thống kê khác), sẽ tăng độ nhiễu và gửi kết quả đến máy chủ. Giả định rằng có các kênh đáng tin cậy giữa ứng dụng và đơn vị tổng hợp, cũng như giữa khách hàng và nhà phân phối.
Các thuật toán huấn luyện DP chạy trên cơ sở hạ tầng này. Mỗi thuật toán huấn luyện bao gồm các phép tính riêng biệt chạy trên nhiều thành phần (máy chủ, ứng dụng, trình tổng hợp, nhà phân phối).
Một vòng đào tạo điển hình bao gồm các bước sau:
- Máy chủ sẽ truyền các thông số của mô hình đến nhà phân phối đáng tin cậy.
- Tính toán của ứng dụng
- Mỗi thiết bị khách sẽ nhận được mô hình truyền tin (hoặc tập hợp con các tham số có liên quan đến người dùng).
- Mỗi ứng dụng thực hiện một số phép tính (ví dụ: độ dốc trong tính toán hoặc các số liệu thống kê đầy đủ khác).
- Mỗi ứng dụng sẽ gửi kết quả tính toán đến trình tổng hợp đáng tin cậy.
- Trang web tổng hợp đáng tin cậy này sẽ thu thập, tổng hợp và bảo vệ bằng cách sử dụng cơ chế phù hợp về sự riêng tư biệt lập cho số liệu thống kê từ khách hàng, sau đó gửi kết quả đến máy chủ.
- Tính toán máy chủ
- Máy chủ (không đáng tin cậy) chạy các phép tính trên số liệu thống kê khác biệt được bảo vệ quyền riêng tư (ví dụ: sử dụng độ dốc tổng hợp riêng tư khác nhau để cập nhật các tham số của mô hình).
Mô hình được phân tích và tối thiểu hoá thay thế riêng tư biệt lập
Nền tảng ODP có kế hoạch cung cấp các thuật toán huấn luyện riêng tư khác biệt đa năng có thể áp dụng cho bất kỳ cấu trúc mô hình nào (chẳng hạn như DP-SGD 6 7 8 hoặc DP-FTRS 9 10, cũng như các thuật toán chuyên biệt cho các mô hình được phân tích.
Mô hình được phân tích là các mô hình có thể được phân rã thành các mô hình phụ (được gọi là bộ mã hoá hoặc tháp). Ví dụ: hãy xem xét một mô hình có dạng f(u(θu, xu), v(θv, xv))
, trong đó u()
mã hoá các tính năng người dùng xu
(và có các tham số θu
) và v()
mã hoá các tính năng không phải của người dùng xv
(và có các tham số θv
). Hai kiểu mã hoá này được kết hợp bằng f()
để tạo ra thông tin dự đoán cuối cùng về mô hình. Ví dụ: trong mô hình đề xuất phim, xu
là các tính năng dành cho người dùng và xv
là các tính năng về phim.
Những mô hình như vậy rất phù hợp với kiến trúc hệ thống phân phối nêu trên (vì chúng tách biệt các tính năng của người dùng và tính năng không dành cho người dùng).
Các mô hình được phân tích nhân tử sẽ được huấn luyện bằng phương pháp Giảm thiểu thay thế riêng tư biệt lập (DPAM), thay thế cho việc tối ưu hoá các tham số θu
(trong khi θv
là cố định) và ngược lại. Các thuật toán DPAM đã được chứng minh là có hiệu quả sử dụng tốt hơn trong nhiều chế độ cài đặt 4 11, đặc biệt là khi có các tính năng công khai.
Tài liệu tham khảo
- 1: Dwork và đồng sự. Hiệu chỉnh độ nhiễu thành độ nhạy trong công cụ Phân tích dữ liệu riêng tư, TCC'06
- 2: Cục Điều tra dân số Hoa Kỳ. Tìm hiểu về sự riêng tư biệt lập, năm 2020
- 3: Học liên kết với các bảo đảm chính thức về sự riêng tư biệt lập, Bài đăng trên blog của Google về AI, năm 2020
- 4: Jain và cộng sự. Cá nhân hoá mô hình riêng tư khác biệt, NeurIPS'21
- 5: Krichene và đồng sự. Học tập riêng tư có tính năng công khai, năm 2023
- 6: Song và đồng sự giảm độ dốc ngẫu nhiên qua các bản cập nhật riêng tư khác biệt, GlobalSIP'13
- 7: Giảm thiểu rủi ro theo thực nghiệm riêng tư khác biệt: Các thuật toán hiệu quả và giới hạn lỗi chặt chẽ, FOCS'14
- 8: Abadi và cộng sự. Deep Learning with Differential Privacy (Sự riêng tư biệt lập), CCS '16
- 9: Smith và đồng sự (gần đây) Các thuật toán tối ưu cho hoạt động học tập trực tuyến riêng tư trong phần Cài đặt thông tin đầy đủ và Bandit, NeurIPS'13
- 10: Kairouz và cộng sự, Học tập thực tế và riêng tư (chuyên sâu) mà không lấy mẫu hoặc trộn bài, ICML'21
- 11: Chien et al. Private Alternating Least Squares (Hình vuông ít thay thế riêng tư), ICML'21