Trang này được dịch bởi Cloud Translation API.

Chèn tiếng ồn

Chèn nhiễu là một kỹ thuật được dùng để bảo vệ quyền riêng tư của người dùng khi truy vấn cơ sở dữ liệu. Cơ chế này hoạt động bằng cách thêm nhiễu ngẫu nhiên vào một mệnh đề SELECT tổng hợp của một truy vấn. Độ nhiễu này giúp bảo vệ quyền riêng tư của người dùng trong khi vẫn cung cấp kết quả tương đối chính xác, loại bỏ nhu cầu kiểm tra sự khác biệt và giảm ngưỡng tổng hợp bắt buộc cho đầu ra. Hầu hết các truy vấn hiện có đều có thể được thực thi ở chế độ nhiễu với một số hạn chế.

Tìm hiểu lợi ích của việc sử dụng kỹ thuật chèn nhiễu

Không áp dụng các bước kiểm tra chênh lệch: Khi chạy các truy vấn có tính năng chèn nhiễu, Ads Data Hub không lọc các hàng do có điểm tương đồng với các tập kết quả trước đó. Điều này có nghĩa là bạn vẫn có thể xem dữ liệu một cách tổng thể trong khi vẫn bảo vệ quyền riêng tư của người dùng.

Đơn giản hoá việc khắc phục sự cố: Các hàng chỉ bị bỏ qua do yêu cầu tổng hợp, giúp bạn dễ dàng khắc phục sự cố và điều chỉnh các truy vấn.

Không có cú pháp mới cần tìm hiểu: Bạn không cần tìm hiểu cú pháp truy vấn mới hoặc nắm vững các khái niệm về quyền riêng tư để sử dụng nhiễu thay vì kiểm tra sự khác biệt.

Độ chính xác của kết quả được báo cáo: Một tác vụ thành công cho biết tổng tỷ lệ phần trăm dữ liệu có thể bị ảnh hưởng bởi nhiễu.

Tìm hiểu cách tiếng ồn ảnh hưởng đến các yêu cầu về quyền riêng tư

Kiểm tra sự khác biệt: Tính năng chèn nhiễu không dựa vào các quy trình kiểm tra sự khác biệt hiện có trong Ads Data Hub. Khi bạn sử dụng tính năng chèn tiếng ồn, các chế độ kiểm tra chênh lệch sẽ bị tắt.

Yêu cầu về việc tổng hợp: Tính năng chèn nhiễu xuất dữ liệu lượt hiển thị do khoảng 20 người dùng riêng biệt trở lên đại diện và dữ liệu lượt nhấp hoặc lượt chuyển đổi do khoảng 10 người dùng riêng biệt trở lên đại diện.

Kiểm tra tĩnh: Không ảnh hưởng.

Ngân sách và hạn mức truy vấn: Các truy vấn được thực thi bằng cách sử dụng nhiễu sẽ chia sẻ ngân sách truy cập dữ liệu được dùng với các lượt kiểm tra chênh lệch. Tương tự như các lượt kiểm tra chênh lệch, nếu thực hiện cùng một truy vấn trên cùng một tập dữ liệu nhiều lần, bạn có thể mất quyền truy cập vào những ngày thường được truy vấn trong tập dữ liệu. Điều này có thể xảy ra nếu bạn chạy các truy vấn cửa sổ trượt hoặc nếu bạn đưa ra cùng một yêu cầu nhiều lần.

Chế độ nhiễu áp đặt các giới hạn bổ sung và nghiêm ngặt hơn đối với việc tính toán lại cùng một kết quả tổng hợp trong hoặc giữa các truy vấn. Giống như hạn mức truy cập dữ liệu, bạn có thể mất quyền truy cập vào những ngày thường được truy vấn trong tập dữ liệu; nhưng những hạn chế do việc tính toán lại cùng một kết quả tổng hợp sẽ chỉ hạn chế các truy vấn ở chế độ nhiễu, chứ không hạn chế các truy vấn ở chế độ kiểm tra chênh lệch. Để biết thêm thông tin, hãy xem phần Kết quả trùng lặp.

Tìm hiểu thêm về quy trình kiểm tra để đảm bảo quyền riêng tư.

Tìm hiểu cách việc chèn nhiễu ảnh hưởng đến kết quả

Ads Data Hub chèn dữ liệu nhiễu để giảm thiểu rủi ro tiết lộ – rủi ro khi ai đó có thể biết được thông tin về một người dùng cá nhân. Công nghệ này cân bằng giữa quyền riêng tư và sự tiện ích.

Tính năng chèn nhiễu trong Ads Data Hub sẽ chuyển đổi kết quả truy vấn như sau:

Thao tác này sẽ giới hạn mức đóng góp của những người dùng có hành vi bất thường trong kết quả tổng hợp. Thao tác này sẽ tính tổng mức đóng góp của mỗi người dùng trong mỗi hoạt động tổng hợp, sau đó giới hạn mỗi mức đóng góp bằng các giới hạn chặn tối thiểu và tối đa.
Thao tác này tổng hợp các giá trị đóng góp bị giới hạn của từng người dùng.
Thao tác này sẽ thêm nhiễu vào từng kết quả tổng hợp – kết quả của từng lệnh gọi hàm tổng hợp trong mỗi hàng. Quy mô của nhiễu ngẫu nhiên này tỷ lệ thuận với các ranh giới bị giới hạn.
Thao tác này tính toán số lượng người dùng bị nhiễu cho từng hàng và loại bỏ những hàng có quá ít người dùng. Điều này tương tự như k-anonymity ở chế độ kiểm tra sự khác biệt, nhưng do nhiễu, các công việc chạy trên cùng một tập dữ liệu có thể loại bỏ các hàng khác nhau. Ngoài ra, chế độ nhiễu sẽ loại bỏ ít hàng hơn vì yêu cầu về việc tổng hợp thấp hơn (khoảng 20 so với chính xác 50).

Kết quả cuối cùng là một tập dữ liệu trong đó mỗi hàng có kết quả tổng hợp nhiễu và các nhóm nhỏ đã bị loại bỏ. Điều này che giấu ảnh hưởng của từng người dùng đối với kết quả được trả về.

Giới thiệu về tính năng giới hạn tổng hợp

Tính năng chèn nhiễu trong Ads Data Hub sử dụng phương pháp giới hạn tổng hợp ngầm ẩn hoặc rõ ràng để hạn chế mức đóng góp của các giá trị ngoại lệ. Bạn có thể chọn loại giới hạn cần sử dụng, tuỳ thuộc vào trường hợp sử dụng của mình.

Kẹp ngầm

Bạn không cần cú pháp SQL đặc biệt nào để sử dụng tính năng giới hạn ngầm định, tính năng này được áp dụng theo mặc định. Các ranh giới ngầm định được lấy từ chính dữ liệu và được xác định cho từng hoạt động tổng hợp. Nếu một số phép tổng hợp có phạm vi giá trị rộng hơn những phép tổng hợp khác, thì việc ràng buộc ngầm có thể suy ra các ranh giới khác nhau cho các phép tổng hợp khác nhau khi thích hợp. Điều này thường dẫn đến ít lỗi hơn. Xin lưu ý rằng COUNT(DISTINCT user_id) sẽ tự động sử dụng tính năng giới hạn rõ ràng với giới hạn trên là 1.

Kẹp rõ ràng

Việc giới hạn rõ ràng sẽ giới hạn tổng mức đóng góp của mỗi người dùng trong một phạm vi cụ thể. Các giới hạn rõ ràng được áp dụng nhất quán cho tất cả các phép tổng hợp và phải là giá trị theo nghĩa đen. Việc kẹp rõ ràng có thể mang lại kết quả tốt hơn khi các ranh giới thường được biết đến. Ví dụ: việc giới hạn độ tuổi từ 0 đến 100 phản ánh thông tin công khai vì độ tuổi của hầu hết mọi người thường nằm trong khoảng này.

Trung tâm dữ liệu quảng cáo cung cấp ADH.ANONcác hàm tổng hợp bổ sungADH.ANON để giới hạn rõ ràng. Để sử dụng tính năng giới hạn rõ ràng, hãy đặt ranh giới cho từng hàm tổng hợp được hỗ trợ bằng cách thêm các số nguyên đại diện cho ranh giới dưới và ranh giới trên. Ví dụ:

SELECT
campaign_name,
-- Set lower and upper bounds to 0 and 1, respectively
ADH.ANON_COUNT(*, contribution_bounds_per_group => (0,1))
FROM data
GROUP BY 1

Chạy một truy vấn bằng cách thêm nhiễu

Mở một báo cáo.
Nhấp vào nút bật/tắt Cài đặt độ nhiễu về quyền riêng tư để chuyển sang vị trí Sử dụng độ nhiễu.
Chạy truy vấn.
Xem xét tác động của tạp âm được thêm.
Không bắt buộc: Điều chỉnh truy vấn để giảm tác động của nhiễu.

Xem xét tác động của tiếng ồn

Sau khi một công việc hoàn tất thành công, Ads Data Hub sẽ hiển thị độ tin cậy của kết quả trong bản tóm tắt về quyền riêng tư. Độ tin cậy dựa trên tỷ lệ phần trăm số ô trong đầu ra có thể bị ảnh hưởng nhiều bởi các yếu tố ảnh hưởng khác. Một giá trị trong bảng kết quả được coi là bị ảnh hưởng nếu quy mô của nhiễu được thêm vào lớn hơn 5% kết quả trong ô.

Đối với các tập dữ liệu đầu ra chịu ảnh hưởng, bản tóm tắt về quyền riêng tư liệt kê 10 cột có độ nhiễu cao nhất (từ tác động cao nhất đến thấp nhất) và mức đóng góp tương ứng của các cột đó vào độ nhiễu. Sau đây là thông tin chi tiết về các nhãn tác động của tiếng ồn.

% kết quả bị ảnh hưởng	Màu chỉ báo	Mức độ tác động
<5%	Xanh lục	Tác động thấp
5% – 15%	Vàng	Tác động trung bình
15% – 25%	Màu cam	Tác động lớn
>25%	Đỏ	Tác động rất lớn

Bạn cũng có thể xem trước bản tóm tắt về quyền riêng tư cho các công việc báo cáo gần đây trên trang Trang chủ. Để xem trước thông tin về quyền riêng tư của một công việc cụ thể, hãy giữ con trỏ lên biểu tượng mẹo về quyền riêng tư privacy_tip trong thẻ công việc ở mục Hoạt động gần đây.

Điều chỉnh truy vấn

Các phép tổng hợp có nhiều khả năng bị ảnh hưởng bởi nhiễu khi có ít người dùng đóng góp vào kết quả. Điều này có thể xảy ra khi các phép tổng hợp được tính toán từ các nhóm nhỏ người dùng hoặc khi một số người dùng không ảnh hưởng đến kết quả, chẳng hạn như với hàm COUNTIF. Dựa trên báo cáo nhiễu, bạn có thể muốn điều chỉnh truy vấn để giảm tỷ lệ phần trăm kết quả bị ảnh hưởng.

Sau đây là các nguyên tắc chung:

Mở rộng phạm vi ngày.
Viết lại truy vấn để giảm độ chi tiết của dữ liệu, chẳng hạn như bằng cách nhóm theo ít thông số hơn hoặc thay thế COUNTIF bằng COUNT.
Xoá các cột gây nhiễu.
Hãy thử kẹp rõ ràng khi có thể chọn các ranh giới hợp lý.

Hàm tổng hợp được hỗ trợ

Các hàm tổng hợp sau đây được hỗ trợ có nhiễu:

SUM(...)
COUNT(*)
COUNT(...)
COUNTIF(...)
COUNT(DISTINCT user_id)
APPROX_COUNT_DISTINCT(user_id)
AVG(...)

Từ khoá DISTINCT chỉ được hỗ trợ với hàm COUNT và chỉ khi được dùng với một giá trị tham chiếu trực tiếp đến cột user_id trong bảng Ads Data Hub hoặc một biểu thức trả về user_id hoặc NULL, chẳng hạn như COUNT(DISTINCT IF(..., user_id, NULL)).

Xin lưu ý rằng những hạn chế này chỉ áp dụng cho các hoạt động tổng hợp có nhiễu, đây là cấp độ đầu tiên của hoạt động tổng hợp trên nhiều người dùng. Số liệu tổng hợp ở cấp người dùng và số liệu tổng hợp sau khi chèn nhiễu không bị hạn chế.

Hàm tổng hợp bổ sung

Ngoài việc hỗ trợ các hàm tổng hợp thông thường, Trung tâm dữ liệu quảng cáo còn giới thiệu các hàm tổng hợp ADH.ANON bổ sung hỗ trợ việc giới hạn rõ ràng. Các hàm tổng hợp này dùng chung cú pháp với các hàm tổng hợp riêng tư vi phân BigQuery, tuy nhiên, chúng không yêu cầu mệnh đề WITH DIFFERENTIAL_PRIVACY:

ADH.ANON_SUM( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( *, [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_AVG( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_PERCENTILE_CONT( ..., percentile, contribution_bounds_per_row => (lower_bound, upper_bound) )

Tham số ADH.ANON_SUM, ADH.ANON_COUNT và ADH.ANON_AVG:

contribution_bounds_per_group: Số lượt đóng góp trên mỗi người dùng được giới hạn cho từng phân vùng do các khoá GROUP BY xác định. Giới hạn trên và giới hạn dưới được áp dụng cho các giá trị theo nhóm sau khi các giá trị được tổng hợp theo người dùng.
lower_bound: Giá trị cố định bằng số biểu thị giá trị nhỏ nhất cần đưa vào một phép tổng hợp.
upper_bound: Giá trị cố định bằng số đại diện cho giá trị lớn nhất cần đưa vào một phép tổng hợp.

Tham số ADH.ANON_PERCENTILE_CONT:

percentile: Phân vị cần tính, một giá trị cố định trong phạm vi [0, 1].
contribution_bounds_per_row: Số lượt đóng góp trên mỗi người dùng được giới hạn theo từng hàng (từng bản ghi). Xin lưu ý rằng bạn phải có các ranh giới giới hạn rõ ràng cho phân vị và do đó, phân vị chỉ được hỗ trợ dưới dạng một hàm bổ sung.
lower_bound: Giá trị cố định bằng số biểu thị giá trị nhỏ nhất cần đưa vào một phép tổng hợp.
upper_bound: Giá trị cố định bằng số đại diện cho giá trị lớn nhất cần đưa vào một phép tổng hợp.

Tính giá trị MIN và MAX

Các hàm MIN và MAX không được hỗ trợ trực tiếp trong các phép tổng hợp nhiễu, nhưng thường có các phương thức thay thế để tính toán những kết quả này.

Nếu có một MIN hoặc MAX giá trị có thể dùng làm khoá nhóm, chẳng hạn như ngày diễn ra sự kiện, thì trước tiên, bạn có thể GROUP BY giá trị đó, sau đó tính toán MIN/MAX. Hàm này trả về giá trị tối thiểu hoặc tối đa vượt qua ngưỡng tổng hợp.

Ví dụ:

WITH campaign_date_ranges AS (
  SELECT campaign_id, MIN(event_date) AS min_date, MAX(event_date) AS max_date
  FROM (
    # Aggregation thresholding will be applied here
    SELECT DISTINCT
      campaign_id,
      DATE(query_id.time_usec, @time_zone) AS event_date
    FROM adh.google_ads_impressions
  )
)
SELECT campaign_id, num_impressions, min_date, max_date
FROM (
  # Noise and aggregation thresholding will be applied here
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
)
JOIN campaign_date_ranges USING(campaign_id)

Ngoài ra, nếu có giá trị TỐI THIỂU hoặc TỐI ĐA của các giá trị chi tiết với ranh giới đã biết, bạn có thể sử dụng PERCENTILE_CONT với ranh giới rõ ràng để có kết quả gần đúng.

Ví dụ:

SELECT
  campaign_id,
  COUNT(*) AS num_impressions,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 0,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS min_timestamp,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 1,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS max_timestamp
FROM adh.google_ads_impressions

Giới thiệu về kết quả số nguyên

Mặc dù Ads Data Hub sẽ tự động chèn nhiễu cho các hàm tổng hợp này, nhưng chữ ký hàm sẽ không thay đổi. Vì các hàm như COUNT hoặc SUM của INT64 trả về INT64, nên mọi phần thập phân của kết quả bị nhiễu đều được làm tròn. Điều này thường không đáng kể so với kích thước của kết quả và nhiễu.

Nếu bạn cần độ chi tiết của số thập phân trong kết quả, thì hãy tránh viết các hàm trả về INT64, chẳng hạn như bằng cách sử dụng SUM với đầu vào được truyền đến FLOAT64.

Giới thiệu về kết quả phủ định

Về nguyên tắc, nhiễu có giá trị rất nhỏ có thể dẫn đến số âm, ngay cả khi điều này không thể xảy ra về mặt ngữ nghĩa đối với truy vấn. Để duy trì hành vi dự kiến, tất cả các dạng COUNT và COUNTIF đều tự động được giới hạn ở 0, do đó, chúng không bao giờ cho kết quả âm. Nếu muốn có hành vi tương tự với một hàm khác, chẳng hạn như SUM, thì bạn có thể giới hạn kết quả theo cách thủ công bằng cách sử dụng GREATEST(0, SUM(...)).

Thay đổi này thường không đáng kể, nhưng nó có thể mang lại một chút thiên kiến tích cực cho kết quả tổng thể.

Nhóm công khai

Với mệnh đề GROUP BY, kết quả ẩn danh của một truy vấn sẽ được tổng hợp theo các nhóm. Ngưỡng tổng hợp được áp dụng để đảm bảo rằng có đủ số lượng người dùng trong nhóm để bảo vệ dữ liệu của từng người dùng. Quá trình xác định nhóm nào có thể được phát hành được gọi là "lựa chọn phân vùng".

Trong nhiều trường hợp, các nhóm có thể là thông tin công khai. Ví dụ: việc nhóm theo phiên bản trình duyệt, ngày trong tuần hoặc khu vực địa lý không phụ thuộc vào dữ liệu người dùng nếu bạn biết trước các giá trị khoá nhóm. Trong trường hợp này, bạn có thể bỏ qua việc chọn phân vùng vì sự hiện diện hay vắng mặt của một nhóm trong đầu ra không cung cấp thông tin mới nào về người dùng.

Ads Data Hub xác định những truy vấn đủ điều kiện cho các nhóm công khai và không áp dụng ngưỡng tổng hợp cho những truy vấn này. Điều này có nghĩa là không có hàng đầu ra nào bị lọc. Xin lưu ý rằng kết quả được tính toán từ một số ít người dùng có thể chịu ảnh hưởng lớn của nhiễu.

Để đủ điều kiện sử dụng các nhóm công khai, truy vấn phải được cấu trúc để đảm bảo rằng tất cả các khoá nhóm đều được biết trước. Các cột nhóm phải đáp ứng các điều kiện sau:

Các chỉ số này đến từ một bảng công khai (một bảng hoặc mệnh đề SELECT không có dữ liệu người dùng Ads Data Hub).
Chúng có SELECT DISTINCT được áp dụng để thực thi các giá trị duy nhất.
Chúng được kết hợp vào truy vấn bằng một OUTER JOIN trên tất cả các cột riêng lẻ.

Ví dụ về cụm từ tìm kiếm nhóm công khai:

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT age_group_id FROM adh.age_group)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT * FROM UNNEST([1, 2, 3]) AS age_group_id)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

Trong ví dụ đầu tiên, adh.google_ads_impressions table được bảo vệ sẽ được kết hợp với bảng adh.age_group không chứa dữ liệu người dùng trên cột age_group_id. Cột age_group_id trong bảng công khai tương tự sẽ xuất hiện trong mệnh đề GROUP BY.

Tương tự, trong ví dụ thứ hai, bảng adh.google_ads_impressionsđược bảo vệ sẽ được kết hợp với bảng công khai, được cung cấp rõ ràng dưới dạng UNNEST([1, 2, 3]). Xin lưu ý rằng trong cả hai ví dụ, khoá nhóm age_group_id đều đến từ bảng công khai.

Bạn cũng có thể cung cấp nhiều mục nhóm, ví dụ:

SELECT campaign_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT campaign_id, customer_id FROM adh.google_ads_campaign)
USING (campaign_id, customer_id)
GROUP BY campaign_id, customer_id

SELECT p.campaign_id, p.browser, COUNT(*) FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY campaign_id, browser;

Việc không lọc trong các truy vấn nhóm công khai có thể mang lại lợi ích cho các truy vấn chạy định kỳ, vì đầu ra luôn được trả về cho các giá trị khoá nhóm cố định giống nhau. Ví dụ: điều này có thể đặc biệt hữu ích khi tạo trang tổng quan định kỳ.

Một lưu ý: nếu một bảng công khai cung cấp số lượng lớn các giá trị khoá nhóm, thì bạn có thể nhận được nhiều hàng có ít hoặc không có dữ liệu và tất cả các hàng này sẽ được báo cáo là có tác động lớn của nhiễu. Trong trường hợp này, bạn nên cân nhắc việc cung cấp rõ ràng một danh sách khoá nhỏ hơn chỉ với những giá trị mà bạn quan tâm.

Các mẫu truy vấn được hỗ trợ

Quan trọng: Hầu hết các phương pháp hay nhất tiêu chuẩn của Ads Data Hub vẫn áp dụng cho những truy vấn sử dụng tính năng chèn nhiễu. Cụ thể, bạn nên xem hướng dẫn về việc truy vấn cùng một dữ liệu nhiều lần.

Phần này mô tả các mẫu truy vấn được hỗ trợ khi chạy truy vấn bằng cách sử dụng tính năng chèn nhiễu.

Số liệu tổng hợp ở cấp người dùng

Các giá trị tổng hợp không hạn chế ở cấp người dùng được hỗ trợ theo cách tương tự như trong chế độ kiểm tra chênh lệch. Nhiễu chỉ được chèn vào các dữ liệu tổng hợp kết hợp dữ liệu của nhiều người dùng. Các hàm tổng hợp nhóm rõ ràng theo user_id hoặc các hàm phân tích phân vùng theo user_id sẽ không nhận được bất kỳ nhiễu nào và mọi hàm đều được phép. Các hoạt động tổng hợp ở cấp người dùng không được nhóm một cách rõ ràng theo user_id (ví dụ: GROUP BY impression_id) sẽ được coi là hoạt động tổng hợp trên nhiều người dùng, do đó, nhiễu sẽ được thêm vào.

Việc nhóm theo external_cookie là chưa đủ. Mặc dù bạn có thể dùng external_cookie để kết hợp các bảng *_match với bảng do khách hàng sở hữu, nhưng mọi hoạt động tổng hợp một người dùng đều phải nhóm theo cột user_id một cách rõ ràng, chứ không chỉ theo cột external_cookie.

Ví dụ về hàm tổng hợp:

WITH user_paths AS (
  # Grouping by user_id, no noise needed, all functions allowed
  SELECT user_id, STRING_AGG(campaign_id, ">" ORDER BY query_id.time_usec) AS path
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to num_users
SELECT path, COUNT(*) AS num_users
FROM user_paths
GROUP BY 1;

Ví dụ về hàm phân tích:

WITH events AS (
  # Partitioning by user_id, no noise needed, all functions allowed
  SELECT
    campaign_id,
    ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY query_id.time_usec) AS index
  FROM adh.google_ads_impressions
)
# Noise applied here to first_impressions
SELECT campaign_id, COUNT(*) AS first_impressions
FROM events
WHERE index = 1
GROUP BY 1;

Tập hợp song song

Mỗi hoạt động tổng hợp trên nhiều người dùng sẽ nhận được nhiễu một cách độc lập. Bạn có thể chạy nhiều phép tổng hợp như vậy trong một câu lệnh duy nhất, kết hợp các kết quả vào một bảng bằng cách sử dụng JOIN hoặc UNION.

Ví dụ:

WITH result_1 AS (
  # Noise applied here to num_impressions
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
  GROUP BY 1
), result_2 AS (
  # Noise applied here to num_clicks
  SELECT campaign_id, COUNT(*) AS num_clicks
  FROM adh.google_ads_creative_conversions
  GROUP BY 1
)
SELECT * FROM result_1 JOIN result_2 USING(campaign_id)

Xin lưu ý rằng thao tác này sẽ được hỗ trợ nhưng bạn nên tránh trong chế độ kiểm tra sự khác biệt. Phương pháp này không gặp vấn đề về nhiễu, vì mỗi giá trị tổng hợp song song đều được tạo nhiễu và lọc độc lập.

Dữ liệu tổng hợp kết hợp với dữ liệu chưa tổng hợp

Vì Ads Data Hub chỉ hỗ trợ các khoảng thời gian phân tích phân vùng theo user_id, nên một giải pháp thường dùng là tổng hợp riêng các kết quả này và tự kết hợp chúng trước khi tổng hợp lại. Các truy vấn này được hỗ trợ ở chế độ nhiễu và thường hoạt động hiệu quả hơn so với chế độ kiểm tra chênh lệch do các yêu cầu về quyền riêng tư được giải quyết sớm hơn.

Ví dụ:

WITH campaign_totals AS (
  # Noise applied here to campaign_imps
  SELECT campaign_id, COUNT(*) AS campaign_imps
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to imps
SELECT campaign_id, demographics, campaign_imps, COUNT(*) AS imps
FROM adh.google_ads_impressions JOIN campaign_totals USING(campaign_id)
GROUP BY 1,2,3

Chế độ nhiễu không khuyến khích việc tổng hợp lại kết quả tổng hợp, chẳng hạn như AVG(campaign_imps).

Các mẫu truy vấn không được hỗ trợ

Phần này mô tả các mẫu truy vấn không được hỗ trợ khi chạy truy vấn bằng cách chèn nhiễu.

Cụm từ tìm kiếm bao gồm cả hôm nay

Các truy vấn ở chế độ tiếng ồn không hỗ trợ truy vấn dữ liệu của ngày hiện tại. (Bạn không nên dùng cách này ở chế độ kiểm tra chênh lệch.) Bạn không thể chọn ngày hiện tại cho những truy vấn sử dụng tính năng chèn nhiễu.

Kết quả trùng lặp

Ở chế độ nhiễu, Ads Data Hub giới hạn tần suất bạn có thể lặp lại cùng một phép tổng hợp. Nếu đạt đến các giới hạn này, các truy vấn ở chế độ nhiễu sẽ mất quyền truy cập vào những ngày được truy vấn thường xuyên trong tập dữ liệu. Sau đây là ví dụ về cách điều này có thể xảy ra.

Lặp lại truy vấn xảy ra khi cùng một truy vấn được chạy nhiều lần với cùng một tham số hoặc tham số tương tự, chẳng hạn như phạm vi ngày trùng lặp. Bạn có thể tránh trường hợp này bằng cách sử dụng dữ liệu đã được xuất sang dự án BigQuery của bạn.

Xin lưu ý rằng nếu hai công việc đang truy vấn các phạm vi ngày trùng lặp, thì chúng có thể tạo ra các lần lặp lại nếu thực hiện cùng một phép tính trên cùng một người dùng. Ví dụ: truy vấn sau đây, được thực thi trên các phạm vi ngày trùng lặp, sẽ tạo ra các lượt lặp lại vì truy vấn này phân vùng theo ngày:

SELECT DATE(TIMESTAMP_MICROS(event.event_time)) AS date,
COUNT(*) AS cnt
FROM adh.cm_dt_clicks
GROUP BY 1

Trong trường hợp này, bạn nên chạy truy vấn trên các phân đoạn ngày không liên tục.

Một ví dụ khác về sự lặp lại xảy ra khi dữ liệu không phụ thuộc vào ngày. Truy vấn sau đây tạo ra các lượt lặp lại khi được thực thi vào các ngày trùng nhau, trong đó cả hai công việc đều bao gồm toàn bộ thời gian chạy của một chiến dịch:

SELECT campaign_id, COUNT(*) AS cnt
FROM adh.google_ads_impressions
GROUP BY 1

Trong trường hợp này, bạn chỉ nên chạy truy vấn này một lần vì kết quả không thay đổi.

Sự lặp lại của hàm tổng hợp xảy ra khi cùng một hàm tổng hợp được lặp lại nhiều lần trong một truy vấn:

SELECT COUNT(*) AS cnt1, COUNT(*) AS cnt2
FROM table

Trong trường hợp này, bạn nên xoá một trong các lần lặp lại.

Xin lưu ý rằng ngay cả khi các phép tổng hợp khác nhau về mặt cú pháp nhưng tính toán cùng một giá trị, thì đó vẫn được coi là một phép lặp lại. Nói cách khác, nếu giá trị của condition1 và condition2 là như nhau đối với tất cả người dùng có một số giá trị của key, thì truy vấn sau sẽ có một lần lặp lại:

SELECT key, COUNTIF(condition1) AS cnt1, COUNTIF(condition2) AS cnt2
FROM table
GROUP BY key

Nếu có các điều kiện rất giống nhau cho một số nhóm người dùng, bạn có thể cân nhắc viết lại truy vấn để chỉ có một COUNT.

Trùng lặp hàng xảy ra khi một bảng Ads Data Hub được kết hợp với một bảng BigQuery theo cách mà mỗi hàng trong bảng Ads Data Hub khớp với nhiều hàng trong bảng BigQuery. Ví dụ: truy vấn sau đây sẽ tạo ra một lượt lặp lại nếu có nhiều hàng có cùng mã chiến dịch trong bq_table:

SELECT r.campaign_id, COUNT(*) AS cnt
FROM adh_table
INNER JOIN bq_table ON l.campaign_id = r.campaign_id

Trong trường hợp này, bạn nên tái cấu trúc truy vấn để bq_table chỉ có một hàng cho mỗi giá trị khoá kết hợp (trong trường hợp này là campaign_id).

Xin lưu ý rằng việc huỷ lồng một mảng từ bảng Ads Data Hub có thể tạo ra hiệu ứng tương tự nếu hầu hết người dùng có cùng mảng giá trị:

SELECT in_market_id, COUNT(*)
FROM adh.dv360_youtube_impressions,
UNNEST(in_market) AS in_market_id
GROUP BY 1

Tìm hiểu về các phương pháp hay nhất khác cho cụm từ tìm kiếm.

Giới thiệu về giai đoạn xem lại

Một số mẫu truy vấn tạo báo cáo trong một khung thời gian lớn, định kỳ tạo lại để bao gồm kết quả mới. Bạn có thể phải điều chỉnh các truy vấn này để hoạt động ở chế độ nhiễu vì nếu tính toán lại các kết quả trước đó, các truy vấn này sẽ bị chặn. Thay vào đó, mỗi công việc chỉ nên tạo kết quả mới, sau đó kết quả mới có thể được kết hợp với kết quả từ các công việc trước đó để tạo một báo cáo đầy đủ.

Ví dụ: nếu bạn đang tạo báo cáo về các chỉ số theo ngày, được làm mới hằng ngày:

SELECT
  campaign_id,
  DATE(TIMESTAMP_MICROS(query_id.time_usec), @time_zone) AS event_date,
  COUNT(*) AS impressions
FROM adh.google_ads_impressions
GROUP BY 1,2

Bạn không nên chạy lệnh này với một phạm vi ngày lớn vì lệnh này sẽ tính toán lại kết quả của những ngày trước đó. Thay vào đó, bạn chỉ nên chạy mỗi công việc vào ngày mới nhất có dữ liệu mới, sau đó kết hợp với kết quả của các công việc trước đó.

Nếu cần làm mới kết quả trước đó (ví dụ: để tính đến dữ liệu đến muộn), thì bạn nên tránh tính toán lại bất kỳ kết quả nào quá 1 hoặc 2 lần. Nếu không, bạn có thể gặp lỗi do lặp lại các lần thử truy vấn.

Tái tổng hợp trực tiếp

Nhiễu được áp dụng cho lớp tổng hợp đầu tiên trên nhiều người dùng trong truy vấn. Các truy vấn có nhiều lớp tổng hợp sẽ kết hợp các kết quả nhiễu, vì vậy, các giá trị tổng hợp cuối cùng có thể có nhiều nhiễu hơn. Những truy vấn này sẽ nhận được cảnh báo khi xác thực:

WITH layer_1 AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
)
# Reaggregation of partial_result with no user-level data, will be rejected
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

Để có kết quả tốt nhất từ nhiễu, hãy tính toán tất cả các thao tác trên nhiều người dùng trong một quy trình tổng hợp duy nhất. Ví dụ: lấy SUM sự kiện thay vì SUM số lượng trung gian.

Nếu không thể tránh được việc tổng hợp nhiều lớp, bạn có thể giải quyết cảnh báo bằng cách xuất kết quả trực tiếp từ lớp đầu tiên. Để thực hiện việc này trong một tác vụ duy nhất mà không thay đổi kết quả tập lệnh, hãy tạo một bảng tạm thời (hoặc một bảng được xuất sang dự án BigQuery của bạn) bằng cú pháp OPTIONS(privacy_checked_export=true). Ví dụ:

CREATE TEMP TABLE layer_1 OPTIONS(privacy_checked_export=true) AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
);
# Reaggregation of privacy checked data, no noise needed
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

Tìm hiểu thêm về bảng tạm thời.

Nếu lớp tổng hợp đầu tiên quá chi tiết cho các quy trình kiểm tra quyền riêng tư, hãy cân nhắc việc viết lại truy vấn bằng các giá trị tổng hợp ở cấp người dùng. Nếu không thể, thì truy vấn này không được hỗ trợ ở chế độ khử tiếng ồn.

Mã nhận dạng người dùng chưa được liên kết

Các truy vấn ở chế độ tạo nhiễu không được kết hợp dữ liệu của nhiều người dùng riêng biệt thành một hàng duy nhất, trừ phi thực hiện một phép tổng hợp có nhiễu. Do đó, các thao tác kết hợp dữ liệu chưa được tổng hợp của Ads Data Hub phải kết hợp một cách rõ ràng trên cột user_id.

Truy vấn này không kết hợp rõ ràng trên cột user_id, dẫn đến cảnh báo xác thực:

SELECT …
FROM adh.google_ads_impressions
JOIN adh.google_ads_creative_conversions USING(impression_id)

Các phép kết hợp như thế này có thể không hoạt động như mong đợi vì chỉ những hàng có cùng giá trị user_id mới khớp. Bạn có thể khắc phục vấn đề này bằng cách điều chỉnh mệnh đề USING để đưa user_id vào một cách rõ ràng – ví dụ: USING(impression_id, user_id).

Xin lưu ý rằng hạn chế này chỉ áp dụng cho các thao tác kết hợp giữa các bảng Ads Data Hub (ngoại trừ bảng phương diện). Quy tắc này không áp dụng cho các bảng do khách hàng sở hữu. Ví dụ: Chúng tôi cho phép những thông tin sau:

SELECT …
FROM adh.google_ads_impressions
JOIN bigquery_project.dataset.table USING(any_column)

Phép kết hợp bên phải Ads Data Hub – BigQuery

Các phép kết hợp ngoài với dữ liệu do khách hàng sở hữu có thể dẫn đến các hàng bị thiếu giá trị nhận dạng người dùng, điều này khiến nhiễu không hoạt động hiệu quả.

Cả hai truy vấn này đều dẫn đến cảnh báo xác thực vì chúng cho phép các hàng không khớp có giá trị nhận dạng người dùng bị thiếu ở phía Ads Data Hub:

SELECT …
FROM adh.google_ads_impressions
RIGHT JOIN bigquery_project.dataset.table USING(column)

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions USING(column)

Xin lưu ý rằng cả hai thao tác kết hợp đều sẽ hoạt động nếu thứ tự của các bảng bị đảo ngược. Cũng có một trường hợp ngoại lệ đối với các bảng RDID kết hợp trực tiếp trên device_id_md5. Ví dụ: truy vấn sau sẽ hoạt động mà không có cảnh báo:

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions_rdid USING(device_id_md5)

Nội dung tóm tắt về hàng đã lọc

Chế độ tóm tắt hàng đã lọc không được hỗ trợ ở chế độ nhiễu. Tính năng này thường không cần thiết khi có tiếng ồn do tốc độ lọc thấp hơn và không có tính năng lọc từ các lần kiểm tra sai biệt.

Nếu bạn nhận thấy việc lọc dữ liệu đáng kể trong kết quả nhiễu, hãy tăng dữ liệu tổng hợp. Bạn có thể thực hiện một quy trình tổng hợp song song trên toàn bộ tập dữ liệu để so sánh một số liệu ước tính về tổng số, ví dụ:

SELECT campaign_name, COUNT(*)
FROM data
GROUP BY 1
UNION ALL
SELECT 'Total', COUNT(*)
FROM data
GROUP BY 1

Xin lưu ý rằng tổng số được làm nhiễu độc lập và tổng giá trị có thể không cộng lại, nhưng tổng số thường chính xác hơn so với việc lấy tổng của các hàng bị làm nhiễu.

Bảng được tạo trên nhiều chế độ

Bạn chỉ có thể sử dụng các bảng chưa xuất trong Ads Data Hub ở cùng chế độ riêng tư nơi chúng được tạo. Bạn không thể tạo bảng ở chế độ tổng hợp thông thường và sử dụng bảng đó ở chế độ nhiễu hoặc ngược lại (trừ phi bảng đó được xuất sang BigQuery trước).

Chèn tiếng ồn Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Tìm hiểu lợi ích của việc sử dụng kỹ thuật chèn nhiễu

Tìm hiểu cách tiếng ồn ảnh hưởng đến các yêu cầu về quyền riêng tư

Tìm hiểu cách việc chèn nhiễu ảnh hưởng đến kết quả

Giới thiệu về tính năng giới hạn tổng hợp

Kẹp ngầm

Kẹp rõ ràng

Chạy một truy vấn bằng cách thêm nhiễu

Xem xét tác động của tiếng ồn

Điều chỉnh truy vấn

Hàm tổng hợp được hỗ trợ

Hàm tổng hợp bổ sung

Tính giá trị MIN và MAX

Giới thiệu về kết quả số nguyên

Giới thiệu về kết quả phủ định

Nhóm công khai

Các mẫu truy vấn được hỗ trợ

Số liệu tổng hợp ở cấp người dùng

Tập hợp song song

Dữ liệu tổng hợp kết hợp với dữ liệu chưa tổng hợp

Các mẫu truy vấn không được hỗ trợ

Cụm từ tìm kiếm bao gồm cả hôm nay

Kết quả trùng lặp

Giới thiệu về giai đoạn xem lại

Tái tổng hợp trực tiếp

Mã nhận dạng người dùng chưa được liên kết

Phép kết hợp bên phải Ads Data Hub – BigQuery

Nội dung tóm tắt về hàng đã lọc

Bảng được tạo trên nhiều chế độ

Chèn tiếng ồn