이 페이지는 Cloud Translation API를 통해 번역되었습니다.

노이즈 삽입

노이즈 삽입은 데이터베이스를 쿼리할 때 사용자의 개인 정보를 보호하는 기술로, 쿼리의 집계되는 SELECT 절에 임의의 노이즈를 추가합니다. 이 노이즈는 합리적인 수준에서 정확한 결과를 제공하면서 사용자의 개인 정보를 보호하므로 데이터 차이 검사를 실행할 필요가 없으며 출력을 위해 필요한 집계 기준점이 낮아집니다. 대부분의 기존 쿼리는 노이즈 모드에서 실행될 수 있으나 일부 제한사항이 있습니다.

노이즈 삽입 사용 시 이점 알아보기

데이터 차이 검사가 적용되지 않음: 노이즈 삽입을 사용해 쿼리를 실행하면 이전 결과 집합과 유사하기 때문에 Ads Data Hub에서는 행이 필터링되지 않습니다. 즉, 사용자 개인 정보를 보호하면서 데이터를 종합적으로 파악할 수 있습니다.

간단한 문제 해결: 집계 요구사항에 의해서만 행이 누락되므로 쿼리 관련 문제를 해결하고 쿼리를 조정하기 더 쉽습니다.

새 문법을 배울 필요가 없음: 데이터 차이 검사 대신 노이즈를 사용하기 위해 새로운 쿼리 문법을 배우거나 개인 정보 보호에 관한 개념에 능통하지 않아도 됩니다.

결과 정확도 보고: 완료된 작업에서 노이즈의 영향을 받을 수 있는 데이터의 총비율이 표시됩니다.

노이즈가 개인 정보 보호 요건에 미치는 영향 알아보기

데이터 차이 검사: 노이즈 삽입은 Ads Data Hub의 기존 데이터 차이 검사를 사용하지 않습니다. 노이즈 삽입을 사용하면 데이터 차이 검사가 중지됩니다.

집계 요구사항: 노이즈 삽입은 20명 이상의 순 사용자로 표시되는 노출수 데이터 및 10명 이상의 순 사용자로 표시되는 클릭수 또는 전환 데이터를 출력합니다.

정적 체크: 영향을 미치지 않습니다.

예산 및 쿼리 한도: 노이즈를 사용해 실행된 쿼리는 데이터 차이 검사에서 사용된 데이터 액세스 예산을 공유합니다. 데이터 차이 검사와 마찬가지로 동일한 데이터 세트에서 여러 번 동일한 쿼리를 실행하면 데이터 세트에서 자주 쿼리되는 날짜에 액세스하지 못할 수 있습니다. 이는 슬라이딩 윈도우 쿼리를 실행하거나 같은 요청을 여러 번 하는 경우에 발생할 수 있습니다.

노이즈 모드는 쿼리 내에서 혹은 쿼리 간에 동일한 집계 결과를 다시 계산할 때 더 엄격한 추가 한도를 적용합니다. 데이터 액세스 예산과 마찬가지로 데이터 세트에서 자주 쿼리되는 날짜에 액세스하지 못할 수 있습니다. 다만 동일한 집계 결과를 다시 계산하여 발생하는 제한사항은 노이즈 모드의 쿼리에만 적용되며 데이터 차이 검사 모드의 쿼리에는 영향을 주지 않습니다. 자세한 내용은 반복된 결과를 참고하세요.

개인 정보 보호 검사 자세히 알아보기

노이즈 삽입이 결과에 미치는 영향 알아보기

Ads Data Hub는 노이즈를 삽입하여 특정 사용자에 대한 정보를 다른 개인이 파악할 위험, 즉 공개 위험을 완화합니다. 개인 정보를 보호하는 동시에 유용성을 유지합니다.

Ads Data Hub의 노이즈 삽입 기술은 다음과 같이 쿼리 결과를 변환합니다.

집계 결과에서 이상 사용자의 기여도를 고정합니다. 각 집계에서 모든 사용자의 기여도를 합산한 다음 최소 및 최대 고정 범위 내에서 각 기여도에 한도를 적용합니다.
고정된 사용자당 기여도를 집계합니다.
행별 집계 함수 호출의 결과인 집계 결과에 노이즈를 추가합니다. 임의로 추가되는 노이즈의 규모는 고정된 범위에 비례합니다.
모든 행에서 노이즈가 추가된 사용자의 수를 계산한 다음 사용자가 너무 적은 행은 제거합니다. 이는 데이터 차이 검사 모드의 k-익명성 기능과 유사하지만 노이즈로 인해 동일한 데이터 세트에서 실행 중인 작업이 서로 다른 행을 삭제할 수 있다는 점에서 차이가 있습니다. 또한 노이즈 모드는 집계 요건이 20개로, 데이터 차이 검사의 50개보다 적으므로 삭제하는 행이 더 적습니다.

최종적으로 모든 행에 노이즈가 적용된 집계 결과가 포함되고 규모가 작은 그룹은 제거된 데이터 세트가 생성됩니다. 그 결과 반환된 결과에서 개인 사용자가 미치는 영향이 드러나지 않습니다.

집계 고정에 관한 정보

Ads Data Hub의 노이즈 삽입은 이상 사용자의 기여도를 제한하기 위해 암시적/명시적인 집계 고정을 적용합니다. 사용 사례에 따라 이용할 고정 유형을 선택할 수 있습니다.

암시적 고정

암시적 고정을 사용할 때는 특별한 SQL 문법이 필요하지 않으며 기본적으로 적용됩니다. 암시적 범위는 데이터 자체에서 파생되며 각 집계에 대해 결정됩니다. 일부 집계의 값 범위가 다른 집계보다 넓은 경우 암시적 경계는 다른 집계에 대해 적절한 경계를 추론할 수 있습니다. 이로 인해 일반적으로 오류가 줄어듭니다. COUNT(DISTINCT user_id)는 상한이 1인 명시적 고정을 자동으로 사용합니다.

명시적 고정

명시적 고정에서는 모든 사용자의 총기여도가 특정 범위로 고정됩니다. 명시적 범위는 모든 집계에 동일하게 적용되며 리터럴 값이어야 합니다. 일반적으로 경계를 알고 있는 경우 명시적 클램핑을 사용하면 더 나은 결과를 얻을 수 있습니다. 예를 들어 연령을 0~100세로 제한하는 것은 대부분의 사람의 연령이 일반적으로 이 범위에 속하기 때문에 공개 정보를 반영합니다.

Ads Data Hub는 명시적 고정을 위한 보충 ADH.ANON 집계 함수를 제공합니다. 명시적 고정을 사용하려면 지원되는 모든 집계 함수에 하한과 상한 범위를 지정하는 정수를 추가하여 범위를 설정하세요. 예를 들면 다음과 같습니다.

SELECT
campaign_name,
-- Set lower and upper bounds to 0 and 1, respectively
ADH.ANON_COUNT(*, contribution_bounds_per_group => (0,1))
FROM data
GROUP BY 1

노이즈 삽입을 사용하여 쿼리 실행

보고서를 엽니다.
개인 정보 보호 노이즈 설정 전환 스위치를 클릭하여 노이즈 사용 위치로 전환합니다.
쿼리를 실행합니다.
추가된 노이즈의 영향을 검토합니다.
선택사항: 노이즈가 미치는 영향을 줄이려면 쿼리를 조정합니다.

노이즈 영향 검토

작업이 완료되면 Ads Data Hub에서 개인 정보 보호 요약에 결과의 신뢰도를 표시합니다. 신뢰성은 출력에서 노이즈의 영향을 많이 받을 수 있는 셀의 비율을 기반으로 합니다. 추가된 노이즈의 규모가 셀 내 결과의 5%를 초과하는 경우, 결과 테이블의 값이 영향을 받은 것으로 간주됩니다.

영향을 받은 결과 데이터 세트의 경우 개인 정보 보호 요약에 노이즈가 가장 많이 적용된 10개의 열이 나열되며, 가장 높은 영향 수준에서 가장 낮은 영향 수준 순서로 정렬되고 노이즈에 대한 기여도와 함께 표시됩니다. 노이즈 영향 라벨의 분류는 다음과 같습니다.

영향을 받는 결과의 비율	표시 색상	효과
5% 미만	초록색	낮은 수준의 영향
5~15%	노란색	중간 수준의 영향
15~25%	Orange	높은 수준의 영향
>25%	빨간색	매우 높은 수준의 영향

홈 페이지에서 최근 보고서 작업의 개인 정보 보호 요약을 미리 볼 수도 있습니다. 특정 작업의 개인 정보 보호 설정을 미리 보려면 최근 활동 아래의 작업 카드에서 개인 정보 보호 팁 아이콘 privacy_tip 위로 포인터를 가져갑니다.

쿼리 조정

결과에 포함되는 사용자의 수가 너무 적은 경우 집계가 노이즈의 영향을 받을 가능성이 큽니다. 이 상황은 소규모 사용자 집합에서 집계가 계산되거나 일부 사용자가 결과에 영향을 미치지 않을 때 발생할 수 있습니다(예: COUNTIF 함수를 사용하는 경우). 노이즈 보고서를 기반으로 영향을 받는 결과의 비율을 줄이도록 쿼리를 조정할 수 있습니다.

다음은 일반적인 가이드라인입니다.

기간을 확장합니다.
쿼리를 다시 작성하여 데이터의 세분화 정도를 줄입니다. 예로 그룹화에 사용되는 매개변수를 줄이거나 COUNTIF를 COUNT로 대체합니다.
노이즈가 많은 열을 제거합니다.
합리적인 경계를 선택할 수 있는 경우 명시적 고정을 사용해 보세요.

지원되는 집계 함수

다음 집계 함수는 노이즈를 지원합니다.

SUM(...)
COUNT(*)
COUNT(...)
COUNTIF(...)
COUNT(DISTINCT user_id)
APPROX_COUNT_DISTINCT(user_id)
AVG(...)

DISTINCT 키워드는 COUNT 함수에서만 지원되며, Ads Data Hub 테이블의 user_id 열을 직접 참조하거나 user_id 또는 NULL을 반환하는 표현식(예: COUNT(DISTINCT IF(..., user_id, NULL)))과 같이 사용해야 합니다.

이러한 제한사항은 노이즈가 포함된 집계(첫 번째 수준의 교차 사용자 집계)에만 적용됩니다. 사용자 수준 집계와 노이즈 삽입 후의 집계는 제한되지 않습니다.

보조 집계 함수

Ads Data Hub는 일반 집계기를 지원하는 것 외에도 명시적 클램핑을 지원하는 보충 ADH.ANON 집계 함수를 도입합니다. 이러한 집계기는 BigQuery 개인 정보 차등 보호 집계 함수와 구문을 공유하지만 WITH DIFFERENTIAL_PRIVACY 절은 필요하지 않습니다.

ADH.ANON_SUM( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( *, [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_AVG( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_PERCENTILE_CONT( ..., percentile, contribution_bounds_per_row => (lower_bound, upper_bound) )

ADH.ANON_SUM, ADH.ANON_COUNT, ADH.ANON_AVG 매개변수:

contribution_bounds_per_group: 사용자별 기여도는 GROUP BY 키로 정의된 각 파티션에 대해 고정됩니다. 상한 및 하한은 값이 사용자별로 집계된 후 그룹별 값에 적용됩니다.
lower_bound: 집계에 포함할 가장 작은 값을 나타내는 숫자 리터럴입니다.
upper_bound: 집계에 포함할 가장 큰 값을 나타내는 숫자 리터럴입니다.

ADH.ANON_PERCENTILE_CONT 매개변수:

percentile: 계산할 백분위수입니다. [0, 1] 범위의 리터럴입니다.
contribution_bounds_per_row: 사용자별 기여도는 행별 (레코드별)로 고정됩니다. 백분위수에는 명시적 클램핑 경계가 필요하므로 보조 함수로만 지원됩니다.
lower_bound: 집계에 포함할 가장 작은 값을 나타내는 숫자 리터럴입니다.
upper_bound: 집계에 포함할 가장 큰 값을 나타내는 숫자 리터럴입니다.

최솟값 및 최댓값 계산

MIN 및 MAX 함수는 노이즈 집계에서 직접 지원되지 않지만 이러한 결과를 계산하는 대체 방법이 있는 경우가 많습니다.

이벤트 날짜와 같이 그룹화 키로 사용할 수 있는 MIN 또는 MAX 값이 있는 경우 먼저 해당 값으로 그룹화한 다음 MIN/MAX을 계산할 수 있습니다. 집계 기준을 통과하는 최솟값 또는 최댓값을 반환합니다.

예:

WITH campaign_date_ranges AS (
  SELECT campaign_id, MIN(event_date) AS min_date, MAX(event_date) AS max_date
  FROM (
    # Aggregation thresholding will be applied here
    SELECT DISTINCT
      campaign_id,
      DATE(query_id.time_usec, @time_zone) AS event_date
    FROM adh.google_ads_impressions
  )
)
SELECT campaign_id, num_impressions, min_date, max_date
FROM (
  # Noise and aggregation thresholding will be applied here
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
)
JOIN campaign_date_ranges USING(campaign_id)

또는 알려진 경계가 있는 세부 값의 MIN 또는 MAX가 있는 경우 명시적 경계와 함께 PERCENTILE_CONT를 사용하여 근사 결과를 얻을 수 있습니다.

예:

SELECT
  campaign_id,
  COUNT(*) AS num_impressions,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 0,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS min_timestamp,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 1,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS max_timestamp
FROM adh.google_ads_impressions

정수 결과에 관한 정보

Ads Data Hub에서는 이러한 집계 함수에 노이즈가 자동으로 삽입되지만 함수 서명은 변경되지 않습니다. INT64의 COUNT 또는 SUM과 같은 함수는 INT64를 반환하므로 노이즈가 적용된 결과의 모든 소수점 뒷부분은 반올림됩니다. 결과의 규모와 노이즈를 감안했을 때 이는 일반적으로 무시할 수 있습니다.

결과에 소수점 뒷부분까지 포함하는 세분화 정도가 필요하다면 INT64를 반환하는 함수를 작성하지 마세요(예: SUM에서 입력을 FLOAT64로 지정).

부정적인 결과 정보

원칙적으로 값이 매우 작은 노이즈는 쿼리에 대해 의미상 불가능한 경우에도 음수를 초래할 수 있습니다. 예상되는 동작을 유지하기 위해 모든 형태의 COUNT 및 COUNTIF는 0에서 자동으로 클램핑되므로 음수 결과를 제공하지 않습니다. SUM와 같은 다른 함수에서 동일한 동작을 원한다면 GREATEST(0, SUM(...))를 사용하여 결과를 수동으로 클램프하면 됩니다.

이 변경사항은 일반적으로 무시할 수 있지만 전체 결과에 약간의 긍정적인 편향을 도입합니다.

공개 그룹

GROUP BY 절을 사용하면 쿼리의 익명처리된 결과가 그룹별로 집계됩니다. 개별 사용자 데이터가 보호되도록 그룹에 충분한 수의 사용자가 포함되도록 집계 기준이 적용됩니다. 출시할 수 있는 그룹을 결정하는 프로세스를 '파티션 선택'이라고 합니다.

대부분의 경우 그룹은 공개 정보일 수 있습니다. 예를 들어 브라우저 버전, 요일 또는 지리적 지역별로 그룹화하는 경우 그룹화 키 값을 미리 알고 있다면 사용자 데이터에 의존하지 않습니다. 이 경우 출력에 그룹이 있는지 여부가 사용자에 관한 새로운 정보를 제공하지 않으므로 파티션 선택을 생략할 수 있습니다.

Ads Data Hub는 공개 그룹에 적합한 쿼리를 식별하고 이러한 쿼리에는 집계 기준을 적용하지 않습니다. 즉, 필터링된 출력 행이 없습니다. 소수의 사용자로부터 계산된 결과는 노이즈의 영향을 크게 받을 수 있습니다.

공개 그룹을 사용하려면 모든 그룹화 키를 미리 알 수 있도록 쿼리를 구조화해야 합니다. 그룹화 열은 다음 조건을 충족해야 합니다.

공개 테이블 (Ads Data Hub 사용자 데이터가 없는 테이블 또는 SELECT 절)에서 가져옵니다.
고유한 값을 적용하기 위해 SELECT DISTINCT이 적용되어 있습니다.
모든 개별 열에 OUTER JOIN가 포함된 쿼리에 조인됩니다.

공개 그룹 쿼리의 예:

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT age_group_id FROM adh.age_group)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT * FROM UNNEST([1, 2, 3]) AS age_group_id)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

첫 번째 예에서는 보호된 adh.google_ads_impressions table이 age_group_id 열에 사용자 데이터가 포함되지 않은 adh.age_group 테이블과 조인됩니다. 동일한 공개 테이블 age_group_id 열이 GROUP BY 절에 표시됩니다.

마찬가지로 두 번째 예시에서는 보호된 adh.google_ads_impressions 테이블이 UNNEST([1, 2, 3])로 명시적으로 제공되는 공개 테이블과 조인됩니다. 두 예시 모두 그룹화 키 age_group_id가 공개 테이블에서 가져온 것임을 알 수 있습니다.

다음과 같이 여러 그룹화 항목을 제공할 수도 있습니다.

SELECT campaign_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT campaign_id, customer_id FROM adh.google_ads_campaign)
USING (campaign_id, customer_id)
GROUP BY campaign_id, customer_id

SELECT p.campaign_id, p.browser, COUNT(*) FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY campaign_id, browser;

공개 그룹 쿼리에서 필터링이 없으면 출력이 항상 동일한 고정 그룹화 키 값에 대해 반환되므로 반복적으로 실행되는 쿼리에 유용할 수 있습니다. 예를 들어 정기 대시보드를 빌드하는 데 특히 유용합니다.

주의사항: 공개 테이블에서 매우 많은 그룹화 키 값을 제공하는 경우 데이터가 거의 없거나 전혀 없는 행이 많이 표시될 수 있으며 이러한 행은 모두 노이즈 영향이 높은 것으로 보고됩니다. 이 경우 관심 있는 값만 포함된 더 작은 키 목록을 명시적으로 제공하는 것이 좋습니다.

지원되는 쿼리 패턴

중요: Ads Data Hub의 표준 권장사항 대부분은 노이즈 삽입을 사용하는 쿼리에도 적용됩니다. 특히 같은 데이터에 대한 반복적인 쿼리에 관한 가이드를 참고하는 것이 좋습니다.

이 섹션에서는 노이즈 삽입을 사용한 쿼리를 실행할 때 지원되는 쿼리 패턴을 설명합니다.

사용자 수준 집계

제한이 없는 사용자 수준 집계는 데이터 차이 검사 모드에서와 같은 방식으로 지원됩니다. 노이즈는 여러 사용자에 관한 데이터를 결합하는 집계에서만 삽입됩니다. 명시적으로 user_id로 그룹화하는 집계나 user_id로 파티셔닝하는 분석 함수에는 노이즈가 적용되지 않으며 모든 함수가 허용됩니다. 명시적으로 user_id로 그룹화하지 않는 사용자 수준의 집계(예: GROUP BY impression_id)는 교차 사용자 집계로 간주되므로 노이즈가 추가됩니다.

external_cookie별로 그룹화하는 것으로는 충분하지 않습니다. external_cookie를 사용하여 *_match 테이블을 고객 소유 테이블과 조인할 수 있지만 단일 사용자 집계에서는 명시적으로 external_cookie 열뿐 아니라 user_id 열을 기준으로 그룹화해야 합니다.

집계 함수의 예시:

WITH user_paths AS (
  # Grouping by user_id, no noise needed, all functions allowed
  SELECT user_id, STRING_AGG(campaign_id, ">" ORDER BY query_id.time_usec) AS path
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to num_users
SELECT path, COUNT(*) AS num_users
FROM user_paths
GROUP BY 1;

분석 함수의 예시:

WITH events AS (
  # Partitioning by user_id, no noise needed, all functions allowed
  SELECT
    campaign_id,
    ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY query_id.time_usec) AS index
  FROM adh.google_ads_impressions
)
# Noise applied here to first_impressions
SELECT campaign_id, COUNT(*) AS first_impressions
FROM events
WHERE index = 1
GROUP BY 1;

병렬 집계

각 교차 사용자 집계에는 노이즈가 독립적으로 적용됩니다. 단일 구문을 사용하면 이러한 집계를 여러 개 실행할 수 있으며, JOIN 또는 UNION을 통해 하나의 테이블로 결과를 결합할 수 있습니다.

예:

WITH result_1 AS (
  # Noise applied here to num_impressions
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
  GROUP BY 1
), result_2 AS (
  # Noise applied here to num_clicks
  SELECT campaign_id, COUNT(*) AS num_clicks
  FROM adh.google_ads_creative_conversions
  GROUP BY 1
)
SELECT * FROM result_1 JOIN result_2 USING(campaign_id)

이 방식은 데이터 차이 검사 모드에서도 지원되지만 사용하지 않는 것이 좋습니다. 모든 병렬 집계에서는 노이즈 및 필터링이 독립적으로 적용되므로 이 관행은 노이즈에 영향을 주지 않습니다.

집계되지 않은 데이터와 조인된 집계 데이터

Ads Data Hub에서는 user_id로 파티셔닝하는 분석 윈도우만 지원되므로, 일반적인 해결 방법으로 이러한 결과를 별도로 집계한 다음, 다시 집계하기 전에 자체 조인할 수 있습니다. 이러한 쿼리는 노이즈 모드에서 지원되며, 개인 정보 보호 요건이 미리 충족되었으므로 데이터 차이 검사 모드에서보다 더 효과적으로 작동합니다.

예:

WITH campaign_totals AS (
  # Noise applied here to campaign_imps
  SELECT campaign_id, COUNT(*) AS campaign_imps
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to imps
SELECT campaign_id, demographics, campaign_imps, COUNT(*) AS imps
FROM adh.google_ads_impressions JOIN campaign_totals USING(campaign_id)
GROUP BY 1,2,3

노이즈 모드에서는 AVG(campaign_imps) 등의 집계 결과를 재집계하지 않는 것이 좋습니다.

지원되지 않는 쿼리 패턴

이 섹션에서는 노이즈 삽입을 사용하는 쿼리를 실행할 때 지원되지 않는 쿼리 패턴을 설명합니다.

현재 날짜의 데이터를 포함하는 쿼리

노이즈 모드 쿼리는 현재 날짜의 데이터 쿼리를 지원하지 않습니다. 이는 데이터 차이 검사 모드에서도 사용하지 않는 것이 좋습니다. 노이즈 삽입을 사용하는 쿼리에서는 현재 날짜를 선택할 수 없습니다.

반복된 결과

Ads Data Hub에서 노이즈 모드를 사용하면 같은 집계를 반복할 수 있는 한도가 적용됩니다. 해당 한도에 도달하면 노이즈 모드 쿼리는 데이터 세트에서 자주 쿼리되는 날짜에 액세스할 수 없게 됩니다. 다음은 이러한 상황이 발생할 수 있는 예시입니다.

쿼리 반복은 같은 쿼리가 중복되는 기간 등 동일한 매개변수 또는 매우 유사한 매개변수를 사용하여 여러 번 실행될 때 발생합니다. BigQuery 프로젝트에서 이미 내보낸 데이터를 사용하면 이 상황을 방지할 수 있습니다.

2개의 작업이 동일한 사용자에 대해 같은 계산을 실행하는 경우, 중복되는 기간을 쿼리하면 반복이 발생할 수 있습니다. 예를 들어 중복되는 기간을 기준으로 실행되는 다음 쿼리는 날짜별로 파티셔닝하므로 반복이 생성됩니다.

SELECT DATE(TIMESTAMP_MICROS(event.event_time)) AS date,
COUNT(*) AS cnt
FROM adh.cm_dt_clicks
GROUP BY 1

이런 경우는 분리된 날짜 세그먼트에서 쿼리를 실행해야 합니다.

반복이 발생할 수 있는 다른 예로는 데이터가 어느 정도 날짜와 관련이 없을 때입니다. 두 작업이 캠페인의 전체 기간과 관련이 있는 경우, 다음 쿼리는 중복되는 날짜에서 실행될 때 반복을 생성합니다.

SELECT campaign_id, COUNT(*) AS cnt
FROM adh.google_ads_impressions
GROUP BY 1

이 경우 결과가 달라지지 않으므로 쿼리를 한 번만 실행해야 합니다.

집계 반복은 특정 집계가 쿼리 내에서 여러 번 반복되었을 때 발생합니다.

SELECT COUNT(*) AS cnt1, COUNT(*) AS cnt2
FROM table

이 경우 반복 중 하나를 삭제해야 합니다.

집계가 문법적으로는 다르지만 동일한 값을 계산하는 경우에도 반복으로 간주됩니다. 즉, condition1 및 condition2의 값이 모든 사용자에 대해 key로 동일하면 다음 쿼리는 반복을 생성하게 됩니다.

SELECT key, COUNTIF(condition1) AS cnt1, COUNTIF(condition2) AS cnt2
FROM table
GROUP BY key

일부 사용자 그룹에 대해 매우 유사한 조건이 있다면 COUNT가 하나만 포함되도록 쿼리를 다시 작성하는 것이 좋습니다.

행 중복은 Ads Data Hub 테이블의 각 행이 BigQuery 테이블의 여러 행과 일치하는 방식으로 Ads Data Hub 테이블과 BigQuery 테이블이 조인되었을 때 발생합니다. 예를 들어 다음 쿼리는 bq_table에서 동일한 캠페인 ID를 갖는 행이 여러 개가 있을 때 반복을 생성합니다.

SELECT r.campaign_id, COUNT(*) AS cnt
FROM adh_table
INNER JOIN bq_table ON l.campaign_id = r.campaign_id

이 경우 조인 키 값(이 예에서는 campaign_id)마다 bq_table에 행 1개만 포함되도록 쿼리를 재구성해야 합니다.

사용자 대부분의 값 배열이 동일하다면 Ads Data Hub 테이블에서 배열을 중첩 해제하여 동일한 효과를 얻을 수 있습니다.

SELECT in_market_id, COUNT(*)
FROM adh.dv360_youtube_impressions,
UNNEST(in_market) AS in_market_id
GROUP BY 1

다른 쿼리 권장사항 알아보기

전환 확인 기간에 대한 정보

일부 쿼리 패턴은 넓은 기간에 걸쳐 보고서를 생성하며, 새 결과를 포함하기 위해 주기적으로 재생성됩니다. 이러한 쿼리는 이전 결과를 다시 계산하면 차단되므로 노이즈 모드에서 작동하도록 조정해야 할 수 있습니다. 대신 각 작업은 새 결과만 생성해야 하며, 새 결과를 이전 작업의 결과와 결합하여 전체 보고서를 만들 수 있습니다.

예를 들어 매일 새로고침되는 날짜별 측정항목 보고서를 만드는 경우 다음 단계를 따르세요.

SELECT
  campaign_id,
  DATE(TIMESTAMP_MICROS(query_id.time_usec), @time_zone) AS event_date,
  COUNT(*) AS impressions
FROM adh.google_ads_impressions
GROUP BY 1,2

이전 날짜의 결과를 다시 계산하므로 날짜 범위를 넓게 설정하여 실행하면 안 됩니다. 대신 새 데이터가 있는 최신 날짜에만 각 작업을 실행한 다음 이전 작업의 결과와 결합해야 합니다.

이전 결과를 새로고침해야 하는 경우 (예: 늦게 도착한 데이터를 고려하기 위해) 단일 결과를 2회 이상 다시 계산하지 않아야 합니다. 그렇지 않으면 반복된 쿼리 시도로 인해 오류가 발생할 수 있습니다.

직접 재집계

노이즈는 쿼리에서 교차 사용자 집계의 첫 레이어에 적용됩니다. 여러 레이어의 집계를 포함하는 쿼리는 노이즈가 있는 결과를 결합하므로 최종 집계에 더 많은 노이즈가 포함될 수 있습니다. 이러한 쿼리는 유효성 검사 시 경고를 받습니다.

WITH layer_1 AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
)
# Reaggregation of partial_result with no user-level data, will be rejected
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

노이즈로 최상의 결과를 얻으려면 모든 교차 사용자 작업을 단일 집계 내에서 계산하세요. 예를 들어 중간 개수의 SUM 대신 이벤트의 SUM을 사용합니다.

다중 레이어 집계가 불가피한 경우 첫 번째 레이어에서 직접 결과를 내보내면 경고를 해결할 수 있습니다. 단일 작업에서 스크립트 결과를 변경하지 않고 쿼리를 다시 작성하려면 OPTIONS(privacy_checked_export=true) 문법으로 임시 테이블 또는 BigQuery 프로젝트로 내보낸 테이블을 생성하세요. 예를 들면 다음과 같습니다.

CREATE TEMP TABLE layer_1 OPTIONS(privacy_checked_export=true) AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
);
# Reaggregation of privacy checked data, no noise needed
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

임시 테이블 자세히 알아보기

집계의 첫 레이어가 개인 정보 보호 검사에 사용하기에 너무 세부적이라면 사용자 수준 집계를 사용하여 쿼리를 다시 작성할 수 있습니다. 이를 실행할 수 없다면 이 쿼리는 노이즈 모드에서 지원되지 않습니다.

조인되지 않은 사용자 ID

노이즈를 포함한 집계를 실행하는 경우를 제외하면 노이즈 모드의 쿼리는 별도 사용자들의 데이터를 하나의 행으로 결합할 수 없습니다. 따라서 집계되지 않은 Ads Data Hub 데이터의 조인은 명시적으로 user_id 열에서 조인되어야 합니다.

이 쿼리는 user_id 열에서 명시적으로 조인하지 않으므로 유효성 경고가 발생합니다.

SELECT …
FROM adh.google_ads_impressions
JOIN adh.google_ads_creative_conversions USING(impression_id)

이러한 조인은 user_id 값이 동일한 행만 일치하므로 예상대로 작동하지 않을 수 있습니다. 이 문제는 USING 절이 명시적으로 user_id를 포함하도록 조정하여 해결할 수 있습니다(예: USING(impression_id, user_id)).

이 제한은 Ads Data Hub 테이블 간 조인에만 적용되며(측정기준 테이블 제외) 고객 소유 테이블에는 적용되지 않습니다. 예를 들어 다음은 허용됩니다.

SELECT …
FROM adh.google_ads_impressions
JOIN bigquery_project.dataset.table USING(any_column)

Ads Data Hub-BigQuery 오른쪽 조인

고객 소유 데이터와 외부 조인 시 사용자 식별자가 누락된 행이 발생할 수 있으며, 이로 인해 노이즈 성능이 저하될 수 있습니다.

이러한 쿼리는 모두 Ads Data Hub 측에서 사용자 식별자가 누락된 일치하지 않는 행을 허용하므로 유효성 경고가 발생합니다.

SELECT …
FROM adh.google_ads_impressions
RIGHT JOIN bigquery_project.dataset.table USING(column)

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions USING(column)

테이블의 순서가 뒤바뀌었을 경우, 두 조인 모두 가능합니다. device_id_md5에서 직접 조인하는 RDID 테이블의 예외도 있습니다. 예를 들어 다음 쿼리는 경고 없이 작동합니다.

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions_rdid USING(device_id_md5)

필터링된 행 요약

노이즈 모드에서는 필터링된 행 요약 사양이 지원되지 않습니다. 노이즈를 사용하는 경우 낮은 필터링 비율과 데이터 차이 검사로 인한 필터링 누락에 의해 이 기능은 일반적으로 필요하지 않습니다.

노이즈 결과에서 상당한 데이터 필터링이 관찰된다면 집계된 데이터를 늘리세요. 예를 들어 총계의 예상치를 비교하기 위해 전체 데이터 세트에 대해 병렬 집계를 실행할 수 있습니다.

SELECT campaign_name, COUNT(*)
FROM data
GROUP BY 1
UNION ALL
SELECT 'Total', COUNT(*)
FROM data
GROUP BY 1

총계에는 노이즈가 독립적으로 적용되며 총계 값의 합이 정확하지 않을 수 있지만, 노이즈가 적용된 행의 합보다 총계가 정확한 경우가 더 많습니다.

교차 모드 생성된 테이블

Ads Data Hub에서 내보내지 않은 테이블은 테이블을 생성할 당시 사용된 개인 정보 보호 모드를 통해서만 사용할 수 있습니다. 테이블을 일반 집계 모드에서 생성한 다음 노이즈 모드에서 사용하거나, 노이즈 모드에서 생성한 다음 일반 집계 모드에서 사용할 수 없습니다(테이블을 BigQuery로 내보내지 않은 경우).