Xử lý nhiễu

Tìm hiểu cách làm việc, tính toán và giảm ảnh hưởng của độ nhiễu trong báo cáo tổng hợp.

Trước khi bắt đầu

Trước khi tiếp tục, để hiểu rõ về độ nhiễu và tác động của độ nhiễu, hãy tham khảo bài viết Tìm hiểu về độ nhiễu trong báo cáo tóm tắt.

Các chế độ kiểm soát tiếng ồn

Mặc dù bạn không thể trực tiếp kiểm soát nhiễu được thêm vào báo cáo tổng hợp của mình, nhưng bạn có thể thực hiện một số bước để giảm thiểu ảnh hưởng. Các phần sau đây giải thích về các chiến lược này.

Mở rộng theo ngân sách đóng góp

Như đã giải thích trong phần Tìm hiểu độ nhiễu, độ nhiễu được áp dụng cho giá trị tóm tắt của từng phím dựa trên thang điểm 0-65.536 (0-CONTRIBUTION_BUDGET).

Mức phân bổ tiếng ồn dựa trên ngân sách.

Do đó, để tối đa hoá tín hiệu so với độ nhiễu, bạn nên chia tỷ lệ từng giá trị trước khi thiết lập giá trị đó dưới dạng giá trị tổng hợp — tức là nhân từng giá trị với một yếu tố nhất định hệ số điều chỉnh theo tỷ lệ mà vẫn đảm bảo giá trị đó nằm trong phạm vi ngân sách đóng góp.

Độ nhiễu tương đối khi có và không tăng tỷ lệ.

Tính hệ số tỷ lệ

Hệ số tỷ lệ thể hiện mức bạn muốn mở rộng một giá trị tổng hợp nhất định. Giá trị của thẻ này phải bằng ngân sách đóng góp chia cho giá trị tổng hợp tối đa của một khoá nhất định.

Xác định hệ số tỷ lệ dựa trên ngân sách mức đóng góp.

Ví dụ: giả sử các nhà quảng cáo muốn biết tổng giá trị giao dịch mua. Bạn biết rằng giá trị mua hàng dự kiến tối đa của bất kỳ giao dịch mua riêng lẻ nào là 2.000 USD, ngoại trừ một vài ngoại lệ mà bạn quyết định bỏ qua:

  • Tính toán hệ số tỷ lệ:
    • Để tối đa hoá tỷ lệ tín hiệu trên độ nhiễu, bạn cần mở rộng giá trị này lên 65.536 (ngân sách đóng góp).
    • Điều này dẫn đến hệ số tỷ lệ khoảng 32x là 65.536 / 2.000. Trong thực tế, bạn có thể làm tròn hệ số này lên hoặc xuống.
  • Tăng quy mô giá trị trước khi tổng hợp. Đối với mỗi $1 mua hàng, hãy tăng chỉ số được theo dõi lên 32. Ví dụ: Đối với một giao dịch mua $120, hãy đặt giá trị tổng hợp là 120*32 = 3.840.
  • Giảm quy mô giá trị sau khi tổng hợp. Sau khi bạn nhận được báo cáo tóm tắt chứa giá trị giao dịch mua được tính tổng của nhiều người dùng, hãy giảm giá trị tóm tắt bằng cách sử dụng hệ số tỷ lệ bạn đã sử dụng trước khi tổng hợp. Trong ví dụ này, chúng tôi đã sử dụng hệ số tỷ lệ là 32 trước khi tổng hợp, vì vậy, chúng ta cần chia giá trị tóm tắt nhận được trong báo cáo tóm tắt cho 32. Do đó, nếu giá trị mua hàng tóm tắt cho một khoá nhất định trong báo cáo tóm tắt là 76.800, thì giá trị mua hàng tóm tắt (có độ nhiễu) là 76.800/32 = 2.400 USD.

Chia ngân sách

Nếu có nhiều mục tiêu đo lường (ví dụ: số lượt mua hàng và giá trị mua hàng), thì bạn nên phân chia ngân sách cho những mục tiêu này.

Trong trường hợp này, các hệ số tỷ lệ của các giá trị tổng hợp khác nhau sẽ khác nhau, tuỳ thuộc vào giá trị tối đa dự kiến của một giá trị tổng hợp nhất định.

Đọc thông tin chi tiết trong phần Tìm hiểu về khoá tổng hợp.

Ví dụ: giả sử bạn đang theo dõi cả số lượt mua hàng và giá trị mua hàng, đồng thời bạn quyết định phân bổ đều ngân sách của mình.

Có thể phân bổ 65.536 / 2 = 32.768 cho mỗi loại đo lường và cho mỗi nguồn.

  • Số lượt mua:
    • Bạn chỉ theo dõi một giao dịch mua hàng, vì vậy, số giao dịch mua tối đa cho một lượt chuyển đổi nhất định là 1.
    • Do đó, bạn quyết định đặt hệ số tỷ lệ cho số lượt mua hàng là 32.768 / 1 = 32.768.
  • Giá trị giao dịch mua:
    • Giả sử giá trị giao dịch mua hàng dự kiến tối đa của một giao dịch mua riêng lẻ bất kỳ là 2.000 đô la.
    • Do đó, bạn quyết định đặt hệ số tỷ lệ cho giá trị giao dịch mua thành 32.768 / 2.000 = 16,384 hoặc xấp xỉ 16.

Các khoá tổng hợp thô cải thiện tỷ lệ tín hiệu trên nhiễu

Vì khoá thô bắt được nhiều sự kiện chuyển đổi hơn so với các khoá chi tiết, nên khoá thô thường dẫn đến giá trị tóm tắt cao hơn.

Giá trị tóm tắt cao hơn sẽ ít bị ảnh hưởng bởi độ nhiễu hơn so với các giá trị thấp hơn. Độ nhiễu trên các giá trị này có thể thấp hơn, tương ứng với giá trị này.

Các giá trị được thu thập bằng các khoá thô hơn có thể tương đối ít nhiễu hơn so với các giá trị được thu thập bằng các khoá chi tiết hơn.

Ví dụ:

Tất cả những yếu tố khác được coi là bằng nhau, khoá theo dõi giá trị giao dịch mua trên toàn cầu (được tổng hợp ở tất cả các quốc gia) sẽ dẫn đến giá trị giao dịch mua hàng tóm tắt cao hơn (và số lượt chuyển đổi tóm tắt cao hơn) so với khoá theo dõi lượt chuyển đổi ở cấp quốc gia.

Do đó, độ nhiễu tương đối về tổng giá trị giao dịch mua đối với một quốc gia cụ thể sẽ cao hơn độ nhiễu tương đối về tổng giá trị giao dịch mua ở tất cả các quốc gia.

Tương tự, tất cả những mặt hàng khác được giữ bằng nhau, tổng giá trị giao dịch mua giày thấp hơn tổng giá trị giao dịch mua cho tất cả các mặt hàng (bao gồm cả giày).

Do đó, độ nhiễu tương đối trên tổng giá trị giao dịch mua cho giày sẽ cao hơn độ nhiễu tương đối về tổng giá trị giao dịch mua đối với tất cả các mặt hàng.

Tiếng ồn với các phím chi tiết so với phím thô.

Việc tổng hợp các giá trị tóm tắt (dữ liệu tổng hợp) cũng tổng hợp độ nhiễu của chúng

Bằng cách tổng hợp các giá trị tóm tắt từ báo cáo tóm tắt để truy cập vào dữ liệu cấp cao hơn, bạn cũng tính tổng độ nhiễu từ các giá trị tóm tắt này.

Mức độ nhiễu với các phím chi tiết có thông tin tổng hợp so với các phím thô không có thông tin tổng hợp

Hãy xem xét hai phương pháp tiếp cận khác nhau: - Phương pháp A: bạn đưa ID địa lý vào khóa của mình. Báo cáo tóm tắt trình bày các khoá cấp mã địa lý, mỗi khoá liên kết với giá trị giao dịch mua tóm tắt ở cấp một Mã địa lý cụ thể. – Phương pháp B: bạn không đưa mã nhận dạng khu vực địa lý vào khoá của mình. Báo cáo tóm tắt trực tiếp hiển thị giá trị mua hàng tóm tắt cho tất cả mã / vị trí theo khu vực địa lý.

Để xem giá trị giao dịch mua ở cấp quốc gia: – Với phương pháp A, bạn tổng hợp các giá trị tóm tắt ở cấp mã địa lý, do đó cũng tổng hợp độ nhiễu của các giá trị đó. Điều này có thể khiến giá trị giao dịch mua ở cấp mã địa lý cuối cùng bị nhiễu nhiều hơn. – Với phương pháp B, bạn trực tiếp xem xét dữ liệu được hiển thị trong báo cáo tóm tắt. Tiếng ồn chỉ được thêm một lần vào dữ liệu đó.

Do đó, giá trị mua hàng tóm tắt cho một mã địa lý nhất định có thể sẽ nhiễu hơn với phương pháp A.

Tương tự, việc đưa phương diện cấp mã bưu chính vào khoá có thể dẫn đến kết quả nhiễu nhiều hơn so với việc sử dụng các khoá thô hơn có phương diện cấp vùng.

Việc tổng hợp trong khoảng thời gian dài hơn làm tăng tỷ lệ tín hiệu trên độ nhiễu

Giảm tần suất yêu cầu báo cáo tóm tắt có nghĩa là mỗi giá trị tóm tắt có thể sẽ cao hơn so với khi bạn yêu cầu báo cáo thường xuyên hơn; nhiều lượt chuyển đổi có khả năng xảy ra hơn trong khoảng thời gian dài hơn.

Như đã đề cập trước đó, giá trị tóm tắt càng cao thì độ nhiễu tương đối có thể càng thấp. Do đó, việc yêu cầu báo cáo tóm tắt ít thường xuyên hơn sẽ dẫn đến tỷ lệ tín hiệu trên độ nhiễu cao hơn (tốt hơn).

Giảm tần suất yêu cầu báo cáo tóm tắt dẫn đến tỷ lệ tín hiệu trên độ nhiễu cao hơn

Dưới đây là ví dụ để minh hoạ:

  • Nếu bạn yêu cầu báo cáo tóm tắt hằng giờ trong hơn 24 giờ và sau đó tính tổng giá trị tóm tắt từ mỗi báo cáo hằng giờ để truy cập vào dữ liệu cấp ngày, thì độ nhiễu sẽ được thêm 24 lần.
  • Trong một báo cáo tóm tắt hằng ngày, độ nhiễu chỉ được thêm vào một lần.

Epsilon cao hơn, tiếng ồn thấp hơn

Giá trị epsilon càng cao, độ nhiễu càng thấp và khả năng bảo vệ quyền riêng tư càng thấp.

Sử dụng tính năng lọc và loại bỏ trùng lặp

Một phần quan trọng khi phân bổ ngân sách giữa các khoá khác nhau là nắm được số lần một sự kiện nhất định có thể xảy ra. Ví dụ: một nhà quảng cáo có thể chỉ quan tâm đến một giao dịch mua cho mỗi lượt nhấp, nhưng có thể quan tâm đến tối đa 3 lượt chuyển đổi "lượt xem trang sản phẩm". Để hỗ trợ những trường hợp sử dụng này, bạn cũng nên tận dụng các tính năng sau đây của API để kiểm soát số lượng báo cáo được tạo và những lượt chuyển đổi được tính:

Thử nghiệm epsilon

Các công nghệ quảng cáo có thể đặt epsilon thành một giá trị lớn hơn 0 và tối đa là 64. Phạm vi này cho phép thử nghiệm linh hoạt. Giá trị epsilon thấp hơn giúp bảo vệ quyền riêng tư hiệu quả hơn. Bạn nên bắt đầu bằng epsilon=10.

Nội dung đề xuất thử nghiệm

Bạn nên làm như sau: – Bắt đầu bằng epsilon = 10. – Nếu vấn đề này gây ra những vấn đề đáng chú ý về hiệu quả sử dụng, hãy tăng dần epsilon. – Chia sẻ ý kiến phản hồi về các điểm uốn về khả năng hữu dụng của dữ liệu mà bạn có thể gặp phải.

Thu hút và chia sẻ ý kiến phản hồi

Bạn có thể tham gia và thử nghiệm với API này.

Các bước tiếp theo