Xử lý nhiễu

Tìm hiểu cách làm việc, tính đến và giảm tác động của yếu tố gây nhiễu trong báo cáo tổng hợp.

Trước khi bắt đầu

Trước khi tiếp tục, để hiểu rõ hơn về khái niệm nhiễu cũng như tác động của loại nhiễu, hãy tham khảo bài viết Tìm hiểu về nhiễu trong báo cáo tóm tắt.

Các chế độ kiểm soát tiếng ồn

Mặc dù không thể trực tiếp kiểm soát dữ liệu nhiễu được thêm vào báo cáo tổng hợp, nhưng bạn có thể thực hiện một số bước để giảm thiểu tác động. Phần sau đây sẽ giải thích về những chiến lược này.

Mở rộng tối đa ngân sách đóng góp

Như giải thích trong phần Tìm hiểu về nhiễu, độ nhiễu áp dụng cho giá trị tóm tắt cho mỗi khoá dựa trên thang đo 0-65.536 (0-CONTRIBUTION_BUDGET).

Mức phân bổ tiếng ồn dựa trên ngân sách.

Do đó, để tăng tối đa tín hiệu so với độ nhiễu, bạn nên tăng tỷ lệ từng giá trị trước khi đặt giá trị đó làm giá trị tổng hợp. Tức là nhân mỗi giá trị với một yếu tố nhất định, hệ số điều chỉnh theo tỷ lệ, đồng thời đảm bảo giá trị đó nằm trong phạm vi ngân sách đóng góp.

Độ nhiễu tương đối khi có và không tăng tỷ lệ.

Tính hệ số tỷ lệ

Hệ số tỷ lệ biểu thị mức độ bạn muốn mở rộng một giá trị tổng hợp nhất định. Giá trị của tham số này phải bằng ngân sách đóng góp chia cho giá trị tổng hợp tối đa cho một khoá nhất định.

Xác định hệ số tỷ lệ dựa trên ngân sách đóng góp.

Ví dụ: giả sử nhà quảng cáo muốn biết tổng giá trị giao dịch mua. Bạn biết rằng giá trị mua hàng dự kiến tối đa của bất kỳ giao dịch mua riêng lẻ nào là 2.000 đô la, ngoại trừ một vài điểm ngoại lai mà bạn quyết định bỏ qua:

  • Tính toán hệ số tỷ lệ:
    • Để tối đa hoá tỷ lệ tín hiệu trên độ nhiễu, bạn cần mở rộng giá trị này thành 65.536 (ngân sách đóng góp).
    • Điều này dẫn đến 65.536 / 2.000 hệ số tỷ lệ xấp xỉ 32x. Trong thực tế, bạn có thể làm tròn hệ số này lên hoặc xuống.
  • Tăng giá trị trước khi tổng hợp. Đối với mỗi 1 USD giao dịch mua, hãy tăng chỉ số được theo dõi thêm 32. Ví dụ: đối với giao dịch mua $120, hãy đặt giá trị tổng hợp là 120*32 = 3.840.
  • Giảm kích thước giá trị sau khi tổng hợp. Sau khi bạn nhận được báo cáo tóm tắt chứa giá trị giao dịch mua được tính tổng trên nhiều người dùng, hãy giảm giá trị tóm tắt bằng cách sử dụng hệ số tỷ lệ mà bạn đã sử dụng trước khi tổng hợp. Trong ví dụ này, chúng tôi đã sử dụng hệ số tỷ lệ là 32 khi tổng hợp trước. Vì vậy, chúng ta cần chia giá trị tóm tắt nhận được trong báo cáo tóm tắt cho 32. Do đó, nếu giá trị mua hàng tóm tắt cho một khoá nhất định trong báo cáo tóm tắt là 76.800, thì giá trị mua hàng tóm tắt (có nhiễu) là 76.800/32 = 2.400 USD.

Phân chia ngân sách

Nếu có nhiều mục tiêu đo lường (ví dụ: số lượt mua hàng và giá trị giao dịch mua), bạn nên phân chia ngân sách của mình cho những mục tiêu này.

Trong trường hợp này, hệ số tỷ lệ sẽ khác nhau đối với những giá trị tổng hợp khác nhau, tuỳ thuộc vào giá trị tối đa dự kiến của một giá trị tổng hợp đã cho.

Đọc thông tin chi tiết trong phần Tìm hiểu về khoá tổng hợp.

Ví dụ: giả sử bạn đang theo dõi cả số lượt mua hàng và giá trị giao dịch mua, đồng thời quyết định phân bổ đều ngân sách của mình.

65,536 / 2 = 32,768 có thể được phân bổ cho mỗi loại đo lường và mỗi nguồn.

  • Số giao dịch mua:
    • Bạn chỉ theo dõi một lượt mua hàng, vì vậy, số lượt mua hàng tối đa cho một lượt chuyển đổi nhất định là 1.
    • Do đó, bạn quyết định đặt hệ số tỷ lệ cho số lượt mua hàng là 32.768 / 1 = 32.768.
  • Giá trị giao dịch mua:
    • Giả sử giá trị mua hàng dự kiến tối đa của một giao dịch mua riêng lẻ là 2.000 đô la.
    • Do đó, bạn quyết định đặt hệ số tỷ lệ cho giá trị mua hàng thành 32.768 / 2.000 = 16.384 hoặc xấp xỉ 16.

Các khoá tổng hợp thô cải thiện tỷ lệ tín hiệu trên tạp âm

Vì khoá thô nắm bắt được nhiều sự kiện chuyển đổi hơn so với khoá chi tiết, nên khoá thô thường dẫn đến giá trị tóm tắt cao hơn.

Giá trị tóm tắt cao hơn ít bị ảnh hưởng bởi nhiễu hơn so với giá trị thấp hơn; độ nhiễu trên các giá trị này có thể thấp hơn, so với giá trị này.

Các giá trị được thu thập bằng khoá thô hơn có khả năng ít rung hơn so với các giá trị được thu thập bằng khoá chi tiết hơn.

Ví dụ:

Nếu tất cả các yếu tố khác vẫn giữ nguyên, thì khoá theo dõi giá trị giao dịch mua trên toàn cầu (được tổng hợp ở tất cả các quốc gia) sẽ dẫn đến giá trị giao dịch mua ở dạng tóm tắt cao hơn (và số lượt chuyển đổi tóm tắt cao hơn) so với khoá theo dõi lượt chuyển đổi ở cấp quốc gia.

Do đó, độ nhiễu tương đối trên tổng giá trị giao dịch mua cho một quốc gia cụ thể sẽ cao hơn độ nhiễu tương đối trên tổng giá trị giao dịch mua tại tất cả các quốc gia.

Tương tự, mọi mặt hàng khác đều được giữ nguyên, thì tổng giá trị mua hàng cho giày thấp hơn tổng giá trị giao dịch mua cho tất cả mặt hàng (bao gồm cả giày).

Do đó, độ nhiễu tương đối trên tổng giá trị giao dịch mua đối với giày sẽ cao hơn độ nhiễu tương đối trên tổng giá trị giao dịch mua của tất cả các mặt hàng.

Ảnh hưởng tiếng ồn với khoá chi tiết so với khoá thô.

Việc tổng hợp các giá trị tóm tắt (dữ liệu tổng hợp) cũng tính tổng độ nhiễu của chúng

Bằng cách tổng hợp các giá trị tóm tắt từ các báo cáo tóm tắt để truy cập vào dữ liệu cấp cao hơn, bạn cũng tính tổng độ nhiễu từ các giá trị tóm tắt này.

Mức độ nhiễu khi dùng các khoá chi tiết có dữ liệu tổng hợp so với các khoá thô không có dữ liệu tổng hợp

Hãy xem xét hai phương pháp khác nhau: - Phương pháp A: bạn đưa mã địa lý vào khoá của mình. Báo cáo tóm tắt hiển thị các khoá ở cấp mã địa lý, mỗi khoá được liên kết với giá trị giao dịch mua tóm tắt ở cấp của một Mã địa lý cụ thể. – Phương pháp B: bạn không đưa mã địa lý vào khoá của mình. Báo cáo tóm tắt hiển thị trực tiếp giá trị giao dịch mua tóm tắt cho tất cả mã khu vực địa lý / vị trí.

Cách truy cập vào giá trị giao dịch mua ở cấp quốc gia: – Với phương pháp A, bạn tính tổng các giá trị tóm tắt cấp mã địa lý và do đó tính tổng các độ nhiễu của chúng. Điều này có thể khiến giá trị giao dịch mua ở cấp mã địa lý cuối cùng tăng thêm phần nhiễu. – Với phương pháp B, bạn trực tiếp xem xét dữ liệu được hiển thị trong báo cáo tóm tắt. Tiếng ồn chỉ được thêm một lần vào dữ liệu đó.

Do đó, giá trị giao dịch mua tóm tắt cho một ID địa lý nhất định có thể sẽ phức tạp hơn khi áp dụng phương pháp A.

Tương tự, việc đưa phương diện ở cấp mã bưu chính vào khoá sẽ có khả năng dẫn đến nhiều kết quả gây nhiễu hơn so với việc sử dụng khoá tương đối có phương diện ở cấp khu vực.

Việc tổng hợp trong khoảng thời gian dài hơn sẽ giúp tăng tỷ lệ tín hiệu so với tạp âm

Yêu cầu báo cáo tóm tắt ít thường xuyên hơn có nghĩa là mỗi giá trị tóm tắt sẽ có thể cao hơn so với khi bạn yêu cầu báo cáo thường xuyên hơn; càng có khả năng xảy ra trong khoảng thời gian dài hơn.

Như đã đề cập trước đó, giá trị tóm tắt càng cao thì độ nhiễu tương đối càng thấp. Do đó, việc yêu cầu báo cáo tóm tắt ít thường xuyên hơn dẫn đến tỷ lệ tín hiệu so với độ nhiễu cao hơn (tốt hơn).

Việc yêu cầu báo cáo tóm tắt ít thường xuyên hơn sẽ dẫn đến tỷ lệ tín hiệu so với độ nhiễu cao hơn

Sau đây là ví dụ minh hoạ:

  • Nếu bạn yêu cầu báo cáo tóm tắt hằng giờ trong 24 giờ rồi tổng hợp giá trị tóm tắt từ mỗi báo cáo hằng giờ để truy cập vào dữ liệu cấp ngày, thì độ nhiễu sẽ được cộng thêm 24 lần.
  • Trong một báo cáo tóm tắt hằng ngày, dữ liệu nhiễu chỉ được thêm vào một lần.

Epilon cao hơn, độ nhiễu thấp hơn

Giá trị epsilon càng cao, độ nhiễu càng thấp và khả năng bảo vệ quyền riêng tư càng thấp.

Tận dụng tính năng lọc và loại bỏ trùng lặp

Một phần quan trọng trong việc phân bổ ngân sách cho các khoá khác nhau là nắm được số lần một sự kiện cụ thể có thể xảy ra. Ví dụ: nhà quảng cáo có thể chỉ quan tâm đến một lượt mua hàng cho mỗi lượt nhấp, nhưng có thể quan tâm đến đến 3 "lượt xem trang sản phẩm" chuyển đổi. Để hỗ trợ những trường hợp sử dụng này, bạn cũng nên tận dụng các tính năng API sau đây để kiểm soát số lượng báo cáo được tạo và những lượt chuyển đổi nào được tính:

Thử nghiệm với epsilon

Công nghệ quảng cáo có thể đặt epsilon thành một giá trị lớn hơn 0 và tối đa là 64. Phạm vi này cho phép kiểm thử linh hoạt. Giá trị epsilon càng thấp thì khả năng bảo vệ quyền riêng tư càng tốt. Bạn nên bắt đầu với epsilon=10.

Những đề xuất nên thử nghiệm

Bạn nên thực hiện những việc sau: - Bắt đầu với epsilon = 10. – Trong trường hợp gây ra các vấn đề đáng chú ý về dịch vụ tiện ích, hãy tăng dần epsilon. – Chia sẻ ý kiến phản hồi về các điểm uốn cụ thể mà bạn có thể thấy liên quan đến khả năng hữu dụng dữ liệu.

Thu hút và chia sẻ ý kiến phản hồi

Bạn có thể tham gia và thử nghiệm với API này.

Các bước tiếp theo