ดูว่าสัญญาณรบกวนหมายถึงอะไร เพิ่มที่ใด และส่งผลต่อความพยายามในการวัดผลอย่างไร
รายงานสรุปเป็นผลมาจากการรวมรายงานที่รวบรวมได้ เมื่อผู้รวบรวมข้อมูลจัดอยู่ในกลุ่มรายงานที่รวบรวมได้และประมวลผลโดยบริการรวบรวม ข้อมูลรบกวนซึ่งเป็นจำนวนแบบสุ่มจะถูกเพิ่มลงในรายงานสรุปที่ได้ ระบบจะเพิ่มเสียงรบกวนเพื่อปกป้องความเป็นส่วนตัวของผู้ใช้ เป้าหมายของกลไกนี้คือมีเฟรมเวิร์กที่รองรับการวัดแบบDifferentially Private ได้
ข้อมูลเบื้องต้นเกี่ยวกับสัญญาณรบกวนในรายงานสรุป
แม้ว่าตามปกติแล้วการเพิ่มสัญญาณรบกวนจะไม่ได้เป็นส่วนหนึ่งของการวัดผลโฆษณาในปัจจุบัน แต่ในหลายๆ กรณี สัญญาณรบกวนที่เพิ่มก็ไม่ได้ทำให้วิธีตีความผลลัพธ์ของคุณเปลี่ยนแปลงไปมากนัก
ลองคิดในลักษณะนี้ไหม คุณมั่นใจที่จะตัดสินใจโดยอิงจากข้อมูลบางอย่างหรือไม่หากข้อมูลนั้นไม่ได้มีเสียงดังรบกวน
ตัวอย่างเช่น ผู้ลงโฆษณาจะมั่นใจในการเปลี่ยนกลยุทธ์หรืองบประมาณของแคมเปญหรือไม่โดยพิจารณาจากข้อเท็จจริงที่ว่าแคมเปญ A มี Conversion 15 รายการ และแคมเปญ B มี 16 รายการ
หากคำตอบคือไม่ แสดงว่าสัญญาณรบกวนนั้นไม่เกี่ยวข้อง
คุณจะต้องกำหนดค่าการใช้งาน API โดยมีลักษณะดังนี้
- คำตอบสำหรับคำถามข้างต้นคือใช่
- ระบบจะจัดการเสียงรบกวนในลักษณะที่ไม่กระทบต่อความสามารถในการตัดสินใจของคุณโดยอิงตามข้อมูลบางอย่างมากนัก คุณสามารถดำเนินการดังต่อไปนี้: สำหรับจำนวน Conversion ขั้นต่ำที่คาดไว้ คุณต้องการรักษาข้อมูลรบกวนในเมตริกที่รวบรวมให้ต่ำกว่า % ที่กำหนด
ในส่วนนี้และต่อไป เราจะพูดถึงกลยุทธ์ที่จะทำให้สำเร็จ 2.
แนวคิดหลัก
บริการรวบรวมจะเพิ่มสัญญาณรบกวน 1 ครั้งลงในค่าสรุปแต่ละค่า ซึ่งก็คือ 1 ครั้งต่อคีย์ทุกครั้งที่มีการขอรายงานสรุป
ค่าสัญญาณรบกวนเหล่านี้สุ่มมาจากการกระจายความน่าจะเป็นเฉพาะ ซึ่งจะกล่าวถึงด้านล่างนี้
องค์ประกอบทั้งหมดที่กระทบต่อสัญญาณรบกวนจะอาศัยแนวคิดหลัก 2 ประการดังนี้
การกระจายเสียงรบกวน (ตามรายละเอียดด้านล่าง) จะเหมือนกันไม่ว่าค่าสรุปจะเป็นค่าต่ำหรือสูง ดังนั้น ยิ่งค่าสรุปสูงเท่าใด ก็ยิ่งมีแนวโน้มที่จะมีผลกระทบน้อยลงเมื่อเทียบกับค่านี้
เช่น สมมติว่ามูลค่าการซื้อรวมทั้งหมดอยู่ที่ $20,000 และมูลค่าการซื้อรวมทั้งหมด $200 จะขึ้นอยู่กับเสียงที่เลือกจากการจัดจำหน่ายครั้งเดียวกัน
สมมติว่าสัญญาณรบกวนจากการกระจายนี้แตกต่างกันไประหว่าง -100 ถึง +100
- สำหรับมูลค่าการซื้อสรุปที่ $20,000 ข้อผิดพลาดจะแตกต่างกันไปตาม 0 ถึง 100/20,000=0.5%
- สำหรับมูลค่าการซื้อสรุปที่ 6, 000 บาท สัญญาณรบกวนจะแตกต่างกันระหว่าง 0 ถึง 100/200=50%
ดังนั้น สัญญาณรบกวนจึงมีแนวโน้มที่จะส่งผลกระทบต่อมูลค่าการซื้อรวม $20,000 น้อยกว่ามูลค่า $200 อย่างไรก็ตาม $20,000 มีแนวโน้มที่จะไม่รบกวนผู้ใช้น้อยกว่า เป็นไปได้ว่าจะมีอัตราส่วนสัญญาณต่อสัญญาณรบกวนที่สูงกว่า
ซึ่งมีนัยสำคัญทางปฏิบัติที่สำคัญ 2-3 ประการดังที่อธิบายไว้ในส่วนถัดไป กลไกนี้เป็นส่วนหนึ่งของการออกแบบ API และผลกระทบในทางปฏิบัติจะเป็นระยะยาว ซึ่งจะมีบทบาทสำคัญต่อไปเมื่อเทคโนโลยีโฆษณาออกแบบและประเมินกลยุทธ์ต่างๆ ในการรวบรวมข้อมูล
แม้ว่าสัญญาณรบกวนจะดึงมาจากการกระจายเดียวกันโดยไม่คำนึงถึงค่าสรุป แต่การกระจายดังกล่าวจะขึ้นอยู่กับพารามิเตอร์หลายรายการ พารามิเตอร์ epsilon นี้อาจเปลี่ยนแปลงระหว่างช่วงทดลองใช้จากต้นทางที่สรุปได้เพื่อประเมินการปรับเปลี่ยนยูทิลิตี/ความเป็นส่วนตัวแบบต่างๆ อย่างไรก็ตาม ลองพิจารณาความสามารถในการปรับแต่ง epsilon แบบชั่วคราว เรายินดีรับฟังความคิดเห็นเกี่ยวกับกรณีการใช้งานและคุณค่าของ epsilon ที่ใช้งานได้ดี
แม้ว่าบริษัทเทคโนโลยีโฆษณาจะไม่สามารถควบคุมการเพิ่มสัญญาณรบกวนได้โดยตรง แต่ก็อาจส่งผลต่อผลกระทบของสัญญาณรบกวนต่อข้อมูลการวัดผลได้ ในส่วนถัดไป เราจะเจาะลึกถึงวิธีการสร้างอิทธิพลต่อเสียงรบกวนในทางปฏิบัติ
ก่อนทำการสนทนา เรามาดูรายละเอียดการใช้เสียงรบกวนกัน
การซูมเข้า: วิธีใช้สัญญาณรบกวน
การกระจายเสียงรบกวนเดียว
เสียงรบกวนจะดึงมาจากการกระจาย Laplace โดยมีพารามิเตอร์ต่อไปนี้
- ค่าเฉลี่ย (
μ
) ของ 0 ซึ่งหมายความว่าค่าสัญญาณรบกวนที่เป็นไปได้มากที่สุดคือ 0 (ไม่มีการเพิ่มสัญญาณรบกวน) และค่าเสียงรบกวนมีแนวโน้มที่จะน้อยกว่าค่าเดิมเมื่อเทียบกับค่าเดิมที่ใหญ่กว่า (บางครั้งเรียกว่าแบบไม่อคติ) - พารามิเตอร์การปรับขนาดของ
b = CONTRIBUTION_BUDGET
/epsilon
- มีการกำหนด
CONTRIBUTION_BUDGET
ในเบราว์เซอร์ epsilon
ได้รับการแก้ไขแล้วในเซิร์ฟเวอร์การรวม
- มีการกำหนด
แผนภาพต่อไปนี้แสดงฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับการแจกแจงแบบลาปลาชที่มี μ=0, b = 20
ค่าสัญญาณรบกวนแบบสุ่ม การกระจายเสียงรบกวน 1 รายการ
สมมติว่ารายงานสรุปคําขอเทคโนโลยีโฆษณาสำหรับคีย์การรวม 2 คีย์ คือ คีย์ 1 และคีย์ 2
บริการการรวมจะเลือกค่าสัญญาณรบกวน 2 ค่า ได้แก่ x1 และ x2 หลังจากการกระจายสัญญาณรบกวนเดียวกัน ระบบจะเพิ่ม x1 ลงในค่าสรุปสำหรับคีย์ 1 และเพิ่ม x2 ลงในค่าสรุปสำหรับคีย์ 2
ในแผนภาพ เราจะถือว่าค่าสัญญาณรบกวนเหมือนกัน วิธีนี้ทำให้เกิดความเรียบง่ายขึ้น แต่ในความเป็นจริงแล้ว ค่าสัญญาณรบกวนจะแตกต่างกันไป เนื่องจากค่าดังกล่าวสุ่มขึ้นมาจากการกระจาย
ข้อมูลนี้แสดงให้เห็นว่าค่าสัญญาณรบกวนทั้งหมดมาจากการกระจายเดียวกัน และเป็นอิสระจากค่าสรุปที่ใช้ค่าดังกล่าว
คุณสมบัติอื่นๆ ของสัญญาณรบกวน
ระบบจะใช้เสียงรบกวนกับค่าสรุปทุกค่า ซึ่งรวมถึงค่าว่าง (0)
ตัวอย่างเช่น แม้ว่าค่าสรุปที่แท้จริงสำหรับคีย์ที่ระบุจะเป็น 0 แต่ค่าสรุปที่มีเสียงดังที่คุณจะเห็นในรายงานสรุปสำหรับคีย์นี้จะเป็น (ส่วนใหญ่) ไม่เป็น 0
สัญญาณรบกวนอาจเป็นจำนวนบวกหรือลบก็ได้
เช่น สำหรับยอดสั่งซื้อก่อนเสียงรบกวนที่ 327,000 ครั้ง สัญญาณรบกวนอาจเป็น +6,000 หรือ -6,000 (ค่าเหล่านี้เป็นค่าตัวอย่างที่กำหนดเอง)
กำลังประเมินสัญญาณรบกวน
คำนวณค่าเบี่ยงเบนมาตรฐานของเสียงรบกวน
ค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนคือ
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
ตัวอย่าง
เมื่อใช้ epsilon = 10 ค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนคือ
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
การประเมินเมื่อความแตกต่างของการวัดมีนัยสำคัญ
เนื่องจากคุณจะทราบค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนที่เพิ่มให้กับเอาต์พุตค่าแต่ละค่าโดยบริการการรวม คุณจึงสามารถกำหนดเกณฑ์ที่เหมาะสมในการเปรียบเทียบเพื่อตัดสินว่าความแตกต่างที่พบนั้นอาจเกิดจากสัญญาณรบกวนหรือไม่
ตัวอย่างเช่น หากสัญญาณรบกวนที่เพิ่มลงในค่าหนึ่งมีค่าประมาณ +/- 10 (โดยพิจารณาจากการปรับขนาด) และความแตกต่างของค่าระหว่างสองแคมเปญมากกว่า 100 ก็สามารถสรุปได้ว่าความแตกต่างของค่าที่วัดได้ระหว่างแต่ละแคมเปญไม่ได้เกิดจากข้อผิดพลาดเพียงอย่างเดียว
มีส่วนร่วมและแชร์ความคิดเห็น
คุณสามารถเข้าร่วมและทดสอบกับ API นี้
- อ่านเกี่ยวกับรายงานที่รวบรวมได้และบริการรวบรวมข้อมูล ถามคำถาม และแนะนำความคิดเห็น
- อ่านคู่มือการรายงานการระบุแหล่งที่มา
- ถามคำถามและเข้าร่วมการสนทนาในที่เก็บการสนับสนุนนักพัฒนาซอฟต์แวร์ Privacy Sandbox
ขั้นตอนถัดไป
- หากต้องการดูว่าตัวแปรใดที่คุณควบคุมได้เพื่อปรับปรุงอัตราส่วนสัญญาณต่อสัญญาณรบกวน โปรดดูการทำงานกับสัญญาณรบกวน
- ดูการทดสอบกับการตัดสินใจในการออกแบบรายงานสรุปเพื่อรับความช่วยเหลือในการวางแผนกลยุทธ์การรายงานการรวมข้อมูล
- ลองใช้ Noise Lab เลย