การทำความเข้าใจข้อผิดพลาดในรายงานสรุป

ดูว่าสัญญาณรบกวนหมายถึงอะไร เพิ่มที่ใด และส่งผลต่อความพยายามในการวัดผลอย่างไร

รายงานสรุปเป็นผลมาจากการรวมรายงานที่รวบรวมได้ เมื่อผู้รวบรวมข้อมูลจัดอยู่ในกลุ่มรายงานที่รวบรวมได้และประมวลผลโดยบริการรวบรวม ข้อมูลรบกวนซึ่งเป็นจำนวนแบบสุ่มจะถูกเพิ่มลงในรายงานสรุปที่ได้ ระบบจะเพิ่มเสียงรบกวนเพื่อปกป้องความเป็นส่วนตัวของผู้ใช้ เป้าหมายของกลไกนี้คือมีเฟรมเวิร์กที่รองรับการวัดแบบDifferentially Private ได้

ระบบจะเพิ่มเสียงรบกวนลงในรายงานสรุปขั้นสุดท้าย

ข้อมูลเบื้องต้นเกี่ยวกับสัญญาณรบกวนในรายงานสรุป

แม้ว่าตามปกติแล้วการเพิ่มสัญญาณรบกวนจะไม่ได้เป็นส่วนหนึ่งของการวัดผลโฆษณาในปัจจุบัน แต่ในหลายๆ กรณี สัญญาณรบกวนที่เพิ่มก็ไม่ได้ทำให้วิธีตีความผลลัพธ์ของคุณเปลี่ยนแปลงไปมากนัก

ลองคิดในลักษณะนี้ไหม คุณมั่นใจที่จะตัดสินใจโดยอิงจากข้อมูลบางอย่างหรือไม่หากข้อมูลนั้นไม่ได้มีเสียงดังรบกวน

ตัวอย่างเช่น ผู้ลงโฆษณาจะมั่นใจในการเปลี่ยนกลยุทธ์หรืองบประมาณของแคมเปญหรือไม่โดยพิจารณาจากข้อเท็จจริงที่ว่าแคมเปญ A มี Conversion 15 รายการ และแคมเปญ B มี 16 รายการ

หากคำตอบคือไม่ แสดงว่าสัญญาณรบกวนนั้นไม่เกี่ยวข้อง

คุณจะต้องกำหนดค่าการใช้งาน API โดยมีลักษณะดังนี้

  1. คำตอบสำหรับคำถามข้างต้นคือใช่
  2. ระบบจะจัดการเสียงรบกวนในลักษณะที่ไม่กระทบต่อความสามารถในการตัดสินใจของคุณโดยอิงตามข้อมูลบางอย่างมากนัก คุณสามารถดำเนินการดังต่อไปนี้: สำหรับจำนวน Conversion ขั้นต่ำที่คาดไว้ คุณต้องการรักษาข้อมูลรบกวนในเมตริกที่รวบรวมให้ต่ำกว่า % ที่กำหนด

ในส่วนนี้และต่อไป เราจะพูดถึงกลยุทธ์ที่จะทำให้สำเร็จ 2.

แนวคิดหลัก

บริการรวบรวมจะเพิ่มสัญญาณรบกวน 1 ครั้งลงในค่าสรุปแต่ละค่า ซึ่งก็คือ 1 ครั้งต่อคีย์ทุกครั้งที่มีการขอรายงานสรุป

ค่าสัญญาณรบกวนเหล่านี้สุ่มมาจากการกระจายความน่าจะเป็นเฉพาะ ซึ่งจะกล่าวถึงด้านล่างนี้

องค์ประกอบทั้งหมดที่กระทบต่อสัญญาณรบกวนจะอาศัยแนวคิดหลัก 2 ประการดังนี้

  1. การกระจายเสียงรบกวน (ตามรายละเอียดด้านล่าง) จะเหมือนกันไม่ว่าค่าสรุปจะเป็นค่าต่ำหรือสูง ดังนั้น ยิ่งค่าสรุปสูงเท่าใด ก็ยิ่งมีแนวโน้มที่จะมีผลกระทบน้อยลงเมื่อเทียบกับค่านี้

    เช่น สมมติว่ามูลค่าการซื้อรวมทั้งหมดอยู่ที่ $20,000 และมูลค่าการซื้อรวมทั้งหมด $200 จะขึ้นอยู่กับเสียงที่เลือกจากการจัดจำหน่ายครั้งเดียวกัน

    สมมติว่าสัญญาณรบกวนจากการกระจายนี้แตกต่างกันไประหว่าง -100 ถึง +100

    • สำหรับมูลค่าการซื้อสรุปที่ $20,000 ข้อผิดพลาดจะแตกต่างกันไปตาม 0 ถึง 100/20,000=0.5%
    • สำหรับมูลค่าการซื้อสรุปที่ 6, 000 บาท สัญญาณรบกวนจะแตกต่างกันระหว่าง 0 ถึง 100/200=50%

    ดังนั้น สัญญาณรบกวนจึงมีแนวโน้มที่จะส่งผลกระทบต่อมูลค่าการซื้อรวม $20,000 น้อยกว่ามูลค่า $200 อย่างไรก็ตาม $20,000 มีแนวโน้มที่จะไม่รบกวนผู้ใช้น้อยกว่า เป็นไปได้ว่าจะมีอัตราส่วนสัญญาณต่อสัญญาณรบกวนที่สูงกว่า

    ค่ารวมที่สูงขึ้นจะมีผลกระทบด้านสัญญาณรบกวนค่อนข้างน้อยกว่า

    ซึ่งมีนัยสำคัญทางปฏิบัติที่สำคัญ 2-3 ประการดังที่อธิบายไว้ในส่วนถัดไป กลไกนี้เป็นส่วนหนึ่งของการออกแบบ API และผลกระทบในทางปฏิบัติจะเป็นระยะยาว ซึ่งจะมีบทบาทสำคัญต่อไปเมื่อเทคโนโลยีโฆษณาออกแบบและประเมินกลยุทธ์ต่างๆ ในการรวบรวมข้อมูล

  2. แม้ว่าสัญญาณรบกวนจะดึงมาจากการกระจายเดียวกันโดยไม่คำนึงถึงค่าสรุป แต่การกระจายดังกล่าวจะขึ้นอยู่กับพารามิเตอร์หลายรายการ พารามิเตอร์ epsilon นี้อาจเปลี่ยนแปลงระหว่างช่วงทดลองใช้จากต้นทางที่สรุปได้เพื่อประเมินการปรับเปลี่ยนยูทิลิตี/ความเป็นส่วนตัวแบบต่างๆ อย่างไรก็ตาม ลองพิจารณาความสามารถในการปรับแต่ง epsilon แบบชั่วคราว เรายินดีรับฟังความคิดเห็นเกี่ยวกับกรณีการใช้งานและคุณค่าของ epsilon ที่ใช้งานได้ดี

แม้ว่าบริษัทเทคโนโลยีโฆษณาจะไม่สามารถควบคุมการเพิ่มสัญญาณรบกวนได้โดยตรง แต่ก็อาจส่งผลต่อผลกระทบของสัญญาณรบกวนต่อข้อมูลการวัดผลได้ ในส่วนถัดไป เราจะเจาะลึกถึงวิธีการสร้างอิทธิพลต่อเสียงรบกวนในทางปฏิบัติ

ก่อนทำการสนทนา เรามาดูรายละเอียดการใช้เสียงรบกวนกัน

การซูมเข้า: วิธีใช้สัญญาณรบกวน

การกระจายเสียงรบกวนเดียว

เสียงรบกวนจะดึงมาจากการกระจาย Laplace โดยมีพารามิเตอร์ต่อไปนี้

  • ค่าเฉลี่ย (μ) ของ 0 ซึ่งหมายความว่าค่าสัญญาณรบกวนที่เป็นไปได้มากที่สุดคือ 0 (ไม่มีการเพิ่มสัญญาณรบกวน) และค่าเสียงรบกวนมีแนวโน้มที่จะน้อยกว่าค่าเดิมเมื่อเทียบกับค่าเดิมที่ใหญ่กว่า (บางครั้งเรียกว่าแบบไม่อคติ)
  • พารามิเตอร์การปรับขนาดของ b = CONTRIBUTION_BUDGET / epsilon
    • มีการกำหนด CONTRIBUTION_BUDGET ในเบราว์เซอร์
    • epsilon ได้รับการแก้ไขแล้วในเซิร์ฟเวอร์การรวม

แผนภาพต่อไปนี้แสดงฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับการแจกแจงแบบลาปลาชที่มี μ=0, b = 20

ฟังก์ชันความหนาแน่นของความน่าจะเป็นสำหรับการแจกแจงแบบลาปลาชที่มี μ=0, b = 20

ค่าสัญญาณรบกวนแบบสุ่ม การกระจายเสียงรบกวน 1 รายการ

สมมติว่ารายงานสรุปคําขอเทคโนโลยีโฆษณาสำหรับคีย์การรวม 2 คีย์ คือ คีย์ 1 และคีย์ 2

บริการการรวมจะเลือกค่าสัญญาณรบกวน 2 ค่า ได้แก่ x1 และ x2 หลังจากการกระจายสัญญาณรบกวนเดียวกัน ระบบจะเพิ่ม x1 ลงในค่าสรุปสำหรับคีย์ 1 และเพิ่ม x2 ลงในค่าสรุปสำหรับคีย์ 2

ในแผนภาพ เราจะถือว่าค่าสัญญาณรบกวนเหมือนกัน วิธีนี้ทำให้เกิดความเรียบง่ายขึ้น แต่ในความเป็นจริงแล้ว ค่าสัญญาณรบกวนจะแตกต่างกันไป เนื่องจากค่าดังกล่าวสุ่มขึ้นมาจากการกระจาย

ข้อมูลนี้แสดงให้เห็นว่าค่าสัญญาณรบกวนทั้งหมดมาจากการกระจายเดียวกัน และเป็นอิสระจากค่าสรุปที่ใช้ค่าดังกล่าว

คุณสมบัติอื่นๆ ของสัญญาณรบกวน

ระบบจะใช้เสียงรบกวนกับค่าสรุปทุกค่า ซึ่งรวมถึงค่าว่าง (0)

แม้แต่ค่าสรุปที่ว่างเปล่าก็อาจมีสัญญาณรบกวน

ตัวอย่างเช่น แม้ว่าค่าสรุปที่แท้จริงสำหรับคีย์ที่ระบุจะเป็น 0 แต่ค่าสรุปที่มีเสียงดังที่คุณจะเห็นในรายงานสรุปสำหรับคีย์นี้จะเป็น (ส่วนใหญ่) ไม่เป็น 0

สัญญาณรบกวนอาจเป็นจำนวนบวกหรือลบก็ได้

ตัวอย่างของสัญญาณรบกวนเชิงบวกและเชิงลบ

เช่น สำหรับยอดสั่งซื้อก่อนเสียงรบกวนที่ 327,000 ครั้ง สัญญาณรบกวนอาจเป็น +6,000 หรือ -6,000 (ค่าเหล่านี้เป็นค่าตัวอย่างที่กำหนดเอง)

กำลังประเมินสัญญาณรบกวน

คำนวณค่าเบี่ยงเบนมาตรฐานของเสียงรบกวน

ค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนคือ

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
ตัวอย่าง

เมื่อใช้ epsilon = 10 ค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนคือ

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

การประเมินเมื่อความแตกต่างของการวัดมีนัยสำคัญ

เนื่องจากคุณจะทราบค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนที่เพิ่มให้กับเอาต์พุตค่าแต่ละค่าโดยบริการการรวม คุณจึงสามารถกำหนดเกณฑ์ที่เหมาะสมในการเปรียบเทียบเพื่อตัดสินว่าความแตกต่างที่พบนั้นอาจเกิดจากสัญญาณรบกวนหรือไม่

ตัวอย่างเช่น หากสัญญาณรบกวนที่เพิ่มลงในค่าหนึ่งมีค่าประมาณ +/- 10 (โดยพิจารณาจากการปรับขนาด) และความแตกต่างของค่าระหว่างสองแคมเปญมากกว่า 100 ก็สามารถสรุปได้ว่าความแตกต่างของค่าที่วัดได้ระหว่างแต่ละแคมเปญไม่ได้เกิดจากข้อผิดพลาดเพียงอย่างเดียว

มีส่วนร่วมและแชร์ความคิดเห็น

คุณสามารถเข้าร่วมและทดสอบกับ API นี้

ขั้นตอนถัดไป