การทำความเข้าใจข้อผิดพลาดในรายงานสรุป

ดูความหมายของสัญญาณรบกวน ตําแหน่งที่เพิ่ม และผลกระทบต่อความพยายามในการวัด

รายงานสรุปคือผลลัพธ์ของการรวมรายงานที่รวมได้ เมื่อเครื่องมือรวบรวมจัดกลุ่มรายงานที่รวบรวมได้และบริการรวบรวมประมวลผลแล้ว ระบบจะเพิ่มข้อมูลจํานวนหนึ่งแบบสุ่มลงในรายงานสรุปที่ได้ ระบบจะเพิ่มเสียงรบกวนเพื่อปกป้องความเป็นส่วนตัวของผู้ใช้ เป้าหมายของกลไกนี้คือการมีเฟรมเวิร์กซึ่งรองรับการวัดผลแบบเก็บข้อมูลอย่างมีความแตกต่าง

ระบบจะเพิ่มสัญญาณรบกวนไว้ในรายงานสรุปขั้นสุดท้าย

ข้อมูลเบื้องต้นเกี่ยวกับสัญญาณรบกวนในรายงานสรุป

แม้ว่าการเพิ่มสัญญาณรบกวนจะไม่ได้เป็นองค์ประกอบของการวัดผลโฆษณาในปัจจุบัน แต่ในกรณีส่วนใหญ่ การเพิ่มสัญญาณรบกวนจะไม่ทําให้วิธีตีความผลลัพธ์เปลี่ยนแปลงไปมากนัก

ลองคิดถึงเรื่องนี้ในลักษณะต่อไปนี้ คุณมั่นใจที่จะตัดสินใจตามข้อมูลบางอย่างไหม หากข้อมูลนั้นไม่มีสัญญาณรบกวน

ตัวอย่างเช่น ผู้ลงโฆษณาจะมั่นใจในการเปลี่ยนแปลงกลยุทธ์หรืองบประมาณแคมเปญหรือไม่ โดยพิจารณาจากข้อเท็จจริงที่ว่าแคมเปญ A มี Conversion 15 รายการและแคมเปญ B มี 16 รายการ

หากคำตอบคือไม่ เสียงรบกวนก็ไม่เกี่ยวข้อง

สิ่งที่คุณต้องทำคือกําหนดค่าการใช้ API ในลักษณะต่อไปนี้

  1. คำตอบของคำถามข้างต้นคือใช่
  2. ระบบจัดการสัญญาณรบกวนโดยไม่ส่งผลกระทบต่อความสามารถในการตัดสินใจตามข้อมูลบางอย่างอย่างมีนัยสําคัญ คุณจัดการปัญหานี้ได้โดยกำหนดจำนวน Conversion ขั้นต่ำที่คาดไว้ โดยให้จำนวนข้อมูลรบกวนในเมตริกที่รวบรวมไว้ต่ำกว่าเปอร์เซ็นต์ที่กำหนด

ในส่วนนี้และส่วนถัดไป เราจะอธิบายกลยุทธ์เพื่อให้บรรลุข้อ 2

แนวคิดหลัก

บริการรวบรวมข้อมูลจะเพิ่มสัญญาณรบกวน 1 ครั้งในค่าสรุปแต่ละค่า ซึ่งก็คือ 1 ครั้งต่อคีย์ทุกครั้งที่มีการขอรายงานสรุป

ค่าสัญญาณรบกวนเหล่านี้จะสุ่มมาจากการแจกแจงความน่าจะเป็นที่เฉพาะเจาะจงตามที่อธิบายไว้ด้านล่าง

องค์ประกอบทั้งหมดที่ส่งผลต่อสัญญาณรบกวนจะอิงตามแนวคิดหลัก 2 ประการ

  1. การแจกแจงสัญญาณรบกวน (รายละเอียดด้านล่าง) จะเหมือนกันไม่ว่าจะมีค่าสรุปต่ำหรือสูง ดังนั้น ค่าสรุปที่สูงขึ้นก็ยิ่งทำให้ความผันผวนมีแนวโน้มที่จะส่งผลน้อยลงเมื่อเทียบกับค่านี้

    ตัวอย่างเช่น สมมติว่าทั้งมูลค่าการซื้อรวมทั้งหมด $20,000 และมูลค่าการซื้อรวมทั้งหมด $200 อยู่ภายใต้สัญญาณรบกวนซึ่งเลือกมาจากการแจกแจงเดียวกัน

    สมมติว่าสัญญาณรบกวนจากการแจกแจงนี้แตกต่างกันไปประมาณ -100 ถึง +100

    • สำหรับมูลค่าการซื้อโดยรวม $20,000 ระดับความคลาดเคลื่อนจะอยู่ระหว่าง 0 ถึง 100/20,000=0.5%
    • สําหรับมูลค่าการซื้อโดยรวม $200 ระดับสัญญาณรบกวนจะอยู่ระหว่าง 0 ถึง 100/200=50%

    ดังนั้น ปัจจัยรบกวนจึงมีแนวโน้มที่จะส่งผลต่อมูลค่าการซื้อรวม $20,000 น้อยกว่ามูลค่า $200 เมื่อเทียบกับกัน มูลค่า $20,000 มีแนวโน้มที่จะมีความผันผวนน้อยลง กล่าวคือมีแนวโน้มที่จะมีค่าอัตราส่วนสัญญาณต่อสัญญาณรบกวนสูงกว่า

    ค่ารวมที่สูงขึ้นจะมีผลกระทบจากสัญญาณรบกวนน้อยกว่า

    ข้อมูลนี้มีผลในทางปฏิบัติที่สำคัญ 2-3 ประการตามที่ระบุไว้ในส่วนถัดไป กลไกนี้เป็นส่วนหนึ่งของการออกแบบ API และผลกระทบที่แท้จริงคือผลระยะยาว ข้อมูลดังกล่าวจะยังคงมีบทบาทสําคัญเมื่อเทคโนโลยีโฆษณาออกแบบและประเมินกลยุทธ์การรวบรวมข้อมูลต่างๆ

  2. แม้ว่าสัญญาณรบกวนจะมาจากค่าแจกแจงเดียวกัน โดยไม่คำนึงถึงค่าสรุป แต่การแจกแจงนั้นขึ้นอยู่กับพารามิเตอร์หลายรายการ epsilon ซึ่งเป็นพารามิเตอร์หนึ่งในนั้นอาจได้รับการแก้ไขโดยเทคโนโลยีโฆษณาในระหว่างการทดสอบต้นทางที่สิ้นสุดแล้วเพื่อประเมินการปรับยูทิลิตี/ความเป็นส่วนตัวต่างๆ อย่างไรก็ตาม โปรดทราบว่าความสามารถในการปรับ epsilon เป็นเพียงชั่วคราว เรายินดีรับฟังความคิดเห็นเกี่ยวกับกรณีการใช้งานและค่า epsilon ที่ได้ผลดี

แม้ว่าบริษัทเทคโนโลยีโฆษณาจะไม่สามารถควบคุมวิธีเพิ่มสัญญาณรบกวนโดยตรง แต่ก็สามารถควบคุมผลกระทบของสัญญาณรบกวนต่อข้อมูลการวัดได้ ในส่วนถัดไป เราจะเจาะลึกว่าสัญญาณรบกวนส่งผลต่อการใช้งานจริงอย่างไร

ก่อนอื่น เรามาพิจารณาวิธีใช้เสียงรบกวนกัน

การซูมเข้า: การใช้เสียงรบกวน

การกระจายเสียงรบกวน 1 รายการ

ระบบจะดึงข้อมูลสัญญาณรบกวนจากการแจกแจง Laplace โดยมีพารามิเตอร์ต่อไปนี้

  • ค่าเฉลี่ย (μ) เท่ากับ 0 ซึ่งหมายความว่าค่าที่มีสัญญาณรบกวนมากที่สุดคือ 0 (ไม่มีการเพิ่มสัญญาณรบกวน) และค่าที่มีสัญญาณรบกวนมีแนวโน้มที่จะน้อยกว่าค่าเดิมพอๆ กับที่จะมีแนวโน้มที่จะมากกว่า (บางครั้งเรียกว่าไม่มีอคติ)
  • พารามิเตอร์สเกลb = CONTRIBUTION_BUDGET / epsilon
    • CONTRIBUTION_BUDGET ได้รับการกําหนดไว้ในเบราว์เซอร์
    • epsilon ใช้ในบริการรวมข้อมูล

แผนภาพต่อไปนี้แสดงฟังก์ชันความหนาแน่นของข้อมูลสําหรับการแจกแจง Laplace ที่มี μ=0, b = 20

ฟังก์ชันความหนาแน่นของโอกาสสำหรับการแจกแจง Laplace ที่มี μ=0, b = 20

ค่าสัญญาณรบกวนแบบสุ่ม การกระจายสัญญาณรบกวน 1 รายการ

สมมติว่าเทคโนโลยีโฆษณาขอรายงานสรุปสําหรับคีย์การรวม 2 คีย์ ได้แก่ คีย์ 1 และคีย์ 2

บริการการรวมข้อมูลจะเลือกค่าสัญญาณรบกวน 2 ค่า ได้แก่ x1 และ x2 ตามการแจกแจงสัญญาณรบกวนเดียวกัน ระบบจะเพิ่ม x1 ลงในค่าสรุปสำหรับคีย์ 1 และเพิ่ม x2 ลงในค่าสรุปสำหรับคีย์ 2

ในแผนภาพ เราจะแสดงค่าของสัญญาณรบกวนว่าเหมือนกัน นี่เป็นวิธีอธิบายแบบง่าย แต่ในความเป็นจริง ค่าของสัญญาณรบกวนจะแตกต่างกันไป เนื่องจากมีการดึงค่าแบบสุ่มจากชุดข้อมูล

ข้อมูลนี้แสดงให้เห็นว่าค่าสัญญาณรบกวนทั้งหมดมาจากการแจกแจงเดียวกัน และค่าสรุปที่ใช้ค่าสัญญาณรบกวนนั้นไม่เกี่ยวข้องกัน

คุณสมบัติอื่นๆ ของเสียงรบกวน

ระบบจะใช้สัญญาณรบกวนกับค่าสรุปทุกค่า รวมถึงค่าว่าง (0)

แม้แต่ค่าสรุปที่ว่างเปล่าก็อาจมีสัญญาณรบกวน

ตัวอย่างเช่น แม้ว่าค่าสรุปจริงของคีย์หนึ่งๆ จะเท่ากับ 0 แต่ค่าสรุปที่มีสัญญาณรบกวนซึ่งคุณจะเห็นในรายงานสรุปของคีย์นี้ (มีแนวโน้มสูง) จะไม่เท่ากับ 0

สัญญาณรบกวนอาจเป็นตัวเลขบวกหรือลบก็ได้

ตัวอย่างของสัญญาณรบกวนเชิงบวกและเชิงลบ

ตัวอย่างเช่น สำหรับยอดซื้อก่อนเกิดข้อผิดพลาด 327,000 บาท ข้อผิดพลาดอาจเท่ากับ +6,000 หรือ -6,000 (ค่าเหล่านี้เป็นค่าตัวอย่างที่กำหนดเอง)

การประเมินเสียงรบกวน

การคำนวณค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวน

ค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนคือ

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
ตัวอย่าง

เมื่อ epsilon = 10 ค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนคือ

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

การประเมินเมื่อความแตกต่างของการวัดมีนัยสําคัญ

เนื่องจากคุณจะทราบค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวนซึ่งเพิ่มลงในเอาต์พุตค่าแต่ละค่าโดยบริการรวบรวมข้อมูล คุณจึงกําหนดเกณฑ์ที่เหมาะสมสําหรับการเปรียบเทียบเพื่อระบุว่าความแตกต่างที่สังเกตได้อาจเกิดจากสัญญาณรบกวนหรือไม่

ตัวอย่างเช่น หากความผันผวนที่เพิ่มลงในค่าประมาณ +/- 10 (พิจารณาการปรับขนาด) และความแตกต่างของค่าระหว่าง 2 แคมเปญมากกว่า 100 ก็อาจสรุปได้ว่าความแตกต่างของค่าที่วัดระหว่างแต่ละแคมเปญไม่ได้เกิดจากความผันผวนเพียงอย่างเดียว

มีส่วนร่วมและแชร์ความคิดเห็น

คุณสามารถเข้าร่วมและทดสอบกับ API นี้

ขั้นตอนถัดไป