การทดสอบโฆษณาจริงคือวิธีประเมินโมเดล ML อย่างเป็นระบบโดยมีจุดประสงค์เพื่อเรียนรู้ว่าลักษณะการทํางานเป็นอย่างไร เมื่อได้รับอินพุตที่เป็นอันตรายหรือไม่ได้ตั้งใจ คู่มือนี้จะอธิบายตัวอย่างเวิร์กโฟลว์การทดสอบโฆษณา สําหรับ AI ยุคใหม่
การทดสอบโฆษณาคืออะไร
การทดสอบเป็นส่วนสําคัญในการสร้างแอปพลิเคชัน AI ที่มีประสิทธิภาพและปลอดภัย การทดสอบโฆษณา เกี่ยวข้องกับการพยายาม "ทําลาย" แอปพลิเคชันในเชิงรุกด้วยการให้ข้อมูลที่น่าจะทําให้เกิดเอาต์พุตที่เป็นปัญหา ข้อความค้นหาสําหรับโฆษณาทั้งหมดอาจทําให้โมเดลทํางานล้มเหลวได้ (นั่นคือ ละเมิดนโยบายความปลอดภัย) และอาจทําให้เกิดข้อผิดพลาดที่มนุษย์ตรวจพบได้ง่าย แต่ทําให้เครื่องจดจําได้ยาก
การสืบค้นข้อมูลอาจ "กรุยทาง" ด้วยวิธีที่แตกต่างกัน ข้อความค้นหาที่เป็นโฆษณาอย่างชัดแจ้งอาจมีภาษาที่ละเมิดนโยบายหรือมุมมองด่วนที่ละเมิดนโยบาย หรืออาจตรวจสอบหรือพยายาม "หลอกลวง" โมเดลให้พูดสิ่งที่ไม่ปลอดภัย เป็นอันตราย หรือไม่เหมาะสม ข้อความค้นหาโฆษณาโดยนัยอาจดูไม่เป็นอันตรายแต่อาจมีหัวข้อที่ละเอียดอ่อนซึ่งมีเนื้อหาละเอียดอ่อน เกี่ยวข้องกับวัฒนธรรม หรืออาจเป็นอันตราย ซึ่งอาจรวมถึงข้อมูลเกี่ยวกับข้อมูลประชากร สุขภาพ การเงิน หรือศาสนา
การทดสอบเวอร์ชันโฆษณาจะช่วยให้ทีมปรับปรุงโมเดลและผลิตภัณฑ์ได้โดยแสดงความล้มเหลวในปัจจุบันเพื่อเป็นแนวทางในการบรรเทาปัญหา เช่น การปรับแต่ง การป้องกันหรือตัวกรองของโมเดล นอกจากนี้ เครื่องมือดังกล่าวยังช่วยแจ้งการตัดสินใจเปิดตัวผลิตภัณฑ์ด้วยการวัดความเสี่ยงที่อาจไม่ลดลง เช่น ความเป็นไปได้ที่โมเดลที่มีเนื้อหาส่งออกผลลัพธ์จะละเมิดนโยบาย
แนวทางปฏิบัติแนะนําใหม่ๆ สําหรับ AI ที่มีความรับผิดชอบมีคู่มือตัวอย่างสําหรับการทดสอบโฆษณา สําหรับโมเดลและระบบยุคใหม่
ตัวอย่างเวิร์กโฟลว์การทดสอบโฆษณา
การทดสอบโฆษณาคั่นระหว่างหน้าเป็นไปตามเวิร์กโฟลว์ที่คล้ายกับการประเมินรูปแบบมาตรฐาน
ระบุและกําหนดอินพุต
ขั้นตอนแรกในกระบวนการทดสอบโฆษณาคือการระบุอินพุตเพื่อดูว่าระบบมีลักษณะการทํางานอย่างไรเมื่อถูกโจมตีแบบทั้งระบบและโดยเจตนา อินพุตที่รอบคอบอาจมีอิทธิพลต่อประสิทธิภาพของเวิร์กโฟลว์การทดสอบโดยตรง อินพุตต่อไปนี้จะช่วยกําหนดขอบเขตและวัตถุประสงค์ของการทดสอบโฆษณา
- นโยบายผลิตภัณฑ์และโหมดการทํางานล้มเหลว
- Use Case
- ข้อกําหนดความหลากหลาย
นโยบายผลิตภัณฑ์และโหมดการทํางานล้มเหลว
ผลิตภัณฑ์ AI ที่สร้างใหม่ควรกําหนดนโยบายความปลอดภัยที่อธิบายถึงพฤติกรรมของผลิตภัณฑ์และเอาต์พุตโมเดลที่ไม่ได้รับอนุญาต (กล่าวคือ ถือว่า "ไม่ปลอดภัย") นโยบายควรแจกแจงโหมดความล้มเหลวที่ถือว่าละเมิดนโยบาย รายการโหมดความล้มเหลวนี้ควรใช้เป็นพื้นฐานสําหรับการทดสอบโฆษณา โหมดความล้มเหลวบางโหมดอาจรวมถึงเนื้อหาที่มีภาษาหยาบคาย หรือคําแนะนําทางการเงิน กฎหมาย หรือการแพทย์
Use Case
สิ่งสําคัญอีกประการหนึ่งในการทดสอบโฆษณาคือ Use Case ที่รูปแบบในการสร้างผลิตภัณฑ์หรือผลิตภัณฑ์ต้องการสื่อ เพื่อให้ข้อมูลการทดสอบนําเสนอวิธีที่ผู้ใช้โต้ตอบกับผลิตภัณฑ์จริง ผลิตภัณฑ์ยุคใหม่ทุกกรณีจะมีกรณีการใช้งานที่แตกต่างกันเล็กน้อย แต่ตัวอย่างที่พบเห็นได้ทั่วไป ได้แก่ การเสาะหาข้อเท็จจริง ข้อมูลสรุป และการสร้างโค้ดสําหรับโมเดลภาษา หรือการสร้างรูปภาพพื้นหลังตามภูมิศาสตร์หรือภูมิประเทศ ศิลปะหรือสไตล์เสื้อผ้า
ข้อกําหนดความหลากหลาย
ชุดข้อมูลทดสอบโฆษณาควรมีความหลากหลายมากพอและเป็นตัวแทนของโหมดการทํางานเป้าหมายและกรณีการใช้งานที่ไม่สําเร็จทั้งหมด การวัดความหลากหลายของชุดข้อมูลทดสอบช่วยระบุการให้น้ําหนักพิเศษที่อาจเกิดขึ้นและช่วยให้มั่นใจว่ามีการทดสอบโมเดลอย่างครอบคลุมด้วยกลุ่มผู้ใช้ที่หลากหลาย
การคํานึงถึงความหลากหลายมี 3 วิธี ดังนี้
- ความหลากหลายทางคําศัพท์: ตรวจสอบว่าข้อความค้นหามีช่วงความยาวต่างกัน (เช่น จํานวนคํา) ใช้ช่วงคําศัพท์กว้างๆ ไม่มีคําที่ซ้ํากัน และมีการใช้สูตรการค้นหาต่างๆ (เช่น คําถามแบบ wh-question, คําขอทั้งทางตรงและทางอ้อม)
- ความหลากหลายทางอรรถศาสตร์: ตรวจสอบว่าคําค้นหาครอบคลุมหัวข้อที่หลากหลายต่อนโยบาย (เช่น โรคเบาหวานเพื่อสุขภาพ) รวมถึงลักษณะที่ละเอียดอ่อนและอัตลักษณ์ (เช่น เพศ ชาติพันธุ์) ในกรณีการใช้งานต่างๆ และบริบททั่วโลก
- ความหลากหลายของนโยบายและกรณีการใช้งาน: ตรวจสอบว่าคําค้นหาครอบคลุมการละเมิดนโยบายทั้งหมด (เช่น วาจาสร้างความเกลียดชัง) และกรณีการใช้งาน (เช่น คําแนะนําจากผู้เชี่ยวชาญ)
ค้นหาหรือสร้างชุดข้อมูลทดสอบ
ชุดข้อมูลทดสอบสําหรับการทดสอบโฆษณาคั่นระหว่างหน้าสร้างขึ้นต่างจากชุดการทดสอบการประเมินโมเดลมาตรฐาน ในการประเมินโมเดลมาตรฐาน ชุดข้อมูลทดสอบมักจะออกแบบมาเพื่อสะท้อนถึงการกระจายของข้อมูลที่โมเดลจะพบได้อย่างถูกต้อง สําหรับการทดสอบ Adversarial จะมีการเลือกข้อมูลการทดสอบเพื่อกระตุ้นเอาต์พุตที่เป็นปัญหาจากโมเดลโดยพิสูจน์การทํางานของโมเดลในตัวอย่างจากการเผยแพร่และกรณี Edge ที่เกี่ยวข้องกับนโยบายความปลอดภัย ชุดทดสอบโฆษณาคุณภาพสูงควรครอบคลุมมิติข้อมูลนโยบายความปลอดภัยทั้งหมด และเพิ่ม Use Case ต่างๆ ที่โมเดลต้องการสนับสนุนให้สูงสุด ซึ่งควรมีความหลากหลายทางภาษา (เช่น การค้นหาความยาวและภาษาต่างๆ) และมีความหมาย (เช่น หัวข้อและข้อมูลประชากรที่แตกต่างกัน)
ตรวจสอบชุดข้อมูลการทดสอบที่มีอยู่เพื่อให้ครอบคลุมนโยบายความปลอดภัย โหมดการทํางานล้มเหลว และกรณีการใช้งานสําหรับโมเดลข้อความและรูปแบบข้อความไปยังรูปภาพ ทีมอาจใช้ชุดข้อมูลที่มีอยู่เพื่อกําหนดพื้นฐานประสิทธิภาพของผลิตภัณฑ์ จากนั้นจึงทําการวิเคราะห์อย่างละเอียดมากขึ้นเกี่ยวกับโหมดที่เจาะจงในบางโหมดซึ่งผลิตภัณฑ์ขัดข้อง
หากชุดข้อมูลการทดสอบที่มีอยู่ไม่เพียงพอ ทีมจะสร้างข้อมูลใหม่เพื่อกําหนดเป้าหมายโหมดการทํางานล้มเหลวและกรณีการใช้งานเฉพาะได้ วิธีหนึ่งในการสร้างชุดข้อมูลใหม่คือการเริ่มสร้างชุดข้อมูลขนาดเล็ก (เช่น ตัวอย่างจํานวนมากจากหลายสิบหมวดหมู่) ด้วยตัวเอง จากนั้นจึงขยายชุดข้อมูล "Seed" นี้โดยใช้เครื่องมือสังเคราะห์ข้อมูล
ชุดข้อมูลตั้งต้นควรมีตัวอย่างที่คล้ายกับสิ่งที่ระบบพบในเวอร์ชันที่ใช้งานจริงให้มากที่สุด และสร้างโดยมีเป้าหมายในการกระตุ้นให้เกิดการละเมิดนโยบาย คุณลักษณะที่มีความเป็นพิษสูงมักจะถูกตรวจพบได้ด้วยคุณลักษณะ ความปลอดภัย ดังนั้นโปรดพิจารณาวลีที่สร้างสรรค์และอินพุตโฆษณาโดยนัย
คุณอาจใช้การอ้างอิงโดยตรงหรือโดยอ้อมกับแอตทริบิวต์ที่ละเอียดอ่อน (เช่น อายุ เพศ เชื้อชาติ ศาสนา) ในชุดข้อมูลทดสอบ โปรดทราบว่าการใช้คําเหล่านี้ อาจแตกต่างกันในแต่ละวัฒนธรรม โทนเสียง โครงสร้างประโยค การเลือกคํา ความยาว และความหมาย ตัวอย่างที่การใช้ป้ายกํากับได้หลายรายการ (เช่น วาจาสร้างความเกลียดชังกับคําลามก) อาจสร้างเสียงรบกวนและทําซ้ําได้ และระบบการประเมินหรือการฝึกอบรมอาจไม่ได้จัดการอย่างเหมาะสม
ชุดทดสอบการโฆษณาควรได้รับการวิเคราะห์เพื่อทําความเข้าใจองค์ประกอบต่างๆ ในแง่ของความหลากหลายทางอรรถศาสตร์และความหมาย การครอบคลุมในการละเมิดนโยบายและกรณีการใช้งาน และคุณภาพโดยรวมในแง่ของความเป็นเอกลักษณ์ ความเสมอภาค และเสียงรบกวน
สร้างเอาต์พุตโมเดล
ขั้นตอนถัดไปคือการสร้างเอาต์พุตโมเดลตามชุดข้อมูลทดสอบ ผลลัพธ์จะบอกให้ทีมผลิตภัณฑ์ทราบประสิทธิภาพของโมเดลเมื่อแสดงต่อผู้ใช้ที่เป็นอันตราย หรืออินพุตที่เป็นอันตรายโดยไม่ได้ตั้งใจ การระบุพฤติกรรมของระบบและรูปแบบการตอบสนองดังกล่าวจะช่วยให้สามารถวัดเกณฑ์พื้นฐานที่นํามาใช้ในการพัฒนาโมเดลในอนาคตได้
เพิ่มคําอธิบายประกอบเอาต์พุต
เมื่อมีการสร้างผลลัพธ์จากการทดสอบโฆษณาแล้ว ให้ใส่ข้อมูลเสริมนั้นเพื่อจัดหมวดหมู่วิดีโอเป็นโหมดการทํางานล้มเหลวและ/หรืออันตราย ป้ายกํากับเหล่านี้จะมอบสัญญาณ ความปลอดภัยสําหรับเนื้อหาแบบข้อความและรูปภาพ นอกจากนี้ สัญญาณต่างๆ ยังช่วยวัดผลและบรรเทาอันตรายต่อโมเดลและผลิตภัณฑ์ด้วย
ตัวแยกประเภทความปลอดภัยจะใช้คําอธิบายประกอบเอาต์พุต (หรืออินพุต) สําหรับการละเมิดนโยบายโดยอัตโนมัติได้ ความแม่นยําอาจต่ําสําหรับสัญญาณที่พยายามตรวจหาโครงสร้างที่ไม่ได้กําหนดอย่างเคร่งครัด เช่น วาจาสร้างความเกลียดชัง สําหรับสัญญาณเหล่านั้น คุณจําเป็นต้องใช้ผู้ตรวจสอบที่เป็นมนุษย์เพื่อตรวจสอบและแก้ไขป้ายกํากับที่สร้างโดยตัวแยกประเภท ซึ่งคะแนนจะ "ไม่แน่นอน"
นอกจากคําอธิบายประกอบอัตโนมัติแล้ว คุณยังสามารถใช้ประโยชน์จากเจ้าหน้าที่ตรวจสอบคําอธิบายประกอบของคุณได้อีกด้วย สิ่งสําคัญที่ควรทราบคือการใส่คําอธิบายประกอบเอาต์พุตในการทดลองทดสอบนั้นเกี่ยวข้องกับการดูข้อความที่เกิดปัญหาและที่อาจเป็นอันตราย ซึ่งคล้ายกับการตรวจสอบเนื้อหาด้วยตนเอง นอกจากนี้ ผู้ตรวจสอบที่เป็นเจ้าหน้าที่อาจใส่คําอธิบายประกอบเนื้อหาเดียวกันแตกต่างกันตามภูมิหลัง ความรู้ หรือความเชื่อของผู้ใช้ ซึ่งจะมีประโยชน์ในการสร้างหลักเกณฑ์หรือเทมเพลตสําหรับผู้ประเมิน และอย่าลืมว่าความหลากหลายของกลุ่มผู้ใช้พลังสามารถสร้างอิทธิพลต่อผลลัพธ์คําอธิบายประกอบ
รายงานและบรรเทาปัญหา
ขั้นตอนสุดท้ายคือสรุปผลการทดสอบในรายงาน คํานวณเมตริกและรายงานผลลัพธ์เพื่อระบุอัตราความปลอดภัย การแสดงภาพ และตัวอย่างของการทํางานล้มเหลวที่เป็นปัญหา ผลลัพธ์เหล่านี้จะเป็นแนวทางในการปรับปรุงโมเดลและข้อมูลสําหรับการป้องกันโมเดล เช่น ตัวกรองหรือรายการบล็อก นอกจากนี้ รายงานยังเป็นสิ่งสําคัญ ในการสื่อสารกับผู้มีส่วนเกี่ยวข้องและผู้มีอํานาจตัดสินใจ
แหล่งข้อมูลเพิ่มเติม
ทีม AI Red ของ Google: แฮ็กเกอร์ที่มีจรรยาบรรณในการทําให้ AI ปลอดภัยยิ่งขึ้น
โมเดลภาษาทีมสีแดงที่มีโมเดลภาษา
การทดสอบความเป็นธรรมของผลิตภัณฑ์สําหรับนักพัฒนาแมชชีนเลิร์นนิง (วิดีโอ)
การทดสอบความเป็นธรรมของผลิตภัณฑ์สําหรับนักพัฒนาซอฟต์แวร์ (Codelab)