ข้อควรพิจารณาด้านความปลอดภัยและความยุติธรรมสําหรับโมเดลที่สร้างขึ้น

AI ยุคใหม่เป็นเครื่องมืออันทรงพลังในการปลดล็อกความคิดสร้างสรรค์ เพิ่มประสิทธิภาพการทํางาน และทําให้งานในแต่ละวันง่ายขึ้น อย่างไรก็ตาม ในฐานะเทคโนโลยีในระยะเริ่มต้น คุณควรใช้ความระมัดระวังอย่างระมัดระวัง แหล่งข้อมูลนี้เป็นแนวทางระดับสูงสําหรับการพิจารณาด้านความปลอดภัยและความยุติธรรมสําหรับผลิตภัณฑ์ AI ยุคใหม่

ข้อมูลเบื้องต้น

การพัฒนา AI อย่างรวดเร็วทําให้คุณลักษณะและผลิตภัณฑ์เข้าสู่ตลาดในระยะเวลาที่สั้น ทีมที่เปิดตัวผลิตภัณฑ์ที่มีความสามารถของ AI รุ่นใหม่ๆ ควรมุ่งมั่นที่จะดูแลให้ประสบการณ์ของผู้ใช้มีคุณภาพสูง ปลอดภัย ยุติธรรม และเท่าเทียมตามหลักการ AI

วิธีการที่เหมาะสมในการสร้างแอปพลิเคชันควรให้แผนดําเนินการดังต่อไปนี้

  • นโยบายเนื้อหา อันตรายที่อาจเกิดขึ้น และการวิเคราะห์ความเสี่ยง
  • การสร้างความรับผิดชอบ
  • การป้องกันอันตราย
  • การประเมินและการทดสอบโฆษณา

นโยบายเนื้อหา ความเสี่ยงที่อาจเกิดขึ้น และการวิเคราะห์ความเสี่ยง

ผลิตภัณฑ์ควรสอดคล้องกับประเภทของเนื้อหาที่ไม่ได้รับอนุญาตให้สร้าง นโยบายการใช้งานที่ไม่ได้รับอนุญาตของ Generative AI ของ Google รวมถึงกรณีการใช้งานที่ไม่อนุญาตที่เฉพาะเจาะจงสําหรับบริการต่างๆ ของ Google ที่ครอบคลุม

ดูนโยบายอย่างเป็นทางการ สําหรับรายละเอียดเพิ่มเติมเกี่ยวกับกรณีการใช้งานที่ไม่อนุญาตเหล่านี้ สําหรับกรณีการใช้งานผลิตภัณฑ์ของคุณ ให้กําหนดสิ่งที่ประกอบขึ้นเป็นเนื้อหา "ที่ดี" นอกเหนือจากการไม่มีการละเมิดนโยบายหรือ "ไม่ดี" เพื่อให้สอดคล้องกับเป้าหมายในการสร้างความรับผิดชอบ ทีมของคุณควรระบุและอธิบายกรณีการใช้งานที่ถือว่าละเมิดนโยบายอย่างชัดเจนหรือใช้ "โหมดการทํางานล้มเหลว" ด้วย

นโยบายเนื้อหาเป็นเพียงขั้นตอนเดียวในการป้องกันอันตรายต่อผู้ใช้ นอกจากนี้ คุณยังต้องพิจารณาถึงเป้าหมายและหลักการที่เป็นแนวทางสําหรับคุณภาพ ความปลอดภัย ความยุติธรรม และการรวม

คุณภาพ

ทีมควรคิดค้นกลยุทธ์สําหรับการตอบคําค้นหาในธุรกิจที่มีความละเอียดอ่อน เช่น ข้อมูลทางการแพทย์ เพื่อช่วยมอบประสบการณ์ของผู้ใช้ที่มีคุณภาพสูง กลยุทธ์ที่มีความรับผิดชอบรวมถึงการนําเสนอมุมมองที่หลากหลาย การเลื่อนหัวข้อโดยไม่มีหลักฐานทางวิทยาศาสตร์ หรือการให้ข้อมูลที่เป็นข้อเท็จจริงด้วยการระบุแหล่งที่มา

ความปลอดภัย

เป้าหมายของมาตรการรักษาความปลอดภัยของ AI คือการป้องกันหรือมีการดําเนินการที่นําไปสู่การก่อให้เกิดอันตรายทั้งโดยตั้งใจหรือไม่ตั้งใจ หากปราศจากการบรรเทาปัญหาที่เหมาะสม โมเดลรุ่นสู่รุ่นอาจผลิตเนื้อหาที่ไม่ปลอดภัยที่อาจละเมิดนโยบายเนื้อหาหรือทําให้ผู้ใช้รู้สึกไม่สบายใจ ลองให้คําอธิบายแก่ผู้ใช้ในกรณีที่เอาต์พุตถูกบล็อก หรือโมเดลไม่สามารถสร้างเอาต์พุตที่ยอมรับได้

ความเป็นธรรมและการยอมรับ

ตรวจดูว่าคําตอบในคําถามต่างๆ มีความหลากหลายและตรงกับคําถามแต่ละข้อ ตัวอย่างเช่น การตอบคําถามเกี่ยวกับนักดนตรีที่มีชื่อเสียงไม่ควรมีเพียงชื่อหรือรูปภาพที่เป็นอัตลักษณ์ทางเพศหรือโทนสีผิวเดียวกันเท่านั้น ทีมควรพยายามมอบเนื้อหาให้ชุมชนต่างๆ เมื่อมีการร้องขอ ตรวจสอบข้อมูลการฝึกอบรมเพื่อความหลากหลายและการนําเสนอ เกี่ยวกับอัตลักษณ์ วัฒนธรรม และข้อมูลประชากรหลายๆ แบบ ลองพิจารณาว่าผลลัพธ์ที่ได้จากข้อความค้นหาหลายๆ แบบแสดงถึงความหลากหลายในกลุ่มต่างๆ โดยไม่แสดงถึงทัศนคติแบบเหมารวมทั่วไป (เช่น การตอบสนองต่อ "งานที่ดีที่สุดสําหรับผู้หญิง" เมื่อเทียบกับ "งานที่ดีที่สุดสําหรับผู้ชาย" ไม่ควรมีเนื้อหาแบบเหมารวมแบบดั้งเดิม เช่น "งานพยาบาล" ปรากฏอยู่ใน "งานที่ดีที่สุดสําหรับผู้หญิง" แต่คําว่า "แพทย์" ปรากฏในส่วน "งานที่ดีที่สุดสําหรับผู้ชาย")

ความเสี่ยงที่อาจเกิดขึ้นและการวิเคราะห์ความเสี่ยง

เราขอแนะนําให้ทําตามขั้นตอนต่อไปนี้เมื่อสร้างแอปพลิเคชันที่มี LLM (ผ่านคําแนะนําด้านความปลอดภัยของ PaLM API)

  • การทําความเข้าใจเกี่ยวกับความเสี่ยงด้านความปลอดภัยของแอปพลิเคชันของคุณ
  • พิจารณาการปรับเพื่อลดความเสี่ยงด้านความปลอดภัย
  • การดําเนินการทดสอบความปลอดภัยที่เหมาะกับกรณีการใช้งานของคุณ
  • การขอความคิดเห็นจากผู้ใช้และตรวจสอบการใช้งาน

หากต้องการอ่านเพิ่มเติมเกี่ยวกับแนวทางนี้ โปรดดูเอกสารเกี่ยวกับ PaLM API

ในการเจาะลึก การพูดคุยนี้จะสํารวจแนวทางในการควบคุมความเสี่ยงและการพัฒนาแอปพลิเคชันที่ได้รับการสนับสนุน LLM อย่างมีความรับผิดชอบ

การสร้างความรับผิดชอบ

ความปลอดภัยของโมเดลในตัว

ในตัวอย่างฟีเจอร์ด้านความปลอดภัย PaLM API ประกอบด้วยการตั้งค่าความปลอดภัยแบบปรับได้ ซึ่งบล็อกเนื้อหาที่มีแนวโน้มความเป็นไปได้ในการปรับตัวว่าไม่ปลอดภัยใน 6 หมวดหมู่ ได้แก่ การวิจารณ์ไปในทางเสื่อมเสีย เป็นพิษ เป็นเรื่องเพศ รุนแรง เป็นอันตราย และทางการแพทย์ การตั้งค่าเหล่านี้ช่วยให้นักพัฒนาซอฟต์แวร์กําหนดสิ่งที่เหมาะสมสําหรับกรณีการใช้งานได้ แต่ก็ยังมีการป้องกันในตัวที่อาจเป็นอันตราย เช่น เนื้อหาที่เป็นอันตรายต่อความปลอดภัยของเด็ก ซึ่งจะถูกบล็อกเสมอและปรับเปลี่ยนไม่ได้

การปรับจูนโมเดล

การปรับแต่งโมเดลจะสอนวิธีตอบตามข้อกําหนดของแอปพลิเคชันได้ ตัวอย่างข้อความแจ้งและคําตอบใช้สําหรับสอนโมเดลให้รองรับกรณีการใช้งานใหม่ ประเภทอันตราย หรือใช้กลยุทธ์ต่างๆ ที่ต้องการในผลิตภัณฑ์ในการตอบกลับให้ดียิ่งขึ้น

เช่น

  • ปรับเอาต์พุตของโมเดลให้ตรงกับสิ่งที่ยอมรับในบริบทของแอปพลิเคชันได้ดีขึ้น
  • วิธีการป้อนข้อมูลที่เอื้อต่อเอาต์พุตที่ปลอดภัยกว่า เช่น การจํากัดอินพุตลงในรายการแบบเลื่อนลง
  • การบล็อกอินพุตและเอาต์พุตที่ไม่ปลอดภัยก่อนที่จะแสดงต่อผู้ใช้

ดูคําแนะนําด้านความปลอดภัยของ PaLM API เพื่อดูตัวอย่างการปรับเพิ่มเติมเพื่อลดความเสี่ยงด้านความปลอดภัย

การป้องกันอันตราย

วิธีการป้องกันอันตรายเพิ่มเติมอาจรวมถึงการใช้ตัวแยกประเภทที่ผ่านการฝึกอบรมเพื่อติดป้ายกํากับข้อความแจ้งแต่ละตัวว่าอาจจะเกิดอันตรายหรือสัญญาณบอกสถานะการโฆษณาที่อาจเกิดขึ้น ยิ่งไปกว่านั้น คุณสามารถใช้การป้องกันจากการใช้งานในทางที่ผิดโดยจํากัดปริมาณข้อความค้นหาของผู้ใช้ที่ส่งในช่วงเวลาหนึ่ง ๆ หรือพยายามป้องกันการโจมตีการแทรกที่อาจเกิดขึ้น

แถบเลื่อนจะวางอยู่บนเอาต์พุต เช่นเดียวกับการป้องกันอินพุต คุณใช้ขอบเขตการกลั่นกรองเนื้อหา เช่น ตัวแยกประเภท เพื่อตรวจหาเนื้อหาที่ละเมิดนโยบายได้ หากสัญญาณระบุว่าเอาต์พุตเป็นอันตราย แอปพลิเคชันอาจแสดงข้อผิดพลาดหรือไม่มีคําตอบ แสดงเอาต์พุตที่กําหนดไว้ล่วงหน้า หรือจัดอันดับเอาต์พุตหลายรายการจากข้อความแจ้งเดียวกันเพื่อความปลอดภัย

การประเมิน เมตริก และการทดสอบ

ผลิตภัณฑ์ AI รุ่นแรกควรได้รับการประเมินอย่างเข้มงวดเพื่อให้มั่นใจว่าสอดคล้องกับนโยบายความปลอดภัยและหลักการที่เป็นแนวทางก่อนการเปิดตัว หากต้องการสร้างเส้นฐานสําหรับการประเมินและวัดการปรับปรุงเมื่อเวลาผ่านไป ควรกําหนดเมตริกสําหรับมิติข้อมูลคุณภาพเนื้อหาแต่ละรายการ หลังจากกําหนดเมตริกแล้ว การวิเคราะห์ความเสี่ยงที่แยกต่างหากจะสามารถระบุเป้าหมายด้านประสิทธิภาพสําหรับการเปิดตัว โดยพิจารณาจากรูปแบบการสูญเสียผู้ใช้ แนวโน้มที่ผู้ใช้จะพบได้ และผลกระทบจากความเสียหาย

ตัวอย่างเมตริกที่ควรพิจารณามีดังนี้

การเปรียบเทียบความปลอดภัย: ออกแบบเมตริกความปลอดภัยให้สะท้อนถึงวิธีที่แอปพลิเคชันอาจไม่ปลอดภัยในบริบทของแนวโน้มการใช้งาน แล้วทดสอบว่าแอปพลิเคชันทํางานได้ดีเพียงใดในเมตริกโดยใช้ชุดข้อมูลการประเมิน

อัตราการละเมิด: จํานวนชุดข้อมูลของวิดีโอที่สมดุล (ระหว่างกรณีและกรณีการใช้งานที่เกี่ยวข้อง) จํานวนผลลัพธ์ที่ละเมิด ซึ่งมักจะวัดจากความน่าเชื่อถือของตัวโต้ตอบ

อัตราคําตอบเปล่า: ชุดข้อความเตือนที่แสดงสมดุลซึ่งผลิตภัณฑ์ต้องการการตอบสนองตามจํานวนการตอบกลับที่ว่างเปล่า (เช่น เมื่อผลิตภัณฑ์ไม่สามารถหาผลลัพธ์ที่ปลอดภัยได้โดยไม่คํานึงถึงการบล็อกหรือเอาต์พุต)

ความหลากหลาย: เมื่อพิจารณาจากข้อความแจ้ง ความหลากหลายในมิติข้อมูลของแอตทริบิวต์ข้อมูลประจําตัวที่แสดงในเอาต์พุต

ความเป็นธรรม (สําหรับคุณภาพของการบริการ): เมื่อเทียบกับชุดข้อความแจ้งที่มีแอตทริบิวต์ของแอตทริบิวต์ที่ละเอียดอ่อน ความสามารถในการให้บริการที่มีคุณภาพแบบเดียวกัน

การทดสอบโฆษณา

การทดสอบโฆษณาแฝงเกี่ยวข้องกับ "การหยุด" แอปพลิเคชันของคุณในเชิงรุก เป้าหมายคือการระบุจุดอ่อนต่างๆ เพื่อให้คุณสามารถดําเนินการแก้ไข

การทดสอบโฆษณาคือวิธีประเมินโมเดล ML อย่างเป็นระบบโดยมีเจตนาเรียนรู้พฤติกรรมเมื่อมีการป้อนข้อมูลที่เป็นอันตรายหรือเป็นอันตรายโดยไม่ได้ตั้งใจ

  • อินพุตจะเป็นอันตรายเมื่ออินพุตได้รับการออกแบบมาให้สร้างเอาต์พุตที่ไม่ปลอดภัยหรือเป็นอันตรายอย่างชัดเจน เช่น ขอให้โมเดลการสร้างข้อความสร้างความเกลียดชังเกี่ยวกับศาสนาหนึ่งๆ
  • อินพุตจะเป็นอันตรายโดยไม่เจตนาเมื่ออินพุตนั้นไม่เป็นอันตราย แต่ให้ผลเอาต์พุตที่เป็นอันตราย เช่น ขอให้โมเดลการสร้างข้อความอธิบายบุคคลของชาติพันธุ์กลุ่มหนึ่ง และรับผลของการเหยียดเชื้อชาติ

การทดสอบสมรรถนะสูงมีจุดประสงค์หลัก 2 ประการ ได้แก่ การช่วยให้ทีมปรับปรุงโมเดลและผลิตภัณฑ์อย่างเป็นระบบโดยเผยให้เห็นรูปแบบความล้มเหลวในปัจจุบัน ตลอดจนแนะนําแนวทางการบรรเทาปัญหา และให้ข้อมูลในการตัดสินใจเกี่ยวกับผลิตภัณฑ์ด้วยการประเมินความสอดคล้องกันของนโยบายผลิตภัณฑ์ด้านความปลอดภัย และการวัดผลความเสี่ยงที่อาจไม่ได้ลดลงโดยสมบูรณ์

การทดสอบโฆษณาคั่นระหว่างหน้าเป็นไปตามเวิร์กโฟลว์ที่คล้ายกับการประเมินรูปแบบมาตรฐาน

  1. ค้นหาหรือสร้างชุดข้อมูลทดสอบ
  2. เรียกใช้การอนุมานโมเดลโดยใช้ชุดข้อมูลทดสอบ
  3. เพิ่มคําอธิบายประกอบเอาต์พุตโมเดล
  4. วิเคราะห์และรายงานผลลัพธ์

สิ่งที่ทําให้การทดสอบโฆษณาแตกต่างจากการประเมินแบบมาตรฐานคือ องค์ประกอบของข้อมูลที่ใช้สําหรับการทดสอบ สําหรับการทดสอบโฆษณา ให้เลือกข้อมูลการทดสอบที่มีแนวโน้มจะก่อให้เกิดผลลัพธ์ที่เป็นปัญหาจากโมเดล ซึ่งหมายถึงการ ตรวจสอบพฤติกรรมของโมเดลเกี่ยวกับอันตรายทุกประเภทที่เป็นไปได้ รวมถึงตัวอย่างที่พบได้ไม่บ่อยนักหรือกรณีพิเศษที่พบได้ซึ่งเกี่ยวข้องกับนโยบายความปลอดภัย ซึ่งควรรวมถึงความหลากหลายของมิติข้อมูลที่ต่างกันของประโยคด้วย เช่น โครงสร้าง ความหมาย และความยาว