生成模型的安全性和公平性注意事项

生成式 AI 是有助于释放创造力、提高工作效率并简化日常任务的强大工具。不过,作为早期阶段的技术,应谨慎使用。此资源简要介绍了生成式 AI 产品的安全性和公平性注意事项。

简介

生成式 AI 的快速开发使得功能和产品在相对较短的时间内进入市场。用于发布具有生成式 AI 功能的产品的团队应致力于根据 AI 原则确保获得高质量、安全、公平和公平的用户体验。

负责任的生成应用方法应提供实现以下目标的计划:

  • 内容政策、潜在危害和风险分析
  • 负责任地生成
  • 危害预防
  • 评估和对抗测试

内容政策、潜在危害和风险分析

产品首先应不允许用户生成内容类型。Google 的“生成 AI 禁止的使用”政策包含适用于所涵盖 Google 服务的特定禁止用例。

如需详细了解每种禁止的用例,请参阅官方政策。对于您自己的产品使用场景,请定义除“违反政策”或“不好”之外的其他标准(“良好”)的内容,以便与负责任的生成目标保持一致。您的团队还应明确定义和说明哪些情况会被视为违反政策或采用“失败模式”。

内容政策只是防止用户受到伤害的一步。另外,务必考虑有关质量安全性公平性包容性的目标和指导原则。

质量

各团队应该制定策略来响应敏感行业(例如医疗信息)的查询,以帮助提供高质量的用户体验。 负责任的策略包括提供多个观点,在没有科学证据的情况下推迟主题,或仅在归因时提供事实信息。

安全

AI 安全措施旨在防范或包含可能导致故意或无意造成伤害的行为。如果没有适当的缓解措施,生成模型可能会输出可能违反内容政策或导致用户不适的不安全内容。如果输出被屏蔽或模型无法生成可接受的输出,请考虑为用户提供说明。

公平和包容

确保回答的多样性和同一问题的多个回答的多样性。例如,在回答与某位著名音乐人有关的问题时,不仅应包含具有相同性别认同或肤色的人的姓名或图片。在收到请求后,团队应努力为不同的社区提供内容。检查训练数据,以确定多个身份、文化和受众特征的多样性和代表性。考虑多项查询的输出如何代表群组的多样性,而不是长久存续刻板印象(例如,与“最适合女性的职位”相比,“针对男性的最佳职位”的回复不应包含传统刻板印象的内容,例如显示在“最适合女性的职位”下方,但“医生”应出现在“最佳职位”下)。

潜在危害和风险分析

使用 LLM 构建应用时,建议执行以下步骤(通过 PaLM API 安全指南):

  • 了解应用的安全风险
  • 考虑进行调整以降低安全风险
  • 根据您的使用场景执行安全测试
  • 征求用户反馈并监控使用情况

如需详细了解此方法,请参阅 PaLM API 文档

为更深入地了解相关信息,本演讲探索了有关遏制风险和开发安全且负责任的 LLM 支持的应用的指导:

负责任发电

内置模型安全

举例而言,PaLM API 包含一些可调整的安全设置,用于屏蔽概率设置为可调整的不安全内容(分为以下六类):诋毁性、恶意、性、暴力、危险和医疗。通过这些设置,开发者可以确定适合其用例的内容,但还内置了核心危害防护功能,例如危害儿童安全的内容,这些内容始终受到屏蔽且无法调整。

模型调整

微调模型可以教该模型如何根据应用的要求进行回答。提示和回答的示例用于教模型如何更好地支持新的用例、解决伤害类型或利用回复中商品所需的不同策略。

例如:

  • 调整模型输出,以便更好地反映应用上下文中可接受的值。
  • 提供有助于实现更安全输出的输入方法,例如将输入限制到下拉列表。
  • 在向用户显示不安全的输入之前将其屏蔽。

如需查看更多调整示例来降低安全风险,请参阅 PaLM API 的安全指南

有害危害

其他的伤害预防方法可能包括使用经过训练的分类器为每个提示添加潜在伤害或对抗信号。此外,您还可以实施防范措施来限制某个特定用户通过同一用户提交的用户查询数量,从而避免故意滥用,或者尝试防范可能出现的及时注入攻击。

与输入保护措施类似,可在输出中添加防护措施。内容审核保护措施(例如分类器)可用于检测违反政策的内容。如果信号确定输出有害,应用可以提供错误响应或空响应,提供预先编写了脚本的输出,或从同一提示对多个输出进行排名以确保安全。

评估、指标和测试

您应严格评估生成式 AI 产品,以确保其在发布之前符合安全政策和指导原则。如需创建用于评估和衡量一段时间内性能提升的基准,您应该为每个重要内容质量维度定义指标。在定义指标后,可以通过一个单独的风险分析来确定发布的性能目标,同时考虑损失模式、遇到这些问题的可能性以及伤害的影响。

可考虑的指标示例:

安全基准:设计安全指标,以反映您的应用在可能使用它的情境下可能不安全的方式,然后使用评估数据集测试您的应用在各项指标上的表现。

违规率:假设均衡的对抗数据集(涵盖适用的冲突和用例)中的违规输出数量,通常由中介者的可靠性进行衡量。

空白响应率:假设某个产品打算提供响应的均衡提示(即,即使无法提供输入或输出被阻止,因此无法提供安全的输出)数量,系统会显示空白响应。

多样性:鉴于一组提示,输出中表示的身份属性维度的多样性。

公平性(针对服务质量):假设有一组提示包含敏感属性的反事实,能够提供相同的服务质量。

对抗性测试

对抗性测试涉及主动尝试“破坏”您的应用。我们的目标是找出弱点,以便您采取措施加以解决。

对抗测试是一种系统性评估机器学习模型的方法,旨在了解当模型提供恶意输入或意外有害输入时的行为方式:

  • 如果某个输入源明显用于生成不安全或有害的输出,例如要求文本生成模型针对某一特定宗教发表仇恨内容,则属于恶意输入。
  • 如果输入本身可能无害,但会生成有害输出,则该输入会无意间造成伤害,例如,要求文本生成模型描述特定种族的人并接收种族主义输出。

对抗测试有两项主要目标:通过公开当前的失败模式,帮助团队系统性改进模型和产品;指导缓解路径;通过评估对安全产品政策的一致性并衡量可能不会完全缓解的风险来制定产品决策

对抗性测试遵循与标准模型评估类似的工作流:

  1. 查找或创建测试数据集
  2. 使用测试数据集运行模型推断
  3. 为模型输出添加注释
  4. 分析和报告结果

对抗测试与标准评估的不同之处在于用于测试的数据的组合。对于对抗性测试,请选择最有可能导致模型出现问题的输出的测试数据。这意味着要探究模型可能出现的所有类型的危害,包括罕见或异常的示例,以及与安全策略相关的极端情况。它还应该在句子的不同维度(例如结构、含义和长度)中包含多样性。