Geniver AI は、創造性を解き放ち、生産性を高め、日々のタスクを簡素化する強力なツールです。ただし、これは初期段階のテクノロジーであるため、適切な予防措置で使用する必要があります。このリソースは、ジェネレーティブ AI プロダクトの安全性と公平性に関する考慮事項に対するアプローチの概要を示しています。
はじめに
ジェネレーティブ AI は急速に発展し、機能や製品を比較的短期間で市場に投入してきました。ジェネレーティブな AI 機能を備えたプロダクトをリリースするチームは、AI の原則に従って、高品質、安全、公平かつ公平なユーザー エクスペリエンスを確保する必要があります。
責任ある生成アプローチでは、以下のことを行うための計画を提供する必要があります。
- コンテンツ ポリシー、潜在的な危害、リスクの分析
- 責任ある世代
- 有害防止
- 評価と攻撃者のテスト
コンテンツ ポリシー、考えられる危害、リスクの分析
プロダクトはまず、ユーザーが生成を許可しないコンテンツ タイプに合わせる必要があります。Google の AI の禁止された使用ポリシーには、対象となる Google サービスで禁止されている具体的なユースケースが含まれています。
禁止されているユースケースの詳細については、公式のポリシーをご覧ください。プロダクトのユースケースでは、「責任ある生成」の目標に合わせて、「ポリシー違反」または「不適切」な「欠点」を除いた「良い」コンテンツの構成要素を定義します。また、ポリシー違反と見なすユースケースや「障害モード」を使用するユースケースを明確に定義して説明する必要があります。
コンテンツ ポリシーは、ユーザーへの危害の発生を防ぐための 1 つの手順にすぎません。また、品質、安全性、公平性、包括性に関する目標と指針について検討することも重要です。
品質
チームは、質の高いユーザー エクスペリエンスを提供するために、医療情報などのデリケートなカテゴリのクエリに対応するための戦略を考案する必要があります。責任ある戦略には、複数の視点の提供、科学的な証拠なしにトピックの先延ばし、アトリビューションによる事実情報のみの提供などがあります。
安全性
AI 安全対策の目的は、意図的または意図せずに危害を及ぼす可能性のある行為を防止または封じ込めることです。適切な対策を講じないと、生成モデルによって安全ではないコンテンツが出力され、コンテンツ ポリシーに違反するか、ユーザーに不快感を与える可能性があります。出力がブロックされた場合、またはモデルが許容可能な出力を生成できなかった場合、ユーザーに説明を提供することを検討してください。
公平性と包括性
同じ質問に対して、レスポンス内および複数のレスポンス間で多様性を確保します。たとえば、有名ミュージシャンに関する質問への回答では、同じ性自認や肌の色を持つ人の名前や画像だけでなく、チームは、リクエストに応じて、さまざまなコミュニティ向けのコンテンツを提供するよう努める必要があります。複数のアイデンティティ、文化、属性にわたって多様性と表現についてのトレーニング データを調べます。一般的なクエリの種類を助長することなく、複数のクエリのアウトプットがグループ内で多様性を表現する方法を検討します(例: 「女性に最適なジョブ」に対する「女性に最適なジョブ」に対する回答には、「女性向けの最高のジョブ」の下に表示される「看護師」ではなく「女性のための最高のジョブ」など)。
潜在的な危害とリスクの分析
LLM を使用してアプリケーションを作成する場合は、(PaLM API 安全ガイダンスを使用して)次の手順をおすすめします。
- アプリケーションの安全性に関するリスクについて
- 安全上のリスクを軽減するための調整を検討する
- ユースケースに適した安全テストの実施
- ユーザーからフィードバックを募り、使用状況をモニタリングする
このアプローチの詳細については、PaLM API のドキュメントをご覧ください。
ここでは、リスクを抑制し、LLM が支える安全で責任あるアプリケーションを開発するためのガイダンスについて説明します。
責任ある世代
モデルの安全性
安全機能の一例として、PaLM API には、名誉毀損、有害、性的、暴力、危険、医療の 6 つのカテゴリにわたり、安全でない可能性が調整可能なコンテンツをブロックする、調整可能な安全設定が含まれています。これらの設定により、デベロッパーは自身のユースケースに適したものを決定できます。また、児童を危険にさらすコンテンツ(常にブロックされ、調整できないものなど)に対する組み込みの保護機能も組み込まれています。
モデルのチューニング
モデルを微調整すると、アプリケーションの要件に基づいて応答する方法を学習できます。プロンプトと回答の例は、新しいユースケースのサポート方法、有害な種類の対処、またはプロダクトで必要なさまざまな返信方法の利用をモデルに教えるために使用されます。
たとえば、次の点を考慮してください。
- アプリケーションのコンテキストで許容される内容を反映するように、モデルの出力を調整する。
- プルダウン リストへの入力を制限するなど、より安全な出力を容易にする入力方法を提供する。
- 安全でない入力をブロックし、出力をフィルタしてからユーザーに表示します。
安全上のリスクを軽減するためのその他の調整例については、PaLM API の安全に関するガイドラインをご覧ください。
有害防止
損害を防止する別の方法としては、トレーニングされた分類器を使用して、各プロンプトに潜在的な危害または敵対的なシグナルのラベルを付ける場合があります。さらに、一定期間内に 1 人のユーザーが送信するユーザークエリの量を制限することで、意図的な不正使用の防止策を実装したり、プロンプト インジェクションから保護したりすることもできます。
入力の安全保護対策と同様に、出力にもガードレールを配置できます。分類器などのコンテンツ モデレーション ガードレールを使用して、ポリシー違反のコンテンツを検出できます。シグナルが出力を有害と判断した場合、アプリケーションはエラーまたは空のレスポンスを返すか、事前にスクリプト化された出力を提供するか、または同じプロンプトから複数の出力をランク付けして安全性を確保できます。
評価、指標、テスト
生成された AI プロダクトは、リリース前に安全ポリシーや指針と厳格な整合性を保って評価する必要があります。評価のベースラインを作成し、時間の経過とともに改善を測定するには、主要なコンテンツ品質ディメンションごとに指標を定義する必要があります。指標を定義した後、個別のリスク分析により、損失パターン、発生する可能性、害の影響を考慮して、リリースのパフォーマンス目標を決定できます。
考慮すべき指標の例:
安全性ベンチマーク: 使用される可能性のある状況におけるアプリケーションの安全でない方法を反映した安全性指標を設計し、評価データセットを使用して指標に対するアプリのパフォーマンスをテストします。
違反率: バランスの取れた攻撃者のデータセット(適用される危害とユースケース全体)を考慮し、通常はインターラテラの信頼性によって測定される違反の出力数。
空のレスポンス率: プロダクトがレスポンスを提供することを目的としたプロンプトのバランスが取れている場合に、空白のレスポンスの数(つまり、ブロックされている入力や出力に関係なくプロダクトが安全な出力を提供できない場合)を想定します。
多様性: 一連のプロンプトに基づいて、出力で表される ID 属性の次元に沿った多様性。
公平性(サービス品質のため): 機密属性の反事実を含む一連のプロンプトが、同じサービス品質を提供する能力。
敵対的テスト
敵対的テストでは、アプリケーションを積極的に「破壊」しようと試みます。目標は、お客様が対処できる弱点を特定し、対処できるようにすることです。
敵対的テストは、ML モデルを体系的に評価するための手法です。悪意のある入力や意図せず有害な入力が与えられた場合に、その動作を理解します。
- 入力が安全でない、または有害な出力を生成するように設計されている場合(特定の宗教に対する差別的な暴言をテキスト生成モデルに求める場合など)、入力は悪意がある
- 入力自体が無害であっても、入力が有害である可能性があるものの、有害な結果(たとえば、特定の民族に属する人についてテキスト生成モデルに質問し、人種差別的な結果を受け取る)を生じさせる入力は、誤って有害になる場合があります。
敵対的テストには 2 つの主な目標があります。1 つは、現在の失敗パターンを公開してチームがモデルとプロダクトを体系的に改善できるようにし、緩和の道筋を示すこと、2 つは安全に関するプロダクト ポリシーの整合性を評価して完全には軽減できない可能性のあるリスクを測定する。
敵対的テストは、標準モデルの評価と同様のワークフローに従います。
- テスト データセットを検索または作成する
- テスト データセットを使用してモデルの推論を実行する
- モデルの出力にアノテーションを追加する
- 結果の分析と報告
敵対的テストと標準評価の違いは、テストに使用されるデータの構成です。敵対的テストの場合は、モデルから問題のある出力を引き出す可能性が高いテストデータを選択します。つまり、まれな、またはまれな例や、安全ポリシーに関連するエッジケースなど、あり得るすべての種類のモデルについてモデルの動作を詳しく調査します。また、文章の構造、意味、長さなど、文章の各側面に多様性を持たせる必要もあります。