產生的模型安全性和公平性考量事項

創造型 AI 是發揮創意、提高工作效率及簡化日常工作的強大工具。不過,做為早期技術使用,應搭配適當的預防措施使用。這項資源提供高階方法的安全性及公平性注意事項,適用於一般 AI 產品。

簡介

快速發展型 AI 技術的可在短時間內推出功能和產品。凡是使用通用 AI 功能的產品,團隊應依據 AI 原則,確保優質、安全、公平且公平的使用者體驗。

負責任的產生應用程式應提供具有以下相關方案的計畫:

  • 內容政策、潛在危害和風險分析
  • 負責任的產生
  • 預防有害
  • 評估和對抗測試

內容政策、潛在危害和風險分析

產品應優先供使用者無法產生的內容類型,Google 的《產生的 AI 禁止使用政策》涵蓋了涵蓋 Google 服務的特定禁止用途。

如要進一步瞭解各項禁用用途,請參閱官方政策。在您自己的產品使用案例中,請定義「優質」內容,除了沒有違反政策,更應遵循「不當」的定義,以便配合負責任的發布目標。您的團隊也應該要能夠清楚定義及描述會被視為違反政策的用途或「故障模式」。

制定內容政策只是防止使用者面臨傷害的第一步。另外,也需要考量品質安全公平性多元包容等目標和指導原則。

品質

團隊應制定策略,以回應敏感產業 (例如醫療資訊) 中的查詢,藉此提供優質的使用者體驗。負責任的策略包括提供多個觀點、在沒有科學證據的情況下延後主題,或是只提供出處資訊來提供事實資訊。

安全分

AI 安全措施的用意在於避免或納入可能損害、刻意或無意地執行的動作。如果沒有適當緩解措施,創造型模型可能會輸出可能違反內容政策或讓使用者感到不適的不安全內容。如果輸出遭到封鎖,或模型無法產生可接受的輸出內容,請考慮提供說明。

公平且包容

確保相同問題及多個回應中的多樣性。舉例來說,使用者對於知名音樂人的問題,除了反映相同性別或膚色人士的名字或圖片外,團隊應盡力配合要求為不同社群提供內容。查看訓練資料,瞭解多種身分、文化和受眾特徵的多元性與代表性。請思考如何透過多次查詢,呈現出多元化的輸出內容,而不具有常見的刻板印象 (例如,「最適合女性的工作機會」相較於「男性最佳工作機會」的「女性工作機會」)。

潛在的傷害與風險分析

使用 PaLM API 安全性指南建構應用程式時,建議您採取下列步驟:

  • 瞭解應用程式的安全性風險
  • 進行調整以降低安全風險
  • 根據用途執行安全測試
  • 徵求使用者的意見回饋,並監控使用情形

如要進一步瞭解這個方法,請參閱 PaLM API 說明文件

為進一步探討相關細節,我們將探討如何防範風險,以及開發安全且負責任的 LLM 應用程式:

負責任的產生

內建模型安全

安全機制範例的 PaLM API 提供可調整的安全性設定,可封鎖的可能性分為六種類別:危險、惡意、性、暴力、危險和醫療等可調整性。這些設定可讓開發人員判斷哪些用途適合自身用途,但也內建防範核心危害的保護措施,例如危害兒童安全的內容,這類內容一律都會遭到封鎖且無法調整。

模型微調

微調模型可學習如何根據應用程式的需求回答問題。範例提示與答案可用來訓練模型,瞭解如何更妥善地支援新的用途、傷害行為類型,或在回覆中採用多種不同的策略。

例如:

  • 調整模型輸出內容,以更準確地反映應用程式接受的內容。
  • 提供輸入項目,有助於提高輸出次數,例如限制下拉式清單的輸入內容。
  • 封鎖不安全的輸入項目,並向使用者顯示輸出內容。

如要查看更多可降低安全風險的調整項範例,請參閱 PaLM API 的安全性指南

預防危害

其他預防危害的方法包括使用經過訓練的分類器,將每個提示都加上潛在的傷害或對抗信號。此外,您可以限制單一使用者在特定時間內提交的使用者查詢量,藉此避免意外濫用。或者,

防護機制與輸入保護措施類似,可將防護機制置於輸出內容。內容審核機制 (例如分類器) 可用於偵測違反政策的內容。如果信號判定輸出內容為有害內容,應用程式可以提供錯誤或空白回應、提供預先寫入的輸出內容,或是為相同的提示指派不同的輸出內容。

評估、指標和測試

產生的 AI 產品應經過嚴格評估,確保產品在發布前符合安全政策和指導原則。如要建立基準以評估及評估長期改善情形,請為每個容量內容品質維度定義指標。定義指標後,不同的風險分析就能判斷啟動的成效目標、考量錯失模式、發生機率,以及傷害的影響。

需考量的指標包括:

安全性基準:設計安全性指標,以反映應用程式可能的使用情形,並說明應用程式可能的使用方式,然後使用評估資料集測試應用程式的指標表現。

違規率:在平衡的反對式資料集 (在各個適用的使用案例和用途中) 數量,違規的輸出數量,通常是由評分者可靠性評估。

空白回應率:取得平衡的一項產品提示,針對產品提供回應,為空白回應數量 (即產品無法提供安全輸出,不受任何封鎖或輸出)。

多元性:根據一組提示,與輸出內容中身分屬性維度的多元性。

公平性 (用於服務品質):一組是包含敏感屬性事實的一組提示,可提供相同服務的品質。

對抗測試

進行破壞測試包括主動嘗試「破壞」應用程式。我們的目標是找出弱點,以便您採取補救措施。

被動測試是一種系統性研究方法,目的在於瞭解該模型在提供惡意或非預期有害輸入內容時的行為方式:

  • 如果輸入內容是專門為了產生不安全或有害的輸出內容,就是非常惡意,例如要求文字產生模型來產生關於特定宗教的仇恨保證。
  • 輸入內容本身俱有無謂的無害性,但可能會產生有害的輸出內容,例如要求文字生成模型描述特定族裔並接收種族歧視內容。

對抗測試有兩個主要目標:協助揭露目前的失敗模式、引導緩解措施,以及評估安全產品政策及評估可能未完全承擔的風險,以有利於系統改善模型和產品

進行深度測試的工作流程與標準模型評估類似:

  1. 尋找或建立測試資料集
  2. 使用測試資料集執行模型推論
  3. 為模型輸出加上註解
  4. 分析及回報結果

差異度測試和標準評估的差別在於,用於測試的資料組合。如果是對抗式測試,請選取最有可能從模型發出有問題的輸出內容的測試資料。換句話說,模型可探詢出所有可能的傷害類型,包括與安全政策相關的罕見或罕見例子,以及極端案例。也應包含句子的不同維度,例如結構、意義和長度。