생성 모델의 안전 및 공정성 고려사항

생성 AI는 창의성을 발휘하고, 생산성을 높이고, 일상적인 작업을 간소화하는 강력한 도구가 될 수 있습니다. 하지만 초기 단계 기술인 경우 적절한 예방 조치를 통해 사용해야 합니다. 이 리소스는 생성 AI 제품의 안전 및 공정성을 고려한 대략적인 접근 방식을 제공합니다.

소개

생성적 AI가 빠르게 발전함에 따라 상대적으로 짧은 기간 동안 기능과 제품을 시장에 출시할 수 있었습니다. 생성적 AI 기능으로 제품을 출시하는 팀은 AI 원칙에 따라 고품질의 안전하고 공정하며 공정한 사용자 환경을 제공하는 것을 목표로 해야 합니다.

생성 애플리케이션에 대한 책임감 있는 접근 방식은 다음 목표를 달성하기 위한 계획을 제공해야 합니다.

  • 콘텐츠 정책, 잠재적 피해, 위험 분석
  • 책임감 있는 세대
  • 상해 예방
  • 평가 및 적대적 테스트

콘텐츠 정책, 잠재적 피해, 위험 분석

제품은 사용자가 생성할 수 없는 콘텐츠 유형에 맞게 정렬해야 합니다. Google의 생성된 AI 금지 사용 정책에는 적용되는 Google 서비스에 대해 구체적으로 금지되는 사용 사례가 포함되어 있습니다.

이러한 금지된 사용 사례에 대한 자세한 내용은 공식 정책을 참조하세요. 제품 사용 사례의 경우 정책을 위반하거나 '나쁨'이 없는 것뿐만 아니라 책임감 있는 생성 목표에 맞게 '좋은' 콘텐츠를 구성하는 요소를 정의합니다. 또한 팀은 정책 위반으로 간주되는 사용 사례를 명확하게 정의하고 설명하거나 '실패 모드'를 사용해야 합니다.

콘텐츠 정책은 사용자에게 피해를 주지 않기 위한 하나의 단계일 뿐입니다. 또한 품질, 안전, 공정성, 포용성에 대한 목표와 기본 원칙을 고려하는 것도 중요합니다.

품질

팀은 양질의 사용자 환경을 제공할 수 있도록 의료 정보와 같은 민감한 카테고리의 쿼리에 응답하기 위한 전략을 고안해야 합니다. 책임감 있는 전략에는 다양한 관점을 제공하거나, 과학적 증거를 제시하지 않고 주제를 연기하거나, 저작자 표시를 통해 사실 정보만 제공하는 것도 포함됩니다.

안전

AI 안전 조치의 목표는 의도적으로 또는 의도치 않게 해를 끼칠 수 있는 행동을 방지하거나 포함하는 것입니다. 적절한 모델이 없으면 생성 모델이 콘텐츠 정책을 위반하거나 사용자에게 불편을 초래할 수 있는 안전하지 않은 콘텐츠를 출력할 수 있습니다. 출력이 차단되었거나 모델이 허용 가능한 출력을 생성할 수 없는 경우 사용자에게 설명을 제공하는 것이 좋습니다.

공정성 및 포용성

같은 질문에 대한 응답과 여러 응답에서 다양성을 보장합니다. 예를 들어 유명한 음악가에 관한 질문에는 동일한 성 정체성 또는 피부색을 가진 사람의 이름이나 이미지뿐만 아니라 팀은 요청이 있을 경우 다양한 커뮤니티에 콘텐츠를 제공하기 위해 노력해야 합니다. 학습 데이터를 검토하여 여러 ID, 문화, 인구통계에 걸친 다양성과 대표성을 확인합니다. 여러 쿼리를 통해 산출된 결과가 일반적인 고정관념을 지속하지 않으면서 그룹의 다양성을 나타내는지 생각해 보세요(예: '최고의 남성 일자리'와 비교했을 때 '최고의 일자리'에 대한 응답에서 전통적으로 고정관념이 있는 콘텐츠(예: '여성에게 가장 좋은 일자리' 아래에 표시되는 '간호사'가 아니라 '최고의 일자리' 아래에 표시됨)를 포함해서는 안 됩니다.

잠재적 피해 및 위험 분석

PaLM API 안전 지침을 통해 LLM으로 애플리케이션을 빌드할 때 다음 단계를 따르는 것이 좋습니다.

  • 애플리케이션의 안전 위험 이해
  • 안전 위험 완화를 위한 조정 고려
  • 사용 사례에 적합한 안전 테스트 실행
  • 사용자 의견 요청 및 사용량 모니터링

이 접근 방식에 관한 자세한 내용은 PaLM API 문서를 참고하세요.

보다 심층적으로 논의하기 위해 이 강연에서는 위험을 줄이고 안전하고 책임감 있는 LLM 지원을 받는 애플리케이션을 개발하기 위한 지침을 살펴봅니다.

책임감 있는 세대

기본 제공 모델 안전

안전 기능의 한 예인 PaLM API에는 경멸, 악의적인, 성적, 폭력적, 위험, 의료의 6가지 카테고리에서 안전하지 않을 가능성이 조정 가능한 콘텐츠를 차단하는 조정 가능한 안전 설정이 포함되어 있습니다. 이러한 설정을 통해 개발자는 사용 사례에 적합한 항목을 결정할 수 있을 뿐만 아니라, 아동을 위험에 빠뜨리는 콘텐츠와 같이 항상 차단 및 조정이 불가한 콘텐츠 등 핵심 위험에 대비한 보호 기능이 기본 제공됩니다.

모델 조정

모델을 미세 조정하여 애플리케이션 요구사항에 따라 답변하는 방법을 알려줄 수 있습니다. 예시 프롬프트와 답변은 새로운 사용 사례를 더 효과적으로 지원하고, 유해한 유형의 유형을 처리하거나, 답장에서 제품에서 원하는 다양한 전략을 활용하는 방법을 모델에 가르치는 데 사용됩니다.

예를 들면 다음과 같습니다.

  • 애플리케이션 컨텍스트에서 허용되는 사항을 더 잘 반영하도록 모델 출력을 조정합니다.
  • 입력을 드롭다운 목록으로 제한하는 등 더 안전한 출력을 용이하게 하는 입력 방법을 제공합니다.
  • 안전하지 않은 입력 차단 및 사용자에게 표시되기 전에 출력 필터링

안전 위험을 완화하기 위한 조정의 예시를 더 보려면 PaLM API의 안전 지침을 참조하세요.

피해 예방

피해를 방지하는 다른 방법으로는 학습된 분류기를 사용하여 각 메시지에 잠재적인 피해 또는 적대적 신호를 지정할 수 있습니다. 또한 지정된 기간 동안 단일 사용자가 제출하는 사용자 쿼리 볼륨을 제한하여 의도적인 오용에 대한 보호 장치를 구현하거나 가능한 메시지 삽입으로부터 보호하려고 할 수도 있습니다.

입력 보호 장치와 마찬가지로 출력에 가드레일을 배치할 수 있습니다. 분류 기준과 같은 콘텐츠 검토 가드레일을 사용하여 정책 위반 콘텐츠를 감지할 수 있습니다. 신호가 출력이 유해하다고 판단하는 경우 애플리케이션은 오류나 빈 응답을 제공하거나 사전 스크립팅된 출력을 제공하거나 안전을 위해 동일한 프롬프트에서 여러 출력의 순위를 매길 수 있습니다.

평가, 측정항목, 테스트

생성 AI 제품은 엄격한 사전 평가를 거쳐 출시 전에 안전 정책과 기본 원칙을 준수하는지 확인해야 합니다. 평가 기준을 만들고 시간 경과에 따른 개선을 측정하기 위해 각 핵심 콘텐츠 품질 측정기준에 측정항목을 정의해야 합니다. 측정항목이 정의되면 별도의 위험 분석을 통해 손실 패턴, 발생할 가능성, 피해의 영향을 고려하여 출시의 성능 목표를 결정할 수 있습니다.

고려해야 할 측정항목의 예:

안전 벤치마크: 애플리케이션이 사용될 가능성이 있는 상황에서 애플리케이션이 안전하지 않은 방식을 반영하는 안전 측정항목을 설계하고 평가 데이터 세트를 사용하여 측정항목에서 애플리케이션이 얼마나 잘 작동하는지 테스트합니다.

위반률: (적합한 피해 및 사용 사례에 걸쳐) 균형 잡힌 적대적인 데이터 세트가 주어지면 일반적으로 위반자 안정성으로 측정되는 위반 출력 수입니다.

빈 응답률: 제품이 응답을 제공하려고 하는 균형 잡힌 메시지 세트입니다(빈 입력의 수(즉, 차단되는 입력이나 출력에 관계없이 제품에 안전한 출력을 제공할 수 없는 경우).

다양성: 프롬프트의 집합을 기반으로 출력에 표시되는 ID 속성의 차원을 보여줍니다.

공정성 (서비스 품질 목적): 민감한 속성의 반사실적이 포함된 메시지 집합을 기반으로 동일한 서비스 품질을 제공할 수 있습니다.

적대적 테스트

적대적 테스트에는 사전에 애플리케이션을 '중단'하려고 시도하는 것이 포함됩니다. 목표는 취약한 부분을 파악하여 해결을 위한 조치를 취할 수 있도록 하는 것입니다.

적대적 테스트는 악의적이거나 의도치 않은 유해한 입력이 제공되었을 때 어떻게 작동하는지 학습하기 위해 ML 모델을 체계적으로 평가하는 방법입니다.

  • 입력은 안전하지 않거나 유해한 출력을 생성하도록 명확하게 설계된 악성입니다(예: 특정 종교에 대한 증오성 분노를 생성하도록 텍스트 생성 모델에 요청).
  • 입력 자체가 무해하지만 유해한 출력을 생성하는 경우, 입력은 실수로 유해합니다. 예를 들어 텍스트 생성 모델에 특정 민족을 묘사해 달라고 요청하고 인종차별적 출력을 받는 경우입니다.

적대적 테스트에는 두 가지 주요 목표가 있습니다. 즉, 팀이 현재 실패 패턴을 노출하여 체계적으로 모델과 제품을 개선하도록 돕고, 완화 경로를 안내하며, 안전 제품 정책에 대한 합의를 평가하고 완전히 완화되지 않을 수 있는 위험을 측정하여 제품 결정에 정보를 제공하는 것입니다.

적대적 테스트는 표준 모델 평가와 유사한 워크플로를 따릅니다.

  1. 테스트 데이터 세트 찾기 또는 만들기
  2. 테스트 데이터 세트를 사용하여 모델 추론 실행
  3. 모델 출력에 주석 달기
  4. 결과 분석 및 보고

적대적 테스트와 표준 평가의 차이점은 테스트에 사용되는 데이터 조합입니다. 적대적 테스트의 경우 모델에서 문제가 있는 출력을 유도할 가능성이 가장 높은 테스트 데이터를 선택하세요. 즉, 희귀하거나 특이한 사례와 안전 정책과 관련된 극단적 사례를 포함하여 발생 가능한 모든 유형의 피해에 대해 모델의 동작을 조사해야 합니다. 또한 구조, 의미, 길이 등 문장의 다양한 차원에 있는 다양성을 포함해야 합니다.