안전

AI 안전에는 의도적이든 의도적이지 않든 해를 끼칠 수 있는 행위를 방지하고 억제하기 위해 따라야 하는 설계 및 운영 기법이 포함됩니다. 예를 들어 보안 침해 또는 타겟팅된 공격이 있더라도 AI 시스템이 의도한 대로 작동하나요? AI 시스템은 교란이 발생해도 안전하게 작동할 만큼 견고한가요? 위험을 방지하거나 피하기 위해 미리 계획하는 방법 AI 시스템이 스트레스를 받더라도 안정적이고 신뢰할 수 있나요?

이러한 안전 기법 중 하나는 적대적 테스트입니다. 적대적 테스트는 악의적이거나 의도치 않게 유해한 입력이 제공되었을 때 애플리케이션이 어떻게 동작하는지 알아보기 위해 애플리케이션을 '손상'시키려고 시도하는 관행입니다. 책임감 있는 생성형 AI 툴킷에서는 공격 테스트를 비롯한 안전 평가에 대해 자세히 설명합니다. 이 분야에서 Google이 수행하는 작업과 얻은 교훈에 대해 자세히 알아보려면 키워드 블로그 게시물인 Google AI 레드팀: AI를 더 안전하게 만드는 윤리적인 해커 또는 SAIF: Google의 안전한 AI 가이드를 참고하세요.