Соображения безопасности и справедливости для генеративных моделей

Генеративный ИИ может стать мощным инструментом для раскрытия творческих способностей, повышения производительности и упрощения повседневных задач. Однако в качестве технологии на ранней стадии ее следует использовать с соответствующими предосторожностями. Этот ресурс предлагает высокоуровневый подход к соображениям безопасности и справедливости для продуктов генеративного ИИ.

Введение

Быстрое развитие генеративного ИИ вывело на рынок функции и продукты в относительно короткие сроки. Команды, запускающие продукты с возможностями генеративного ИИ, должны стремиться обеспечить высокое качество, безопасность, честность и равноправие пользователей в соответствии с Принципами ИИ .

Ответственный подход к генеративным приложениям должен предусматривать планы для выполнения следующего:

  • Политики в отношении контента, потенциальный вред и анализ рисков
  • Ответственное поколение
  • Предотвращение вреда
  • Оценка и состязательное тестирование

Политика в отношении контента, потенциальный вред и анализ рисков

Продукты должны сначала соответствовать типу контента, который пользователям не разрешено создавать. Политика Google в отношении запрещенного использования генеративного ИИ включает в себя конкретные запрещенные случаи использования для обслуживаемых сервисов Google.

Обратитесь к официальной политике для получения более подробной информации о каждом из этих запрещенных вариантов использования. Для ваших собственных вариантов использования продукта определите, что представляет собой «хороший» контент, помимо отсутствия нарушения политики, или «плохой», чтобы соответствовать целям ответственного создания. Ваша команда также должна четко определить и описать варианты использования, которые будут считаться нарушением политики или использовать «режимы сбоя».

Политики в отношении контента — это всего лишь один шаг к предотвращению вреда для пользователей. Также важно учитывать цели и руководящие принципы качества , безопасности , справедливости и инклюзивности .

Качество

Команды должны разработать стратегии ответа на запросы в конфиденциальных областях, таких как медицинская информация, чтобы обеспечить высокое качество взаимодействия с пользователем. Ответственные стратегии включают предоставление нескольких точек зрения, откладывание тем без научных доказательств или предоставление только фактической информации с указанием авторства.

Безопасность

Целью мер безопасности ИИ является предотвращение или сдерживание действий, которые могут причинить вред, преднамеренно или непреднамеренно. Без соответствующих мер по смягчению последствий генеративные модели могут создавать небезопасный контент, который может нарушать политики в отношении контента или вызывать дискомфорт у пользователей. Рассмотрите возможность предоставления пояснений пользователям, если выходные данные были заблокированы или модель не смогла создать приемлемые выходные данные.

Справедливость и инклюзивность

Обеспечьте разнообразие в ответе и в нескольких ответах на один и тот же вопрос. Например, ответ на вопрос об известных музыкантах должен включать не только имена или изображения людей той же гендерной идентичности или тона кожи. Команды должны стремиться предоставлять контент для разных сообществ по запросу. Изучите обучающие данные на предмет разнообразия и представленности в различных идентичностях, культурах и демографических группах. Подумайте, как выходные данные по нескольким запросам отражают разнообразие в группах, не закрепляя общие стереотипы (например, ответы на «лучшие рабочие места для женщин» по сравнению с «лучшими рабочими местами для мужчин» не должны содержать традиционно стереотипный контент, такой как «медсестра», появляющаяся под «лучшие рабочие места для женщин», но «врач» появляется в разделе «лучшие рабочие места для мужчин»).

Анализ потенциального вреда и рисков

Следующие шаги рекомендуются при создании приложений с помощью LLM (см. руководство по безопасности PaLM API):

  • Понимание рисков безопасности вашего приложения
  • Рассмотрение корректировок для снижения рисков безопасности
  • Выполнение тестирования безопасности, соответствующего вашему варианту использования
  • Получение отзывов от пользователей и мониторинг использования

Чтобы узнать больше об этом подходе, посетите документацию PaLM API.

Для более глубокого погружения в этом докладе рассматриваются рекомендации по снижению рисков и разработке безопасных и ответственных приложений на основе LLM:

Ответственное поколение

Встроенная безопасность модели

В качестве одного из примеров функций безопасности PaLM API включает настраиваемые параметры безопасности , которые блокируют контент с настраиваемой вероятностью быть небезопасным по шести категориям: уничижительный, токсичный, сексуальный, насильственный, опасный и медицинский. Эти настройки позволяют разработчикам определять, что подходит для их вариантов использования, но также имеют встроенные средства защиты от основного вреда, такого как контент, угрожающий безопасности детей, который всегда блокируется и не может быть изменен.

Настройка модели

Точная настройка модели может научить ее отвечать на запросы приложения. Примеры подсказок и ответов используются для обучения модели тому, как лучше поддерживать новые варианты использования, устранять типы вреда или использовать различные стратегии, требуемые продуктом в ответе.

Например, рассмотрим:

  • Настройка выходных данных модели для лучшего отражения того, что приемлемо в контексте вашего приложения.
  • Предоставление метода ввода, который обеспечивает более безопасный вывод, например, ограничение ввода раскрывающимся списком.
  • Блокировка небезопасных входных данных и фильтрация выходных данных до того, как они будут показаны пользователю.

Дополнительные примеры корректировок для снижения рисков безопасности см. в Руководстве по безопасности PaLM API.

Предотвращение вреда

Дополнительные методы предотвращения вреда могут включать использование обученных классификаторов для маркировки каждой подсказки потенциальным вредом или враждебными сигналами. Кроме того, вы можете реализовать меры защиты от преднамеренного неправильного использования, ограничив объем пользовательских запросов, отправленных одним пользователем в определенный период времени, или попытаться защититься от возможного быстрого внедрения.

Подобно устройствам защиты входов, ограждения могут быть установлены на выходах. Ограждения модерации контента, такие как классификаторы, можно использовать для обнаружения контента, нарушающего политику. Если сигналы определяют вывод как опасный, приложение может предоставить ответ об ошибке или пустой ответ, предоставить предварительно подготовленный вывод или ранжировать несколько выводов из одного запроса для обеспечения безопасности.

Оценка, метрики и тестирование

Перед запуском продукты генеративного ИИ должны пройти тщательную оценку, чтобы убедиться, что они соответствуют политике безопасности и руководящим принципам. Чтобы создать основу для оценки и измерения улучшений с течением времени, необходимо определить показатели для каждого важного параметра качества контента. После того, как метрики определены, отдельный анализ рисков может определить целевые показатели производительности для запуска, принимая во внимание модели потерь, вероятность их возникновения и влияние вреда.

Примеры показателей для рассмотрения:

Контрольные показатели безопасности: разработайте метрики безопасности, которые отражают то, как ваше приложение может быть небезопасным в контексте того, как оно может использоваться, а затем проверьте, насколько хорошо ваше приложение работает с метриками, используя наборы данных для оценки.

Частота нарушений: при наличии сбалансированного набора данных о состязательных действиях (по применимым вредам и вариантам использования) количество нарушающих выходных данных, обычно измеряемое межэтапной надежностью.

Частота пустых ответов: Учитывая сбалансированный набор подсказок, на которые продукт намеревается предоставить ответ, количество пустых ответов (т. е. когда продукт не может предоставить безопасный вывод независимо от того, что ввод или вывод заблокирован).

Разнообразие: Учитывая набор подсказок, разнообразие атрибутов идентичности по измерениям, представленным в выходных данных.

Справедливость (для качества обслуживания): Учитывая набор подсказок, содержащих контрфактуальные значения чувствительного атрибута, способность обеспечить такое же качество обслуживания.

Состязательное тестирование

Состязательное тестирование предполагает активную попытку «сломать» ваше приложение. Цель состоит в том, чтобы определить слабые места, чтобы вы могли принять меры для их устранения.

Состязательное тестирование — это метод систематической оценки модели машинного обучения с целью изучения ее поведения при вводе злонамеренных или непреднамеренно вредоносных данных:

  • Ввод является вредоносным , если он явно предназначен для получения небезопасного или вредоносного вывода — например, запрос модели генерации текста на создание ненавистных разглагольствований о конкретной религии.
  • Ввод является непреднамеренно вредным, когда сам ввод может быть безобидным, но производит вредный вывод — например, запрашивая модель генерации текста для описания человека определенной этнической принадлежности и получая расистский вывод.

Состязательное тестирование преследует две основные цели: помочь командам систематически улучшать модели и продукты , выявляя текущие схемы отказов и определяя пути смягчения последствий, а также информировать о решениях по продуктам , оценивая соответствие политикам безопасности продуктов и измеряя риски, которые нельзя полностью снизить.

Состязательное тестирование следует рабочему процессу, аналогичному оценке стандартной модели:

  1. Найдите или создайте тестовый набор данных
  2. Запустите вывод модели, используя тестовый набор данных
  3. Аннотировать выходные данные модели
  4. Анализировать и сообщать о результатах

Что отличает состязательный тест от стандартной оценки, так это состав данных, используемых для тестирования. Для состязательных тестов выберите тестовые данные, которые с наибольшей вероятностью вызовут проблемы на выходе модели. Это означает исследование поведения модели на предмет всех возможных типов вреда, включая редкие или необычные примеры и крайние случаи, которые имеют отношение к политике безопасности. Он также должен включать разнообразие различных аспектов предложения, таких как структура, значение и длина.