Безопасность и усиление; Соображения справедливости для генеративных моделей

Генеративный ИИ может стать мощным инструментом для раскрытия творческих способностей, повышения производительности и упрощения повседневных задач. Однако, поскольку технология находится на ранней стадии, ее следует использовать с соответствующими мерами предосторожности. Этот ресурс представляет собой высокоуровневый подход к рассмотрению вопросов безопасности и справедливости для продуктов генеративного ИИ.

Введение

Быстрое развитие генеративного искусственного интеллекта позволило вывести на рынок функции и продукты в относительно короткие сроки. Команды, запускающие продукты с генеративными возможностями искусственного интеллекта, должны стремиться обеспечить высокое качество, безопасность, справедливость и равноправие пользовательского опыта в соответствии с Принципами искусственного интеллекта .

Ответственный подход к генеративным приложениям должен предусматривать планы достижения следующего:

  • Политика в отношении контента, потенциальный вред и анализ рисков
  • Ответственное поколение
  • Профилактика вреда
  • Оценка и состязательное тестирование

Политика в отношении контента, потенциальный вред и анализ рисков

Продукты должны в первую очередь соответствовать типу контента, который пользователям запрещено создавать. Политика запрещенного использования генеративного искусственного интеллекта Google включает конкретные случаи запрещенного использования покрываемых сервисов Google.

Обратитесь к официальной политике для получения более подробной информации о каждом из этих запрещенных случаев использования. Для ваших собственных сценариев использования продукта определите, что представляет собой «хороший» контент, помимо отсутствия нарушающего политику, или «плохого», чтобы соответствовать целям ответственного создания. Ваша команда также должна четко определить и описать варианты использования, которые будут считаться нарушением политики или использовать «режимы сбоя».

Политики в отношении контента — это всего лишь один шаг к предотвращению вреда для пользователей. Также важно учитывать цели и руководящие принципы качества , безопасности , справедливости и инклюзивности .

Качество

Команды должны разработать стратегии ответа на запросы в деликатных областях, таких как медицинская информация, чтобы обеспечить высокое качество пользовательского опыта. Ответственные стратегии включают предоставление нескольких точек зрения, откладывание тем без научных доказательств или предоставление только фактической информации с указанием авторства.

Безопасность

Цель мер безопасности ИИ — предотвратить или сдержать действия, которые могут преднамеренно или непреднамеренно привести к причинению вреда. Без соответствующих мер по смягчению последствий генеративные модели могут выдавать небезопасный контент, который может нарушать политику в отношении контента или вызывать дискомфорт у пользователей. Рассмотрите возможность предоставления объяснений пользователям, если выходные данные были заблокированы или модель не смогла сгенерировать приемлемые выходные данные.

Справедливость и инклюзивность

Обеспечьте разнообразие в ответе и в нескольких ответах на один и тот же вопрос. Например, ответ на вопрос об известных музыкантах не должен включать только имена или изображения людей той же гендерной идентичности или оттенка кожи. Команды должны стремиться предоставлять контент различным сообществам по запросу. Изучите данные обучения на предмет разнообразия и представительства различных идентичностей, культур и демографии. Подумайте, насколько результаты нескольких запросов репрезентативны для разнообразия в группах, не закрепляя при этом общие стереотипы (например, ответы на вопрос «лучшие рабочие места для женщин» по сравнению с «лучшие рабочие места для мужчин» не должны содержать традиционно стереотипный контент, например, слово «медсестра» появляется под «лучшие рабочие места для женщин», но «врач» фигурирует в разделе «лучшие рабочие места для мужчин»).

Анализ потенциального вреда и рисков

При создании приложений с помощью LLM рекомендуется выполнить следующие шаги (см. руководство по безопасности PaLM API):

  • Понимание рисков безопасности вашего приложения
  • Рассмотрение корректировок для снижения рисков безопасности
  • Проведение испытаний безопасности, соответствующих вашему варианту использования.
  • Получение обратной связи от пользователей и мониторинг использования.

Чтобы узнать больше об этом подходе, посетите документацию PaLM API.

Для более глубокого погружения в этом докладе рассматриваются рекомендации по ограничению рисков и разработке безопасных и ответственных приложений, поддерживаемых LLM:

Ответственное поколение

Встроенная безопасность модели

В качестве одного из примеров функций безопасности API PaLM включает настраиваемые параметры безопасности , которые блокируют контент с регулируемой вероятностью быть небезопасным по шести категориям: уничижительный, токсичный, сексуальный, жестокий, опасный и медицинский. Эти настройки позволяют разработчикам определять, что подходит для их вариантов использования, но также имеют встроенную защиту от основных угроз, таких как контент, который ставит под угрозу безопасность детей, который всегда блокируется и не может быть изменен.

Тюнинг модели

Точная настройка модели может научить ее реагировать на запросы приложения. Примеры подсказок и ответов используются, чтобы научить модель тому, как лучше поддерживать новые варианты использования, устранять типы вреда или использовать различные стратегии, желаемые продуктом в ответе.

Например, рассмотрим:

  • Настройка вывода модели, чтобы лучше отражать то, что приемлемо в контексте вашего приложения.
  • Предоставление метода ввода, который обеспечивает более безопасный вывод, например ограничение ввода раскрывающимся списком.
  • Блокировка небезопасных входных данных и фильтрация выходных данных до того, как они будут показаны пользователю.

Дополнительные примеры корректировок для снижения рисков безопасности см. в руководстве по безопасности PaLM API.

Профилактика вреда

Дополнительные методы предотвращения вреда могут включать использование обученных классификаторов для обозначения каждой подсказки потенциальным вредом или враждебными сигналами. Более того, вы можете реализовать меры защиты от преднамеренного злоупотребления, ограничив объем пользовательских запросов, отправляемых одним пользователем за определенный период времени, или попытаться защититься от возможного внедрения подсказок.

Подобно входным средствам защиты, на выходах можно разместить ограждения. Ограждения модерации контента, такие как классификаторы, можно использовать для обнаружения контента, нарушающего политику. Если сигналы определяют выход как опасный, приложение может выдать ошибку или пустой ответ, предоставить заранее подготовленный вывод или ранжировать несколько выходов из одного и того же запроса в целях безопасности.

Оценка, метрики и тестирование

Перед запуском продукты генеративного искусственного интеллекта следует тщательно оценивать на предмет их соответствия политике безопасности и руководящим принципам. Чтобы создать основу для оценки и измерения улучшения с течением времени, необходимо определить показатели для каждого существенного параметра качества контента. После определения показателей отдельный анализ рисков может определить целевые показатели производительности для запуска, принимая во внимание характер потерь, вероятность их возникновения и влияние ущерба.

Примеры показателей, которые следует учитывать:

Показатели безопасности: разработайте показатели безопасности, которые отражают, каким образом ваше приложение может быть небезопасным в контексте того, как оно может быть использовано, а затем проверьте, насколько хорошо ваше приложение работает по этим показателям, используя наборы оценочных данных.

Уровень нарушений: при наличии сбалансированного набора состязательных данных (по применимому вреду и вариантам использования) количество нарушающих результатов обычно измеряется межоценочной надежностью.

Доля пустых ответов: при наличии сбалансированного набора подсказок, на которые продукт намерен предоставить ответ, количество пустых ответов (т. е. когда продукт не может обеспечить безопасный вывод независимо от того, заблокирован ли ввод или вывод).

Разнообразие: при наличии набора подсказок разнообразие по измерениям атрибутов идентичности, представленных в результатах.

Справедливость (для качества обслуживания): при наличии набора подсказок, содержащих контрфактические данные о чувствительном атрибуте, способность обеспечить такое же качество обслуживания.

Состязательное тестирование

Состязательное тестирование предполагает упреждающую попытку «сломать» ваше приложение. Цель состоит в том, чтобы выявить слабые места, чтобы вы могли принять меры по их устранению.

Состязательное тестирование — это метод систематической оценки модели МО с целью изучения ее поведения при предоставлении вредоносных или непреднамеренно вредных входных данных:

  • Вводные данные являются вредоносными , если они явно предназначены для создания небезопасных или вредных выходных данных — например, запрос модели генерации текста генерировать ненавистнические напыщенные речи о конкретной религии.
  • Ввод является непреднамеренно вредным, если сам по себе ввод может быть безобидным, но дает вредный результат — например, запрос модели генерации текста описать человека определенной этнической принадлежности и получение расистского вывода.

Состязательное тестирование преследует две основные цели: помочь командам систематически улучшать модели и продукты , выявляя текущие модели отказов и указывая пути смягчения последствий, а также информировать решения о продуктах , оценивая соответствие политикам безопасности продуктов и измеряя риски, которые не могут быть полностью смягчены.

Состязательное тестирование следует рабочему процессу, аналогичному стандартной оценке модели:

  1. Найдите или создайте тестовый набор данных
  2. Запустите вывод модели, используя набор тестовых данных.
  3. Аннотировать выходные данные модели
  4. Анализируйте и сообщайте о результатах

Что отличает состязательный тест от стандартной оценки, так это состав данных, используемых для тестирования. Для состязательных тестов выберите тестовые данные, которые с наибольшей вероятностью вызовут проблемные результаты модели. Это означает проверку поведения модели на предмет всех возможных типов вреда, включая редкие или необычные примеры и крайние случаи, имеющие отношение к политике безопасности. Оно также должно включать разнообразие в различных аспектах предложения, таких как структура, значение и длина.