Практикум по машинному обучению: справедливость в перспективе API

Проверьте свое понимание: выявление и устранение предвзятости

Выявление предвзятости

В Упражнении № 1: Исследование модели вы подтвердили, что модель непропорционально классифицирует комментарии с идентификационными терминами как токсичные. Какие показатели помогают объяснить причину этой предвзятости? Изучите варианты ниже.
Точность

Точность измеряет процент правильных прогнозов от общего числа — процент прогнозов, которые являются истинно положительными или истинно отрицательными. Сравнение точности для разных подгрупп (например, представителей разных полов) позволяет нам оценить относительную эффективность модели для каждой группы и может служить индикатором влияния предвзятости на модель.

Однако, поскольку точность учитывает правильные и неправильные прогнозы в совокупности, она не различает два типа правильных прогнозов и два типа неправильных прогнозов. Глядя только на точность, мы не можем определить основную разбивку истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных результатов, что позволило бы лучше понять источник систематической ошибки.

Ложноположительный показатель

Уровень ложноположительных результатов (FPR) — это процент фактически отрицательных примеров (нетоксичных комментариев), которые были ошибочно классифицированы как положительные (токсичные комментарии). FPR — это показатель влияния предвзятости на модель. Когда мы сравниваем FPR для разных подгрупп (например, для разных гендерных демографических групп), мы узнаем, что текстовые комментарии, содержащие идентификационные термины, связанные с полом, с большей вероятностью будут ошибочно классифицированы как токсичные (ложноположительные результаты), чем комментарии, которые не содержат этих терминов. .

Однако мы не стремимся измерить эффект предвзятости; мы хотим найти ее причину. Для этого нам нужно более внимательно изучить входные данные формулы FPR.

Реальные негативы и реальные позитивы
В обучающих и тестовых наборах данных этой модели «Фактические положительные» — это все примеры токсичных комментариев, а « Фактические отрицательные» — все примеры, которые нетоксичны. Учитывая, что сами термины идентичности нейтральны, мы ожидаем сбалансированного количества фактически отрицательных и действительно положительных комментариев, содержащих данный термин идентичности. Если мы видим непропорционально низкое количество фактических негативов, это говорит нам о том, что в модели не так уж много примеров идентификационных терминов, используемых в положительном или нейтральном контексте. В этом случае модель может изучить корреляцию между терминами идентичности и токсичностью.
Отзывать
Напомним , это процент фактических положительных прогнозов, которые были правильно классифицированы как положительные. Он показывает процент токсичных комментариев, которые модель успешно отловила. Здесь мы обеспокоены предвзятостью, связанной с ложными срабатываниями (нетоксичными комментариями, которые были классифицированы как токсичные), и отзыв не дает никакого понимания этой проблемы.

Исправление предвзятости

Какие из следующих действий могут быть эффективными методами устранения систематической ошибки в данных обучения, использованных в упражнении № 1 и упражнении № 2 ? Изучите варианты ниже.
Добавьте в обучающий набор больше негативных (нетоксичных) примеров, содержащих идентификационные термины.
Добавление большего количества отрицательных примеров (на самом деле нетоксичных комментариев), содержащих идентификационные термины, поможет сбалансировать обучающий набор. Тогда модель увидит лучший баланс терминов идентичности, используемых в токсичных и нетоксичных контекстах, и сможет понять, что сами термины нейтральны.
Добавьте в обучающий набор больше положительных (токсичных) примеров, содержащих идентификационные термины.
Токсичные примеры уже чрезмерно представлены в подмножестве примеров, содержащих тождественные термины. Если мы добавим еще больше таких примеров в обучающий набор, мы фактически усугубим существующую предвзятость, а не исправим ее.
Добавьте в обучающий набор больше негативных (нетоксичных) примеров без идентификационных терминов.
Термины, идентифицирующие идентичность, уже недостаточно представлены в негативных примерах. Добавление большего количества негативных примеров без тождественных терминов усилит этот дисбаланс и не поможет исправить предвзятость.
Добавьте в обучающий набор больше положительных (токсичных) примеров без идентификационных терминов.

Вполне возможно, что добавление большего количества положительных примеров без терминов идентичности может помочь разорвать связь между терминами идентичности и токсичностью, которую модель узнала ранее.

Оценка предвзятости

Вы с нуля обучили свой собственный классификатор токсичности текста, который ваша команда разработчиков планирует использовать для автоматического подавления отображения комментариев, классифицированных как токсичные. Вы обеспокоены тем, что любая предвзятость в отношении токсичности гендерных комментариев может привести к подавлению нетоксичного дискурса о гендере, и хотите оценить гендерную предвзятость в прогнозах классификатора. Какие из следующих показателей следует использовать для оценки модели? Изучите варианты ниже.
Уровень ложноположительных результатов (FPR)
В производстве модель будет использоваться для автоматического подавления положительных (токсичных) прогнозов. Ваша цель — убедиться, что модель не подавляет ложные срабатывания (нетоксичные комментарии, которые модель ошибочно классифицировала как токсичные) для комментариев, связанных с полом, с большей частотой, чем для комментариев в целом. Сравнение FPR для гендерных подгрупп с общим FPR — отличный способ оценить возможность устранения предвзятости для вашего варианта использования.
Ложноотрицательный показатель (FNR)
FNR измеряет скорость, с которой модель ошибочно классифицирует положительный класс (в данном случае «токсичный») как отрицательный класс («нетоксичный»). В этом случае он сообщает вам, с какой скоростью действительно токсичные комментарии будут проходить через фильтр и отображаться пользователям. Здесь вас больше всего беспокоит то, как проявляется предвзятость в плане подавления нетоксичного дискурса. FNR не дает вам никакого представления об этом аспекте производительности модели.
Точность
Точность измеряет процент правильных прогнозов модели и, наоборот, процент ошибочных прогнозов. В этом случае точность показывает, насколько вероятно, что фильтр подавляет нетоксичный дискурс или отображает токсичный дискурс. Вас больше всего беспокоит первый вопрос, а не второй. Поскольку точность объединяет эти две проблемы, это не идеальный показатель оценки, который можно использовать здесь.
АУК
AUC обеспечивает абсолютную оценку прогнозирующей способности модели. Это хороший показатель для оценки общей производительности. Однако здесь вас конкретно интересует уровень подавления комментариев, и AUC не дает вам прямого понимания этой проблемы.
В вашу команду добавлен модератор контента, и менеджер по продукту решил изменить способ развертывания вашего классификатора. Вместо автоматического подавления комментариев, классифицированных как токсичные, программное обеспечение для фильтрации помечает эти комментарии для рассмотрения модератором контента. Поскольку человек будет просматривать комментарии, помеченные как токсичные, предвзятость больше не будет проявляться в форме подавления контента. Какие из следующих показателей вы могли бы использовать для измерения систематической ошибки (и эффекта от ее устранения) прямо сейчас? Изучите варианты ниже.
Уровень ложноположительных результатов (FPR)
Уровень ложноположительных результатов покажет вам процент нетоксичных комментариев, которые были ошибочно классифицированы как токсичные. Поскольку модератор-человек теперь будет проверять все комментарии, которые модель называет «токсичными», и должен выявлять большинство ложных срабатываний, FPR больше не является основной проблемой.
Ложноотрицательный показатель (FNR)
Хотя модератор-человек будет проверять все комментарии с пометкой «токсичные» и следить за тем, чтобы ложные срабатывания не подавлялись, он не будет просматривать комментарии с пометкой «нетоксичные». Это оставляет открытой возможность предвзятости, связанной с ложноотрицательными результатами. Вы можете использовать FNR (процент реальных положительных результатов, которые были классифицированы как отрицательные), чтобы систематически оценивать, будут ли токсичные комментарии для гендерных подгрупп с большей вероятностью быть помечены как нетоксичные, чем комментарии в целом.
Точность
Точность показывает процент положительных прогнозов, которые на самом деле являются положительными — в данном случае процент «токсичных» прогнозов, которые являются правильными. Поскольку модератор-человек будет проверять все «токсичные» прогнозы, вам не нужно делать точность одним из основных показателей оценки.
Отзывать
Напомним , вы узнаете процент фактических положительных результатов, которые были классифицированы правильно. Из этого значения вы можете получить процент фактических положительных результатов, которые были неправильно классифицированы (1 – отзыв), что является полезным показателем для оценки того, непропорционально ли токсичные комментарии, связанные с полом, ошибочно классифицируются как «нетоксичные» по сравнению с комментариями в целом.