Модели машинного обучения (ML) не являются объективными по своей сути. Специалисты по машинному обучению обучают модели, предоставляя им набор данных обучающих примеров, а участие человека в предоставлении и обработке этих данных может сделать прогнозы модели подверженными предвзятости.
При построении моделей важно помнить о типичных человеческих предубеждениях, которые могут проявляться в ваших данных, чтобы вы могли принять упреждающие меры для смягчения их последствий.
Предвзятость в отчетности
Определение
Предвзятость в отчетности возникает, когда частота событий, свойств и/или результатов, зафиксированных в наборе данных, не точно отражает их реальную частоту. Эта предвзятость может возникнуть из-за того, что люди склонны сосредотачиваться на документировании необычных или особенно запоминающихся обстоятельств, полагая, что обычные события не нуждаются в записи.
Пример
Модель анализа настроений обучена прогнозировать, будут ли рецензии на книги положительными или отрицательными, на основе совокупности отзывов пользователей на популярном веб-сайте. Большинство рецензий в наборе обучающих данных отражают крайние мнения (рецензенты, которые либо любили, либо ненавидели книгу), поскольку люди с меньшей вероятностью оставляли рецензию на книгу, если они не реагировали на нее резко. В результате модель менее способна правильно предсказать настроение рецензий, в которых для описания книги используется более тонкий язык.
Нажмите chevron_left для определения.
Историческая предвзятость
Определение
Историческая предвзятость возникает, когда исторические данные отражают неравенство, существовавшее в мире в то время.
Пример
Набор данных о городском жилье за 1960-е годы содержит данные о ценах на жилье, которые отражают дискриминационную практику кредитования, действовавшую в течение этого десятилетия.
Нажмите chevron_left для определения.
Предвзятость автоматизации
Определение
Предвзятость автоматизации — это тенденция отдавать предпочтение результатам, полученным с помощью автоматизированных систем, по сравнению с результатами, полученными с помощью неавтоматизированных систем, независимо от частоты ошибок каждой из них.
Пример
Специалисты по машинному обучению, работающие на производителя звездочек, стремились внедрить новую «революционную» модель, которую они обучили, для выявления дефектов зубов, пока руководитель завода не указал, что точность модели и скорость отзыва были на 15% ниже, чем у людей-инспекторов.
Нажмите chevron_left для определения.
Предвзятость выбора
Смещение выбора возникает, если примеры набора данных выбраны таким образом, который не отражает их реальное распределение. Ошибка отбора может принимать различные формы, включая ошибку охвата, ошибку отсутствия ответов и ошибку выборки.
Смещение охвата
Определение
Смещение охвата возникает, если данные отбираются нерепрезентативным образом.
Пример
Модель обучена прогнозировать будущие продажи нового продукта на основе телефонных опросов, проведенных среди выборки потребителей, купивших этот продукт. Потребители, которые вместо этого предпочли купить конкурирующий продукт, не были опрошены, и в результате эта группа людей не была представлена в данных обучения.
Нажмите chevron_left для определения.
Ошибка отсутствия ответа
Определение
Ошибка отсутствия ответов (также известная как ошибка участия ) возникает, если данные в конечном итоге оказываются нерепрезентативными из-за пробелов в участии в процессе сбора данных.
Пример
Модель обучена прогнозировать будущие продажи нового продукта на основе телефонных опросов, проведенных с выборкой потребителей, купивших этот продукт, и с выборкой потребителей, купивших конкурирующий продукт. Потребители, купившие конкурирующий продукт, на 80% чаще отказывались участвовать в опросе, а их данные были недостаточно представлены в выборке.
Нажмите chevron_left для определения.
Смещение выборки
Определение
Смещение выборки возникает, если во время сбора данных не используется надлежащая рандомизация.
Пример
Модель обучена прогнозировать будущие продажи нового продукта на основе телефонных опросов, проведенных с выборкой потребителей, купивших этот продукт, и с выборкой потребителей, купивших конкурирующий продукт. Вместо того, чтобы случайным образом ориентироваться на потребителей, исследователь выбрал первых 200 потребителей, ответивших на электронное письмо, которые, возможно, были с большим энтузиазмом относились к продукту, чем среднестатистические покупатели.
Нажмите chevron_left для определения.
Предвзятость групповой атрибуции
Предвзятость групповой атрибуции — это тенденция обобщать то, что верно в отношении отдельных лиц, на всю группу, к которой они принадлежат. Предвзятость групповой атрибуции часто проявляется в двух следующих формах.
Внутригрупповая предвзятость
Определение
Внутригрупповая предвзятость — это предпочтение членов вашей собственной группы, к которым вы также принадлежите , или характеристик, которые у вас также общие.
Пример
Два специалиста по МО, обучающие модели проверки резюме для разработчиков программного обеспечения, склонны полагать, что кандидаты, посещавшие ту же академию компьютерных наук, что и они оба, более подходят для этой должности.
Нажмите chevron_left для определения.
Предвзятость однородности аутгруппы
Определение
Предвзятость в отношении однородности аутгруппы — это тенденция стереотипизировать отдельных членов группы, к которой вы не принадлежите , или рассматривать их характеристики как более однородные.
Пример
Два специалиста по МО, обучающие модели проверки резюме для разработчиков программного обеспечения, склонны полагать, что все кандидаты, не посещавшие академию компьютерных наук, не обладают достаточным опытом для этой должности.
Нажмите chevron_left для определения.
Неявное смещение
Определение
Неявная предвзятость возникает, когда предположения делаются на основе собственной модели мышления и личного опыта, которые не обязательно применимы в более широком смысле.
Пример
Специалист по МО, обучающий модели распознавания жестов, использует покачивание головой как признак, указывающий, что человек говорит слово «нет». Однако в некоторых регионах мира покачивание головой на самом деле означает «да».
Нажмите chevron_left для определения.
Предвзятость подтверждения
Определение
Предвзятость подтверждения возникает, когда разработчики моделей неосознанно обрабатывают данные таким образом, чтобы подтвердить ранее существовавшие убеждения и гипотезы.
Пример
Специалист по МО строит модель, которая прогнозирует агрессивность собак на основе множества характеристик (рост, вес, порода, окружающая среда). В детстве у практикующего произошла неприятная встреча с гиперактивным той-пуделем, и с тех пор он ассоциирует эту породу с агрессией. При обработке данных обучения модели практикующий врач неосознанно отбросил особенности, которые свидетельствовали о послушности у собак меньшего размера.
Нажмите chevron_left для определения.
Предвзятость экспериментатора
Определение
Предвзятость экспериментатора возникает, когда разработчик модели продолжает обучение модели до тех пор, пока она не даст результат, соответствующий его исходной гипотезе.
Пример
Специалист по МО строит модель, которая прогнозирует агрессивность собак на основе множества характеристик (рост, вес, порода, окружающая среда). В детстве у практикующего произошла неприятная встреча с гиперактивным той-пуделем, и с тех пор он ассоциирует эту породу с агрессией. Когда обученная модель предсказала, что большинство той-пуделей будут относительно послушными, практик переобучал модель еще несколько раз, пока она не дала результат, показывающий, что меньшие пудели более агрессивны.
Нажмите chevron_left для определения.