Мыслительные ловушки

Люди подвержены когнитивным предубеждениям в силу того, что они люди, включая предвзятость рационализации и подтверждения. Альберто Каиро пишет: «Рационализация — это режим человеческого мозга по умолчанию». 1 Очень часто люди ожидают или хотят определенного результата, а затем ищут данные или доказательства, подтверждающие этот результат.

При работе с данными и моделями или их оценке, которые могут быть получены из разных источников, спросите о потенциальных источниках систематической ошибки. Например:

  • Кто финансирует эту модель или исследование? Что такое рынок или коммерческое применение?
  • Какие стимулы существуют для людей, участвующих в сборе данных?
  • Какие стимулы существуют для исследователей, обучающих модель или проводящих исследование, включая публикации и стаж?
  • Кто лицензирует модель или публикует исследование и каковы их стимулы?

Описательная статистика

Среднее значение (сумма значений, разделенная на количество), медиана (среднее значение, когда значения упорядочены) и мода (наиболее частое значение) часто помогают получить представление о форме набора данных. Например, если медиана и среднее значение сильно различаются, в наборе могут быть довольно крайние и асимметричные значения.

Диапазон , который представляет собой разницу между самым высоким и самым низким значениями, и дисперсию , которая представляет собой среднеквадратическую разницу между каждым значением и средним значением набора, также предоставляют полезную информацию о разбросе и форме набора данных.

Прежде чем обучать модель на своих данных, также спросите, не несбалансирован ли набор данных, и если да, то следует ли устранить этот дисбаланс.

Вероятные невероятности и p-значения

При наличии достаточного количества времени и возможностей возникновение невероятного события становится весьма вероятным. Один из возможных примеров см. в теоретической афере с биржевым брокером в Балтиморе .

Согласно научному консенсусу, результат считается статистически значимым (и, следовательно, подлежащим публикации), если значение p меньше 0,05. Это означает, что существует <5% вероятность того, что тот же результат или еще один крайний результат возникнет при нулевой гипотезе , то есть в результате случайности. Проще говоря, исследователи могут публиковать результаты только в том случае, если существует вероятность 1 из 20 или меньше, что их результаты являются результатом случайности. Альтернативно, что еще более тревожно, примерно в одном из двадцати экспериментов ложный результат окажется значимым, хотя это не так, и остальные девятнадцать результатов не будут опубликованы. В статье 2005 года «Почему большинство результатов исследований ложны» Джон Иоаннидис изложил множество факторов, от статистических до финансовых, способствующих публикации ложных результатов.

Например, учитывая сильные стимулы к публикации, исследователи иногда подделывают значения p около 0,05, чтобы они упали ниже этого порога. В других случаях опубликованные результаты исследований, которые естественным образом отбирают неожиданные и необычные результаты, оказываются невоспроизводимыми (и, следовательно, возможно, являются случайными), что приводит к кризису доверия во многих областях. Это также привело к созданию организаций, занимающихся тестированием воспроизводимости.

В области машинного обучения модели считаются современными только в том случае, если они соответствуют критериям оценки большинства других конкурирующих моделей или превосходят их. Вполне возможно, что подобное давление возникает и в отношении оценок моделей, которые могут быть искусственно повышены за счет утечки тестов. 2

P-значения могут быть полезны при выборе функций для регрессионных моделей. ANOVA (дисперсионный анализ) — это статистический метод, который сравнивает дисперсию внутри групп с дисперсией между группами, возвращая F-статистику и значение p для каждого признака. Выбор наиболее значимых признаков с наименьшими значениями p может уменьшить количество признаков, которые должна учитывать модель, без значительной потери прогнозирующей способности. Это одновременно экономит вычислительные ресурсы и позволяет избежать проблемы слишком большого количества функций, обсуждаемой в следующем разделе. Подробности см. в руководстве по выбору функций scikit.

Проблема множественных сравнений

Проблема порога значимости особенно серьезна в ситуациях, когда одновременно проводятся множественные сравнения с нулевой гипотезой. Это особая проблема для исследований фМРТ.

При фМРТ каждый воксел (единица объема) мозга независимо проверяется на статистически значимую активность и, если таковая, выделяется. Это приводит к тому, что одновременно проводится около 100 000 независимых тестов значимости. При пороге значимости ap = 0,05 статистическая теория ожидает около 5000 ложноположительных результатов при одном фМРТ. 3

Эту проблему, вероятно, лучше всего иллюстрирует исследование Bennett et al., 2009 г. плакат « Нейронные корреляты межвидовой перспективы в посмертном исследовании атлантического лосося », получивший Шнобелевскую премию. Исследователи показали 15 фотографий людей в высокоэмоциональных ситуациях мертвому лососю в аппарате фМРТ, попросив мертвого лосося определить, какие эмоции испытывали изображенные люди. Они обнаружили статистически значимый кластер активных вокселей в полости мозга лосося и пришли к выводу, что мертвый лосось действительно занимался перспективой. А если серьезно, исследователи привлекали внимание к проблеме множественных сравнений при фМРТ и аналогичных ситуациях с визуализацией, а также к необходимости ее смягчения.

Одним из очевидных и грубых решений является снижение порогового значения p, указывающего на значимость. Неотъемлемый компромисс заключается между чувствительностью (фиксацией всех истинных положительных результатов) и специфичностью (выявлением всех истинных отрицательных результатов). Обсуждение чувствительности, также называемой истинно положительным показателем , можно найти в модуле классификации ускоренного курса машинного обучения.

Еще одним средством смягчения последствий является контроль коэффициента семейных ошибок (FWER), который представляет собой вероятность хотя бы одного ложного срабатывания. Другой — контроль уровня ложных обнаружений (FDR) или ожидаемой доли ложноположительных результатов среди всех положительных. См. руководство по проблеме множественных сравнений в журнале Evidence in Governance and Politics, а также в книге Линдквиста и Мехиа «Дзен и искусство множественных сравнений» для объяснений этих методов и нескольких пошаговых руководств. В ситуации с мертвым лососем контроль FDR и FWER показал, что ни один из вокселов фактически не был статистически значимым.

Обучение моделей МО на сканах фМРТ и других методов визуализации становится все более популярным как в области медицинской диагностики 4, так и при реконструкции изображений активности мозга. 5 Если эти модели обучены на достаточно большом наборе данных, это может снизить вероятность возникновения проблем, связанных с проблемой множественных сравнений. Однако, особенно в сфере диагностики, модель может делать неточные выводы при новых отдельных сканированиях, если 20% «активных» вокселей действительно являются ложноположительными. Обратите внимание, что модели диагностической классификации фМРТ, описанные Ли и Чжао, имеют точность ~ 70-85%.

Слишком много переменных в регрессионном анализе

Проблема множественных сравнений распространяется и на множественный регрессионный анализ. Регрессионный анализ, или линейная регрессия , является основой многих численных прогностических моделей. Регрессионный анализ использует один из нескольких методов, таких как обычный метод наименьших квадратов, чтобы найти коэффициент регрессии, который лучше всего описывает, как одна переменная влияет на другую. Исследователи могут задаться вопросом, как возраст и курение влияют на заболеваемость раком легких, представляя каждый фактор как переменную в регрессионном анализе заболеваемости раком у курильщиков и некурящих различного возраста. Модель линейной регрессии работает во многом таким же образом и, следовательно, более интерпретируема по сравнению с другими типами моделей ML. Нахождение коэффициентов регрессии этих переменных позволит описать линейные зависимости между этими переменными и уровнем заболеваемости раком легких.

Может возникнуть соблазн включить в регрессионный анализ все возможные переменные, не в последнюю очередь потому, что невключение критического фактора может привести к тому, что его вклад будет упущен из виду. Однако добавление слишком большого количества переменных в регрессионный анализ увеличивает вероятность того, что нерелевантная переменная окажется статистически значимой. Если мы добавим к нашему анализу еще восемнадцать нерелевантных переменных, таких как «просмотренные фильмы» и «владение собаками», вполне вероятно, что одна из этих нерелевантных переменных по чистой случайности окажется связанной с более высоким уровнем заболеваемости раком легких. 6

В контексте ML аналогичная ситуация заключается в том, что модели наделяется слишком большим количеством функций, что, помимо других проблем, может привести к переобучению .

Выводы и принятие решений

Один из способов обойти некоторые из этих ловушек мышления — рассматривать статистику и модели МО, полученные на основе статистики, как инструменты для принятия решений, а не как ответы на вопросы. Такую позицию заняли Ежи Нейман и Эгон Шарп Пирсон. 7

В этой структуре данные, статистика данных и производные, включая модели ML, лучше всего подходят для вероятностных прогнозов, опровержения универсальных утверждений, улучшения и фокусировки исследовательских вопросов, а также помощи в принятии решений. Они не очень подходят для утвердительных заявлений об истине.

По мнению Дэвида Риттера, решения, основанные на корреляциях даже гигантских объемов данных, должны основываться на двух факторах:

  • «Уверенность в том, что корреляция надежно повторится в будущем», которая должна основываться как на том, насколько часто эта корреляция возникала в прошлом, так и на точном понимании того, что вызывает эту корреляцию.
  • Риски и выгоды актерской деятельности. 8

Точно так же не все исследовательские вопросы могут хорошо подходить для ИИ. Анастасия Федик предлагает два критерия задачи, подходящей для ИИ:

  • Проблема требует прогнозирования, а не понимания причинно-следственных связей.
  • Данные, передаваемые в ИИ, содержат все, что необходимо знать о проблеме; то есть проблема является самодостаточной. 9

Рекомендации

Беннетт, Крейг М., Эбигейл А. Бэрд, Майкл Б. Миллер и Джордж Л. Вулфорд. « Нейронные корреляты межвидовой перспективы при изучении посмертного атлантического лосося: аргумент в пользу коррекции множественных сравнений ». Нейроизображение (2009).

Каир, Альберто. Как лгут диаграммы: умнее обращаться с визуальной информацией. Нью-Йорк: WW Нортон, 2019.

Давенпорт, Томас Х. «Учебник по прогнозной аналитике». В Руководстве HBR по основам анализа данных для менеджеров (Бостон: HBR Press, 2018) 81–86.

Элленберг, Джордан. Как не ошибиться: сила математического мышления. Нью-Йорк: Пингвин, 2014.

Федык, Анастасия. «Может ли машинное обучение решить вашу бизнес-задачу?» В Руководстве HBR по основам анализа данных для менеджеров (Бостон: HBR Press, 2018) 111–119.

Галло, Эми. «Переподготовка по статистической значимости». В Руководстве HBR по основам анализа данных для менеджеров (Бостон: HBR Press, 2018) 121–129.

Хафф, Даррелл. Как лгать со статистикой. Нью-Йорк: WW Нортон, 1954.

Иоаннидис, Джон П.А. «Почему большинство опубликованных результатов исследований ложны». . В PLoS Med 2 нет. 8: е124.

Джонс, Бен. Как избежать ошибок в данных. Хобокен, Нью-Джерси: Уайли, 2020.

Ли, Цзянсюэ и Пейзе Чжао. «Приложения глубокого обучения в фМРТ – обзорная работа» ICBBB 2023 (Токио, Япония, 13–16 января 2023 г.): 75–80. https://doi.org/10.1145/3586139.3586150

Линдквист, Мартин А. и Аманда Мехиа. «Дзен и искусство множественных сравнений». Психосоматическая медицина 77 вып. 2 (февраль-март 2015 г.): 114–125. doi: 10.1097/PSY.0000000000000148.

Риттер, Дэвид. «Когда действовать в соответствии с корреляцией, а когда нет». В Руководстве HBR по основам анализа данных для менеджеров (Бостон: HBR Press, 2018) 103–109.

Тагаки, Ю и Синдзи Нисимото. «Реконструкция изображений высокого разрешения с использованием моделей скрытой диффузии по активности мозга человека». Конференция IEEE/CVF 2023 г. по компьютерному зрению и распознаванию образов (Ванкувер, Британская Колумбия, Канада, 2023 г.): 14453-14463. дои: 10.1109/CVPR52729.2023.01389.

Уилан, Чарльз. Голая статистика: избавление от страха от данных. Нью-Йорк: WW Нортон, 2013 г.

Чжоу, Кун, Ютао Чжу, Чжипен Чен, Вэньтун Чен, Уэйн Синь Чжао, Сюй Чен, Янкай Линь, Цзи-Ронг Вэнь и Цзявэй Хан. «Не превращайте свой LLM в мошенника при оценке тестов». arXiv:2311.01964 cs.CL .


  1. Каир 182.

  2. Чжоу и др.

  3. Линдквист и Мехия.

  4. Ли и Чжао 77-78.

  5. Тагаки и Нисимото.

  6. Уилан 221.

  7. Элленберг 159.

  8. Риттер 104.

  9. Федык 113.