Ловушки анализа

«Все модели неверны, но некоторые полезны». - Джордж Бокс, 1978 г.

Несмотря на свою эффективность, статистические методы имеют свои ограничения. Понимание этих ограничений может помочь исследователю избежать ошибок и неточных утверждений, таких как утверждение Б. Ф. Скиннера о том, что Шекспир не использовал аллитерацию чаще, чем можно было бы предсказать случайностью. (Исследование Скиннера было недостаточно убедительным . 1 )

Неопределенность и планка погрешностей

В вашем анализе важно указать неопределенность. Не менее важно количественно оценить неопределенность в анализе других людей. Точки данных, которые отображают тренд на графике, но имеют перекрывающиеся полосы ошибок, могут вообще не указывать на какую-либо закономерность. Неопределенность также может быть слишком высокой, чтобы сделать полезные выводы из конкретного исследования или статистического теста. Если научное исследование требует точности на уровне партии, набор геопространственных данных с погрешностью +/- 500 м имеет слишком большую неопределенность, чтобы его можно было использовать.

Альтернативно, уровни неопределенности могут быть полезны в процессе принятия решений. Данные, подтверждающие конкретную очистку воды с неопределенностью результатов 20%, могут привести к рекомендации по внедрению этой очистки воды с постоянным мониторингом программы для устранения этой неопределенности.

Байесовские нейронные сети могут количественно оценивать неопределенность, предсказывая распределение значений вместо отдельных значений.

Неуместность

Как говорилось во введении, между данными и реальностью всегда существует хотя бы небольшой разрыв. Проницательный специалист по ОД должен определить, соответствует ли набор данных задаваемому вопросу.

Хафф описывает раннее исследование общественного мнения, которое показало, что ответы белых американцев на вопрос о том, насколько легко чернокожим американцам зарабатывать на жизнь, были прямо и обратно связаны с уровнем их симпатии к чернокожим американцам. По мере усиления расовой неприязни ответы об ожидаемых экономических возможностях становились все более и более оптимистичными. Это могло быть ошибочно воспринято как признак прогресса. Однако исследование ничего не смогло показать о реальных экономических возможностях, доступных чернокожим американцам в то время, и не подходило для выводов о реальности рынка труда — только мнения респондентов опроса. Собранные данные фактически не имели отношения к состоянию рынка труда. 2

Вы можете обучить модель на данных опроса, подобных описанному выше, где результаты фактически измеряют оптимизм , а не возможности . Но поскольку прогнозируемые возможности не имеют отношения к реальным возможностям, если бы вы утверждали, что модель предсказывает реальные возможности, вы бы исказили то, что предсказывает модель.

Сбивает с толку

Смешивающая переменная , искажающая переменная или кофактор — это не изучаемая переменная, которая влияет на изучаемые переменные и может исказить результаты. Например, рассмотрим модель МО, которая прогнозирует уровни смертности для входной страны на основе особенностей политики общественного здравоохранения. Предположим, что средний возраст не является признаком. Далее предположим, что в некоторых странах население старше, чем в других. Игнорируя мешающую переменную среднего возраста, эта модель может предсказать ошибочные показатели смертности.

В Соединенных Штатах раса часто сильно коррелирует с социально-экономическим классом, хотя в данных о смертности учитывается только раса, а не класс. Классовые факторы, такие как доступ к здравоохранению, питанию, опасная работа и безопасное жилье, могут оказывать более сильное влияние на уровень смертности, чем расовая принадлежность, но ими можно пренебречь, поскольку они не включены в наборы данных. 3 Выявление и контроль этих факторов имеет решающее значение для построения полезных моделей и получения значимых и точных выводов.

Если модель обучена на существующих данных о смертности, которые включают расу, но не класс, она может прогнозировать смертность на основе расы, даже если класс является более сильным предиктором смертности. Это может привести к неточным предположениям о причинно-следственной связи и неточным прогнозам смертности пациентов. Специалисты по МО должны спросить, есть ли в их данных ошибки, а также какие значимые переменные могут отсутствовать в их наборе данных.

В 1985 году исследование здоровья медсестер, наблюдательное когортное исследование, проведенное Гарвардской медицинской школой и Гарвардской школой общественного здравоохранения, показало, что члены когорты, принимающие заместительную терапию эстрогенами, имели меньшую частоту сердечных приступов по сравнению с членами когорты, которые никогда не принимали эстроген. В результате врачи назначали эстроген своим пациентам в период менопаузы и постменопаузы на протяжении десятилетий, пока клиническое исследование в 2002 году не выявило риски для здоровья, создаваемые длительной терапией эстрогенами. Практика назначения эстрогена женщинам в постменопаузе прекратилась, но не раньше, чем она привела к десяткам тысяч преждевременных смертей.

Множественные ошибки могли вызвать ассоциацию. Эпидемиологи обнаружили, что женщины, принимающие заместительную гормональную терапию, по сравнению с женщинами, которые этого не делают, как правило, стройнее, образованнее, богаче, более заботятся о своем здоровье и чаще занимаются спортом. Различные исследования показали, что образование и богатство снижают риск сердечных заболеваний. Эти эффекты исказили бы очевидную корреляцию между терапией эстрогенами и сердечными приступами. 4

Проценты с отрицательными числами

Избегайте использования процентов, когда присутствуют отрицательные числа, 5 , поскольку все виды значимых прибылей и убытков могут быть скрыты. Предположим, ради простой математики, что в ресторанной индустрии 2 миллиона рабочих мест. Если отрасль потеряет 1 миллион из этих рабочих мест в конце марта 2020 года, не претерпит чистых изменений в течение десяти месяцев и создаст 900 000 рабочих мест еще в начале февраля 2021 года, сравнение в годовом исчислении в начале марта 2021 года предполагает лишь 5% потеря рабочих мест в ресторане. Если не будет других изменений, сравнение с аналогичным периодом прошлого года в конце февраля 2022 года предполагает увеличение количества рабочих мест в ресторанах на 90%, что совершенно иная картина реальности.

Отдавайте предпочтение фактическим числам, нормализованным соответствующим образом. Дополнительную информацию см. в разделе Работа с числовыми данными .

Апостериорное заблуждение и непригодные корреляции

Апостериорное заблуждение — это предположение, что, поскольку за событием А последовало событие Б, событие А вызвало событие Б. Проще говоря, это предположение о наличии причинно-следственной связи там, где ее не существует. Еще проще: корреляции не доказывают причинно-следственную связь.

Помимо четкой причинно-следственной связи, корреляции могут возникать и из-за:

  • Чистая случайность (иллюстрации см. в книге Тайлера Вигена « Ложные корреляции» , включая сильную корреляцию между уровнем разводов в штате Мэн и потреблением маргарина).
  • Реальная связь между двумя переменными, хотя остается неясным, какая переменная является причинной, а какая затронута.
  • Третья, отдельная причина, которая влияет на обе переменные, хотя коррелирующие переменные не связаны друг с другом. Например, глобальная инфляция может поднять цены как на яхты, так и на сельдерей. 6

Также рискованно экстраполировать корреляцию за пределы существующих данных. Хафф отмечает, что небольшой дождь улучшит урожай, но слишком сильный дождь повредит его; взаимосвязь между дождем и урожайностью нелинейна. 7 (Подробнее о нелинейных отношениях см. в следующих двух разделах.) Джонс отмечает, что мир полон непредсказуемых событий, таких как войны и голод, которые подвергают будущие прогнозы данных временных рядов огромной степени неопределенности. 8

Более того, даже подлинная корреляция, основанная на причине и следствии, может оказаться бесполезной для принятия решений. Хафф приводит в качестве примера корреляцию между возможностью вступления в брак и высшим образованием в 1950-х годах. Женщины, которые учились в колледже, с меньшей вероятностью вступали в брак, но вполне возможно, что женщины, которые учились в колледже, изначально были менее склонны вступать в брак. Если бы это было так, то высшее образование не изменило бы их вероятность жениться. 9

Если анализ обнаруживает корреляцию между двумя переменными в наборе данных, спросите:

  • Что это за корреляция: причинно-следственная, ложная, неизвестная связь или вызванная третьей переменной?
  • Насколько рискованна экстраполяция данных? Каждый прогноз модели на основе данных, не входящих в набор обучающих данных, по сути, является интерполяцией или экстраполяцией данных.
  • Можно ли использовать корреляцию для принятия полезных решений? Например, оптимизм может быть тесно связан с ростом заработной платы, но анализ настроений некоторых больших массивов текстовых данных, таких как сообщения в социальных сетях пользователей в конкретной стране, не будет полезен для прогнозирования роста заработной платы в этой стране.

При обучении модели специалисты по машинному обучению обычно ищут функции, которые тесно связаны с меткой. Если взаимосвязь между признаками и меткой не совсем понятна, это может привести к проблемам, описанным в этом разделе, включая модели, основанные на ложных корреляциях, и модели, предполагающие, что исторические тенденции сохранятся и в будущем, хотя на самом деле это не так. .

Линейное смещение

В книге «Линейное мышление в нелинейном мире» Барт де Ланге, Стефано Пунтони и Ричард Ларрик описывают линейную предвзятость как склонность человеческого мозга ожидать и искать линейные связи, хотя многие явления являются нелинейными. Например, взаимосвязь между человеческими установками и поведением представляет собой выпуклую кривую, а не линию. В статье журнала Journal of Consumer Policy за 2007 год, цитируемой де Ланге и др., Дженни ван Дорн и др. смоделировали взаимосвязь между заботой респондентов об окружающей среде и покупками респондентами органических продуктов. Те, кто наиболее серьезно беспокоился об окружающей среде, покупали больше органических продуктов, но между всеми остальными респондентами разница была очень незначительной.

Покупки органических продуктов по сравнению с показателем заботы об окружающей среде, показывающий в основном плоскую линию с резкой выпуклой кривой вверх в крайнем правом углу.
График покупок органических продуктов в сравнении с оценкой заботы об окружающей среде, упрощенный и адаптированный из van Doorn et al. бумага

При разработке моделей или исследований учитывайте возможность нелинейных связей. Поскольку A/B-тестирование может пропустить нелинейные взаимосвязи, рассмотрите также возможность тестирования третьего, промежуточного условия C. Также подумайте, будет ли первоначальное поведение, которое кажется линейным, продолжать оставаться линейным, или же будущие данные могут демонстрировать более логарифмическое или другое нелинейное поведение.

Линейная аппроксимация логарифмических данных, показывающая хорошее соответствие для первой половины данных и все более плохое соответствие после этого.
Пример плохой линейной аппроксимации логарифмических данных

Этот гипотетический пример показывает ошибочную линейную аппроксимацию логарифмических данных. Если бы были доступны только первые несколько точек данных, было бы заманчиво и неправильно предполагать постоянную линейную связь между переменными.

Линейная интерполяция

Проверьте любую интерполяцию между точками данных, поскольку интерполяция вводит вымышленные точки, а интервалы между реальными измерениями могут содержать значительные колебания. В качестве примера рассмотрим следующую визуализацию четырех точек данных, связанных с линейной интерполяцией:

Амплитуда во времени, показывающая четыре точки, соединенные прямой линией.
Пример линейной интерполяции.

Затем рассмотрим этот пример колебаний между точками данных, которые стираются линейной интерполяцией:

Те же точки, что и раньше, но с гигантскими колебаниями между второй и третьей точками.
Пример значимого колебания (землетрясение) между точками данных.

Пример надуманный, потому что сейсмографы постоянно собирают данные, и поэтому это землетрясение нельзя было бы пропустить. Но это полезно для иллюстрации допущений, сделанных с помощью интерполяции, и реальных явлений, которые специалисты по обработке данных могут упустить из виду.

Феномен Рунге

Феномен Рунге , также известный как «полиномиальное покачивание», представляет собой проблему на противоположном конце спектра от линейной интерполяции и линейного смещения. При подгонке полиномиальной интерполяции к данным можно использовать полином слишком высокой степени (степень или порядок — это наивысший показатель степени в полиномиальном уравнении). Это приводит к странным колебаниям по краям. Например, применение полиномиальной интерполяции степени 11 означает, что член высшего порядка в полиномиальном уравнении имеет \(x^{11}\), к примерно линейным данным, приводит к чрезвычайно плохим прогнозам в начале и конце диапазона данных:

Грубо линейные данные, снабженные полиномиальной интерполяцией 11-й степени, показывающие резкий скачок вверх между первыми двумя точками данных и резкий скачок вниз между двумя последними точками данных.
Пример полиномиального покачивания

В контексте МО аналогичным явлением является переобучение .

Статистические неудачи в обнаружении

Иногда статистический тест может оказаться слишком слабым , чтобы обнаружить небольшой эффект. Низкая мощность статистического анализа означает низкую вероятность правильного определения истинных событий и, следовательно, высокую вероятность ложноотрицательных результатов. Кэтрин Баттон и др. написал в журнале Nature : «Когда исследования в определенной области планируются с мощностью 20%, это означает, что если в этой области можно обнаружить 100 подлинных ненулевых эффектов, ожидается, что эти исследования обнаружат только 20 из них. " Иногда может помочь увеличение размера выборки, а также тщательный план исследования.

Аналогичная ситуация в ML — проблема классификации и выбора порога классификации. Выбор более высокого порога приводит к меньшему количеству ложноположительных и большему количеству ложноотрицательных результатов, тогда как более низкий порог приводит к большему количеству ложноположительных и меньшему количеству ложноотрицательных результатов.

Помимо проблем со статистической мощностью, поскольку корреляция предназначена для обнаружения линейных взаимосвязей, можно пропустить нелинейные корреляции между переменными. Аналогичным образом переменные могут быть связаны друг с другом, но не коррелировать статистически. Переменные также могут быть отрицательно коррелированы, но совершенно не связаны друг с другом, что известно как парадокс Берксона или ошибка Берксона . Классическим примером ошибки Берксона является ложная отрицательная корреляция между любым фактором риска и тяжелым заболеванием при рассмотрении популяции стационарных пациентов (по сравнению с общей популяцией), которая возникает в процессе отбора (состояние, достаточно серьезное, чтобы потребовать госпитализации). .

Подумайте, применима ли какая-либо из этих ситуаций.

Устаревшие модели и неверные предположения

Даже хорошие модели могут со временем деградировать, потому что поведение (и мир, если уж на то пошло) может измениться. Ранние прогностические модели Netflix пришлось отказаться от использования, поскольку их клиентская база превратилась из молодых, технически подкованных пользователей в население в целом. 10

Модели также могут содержать молчаливые и неточные предположения, которые могут оставаться скрытыми до тех пор, пока модель не потерпит катастрофический провал, как это произошло во время рыночного краха 2008 года. Модели стоимости риска (VaR) финансовой индустрии утверждают, что точно оценивают максимальный убыток в портфеле любого трейдера, например, максимальный убыток в размере 100 000 долларов США ожидается в 99% случаев. Но в аномальных условиях краха портфель с ожидаемым максимальным убытком в $ 100 000 иногда терял $ 1 000 000 и более.

Модели VaR были основаны на ошибочных предположениях, включая следующие:

  • Прошлые рыночные изменения предсказывают будущие рыночные изменения.
  • В основе прогнозируемой доходности лежало нормальное (тонкохвостое и, следовательно, предсказуемое) распределение.
Распределение фон Мизеса с k=5, напоминающее распределение Гаусса, и более пологие k=1 и k=.2.
График распределения фон Мизеса, имеющий тонкий хвост при высоком K и толстый хвост при низком K.

Фактически, лежащее в основе распределение было «толстым хвостом», «диким» или фрактальным, а это означало, что существовал гораздо более высокий риск длиннохвостых, экстремальных и предположительно редких событий, чем можно было бы предсказать при нормальном распределении. «Толстый хвост» реального распределения был хорошо известен, но не принимался во внимание. Менее известно было то, насколько сложными и тесно связанными были различные явления, включая компьютерную торговлю с автоматическими распродажами. 11

Проблемы агрегации

Агрегированные данные, включающие большую часть демографических и эпидемиологических данных, подвержены определенному набору ловушек. Парадокс Симпсона , или парадокс объединения , возникает в агрегированных данных, когда очевидные тенденции исчезают или меняют направление, когда данные агрегируются на другом уровне из-за мешающих факторов и неправильно понятых причинно-следственных связей.

Экологическая ошибка предполагает ошибочную экстраполяцию информации о популяции на одном уровне агрегации на другой уровень агрегации, где это утверждение может быть недействительным. Болезнь, от которой страдают 40% сельскохозяйственных рабочих в одной провинции, может не иметь такой же распространенности среди большей части населения. Также весьма вероятно, что в этой провинции найдутся изолированные фермы или сельскохозяйственные города, в которых не будет столь же высокой распространенности этого заболевания. Было бы ошибочно предполагать, что распространенность заболевания в менее пострадавших регионах составит 40%.

Проблема модифицируемой единицы площади (MAUP) — хорошо известная проблема в геопространственных данных, описанная Стэном Опеншоу в 1984 году в CATMOG 38 . В зависимости от формы и размеров областей, используемых для агрегирования данных, специалист по геопространственным данным может установить практически любую корреляцию между переменными в данных. Создание избирательных округов, благоприятствующих той или иной партии, является примером МАУП.

Все эти ситуации предполагают неуместную экстраполяцию с одного уровня агрегирования на другой. Для разных уровней анализа могут потребоваться разные агрегированные данные или даже совершенно разные наборы данных. 12

Обратите внимание, что данные переписи населения, демографические и эпидемиологические данные обычно объединяются по зонам по соображениям конфиденциальности и что эти зоны часто являются произвольными, то есть не основаны на значимых границах реального мира. При работе с этими типами данных специалисты по машинному обучению должны проверить, меняются ли производительность модели и прогнозы в зависимости от размера и формы выбранных зон или уровня агрегации, и если да, то влияет ли на прогнозы модели одна из этих проблем агрегации.

Ссылки

Баттон, Кэтрин и др. «Сбой в электроснабжении: почему небольшой размер выборки подрывает надежность нейробиологии». Nature Reviews Neuroscience, том 14 (2013), 365–376. DOI: https://doi.org/10.1038/nrn3475.

Каир, Альберто. Как лгут диаграммы: умнее обращаться с визуальной информацией. Нью-Йорк: WW Нортон, 2019.

Давенпорт, Томас Х. «Учебник по прогнозной аналитике». В Руководстве HBR по основам анализа данных для менеджеров (Бостон: HBR Press, 2018) 81–86.

Де Ланге, Барт, Стефано Пунтони и Ричард Ларрик. «Линейное мышление в нелинейном мире». В Руководстве HBR по основам анализа данных для менеджеров (Бостон: HBR Press, 2018) 131–154.

Элленберг, Джордан. Как не ошибиться: сила математического мышления. Нью-Йорк: Пингвин, 2014.

Хафф, Даррелл. Как лгать со статистикой. Нью-Йорк: WW Нортон, 1954.

Джонс, Бен. Как избежать ошибок в данных. Хобокен, Нью-Джерси: Уайли, 2020.

Опеншоу, Стэн. «Проблема изменяемой единицы площади», CATMOG 38 (Норвич, Англия: Geo Books, 1984) 37.

Риски финансового моделирования: VaR и экономический кризис , 111-й Конгресс (2009 г.) (свидетельства Нассима Н. Талеба и Ричарда Букстабера).

Риттер, Дэвид. «Когда действовать в соответствии с корреляцией, а когда нет». В Руководстве HBR по основам анализа данных для менеджеров (Бостон: HBR Press, 2018) 103–109.

Тульчинский, Теодор Х. и Елена Алексеевна Варавикова. «Глава 3: Измерение, мониторинг и оценка здоровья населения» в журнале The New Public Health , 3-е изд. Сан-Диего: Academic Press, 2014, стр. 91–147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Ван Доорн, Дженни, Питер К. Верхуф и Таммо Х.А. Биджмолт. «Важность нелинейных отношений между отношением и поведением в политических исследованиях». Журнал потребительской политики 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3.

Ссылка на изображение

На основе «Распределения фон Мизеса». Rainald62, 2018. Источник


  1. Элленберг 125.

  2. Хафф 77-79. Хафф цитирует Принстонский отдел исследования общественного мнения, но, возможно, он имел в виду доклад Национального центра исследования общественного мнения Денверского университета за апрель 1944 года .

  3. Тульчинский и Варавикова.

  4. Гэри Таубс, «Знаем ли мы, что делает нас здоровыми?» в журнале The New York Times Magazine, 16 сентября 2007 г.

  5. Элленберг 78.

  6. Хафф 91-92.

  7. Хафф 93.

  8. Джонс 157-167.

  9. Хафф 95.

  10. Давенпорт 84.

  11. См. показания Нассима Н. Талеба и Ричарда Букстабера в Конгрессе в книге «Риски финансового моделирования: VaR и экономический кризис» , 111th Congress (2009) 11-67.

  12. Каир 155, 162.