Резюме

Этот курс прошел через множество распространенных ловушек данных: от качества набора данных до мышления, визуализации и статистического анализа.

Специалистам по ОД следует задаться вопросом:

  • Насколько хорошо я понимаю характеристики моих наборов данных и условия, при которых эти данные были собраны?
  • Какие проблемы с качеством или предвзятостью существуют в моих данных? Имеются ли мешающие факторы?
  • Какие потенциальные проблемы в дальнейшем могут возникнуть в результате использования этих конкретных наборов данных?
  • При обучении модели, которая делает прогнозы или классификации: содержит ли набор данных, на котором обучается модель, все соответствующие переменные?

Какими бы ни были результаты, специалисты по ОД всегда должны проверять себя на предмет предвзятости подтверждения, затем сверять свои выводы со своей интуицией и здравым смыслом и исследовать все случаи, когда данные противоречат им.

Дополнительное чтение

Каир, Альберто. Как лгут диаграммы: умнее обращаться с визуальной информацией. Нью-Йорк: WW Нортон, 2019.

Хафф, Даррелл. Как лгать со статистикой. Нью-Йорк: WW Нортон, 1954.

Монмонье, Марк. Как лгать с картами, 3-е изд. Чикаго: Чикагский университет, 2018.

Джонс, Бен. Как избежать ошибок в данных. Хобокен, Нью-Джерси: Уайли, 2020.

Уилан, Чарльз. Голая статистика: избавление от страха от данных. Нью-Йорк: WW Нортон, 2013 г.