Ловушки данных

Цели обучения

В этом модуле вы научитесь:

  • Изучите потенциальные проблемы, лежащие в основе необработанных или обработанных наборов данных, включая проблемы со сбором и качеством.
  • Выявите предубеждения, неверные выводы и рационализации.
  • Найдите общие проблемы при анализе данных, включая корреляцию, взаимосвязь и нерелевантность.
  • Изучите таблицу на предмет распространенных проблем, неправильных представлений, а также вводящих в заблуждение вариантов отображения и дизайна.

Мотивация МО

Исследование, документирование и предварительная обработка данных, хотя и не так привлекательны, как архитектура моделей и другие последующие работы с моделями, имеют решающее значение для работы ML. Практики ОД могут попасть в то, что Нитья Самбасиван и др. назвали каскадами данных в своей статье ACM 2021 года, если они не глубоко понимают:

  • условия, при которых собираются их данные
  • качество, характеристики и ограничения данных
  • что данные могут и не могут показать

Очень дорого обучать модели на плохих данных и только при получении некачественных результатов обнаружить проблемы с данными. Аналогичным образом, неспособность осознать ограничения данных, человеческие предубеждения при сборе данных или ошибочное принятие корреляции за причинно-следственную связь могут привести к чрезмерно многообещающим и недостижимым результатам, что может привести к потере доверия.

В этом курсе рассматриваются распространенные, но тонкие ловушки данных, с которыми специалисты по машинному обучению и данным могут столкнуться в своей работе.