Числові дані: очищення

Яблуні дають урожай як хороших плодів, так і червивих. Проте всі яблука в дорогих продуктових магазинах виглядають ідеально. Поки яблука доставляють із фруктового саду до продуктового магазину, хтось витрачає багато часу на те, щоб викинути погані або збризнути воском ті, які можна врятувати. Як спеціаліст із машинного навчання ви витрачатимете дуже багато часу на те, щоб прибрати погані приклади й очистити ті, які можна виправити. Навіть кілька поганих яблук можуть зіпсувати великий набір даних.

Багато прикладів у наборах даних ненадійні через одну чи декілька з проблем, наведених у таблиці.

Категорія проблеми Приклад
Пропущені значення Обліковець не записав вік особи.
Повторювані приклади Сервер двічі завантажив ті самі журнали.
Значення ознак поза межами діапазону Хтось випадково надрукував зайву цифру.
Неправильні мітки Оцінювач помилково позначив зображення дуба як клен.

Ви можете написати програму або скрипт для виявлення однієї з таких проблем:

  • пропущених значень;
  • повторюваних прикладів;
  • значень ознак поза межами діапазону.

Наприклад, цей набір даних містить шість повторюваних значень:

Рисунок 15. Перші шість значень повторюються, а останні вісім – ні.
Рисунок 15. Перші шість значень повторюються.

Розгляньмо інший приклад. Припустімо, що діапазон температур для певної ознаки має бути від 10 до 30 градусів включно. Але часом трапляються несправності. Можливо, термометр тимчасово піддавався впливу сонця, що спричинило значний викид. Ваша програма або скрипт має виявляти значення температури, менші за 10 або більші ніж 30:

Рисунок 16. Дев’ятнадцять значень у межах діапазону й одне поза ним.
Рисунок 16. Значення поза межами діапазону.

Якщо мітки створювали кілька оцінювачів, рекомендуємо статистично визначити, чи набори від них усіх еквівалентні. Можливо, один оцінювач був суворішим, ніж інші, або використовував не такий самий набір критеріїв оцінювання?

Після виявлення зазвичай "виправляють" приклади, які містять неправильну ознаку чи мітку, видаляючи її з набору даних або імпутуючи її значення. Докладну інформацію наведено в розділі Характеристики даних модуля Набори даних, узагальнення й надмірне навчання.