Набори даних: мітки

У цьому розділі йдеться про мітки.

Прямі й проксі-мітки

Розгляньмо два різні типи міток.

  • Прямі мітки ідентичні прогнозу, який намагається зробити ваша модель. Це означає, що такий прогноз точно є у вашому наборі даних як стовпець. Наприклад, стовпець із назвою bicycle owner буде прямою міткою для моделі двійкової класифікації, яка визначає, є в людини велосипед чи ні.
  • Проксі-мітки схожі на прогноз, який намагається зробити ваша модель, але не ідентичні йому. Наприклад, імовірно, що людина, яка передплачує журнал Bicycle Bizarre, має велосипед, але це не можна стверджувати напевно.

Прямі мітки, як правило, кращі за проксі-мітки. Якщо у вашому наборі даних є імовірна пряма мітка, можливо, варто її використати. Однак часто прямі мітки недоступні.

Проксі-мітки – це завжди компроміс, тобто недосконале наближення до прямої мітки. Однак деякі проксі-мітки достатньо близькі до прямих, тому можуть бути корисними. Користь моделей, у яких застосовуються проксі-мітки, прямо пропорційна зв’язку між такою міткою і прогнозом.

Згадаймо, що кожну мітку необхідно представити як число з рухомою комою у векторі ознак (оскільки машинне навчання – це, по суті, просто величезна сукупність математичних операцій). Іноді пряма мітка є, але її нелегко представити як число з рухомою комою у векторі ознак. У такому разі використовується проксі-мітка.

Вправа. Перевірте свої знання

Ваша компанія хоче виконати дію, наведену нижче.

Надіслати купони (з текстом "Обміняйте свій старий велосипед і отримайте 15% знижки на новий") власникам велосипедів.

Нижче вказано завдання вашої моделі.

Визначити, у кого з людей є велосипед.

На жаль, у наборі даних немає стовпця з назвою bike owner, однак є стовпець recently bought a bicycle.

Стовпець recently bought a bicycle буде хорошою чи поганою проксі-міткою для цієї моделі?
Хороша проксі-мітка
Погана проксі-мітка

Дані, які створила людина

Деякі дані створює людина: одна або кілька осіб вивчають певну інформацію і надають їй значення, як правило, для мітки. Наприклад, один або кілька метеорологів можуть досліджувати знімки неба й визначати типи хмар.

А деякі дані генеруються автоматично: програмне забезпечення (можливо, інша модель машинного навчання) розраховує значення. Наприклад, модель машинного навчання може аналізувати знімки неба й автоматично визначати типи хмар.

У цьому розділі розглядаються переваги й недоліки даних, які створює людина.

Переваги

  • Спеціалісти з оцінювання можуть виконувати широкий спектр завдань, які навіть для складних моделей машинного навчання можуть виявитися проблематичними.
  • Такий процес змушує власника набору даних розробляти чіткі й послідовні критерії.

Недоліки

  • Зазвичай спеціалістам платять за оцінювання, тому дані, які створює людина, можуть дорого коштувати.
  • Людині властиво помилятися. Тому, можливо, ті самі дані доведеться оцінювати кільком спеціалістам.

Щоб визначити, що краще для вас, дайте відповіді на запитання, наведені нижче.

  • Наскільки кваліфікованими мають бути ваші спеціалісти з оцінювання? (Наприклад, чи мають вони знати певну мову? Чи потрібні вам лінгвісти для обробки діалогу або природної мови?)
  • Скільки прикладів із мітками вам потрібно і як швидко?
  • Який у вас бюджет?

Завжди перевіряйте своїх спеціалістів з оцінювання. Наприклад, самостійно позначте мітками 1000 прикладів і подивіться, наскільки ваші результати збігаються з їхніми. Якщо з’являються розбіжності, не варто вважати, що ваші оцінки правильні, особливо якщо йдеться про оціночні судження. Якщо спеціалісти з оцінювання припустилися помилок, додайте вказівки, які допоможуть їм, і спробуйте ще раз.

Переглядати дані вручну корисно, незалежно від того, як ви їх отримали. Андрей Карпати зробив це для проекту ImageNet і написав про свої враження.

Моделі можуть навчатися на наборі, що включає як мітки, згенеровані автоматично, так і ті, які створила людина. Однак для більшості моделей додатковий набір міток, які створила людина (а вони можуть застаріти), як правило, не виправдовує додаткових зусиль і витрат на обслуговування. А втім, інколи вони містять додаткову інформацію, якої немає в мітках, згенерованих автоматично.