У цьому розділі йдеться про мітки.
Прямі й проксі-мітки
Розгляньмо два різні типи міток.
- Прямі мітки ідентичні прогнозу, який намагається зробити ваша модель. Це означає, що такий прогноз точно є у вашому наборі даних як стовпець.
Наприклад, стовпець із назвою
bicycle owner
буде прямою міткою для моделі двійкової класифікації, яка визначає, є в людини велосипед чи ні. - Проксі-мітки схожі на прогноз, який намагається зробити ваша модель, але не ідентичні йому. Наприклад, імовірно, що людина, яка передплачує журнал Bicycle Bizarre, має велосипед, але це не можна стверджувати напевно.
Прямі мітки, як правило, кращі за проксі-мітки. Якщо у вашому наборі даних є імовірна пряма мітка, можливо, варто її використати. Однак часто прямі мітки недоступні.
Проксі-мітки – це завжди компроміс, тобто недосконале наближення до прямої мітки. Однак деякі проксі-мітки достатньо близькі до прямих, тому можуть бути корисними. Користь моделей, у яких застосовуються проксі-мітки, прямо пропорційна зв’язку між такою міткою і прогнозом.
Згадаймо, що кожну мітку необхідно представити як число з рухомою комою у векторі ознак (оскільки машинне навчання – це, по суті, просто величезна сукупність математичних операцій). Іноді пряма мітка є, але її нелегко представити як число з рухомою комою у векторі ознак. У такому разі використовується проксі-мітка.
Вправа. Перевірте свої знання
Ваша компанія хоче виконати дію, наведену нижче.
Надіслати купони (з текстом "Обміняйте свій старий велосипед і отримайте 15% знижки на новий") власникам велосипедів.
Нижче вказано завдання вашої моделі.
Визначити, у кого з людей є велосипед.
На жаль, у наборі даних немає стовпця з назвою bike owner
,
однак є стовпець recently bought a bicycle
.
recently bought a bicycle
буде хорошою чи поганою проксі-міткою для цієї моделі?recently bought a bicycle
– порівняно хороша проксі-мітка. Зрештою, більшість людей, які купують велосипеди, уже є їх власниками. Щоправда, як і всі проксі-мітки, навіть дуже хороші, мітка recently bought a
bicycle
недосконала. Людина, яка купує товар, не завжди використовує його (або володіє ним).
Наприклад, іноді велосипеди купують, щоб комусь подарувати.recently bought a bicycle
недосконала (деякі придбані велосипеди подарували або віддали іншим людям). Однак мітка recently bought a bicycle
– це все ще відносно хороший індикатор власника велосипеда.Дані, які створила людина
Деякі дані створює людина: одна або кілька осіб вивчають певну інформацію і надають їй значення, як правило, для мітки. Наприклад, один або кілька метеорологів можуть досліджувати знімки неба й визначати типи хмар.
А деякі дані генеруються автоматично: програмне забезпечення (можливо, інша модель машинного навчання) розраховує значення. Наприклад, модель машинного навчання може аналізувати знімки неба й автоматично визначати типи хмар.
У цьому розділі розглядаються переваги й недоліки даних, які створює людина.
Переваги
- Спеціалісти з оцінювання можуть виконувати широкий спектр завдань, які навіть для складних моделей машинного навчання можуть виявитися проблематичними.
- Такий процес змушує власника набору даних розробляти чіткі й послідовні критерії.
Недоліки
- Зазвичай спеціалістам платять за оцінювання, тому дані, які створює людина, можуть дорого коштувати.
- Людині властиво помилятися. Тому, можливо, одні й ті самі дані доведеться оцінювати кільком спеціалістам.
Щоб визначити, що краще для вас, дайте відповіді на запитання, наведені нижче.
- Наскільки кваліфікованими мають бути ваші спеціалісти з оцінювання? (Наприклад, чи мають вони знати певну мову? Чи потрібні вам лінгвісти для обробки діалогу або ОПМ?)
- Скільки прикладів із мітками вам потрібно і як швидко?
- Який у вас бюджет?
Завжди перевіряйте своїх спеціалістів з оцінювання. Наприклад, самостійно позначте мітками 1000 прикладів і подивіться, наскільки ваші результати збігаються з їхніми. Якщо з’являються розбіжності, не варто вважати, що ваші оцінки правильні, особливо якщо йдеться про оціночні судження. Якщо спеціалісти з оцінювання припустилися помилок, спробуйте додати вказівки, які допоможуть їм, і спробуйте ще раз.