Числові дані часто записуються за допомогою наукових приладів або автоматизованих вимірювань. А категорійні дані часто класифікують люди або моделі машинного навчання. Те, хто визначає категорії і мітки та як такі рішення приймаються, впливає на надійність і корисність даних.
Спеціалісти з оцінювання
Дані, які вручну позначили люди, часто називають золотими мітками. Вони вважаються бажанішими для навчальних моделей, ніж дані з машинними мітками, через відносно кращу якість.
Це не завжди означає, що будь-який набір даних із мітками, які додали люди, має високу якість. На дані можуть вплинути людські помилки, упередженість і злий умисел під час збирання або очищення й обробки. Перевірте дані на наявність згаданих факторів перед навчанням.
Будь-які дві людини можуть по-різному позначити один і той самий приклад. Різниця між рішеннями спеціалістів з оцінювання називається погодження між оцінювачами. Отримати уявлення про розбіжності в думках оцінювачів можна, залучивши кількох із них для обробки одного прикладу й вимірявши рівень погодження між ними.
Машинне оцінювання
Дані, які позначила машина (категорії автоматично визначили одна або кілька моделей класифікації), часто називають срібними мітками. Такі дані можуть значно відрізнятися за якістю. Слід перевіряти їх не лише на точність і упередженості, але й на практичний смисл, відповідність реальності й намір. Наприклад, якщо модель комп’ютерного зору на фотографії замість чихуахуа розпізнає кекс (і навпаки), моделі, навчені на даних із цими мітками, будуть нижчої якості.
Так само й аналізатор настроїв, що присвоює нейтральним словам бал –0,25 замість нейтрального (0,0), може стати причиною того, що в наборі даних усі слова мають додаткову негативну конотацію, якої насправді немає. Надчутливий детектор токсичності може помилково позначити багато нейтральних тверджень як токсичні. Старайтесь отримати уявлення про якість і упередженість машинних міток та анотацій своїх даних, перш ніж навчати на них модель.
Висока розмірність
Категорійні дані мають тенденцію створювати високовимірні вектори ознак, тобто такі, що мають велику кількість елементів. Висока розмірність збільшує витрати на навчання й ускладнює цей процес. Через це спеціалісти з машинного навчання часто шукають способи зменшити кількість вимірів перед навчанням.
Для даних, які є природною мовою, основний метод зменшення розмірності – це перетворення векторів ознак у вектори представлень. Про це йдеться в одному з наступних модулів курсу, що називається Векторні представлення.