Якщо ви плануєте використовувати автоматизоване машинне навчання (AutoML), у вас можуть виникнути запитання про те, як воно працює і які дії слід виконати, розпочинаючи роботу. У цьому розділі докладно розглядаються загальні шаблони AutoML; з нього ви дізнаєтеся, як працює AutoML і які кроки, імовірно, знадобитися виконати, перш ніж використовувати AutoML для свого проекту.
Інструменти AutoML
Інструменти AutoML діляться на дві основні категорії.
- Інструменти, для роботи з якими не потрібно писати код: вони зазвичай мають форму вебдодатків, які дозволяють налаштовувати й виконувати експерименти через інтерфейс користувача, щоб знайти найкращу модель для ваших даних без коду.
- Інструменти API й CLI: надають розширені функції автоматизації, але вимагають більше (іноді значно більше) досвіду й знань у сфері програмування та машинного навчання.
Інструменти AutoML, для роботи з якими потрібно писати код, можуть бути потужнішими й гнучкішими, ніж ті, які цього не вимагають, але вони також, імовірно, складніші у використанні. У цьому модулі основна увага приділяється варіантам розробки моделей без коду, але майте на увазі, що параметри API й CLI можуть знадобитися, якщо вам потрібна індивідуальна автоматизація.
Робочий процес AutoML
Розгляньмо типовий робочий процес машинного навчання: ви дізнаєтеся, як усе працює при використанні AutoML. Кроки високого рівня в робочому процесі такі самі, як і для індивідуального навчання. Основна відмінність полягає в тому, що AutoML виконує деякі завдання для вас.
Визначення проблеми
Перший крок будь-якого робочого процесу машинного навчання – це визначення проблеми. Коли ви використовуєте AutoML, переконайтеся, що вибраний інструмент може підтримувати цілі вашого проекту машинного навчання. Більшість інструментів AutoML підтримує різноманітні алгоритми контрольованого машинного навчання й типи вхідних даних.
Щоб дізнатися більше про окреслення проблеми ознайомтеся з модулем Вступ до окреслення проблеми для машинного навчання.
Збір даних
Перш ніж почати працювати з інструментом AutoML, необхідно зібрати відомості в єдине джерело даних. Перевірте документацію продукту, щоб переконатися, що ваш інструмент підтримує джерело даних, розмір набору даних і типи даних у ньому.
Підготовка даних
Підготовка даних – це те, із чим можуть допомогти інструменти AutoML. Однак немає інструмента, який би виконував усе автоматично, тому вам доведеться дещо зробити самостійно, перш ніж імпортувати в нього дані. Підготовка даних для AutoML схожа на те, що знадобилося б зробити, щоб навчати модель вручну. Щоб дізнатися більше про те, як готувати дані для навчання, перегляньте розділ "Підготовка даних".
Щоб дізнатися більше про підготовку даних, перегляньте модулі Робота із числовими даними й Робота з категорійними даними.
Перш ніж імпортувати дані для навчання AutoML, необхідно виконати кроки, наведені нижче.
Позначте дані
Кожен приклад із набору даних потрібно позначити міткою.
Очистьте й відформатуйте дані
Реальні дані часто можуть бути невпорядкованими, тому потрібно очистити їх перед використанням. Навіть використовуючи AutoML, необхідно визначити оптимальні методи для конкретного набору даних і проблеми. Перш ніж ви отримаєте найкращі результати, може знадобитися провести дослідження й, імовірно, запустити AutoML кілька разів.
Виконайте трансформації ознак
Деякі інструменти AutoML виконують певні трансформації ознак. Але якщо інструмент, який ви використовуєте, не підтримує необхідні трансформації (зовсім або належним чином), можливо, доведеться виконати їх заздалегідь.
Розробка моделі (за допомогою інструментів AutoML, для роботи з якими не потрібно писати код)
AutoML робить усе за вас під час навчання. Однак перш ніж приступити до нього, необхідно налаштувати експеримент. Щоб налаштувати навчальний запуск AutoML, зазвичай потрібно виконати кроки високого рівня, описані нижче.
Імпортуйте дані
Щоб імпортувати дані, укажіть їх джерело. Під час імпорту інструмент AutoML призначає семантичний тип даних кожному значенню.
Проаналізуйте дані
У продуктах AutoML зазвичай є інструменти для аналізу набору даних до і після навчання. Рекомендуємо використовувати їх, щоб зрозуміти й перевірити дані перед запуском AutoML.
Уточніть дані
В інструментах AutoML часто є механізми, які допомагають уточнити дані між етапами імпорту й навчання. Нижче описано, що можна зробити для уточнення даних.
Семантична перевірка. Під час імпорту інструменти AutoML намагаються визначити правильний семантичний тип для кожної ознаки, але це лише припущення. Слід перевірити типи, призначені для всіх ознак, і змінити їх, якщо вони неправильні.
Наприклад, ви маєте поштові індекси, що зберігаються як числа в стовпці бази даних. Більшість систем AutoML розпізнають ці відомості як неперервні числові дані. Це було б неправильно для поштового індексу, тому користувач, скоріше за все, змінить семантичний тип цього стовпця ознаки з неперервного на категорійний.
Трансформації. Деякі інструменти дають змогу користувачам налаштовувати трансформації даних у процесі уточнення. Це може бути необхідно, якщо в наборі даних є потенційно прогнозні ознаки, які слід трансформувати чи об’єднати так, щоб інструментам AutoML було важко визначити їх без допомоги.
Розгляньмо приклад: набір даних про житло, які використовуються для прогнозування ціни продажу будинку. Припустімо, є ознака
description
, яка представляє опис оголошення про будинок, і ви хочете використати ці дані, щоб створити нову ознакуdescription_length
. У деяких системах AutoML є функції, що дають змогу використовувати спеціалізовані трансформації. Зокрема, може бути функціяLENGTH
, за допомогою якої створюється нова ознака довжини опису, наприкладLENGTH(description)
.
Налаштуйте параметри запуску AutoML
Останній крок – вибір кількох параметрів конфігурації: це потрібно зробити, перш ніж починати навчальний експеримент, щоб інструмент знав ваші побажання щодо навчання моделі. Хоча кожен інструмент AutoML має власний унікальний набір параметрів конфігурації, нижче наведено кілька важливих дій, які вам може знадобитися виконати.
- Виберіть тип проблеми машинного навчання, яку ви плануєте вирішувати. Наприклад, це може бути задача класифікації чи регресії.
- Виберіть, який стовпець у наборі даних є міткою.
- Виберіть набір ознак, які використовуватимуться для навчання моделі.
- Виберіть набір алгоритмів машинного навчання, які AutoML враховуватиме під час пошуку моделі.
- Виберіть показник оцінювання, який AutoML використовує для вибору оптимальної моделі.
Після налаштування експерименту AutoML можна розпочати навчання. Навчання може зайняти деякий час (кілька годин і більше).
Оцінювання моделі
Після навчання можна вивчити результати, використовуючи інструменти вашого продукту AutoML, щоб:
- оцінити ознаки, вивчивши показники їх важливості;
- зрозуміти модель, вивчивши архітектуру й гіперпараметри, використані для її побудови;
- оцінити ефективність моделі верхнього рівня за допомогою графіків і показників, зібраних під час навчання вихідної моделі.
Підготовка до впровадження
Деякі системи AutoML можуть допомогти протестувати й розгорнути модель, проте це питання виходить за рамки цього модуля.
Повторне навчання моделі
Можливо, вам доведеться повторно навчити модель з урахуванням нових даних. Ви можете виявити потребу в цьому, коли оцінюватимете навчальний запуск AutoML або коли модель попрацює деякий час у реальних умовах. Хай там як, системи AutoML також можуть допомогти з повторним навчанням. Нерідко буває так, що після запуску AutoML слід ще раз переглянути дані й повторно навчити модель, використовуючи покращений набір даних.
Що далі?
Вітаємо із завершенням модуля!
Радимо переглядати різні модулі курсу MLCC у власному темпі, коли з’являється бажання. Якщо ви хочете дотримуватися рекомендованого порядку, пропонуємо перейти до наступного модуля, що називається Об’єктивність у машинному навчанні.