АвтоМЛ: Начало работы

Если вы подумываете об использовании AutoML, у вас могут возникнуть вопросы о том, как он работает и какие шаги следует предпринять, чтобы начать работу. В этом разделе более подробно рассматриваются распространенные шаблоны AutoML, исследуется, как работает AutoML, и какие шаги вам, возможно, потребуется предпринять, прежде чем вы начнете использовать AutoML в своем проекте.

Инструменты автомл

Инструменты AutoML делятся на две основные категории:

  • Инструменты, не требующие программирования, обычно представляют собой веб-приложения, которые позволяют настраивать и проводить эксперименты через пользовательский интерфейс, чтобы найти лучшую модель для ваших данных без написания кода.
  • Инструменты API и CLI предоставляют расширенные функции автоматизации, но требуют большего (иногда значительно большего) опыта программирования и машинного обучения.

Инструменты AutoML, требующие кодирования, могут быть более мощными и гибкими, чем инструменты без кода, но их также может быть сложнее использовать. В этом модуле основное внимание уделяется вариантам разработки моделей без кода, но имейте в виду, что параметры API и CLI могут помочь, если вам требуется индивидуальная автоматизация.

Рабочий процесс АвтоМЛ

Давайте рассмотрим типичный рабочий процесс машинного обучения и посмотрим, как все работает при использовании AutoML. Шаги высокого уровня в рабочем процессе такие же, как и для индивидуального обучения; Основное отличие состоит в том, что AutoML выполняет некоторые задачи за вас.

Определение проблемы

Первым шагом в любом рабочем процессе ML является определение вашей проблемы. Когда вы используете AutoML, убедитесь, что выбранный вами инструмент может поддерживать цели вашего проекта ML. Большинство инструментов AutoML поддерживают различные алгоритмы контролируемого машинного обучения и типы входных данных.

Для получения дополнительной информации о постановке задач ознакомьтесь с модулем «Введение в постановку задач машинного обучения» .

Сбор данных

Прежде чем вы сможете начать работать с инструментом AutoML, вам необходимо собрать данные в единый источник данных. Проверьте документацию продукта, чтобы убедиться, что ваш инструмент поддерживает: ваш источник данных, типы данных в вашем наборе данных, размер вашего набора данных.

Подготовка данных

Подготовка данных — это область, в которой вам могут помочь инструменты AutoML, но ни один инструмент не может делать все автоматически, поэтому вам придется проделать некоторую работу, прежде чем вы сможете импортировать данные в инструмент. Подготовка данных для AutoML аналогична тому, что вам нужно будет сделать для обучения модели вручную. Если вам нужно узнать больше о том, как подготовить данные для обучения, ознакомьтесь с разделом «Подготовка данных».

Дополнительные сведения о подготовке данных см. в разделах «Работа с числовыми данными» и «Работа с модулями категориальных данных» .

Прежде чем импортировать данные для обучения AutoML, вам необходимо выполнить следующие шаги:

  • Маркируйте свои данные

    Каждому примеру в вашем наборе данных нужна метка.

  • Очистить и отформатировать данные

    Реальные данные имеют тенденцию быть беспорядочными, поэтому будьте готовы очистить свои данные перед их использованием. Даже с помощью AutoML вам необходимо определить наилучшие методы лечения вашего конкретного набора данных и проблемы. Прежде чем вы получите наилучшие результаты, может потребоваться некоторое исследование и, возможно, несколько запусков AutoML.

  • Выполнение преобразований объектов

    Некоторые инструменты AutoML выполняют за вас определенные преобразования объектов. Но если используемый вами инструмент не поддерживает необходимое вам преобразование объектов или не поддерживает его должным образом, возможно, вам придется выполнить преобразования заранее.

Разработка модели (с помощью AutoML без кода)

AutoML делает всю работу за вас во время обучения. Однако прежде чем приступить к обучению, необходимо настроить эксперимент. Чтобы настроить обучающий прогон AutoML, обычно необходимо указать следующие шаги высокого уровня:

  1. Импортируйте ваши данные

    Чтобы импортировать данные, укажите источник данных. В процессе импорта инструмент AutoML присваивает семантический тип данных каждому значению данных.

  2. Анализируйте свои данные

    Продукты AutoML обычно предоставляют инструменты для анализа набора данных до и после обучения. Рекомендуется использовать эти инструменты анализа, чтобы понять и проверить данные перед запуском AutoML.

  3. Уточните свои данные

    Инструменты AutoML часто предоставляют механизмы, помогающие уточнить данные после импорта и перед обучением. Вот несколько задач, которые вы можете выполнить для уточнения данных:

    • Семантическая проверка. Во время импорта инструменты AutoML пытаются определить правильный семантический тип для каждого объекта, но это всего лишь предположения. Вам следует проверить типы, назначенные всем объектам, и изменить их, если они были назначены неправильно.

      Например, у вас могут быть почтовые индексы, хранящиеся в виде чисел в столбце вашей базы данных. Большинство систем AutoML распознают данные как непрерывные числовые данные. Это было бы неправильно для почтового индекса, и пользователь, вероятно, захотел бы изменить семантический тип для этого столбца объекта на категориальный, а не на непрерывный.

    • Преобразования. Некоторые инструменты позволяют пользователям настраивать преобразования данных в рамках процесса уточнения. Иногда это необходимо, когда набор данных имеет потенциально прогнозируемые функции, которые необходимо преобразовать или объединить таким образом, что инструменты AutoML трудно определить без посторонней помощи.

      Например, рассмотрим набор данных о жилье, который вы используете для прогнозирования цены продажи дома. Предположим, существует функция, которая представляет описание списка домов под названием description , и вы хотите использовать эти данные для создания новой функции под названием description_length . Некоторые системы AutoML предлагают способы использования пользовательских преобразований. В этом примере может быть функция LENGTH для создания нового признака длины описания, например: LENGTH(description) .

  4. Настройка параметров запуска AutoML

    Последний шаг перед запуском обучающего эксперимента — выбрать несколько параметров конфигурации, чтобы указать инструменту, как вы хотите, чтобы он обучал вашу модель. Хотя каждый инструмент AutoML имеет свой собственный уникальный набор параметров конфигурации, вот несколько важных задач по настройке, которые вам, возможно, придется выполнить:

    • Выберите тип проблемы ML, которую вы планируете решить. Например, вы решаете задачу классификации или регрессии?
    • Выберите, какой столбец в вашем наборе данных является меткой.
    • Выберите набор функций, которые будут использоваться для обучения модели.
    • Выберите набор алгоритмов машинного обучения, которые AutoML учитывает при поиске модели.
    • Выберите метрику оценки, которую AutoML использует для выбора лучшей модели.

После настройки эксперимента AutoML вы готовы начать обучающий прогон. Обучение может занять некоторое время (около нескольких часов).

Оценить модель

После обучения вы можете изучить результаты, используя инструменты, предоставляемые вашим продуктом AutoML, которые помогут вам:

  • Оцените свои функции, изучив показатели важности функций.
  • Изучите свою модель, изучив архитектуру и гиперпараметры, использованные для ее построения.
  • Оцените производительность модели верхнего уровня с помощью графиков и показателей, собранных во время обучения выходной модели.

Производство

Хотя это выходит за рамки данного модуля, некоторые системы AutoML могут помочь вам протестировать и развернуть вашу модель.

Переобучить модель

Возможно, вам придется переобучить модель с новыми данными. Это может произойти после того, как вы оцените обучающий прогон AutoML или после того, как ваша модель будет находиться в эксплуатации в течение некоторого времени. В любом случае системы AutoML также могут помочь в переобучении. Нередко после запуска AutoML еще раз взглянуть на свои данные и переобучиться с использованием улучшенного набора данных.

Что дальше

Поздравляем с завершением этого модуля!

Мы рекомендуем вам изучать различные модули MLCC в удобном для вас темпе и в соответствии с вашими интересами. Если вы хотите следовать рекомендуемому порядку, мы предлагаем вам перейти к следующему модулю: Справедливость ML .