Проверьте свое понимание

Следующие вопросы помогут вам закрепить понимание основных концепций машинного обучения.

Прогностическая способность

Модели машинного обучения с учителем обучаются с использованием наборов данных с размеченными примерами. Модель учится предсказывать метку на основе признаков. Однако не каждый признак в наборе данных обладает прогностической способностью. В некоторых случаях лишь несколько признаков выступают в качестве предикторов метки. В приведенном ниже наборе данных используйте цену в качестве метки, а остальные столбцы — в качестве признаков.

Пример описания характеристик автомобиля с указанием необходимых параметров.

Какие три характеристики, по вашему мнению, наиболее точно определяют цену автомобиля?
Марка/модель, год выпуска, пробег.
Марка/модель автомобиля, год выпуска и пробег, скорее всего, являются одними из наиболее значимых факторов, определяющих его цену.
Цвет, высота, модель.
Высота и цвет автомобиля не являются надежными показателями, определяющими его цену.
Майлз, коробка передач, марка/модель.
Коробка передач не является основным фактором, определяющим цену.
Размер шин, колесная база, год.
Размер шин и колесная база не являются надежными показателями, определяющими цену автомобиля.

Обучение под наблюдением и без наблюдения

В зависимости от задачи вы будете использовать либо контролируемый, либо неконтролируемый подход. Например, если вам заранее известно значение или категория, которую вы хотите предсказать, вы будете использовать контролируемое обучение. Однако, если вы хотите узнать, содержит ли ваш набор данных какие-либо сегментации или группы связанных примеров, вы будете использовать неконтролируемое обучение.

Предположим, у вас есть набор данных о пользователях интернет-магазина, содержащий следующие столбцы:

Изображение, отображающее ряд атрибутов клиента.

Если бы вы хотели понять, какие типы пользователей посещают сайт, вы бы использовали контролируемое или неконтролируемое обучение?
Обучение без участия преподавателя.
Поскольку нам нужно, чтобы модель группировала клиентов по схожим признакам, мы будем использовать обучение без учителя. После того, как модель сгруппирует пользователей, мы придумаем собственные названия для каждой группы, например, «искатели скидок», «охотники за выгодными предложениями», «серферы», «лояльные» и «путешественники».
Обучение с учителем, потому что я пытаюсь предсказать, к какому классу принадлежит пользователь.
В контролируемом обучении набор данных должен содержать метку, которую вы пытаетесь предсказать. В наборе данных не должно быть метки, указывающей на категорию пользователя.

Предположим, у вас есть набор данных об энергопотреблении в домах, содержащий следующие столбцы:

Изображение ряда предметов домашнего обихода.

Какой тип машинного обучения вы бы использовали для прогнозирования годового потребления киловатт-часов в недавно построенном доме?
Обучение под наблюдением.
Обучение с учителем строится на размеченных примерах. В этом наборе данных меткой будет "потреблено киловатт-часов в год", поскольку это значение, которое модель должна предсказать. Признаками будут "площадь в квадратных футах", "местоположение" и "год постройки".
Обучение без участия преподавателя.
В неконтролируемом обучении используются примеры без меток. В этом примере меткой будет "потреблено киловатт-часов в год", поскольку именно это значение вы хотите, чтобы модель предсказывала.

Предположим, у вас есть набор данных о рейсах со следующими столбцами:

Изображение строки с данными о рейсе.

Если бы вам нужно было предсказать стоимость авиабилета, вы бы использовали регрессию или классификацию?
Регрессия
Результатом работы регрессионной модели является числовое значение.
Классификация
Выходные данные модели классификации представляют собой дискретное значение, обычно слово. В данном случае стоимость авиабилета — это числовое значение.
На основе имеющихся данных, можно ли обучить классификационную модель для классификации стоимости авиабилета как «высокая», «средняя» или «низкая»?
Да, но сначала нам нужно будет преобразовать числовые значения в столбце airplane_ticket_cost в категориальные значения.
На основе этого набора данных можно создать модель классификации. Для этого нужно сделать примерно следующее:
  1. Найдите среднюю стоимость билета из аэропорта отправления в аэропорт назначения.
  2. Определите пороговые значения, которые будут соответствовать «высокому», «среднему» и «низкому» уровню.
  3. Сравните прогнозируемую стоимость с пороговыми значениями и укажите категорию, к которой относится данное значение.
Нет. Создать модель классификации невозможно. Значения airplane_ticket_cost являются числовыми, а не категориальными.
Приложив немного усилий, вы сможете создать модель классификации.
Нет. Классификационные модели предсказывают только две категории, например, spam или not_spam . Эта модель должна предсказывать три категории.
Классификационные модели могут предсказывать несколько категорий. Они называются многоклассовыми классификационными моделями.

Обучение и оценка

После обучения модели мы оцениваем её, используя набор данных с размеченными примерами, и сравниваем предсказанное моделью значение с фактическим значением метки.

Выберите два наиболее подходящих ответа на вопрос.

Если прогнозы модели сильно отличаются от действительности, что можно сделать, чтобы улучшить их?
Переобучите модель, но используйте только те признаки, которые, по вашему мнению, обладают наибольшей прогностической способностью для данной метки.
Переобучение модели с меньшим количеством признаков, но обладающих большей прогностической способностью, может привести к созданию модели, которая делает более точные прогнозы.
Невозможно исправить модель, прогнозы которой сильно отличаются от реальных.
Модель, чьи предсказания неверны, можно исправить. Большинству моделей требуется несколько итераций обучения, пока они не начнут давать полезные предсказания.
Переобучите модель, используя более крупный и разнообразный набор данных.
Модели, обученные на наборах данных с большим количеством примеров и более широким диапазоном значений, могут давать более точные прогнозы, поскольку модель имеет более обобщенное решение для связи между признаками и меткой.
Попробуйте другой подход к обучению. Например, если вы использовали контролируемый подход, попробуйте неконтролируемый.
Другой подход к обучению не позволил бы получить более точные прогнозы.

Теперь вы готовы сделать следующий шаг в своем путешествии в мир машинного обучения: