Следующие вопросы помогут вам укрепить понимание основных концепций машинного обучения.
Предсказательная сила
Модели контролируемого машинного обучения обучаются с использованием наборов данных с помеченными примерами. Модель учится предсказывать метку на основе функций. Однако не каждая функция в наборе данных обладает предсказательной силой. В некоторых случаях лишь несколько признаков действуют как предикторы метки. В приведенном ниже наборе данных используйте цену в качестве метки, а остальные столбцы — в качестве функций.
Какие три характеристики, по вашему мнению, лучше всего влияют на цену автомобиля?
Марка_модель, год, миль.
Марка/модель автомобиля, год выпуска и пробег, вероятно, будут одними из самых сильных предсказателей его цены.
Цвет, высота, марка_модель.
Высота и цвет автомобиля не являются сильными предикторами цены автомобиля.
Майлз, коробка передач, марка_модель.
Коробка передач не является основным фактором, определяющим цену.
Размер_шины, колесная_база, год.
Размер шин и колесная база не являются сильными факторами, определяющими цену автомобиля.
Контролируемое и неконтролируемое обучение
В зависимости от проблемы вы будете использовать контролируемый или неконтролируемый подход. Например, если вы заранее знаете значение или категорию, которую хотите предсказать, вы должны использовать обучение с учителем. Однако, если вы хотите узнать, содержит ли ваш набор данных какие-либо сегментации или группы связанных примеров, вы должны использовать обучение без учителя.
Предположим, у вас есть набор данных о пользователях веб-сайта интернет-магазина, и он содержит следующие столбцы:
Если бы вы хотели понять типы пользователей, посещающих сайт, вы бы использовали контролируемое или неконтролируемое обучение?
Обучение без присмотра.
Поскольку мы хотим, чтобы модель группировала группы связанных клиентов, мы будем использовать обучение без учителя. После того как модель кластеризовала пользователей, мы создавали собственные имена для каждого кластера, например, «искатели скидок», «охотники за скидками», «серферы», «лояльные» и «странники».
Контролируемое обучение, потому что я пытаюсь предсказать, к какому классу принадлежит пользователь.
При контролируемом обучении набор данных должен содержать метку, которую вы пытаетесь предсказать. В наборе данных нет метки, относящейся к категории пользователя.
Предположим, у вас есть набор данных об энергопотреблении домов со следующими столбцами:
Какой тип ML вы бы использовали, чтобы спрогнозировать количество киловатт-часов, используемых в год для недавно построенного дома?
Обучение под контролем.
Обучение под наблюдением тренируется на размеченных примерах. В этом наборе данных меткой будет «потребление киловатт-часов в год», потому что это значение, которое вы хотите, чтобы модель предсказывала. Характеристики будут «площадь в квадратных метрах», «местоположение» и «год постройки».
Обучение без присмотра.
В обучении без учителя используются немаркированные примеры. В этом примере меткой будет «потребление киловатт-часов в год», поскольку именно это значение вы хотите, чтобы модель прогнозировала.
Предположим, у вас есть набор полетных данных со следующими столбцами:
Если бы вы хотели спрогнозировать стоимость билета на автобус, вы бы использовали регрессию или классификацию?
Регрессия
Выходные данные регрессионной модели представляют собой числовое значение.
Классификация
Выходные данные модели классификации представляют собой дискретное значение, обычно слово. В данном случае стоимость билета на автобус представляет собой числовое значение.
Сможете ли вы на основе набора данных обучить модель классификации, чтобы классифицировать стоимость билета на автобус как «высокую», «среднюю» или «низкую»?
Да, но сначала нам нужно преобразовать числовые значения в столбце coach_ticket_cost
в категориальные значения.
Из набора данных можно создать классификационную модель. Вы бы сделали что-то вроде следующего:
- Найдите среднюю стоимость билета из аэропорта вылета в аэропорт назначения.
- Определите пороговые значения, которые будут «высоким», «средним» и «низким».
- Сравните прогнозируемую стоимость с пороговыми значениями и выведите категорию, к которой относится значение.
Нет. Создать классификационную модель невозможно. Значения coach_ticket_cost
являются числовыми, а не категориальными.
Приложив немного усилий, вы можете создать классификационную модель.
Нет. Модели классификации прогнозируют только две категории, например spam
или not_spam
. Эта модель должна будет предсказать три категории.
Модели классификации могут прогнозировать несколько категорий. Их называют моделями мультиклассовой классификации.
Обучение и оценка
После обучения модели мы оцениваем ее, используя набор данных с помеченными примерами, и сравниваем прогнозируемое значение модели с фактическим значением метки.
Выберите два лучших ответа на вопрос.
Если предсказания модели далеки от реальности, что вы можете сделать, чтобы сделать их лучше?
Переобучите модель, но используйте только те функции, которые, по вашему мнению, имеют наибольшую предсказательную силу для метки.
Переобучение модели с меньшим количеством функций, но с большей прогностической способностью может создать модель, которая дает более качественные прогнозы.
Вы не можете исправить модель, прогнозы которой далеки от реальности.
Можно исправить модель, прогнозы которой неверны. Большинству моделей требуется несколько раундов обучения, пока они не сделают полезные прогнозы.
Переобучите модель, используя более крупный и разнообразный набор данных.
Модели, обученные на наборах данных с большим количеством примеров и более широким диапазоном значений, могут давать более точные прогнозы, поскольку модель имеет лучшее обобщенное решение для связи между объектами и меткой.
Попробуйте другой подход к обучению. Например, если вы использовали контролируемый подход, попробуйте неконтролируемый подход.
Другой подход к обучению не даст лучших прогнозов.
Теперь вы готовы сделать следующий шаг на пути к машинному обучению:
Руководство «Люди + ИИ» . Если вы ищете набор методов, лучших практик и примеров, представленных сотрудниками Google, отраслевыми экспертами и научными исследованиями по использованию машинного обучения.
Формулировка проблемы . Если вы ищете проверенный на практике подход к созданию моделей машинного обучения и избежание распространенных ошибок на этом пути.
Ускоренный курс машинного обучения . Если вы готовы к углубленному и практическому подходу к изучению ML.