Что такое (контролируемое) машинное обучение? Кратко говоря, это следующее:
- Системы машинного обучения узнают, как комбинировать входные данные для получения полезных прогнозов на основе данных, которые ранее не публиковались.
Давайте изучим фундаментальную терминологию машинного обучения.
Этикетки
Метка — это то, что мы предсказываем, — переменная y
в простой линейной регрессии. Этикеткой может быть будущая цена на пшеницу, вид животного, изображенного на картинке, значение аудиоклипа или что угодно.
Функции
Функция — это входная переменная — переменная x
в простой линейной регрессии. Простой проект машинного обучения может использовать одну функцию, в то время как более сложный проект машинного обучения может использовать миллионы функций, указанных как:
\[\\{x_1, x_2, ... x_N\\}\]
В примере с детектором спама функции могут включать следующее:
- слова в тексте письма
- адрес отправителя
- время дня, когда письмо было отправлено
- электронное письмо содержит фразу «один странный трюк».
Примеры
Примером является конкретный экземпляр данных, x . (Мы выделили x жирным шрифтом, чтобы указать, что это вектор.) Мы разбиваем примеры на две категории:
- помеченные примеры
- немаркированные примеры
Пример с меткой включает в себя как функции, так и метку. То есть:
labeled examples: {features, label}: (x, y)
Используйте помеченные примеры для обучения модели. В нашем примере с детектором спама помеченными примерами будут отдельные электронные письма, которые пользователи явно пометили как «спам» или «не спам».
Например, в следующей таблице показаны 5 помеченных примеров из набора данных, содержащего информацию о ценах на жилье в Калифорнии:
жильеMedianAge (особенность) | всегоКомнат (особенность) | ВсегоСпальни (особенность) | медианаHouseValue (этикетка) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 г. | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
Немаркированный пример содержит функции, но не метку. То есть:
unlabeled examples: {features, ?}: (x, ?)
Вот 3 немаркированных примера из одного и того же набора данных о жилье, которые исключают medianHouseValue
:
жильеMedianAge (особенность) | всегоКомнат (особенность) | ВсегоСпальни (особенность) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
После того, как мы обучили нашу модель размеченным примерам, мы используем эту модель для прогнозирования метки на неразмеченных примерах. В детекторе спама немаркированные примеры — это новые электронные письма, которые люди еще не пометили.
Модели
Модель определяет взаимосвязь между функциями и меткой. Например, модель обнаружения спама может строго ассоциировать определенные функции со спамом. Выделим два этапа жизни модели:
Обучение означает создание или изучение модели. То есть вы показываете модели помеченные примеры и позволяете модели постепенно изучать отношения между функциями и меткой.
Вывод означает применение обученной модели к неразмеченным примерам. То есть вы используете обученную модель, чтобы делать полезные прогнозы (
y'
). Например, во время логического вывода можно предсказатьmedianHouseValue
для новых неразмеченных примеров.
Регрессия против классификации
Модель регрессии предсказывает непрерывные значения. Например, регрессионные модели делают прогнозы, отвечающие на следующие вопросы:
Сколько стоит дом в Калифорнии?
Какова вероятность того, что пользователь нажмет на это объявление?
Модель классификации предсказывает дискретные значения. Например, модели классификации делают прогнозы, отвечающие на следующие вопросы:
Является ли данное сообщение электронной почты спамом или нет?
Это изображение собаки, кошки или хомяка?