Эта страница содержит термины глоссария по основам машинного обучения. Все термины глоссария можно найти здесь .
А
точность
Количество правильных предсказаний классификации, делённое на общее количество предсказаний. То есть:
Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:
Бинарная классификация предусматривает специальные обозначения для различных категорий правильных и неправильных предсказаний . Таким образом, формула точности для бинарной классификации выглядит следующим образом:
где:
- TP — количество истинно положительных результатов (правильных предсказаний).
- TN — количество истинно отрицательных результатов (правильных предсказаний).
- FP — количество ложноположительных результатов (неверных предсказаний).
- FN — количество ложноотрицательных результатов (неверных предсказаний).
Сравните и сопоставьте точность с точностью и полнотой .
Для получения дополнительной информации см. раздел Классификация: точность, полнота, достоверность и связанные с ними показатели в ускоренном курсе по машинному обучению.
функция активации
Функция, которая позволяет нейронным сетям изучать нелинейные (сложные) взаимосвязи между признаками и меткой.
Популярные функции активации включают в себя:
Графики функций активации никогда не представляют собой одну прямую линию. Например, график функции активации ReLU состоит из двух прямых линий:
График сигмоидальной функции активации выглядит следующим образом:
Для получения дополнительной информации см. раздел Нейронные сети: функции активации в ускоренном курсе по машинному обучению.
искусственный интеллект
Программа или модель , не являющаяся человеком, способная решать сложные задачи. Например, программа или модель, переводящая текст, или программа или модель, определяющая заболевания по рентгеновским снимкам, обладают искусственным интеллектом.
Формально машинное обучение является подразделом искусственного интеллекта. Однако в последние годы некоторые организации стали использовать термины «искусственный интеллект» и «машинное обучение» как взаимозаменяемые.
AUC (площадь под ROC-кривой)
Число от 0,0 до 1,0, представляющее способность модели бинарной классификации разделять положительные и отрицательные классы . Чем ближе значение AUC к 1,0, тем лучше модель способна разделять классы.
Например, на следующем рисунке показана модель классификации , которая идеально разделяет положительные классы (зелёные овалы) и отрицательные классы (фиолетовые прямоугольники). Эта нереалистично идеальная модель имеет AUC, равную 1,0:
Напротив, на следующем рисунке показаны результаты для модели классификации , генерирующей случайные результаты. Эта модель имеет AUC 0,5:
Да, предыдущая модель имела AUC 0,5, а не 0,0.
Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель в некоторой степени разделяет положительные и отрицательные результаты, поэтому её AUC находится где-то между 0,5 и 1,0:
AUC игнорирует любое заданное вами значение порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.
Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.
Б
обратное распространение
Алгоритм, реализующий градиентный спуск в нейронных сетях .
Обучение нейронной сети включает множество итераций следующего двухпроходного цикла:
- Во время прямого прохода система обрабатывает пакет примеров для получения прогноза(ов). Система сравнивает каждый прогноз с каждым значением метки . Разница между прогнозом и значением метки является потерей для данного примера. Система суммирует потери для всех примеров, чтобы вычислить общую потерю для текущего пакета.
- Во время обратного прохода (обратного распространения) система уменьшает потери, регулируя веса всех нейронов во всех скрытых слоях .
Нейронные сети часто содержат множество нейронов, расположенных на множестве скрытых слоёв. Каждый из этих нейронов вносит свой вклад в общие потери. Обратное распространение ошибки определяет, следует ли увеличивать или уменьшать веса, применяемые к конкретным нейронам.
Скорость обучения — это множитель, который контролирует степень увеличения или уменьшения каждого веса при каждом обратном проходе. Высокая скорость обучения увеличит или уменьшит каждый вес сильнее, чем низкая.
В терминах математического анализа обратное распространение реализует цепное правило . из математического анализа. То есть, обратное распространение вычисляет частную производную ошибки по каждому параметру.
Много лет назад специалистам по машинному обучению приходилось писать код для реализации обратного распространения. Современные API машинного обучения, такие как Keras, теперь реализуют обратное распространение автоматически. Уф!
Более подробную информацию см. в статье «Нейронные сети в ускоренном курсе машинного обучения».
партия
Набор примеров, используемых в одной итерации обучения. Размер пакета определяет количество примеров в пакете.
См. раздел эпоха для получения объяснения того, как партия соотносится с эпохой.
Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.
размер партии
Количество примеров в пакете . Например, если размер пакета равен 100, то модель обрабатывает 100 примеров за одну итерацию .
Ниже приведены популярные стратегии размера партии:
- Стохастический градиентный спуск (SGD) , в котором размер партии равен 1.
- Полный пакет, где размер пакета равен количеству примеров во всём обучающем наборе . Например, если обучающий набор содержит миллион примеров, то размер пакета будет равен миллиону примеров. Полный пакет обычно неэффективен.
- мини-партии , размер партии которых обычно составляет от 10 до 1000 штук. Мини-партии обычно являются наиболее эффективной стратегией.
Более подробную информацию смотрите ниже:
- Производственные системы машинного обучения: статический и динамический вывод в ускоренном курсе по машинному обучению.
- Руководство по настройке глубокого обучения .
предвзятость (этика/справедливость)
1. Стереотипы, предубеждения или фаворитизм по отношению к одним вещам, людям или группам по сравнению с другими. Эти предубеждения могут влиять на сбор и интерпретацию данных, структуру системы и взаимодействие пользователей с ней. Формы этого типа предубеждений включают:
- предвзятость автоматизации
- предвзятость подтверждения
- предвзятость экспериментатора
- групповая атрибуция
- неявная предвзятость
- предвзятость внутри группы
- смещение однородности аутгруппы
2. Систематическая ошибка, вызванная процедурой выборки или составления отчёта. К формам этого типа смещения относятся:
- смещение охвата
- смещение из-за отсутствия ответа
- предвзятость участия
- предвзятость отчетности
- смещение выборки
- смещение отбора
Не путать с термином «смещение» в моделях машинного обучения или «смещение предсказания» .
Для получения дополнительной информации см. раздел «Справедливость: типы предвзятости» в ускоренном курсе по машинному обучению.
предвзятость (математика) или термин предвзятости
Пересечение или смещение относительно начала координат. Смещение — это параметр в моделях машинного обучения, который обозначается одним из следующих символов:
- б
- в 0
Например, смещение — это b в следующей формуле:
В простой двумерной линии смещение означает просто «пересечение с осью Y». Например, смещение линии на следующем рисунке равно 2.
Смещение возникает, поскольку не все модели начинаются с начала координат (0,0). Например, предположим, что вход в парк развлечений стоит 2 евро, а за каждый час пребывания посетителя взимается дополнительная плата в размере 0,5 евро. Следовательно, модель, отображающая общую стоимость, имеет смещение 2, поскольку минимальная стоимость составляет 2 евро.
Предвзятость не следует путать с предвзятостью в этике и справедливости или предвзятостью прогнозирования .
Для получения дополнительной информации см. Линейная регрессия в экспресс-курсе по машинному обучению.
бинарная классификация
Тип задачи классификации , которая предсказывает один из двух взаимоисключающих классов:
Например, следующие две модели машинного обучения выполняют двоичную классификацию:
- Модель, которая определяет, являются ли сообщения электронной почты спамом (положительный класс) или не спамом (отрицательный класс).
- Модель, которая оценивает медицинские симптомы, чтобы определить, есть ли у человека определенное заболевание (положительный класс) или нет этого заболевания (отрицательный класс).
Сравните с многоклассовой классификацией .
См. также логистическую регрессию и порог классификации .
Более подробную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».
распределение
Преобразование одного признака в несколько двоичных признаков, называемых контейнерами или бинами , обычно основанных на диапазоне значений. Разделённый признак обычно является непрерывным .
Например, вместо того, чтобы представлять температуру как единый непрерывный параметр с плавающей точкой, можно разбить диапазоны температур на отдельные сегменты, например:
- <= 10 градусов Цельсия — «холодное» ведро.
- 11–24 градуса по Цельсию — это «умеренный» климат.
- >= 25 градусов Цельсия — «теплое» ведро.
Модель будет обрабатывать все значения в одном сегменте одинаково. Например, значения 13
и 22
относятся к умеренному сегменту, поэтому модель обрабатывает их одинаково.
Для получения дополнительной информации см. Числовые данные: биннинг в ускоренном курсе по машинному обучению.
С
категориальные данные
Признаки, имеющие определённый набор возможных значений. Например, рассмотрим категориальный признак с именем traffic-light-state
, который может принимать только одно из следующих трёх возможных значений:
-
red
-
yellow
-
green
Представляя traffic-light-state
как категориальную характеристику, модель может изучить различное влияние red
, green
и yellow
на поведение водителя.
Категориальные признаки иногда называют дискретными признаками .
Сравните с числовыми данными .
Дополнительную информацию см. в разделе Работа с категориальными данными в ускоренном курсе по машинному обучению.
сорт
Категория, к которой может относиться метка . Например:
- В модели бинарной классификации , которая обнаруживает спам, два класса могут быть спамом и не спамом .
- В многоклассовой модели классификации , которая определяет породы собак, классами могут быть пудель , бигль , мопс и так далее.
Модель классификации предсказывает класс. В отличие от неё, регрессионная модель предсказывает число, а не класс.
Более подробную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».
модель классификации
Модель , прогноз которой представляет собой класс . Например, ниже приведены все модели классификации:
- Модель, которая предсказывает язык входного предложения (французский? испанский? итальянский?).
- Модель, которая предсказывает виды деревьев (Клен? Дуб? Баобаб?).
- Модель, которая предсказывает положительный или отрицательный класс для конкретного заболевания.
Напротив, регрессионные модели предсказывают числа, а не классы.
Два распространенных типа моделей классификации:
порог классификации
В двоичной классификации — число от 0 до 1, которое преобразует необработанный результат модели логистической регрессии в прогноз положительного или отрицательного класса . Обратите внимание, что порог классификации — это значение, которое выбирает человек, а не берётся в процессе обучения модели.
Модель логистической регрессии выдает необработанное значение от 0 до 1. Затем:
- Если это необработанное значение превышает порог классификации, то прогнозируется положительный класс.
- Если это необработанное значение меньше порога классификации, то прогнозируется отрицательный класс.
Например, предположим, что порог классификации равен 0,8. Если исходное значение равно 0,9, то модель предсказывает положительный класс. Если исходное значение равно 0,7, то модель предсказывает отрицательный класс.
Выбор порога классификации сильно влияет на количество ложноположительных и ложноотрицательных результатов .
Дополнительную информацию см. в разделе «Пороговые значения и матрица путаницы» курса «Ускоренный курс по машинному обучению».
классификатор
Неформальный термин для обозначения модели классификации .
набор данных с несбалансированным классом
Набор данных для классификации , в котором общее количество меток каждого класса существенно различается. Например, рассмотрим набор данных бинарной классификации , две метки которого разделены следующим образом:
- 1 000 000 отрицательных меток
- 10 положительных этикеток
Соотношение отрицательных и положительных меток составляет 100 000 к 1, поэтому это набор данных с несбалансированным классом.
Напротив, следующий набор данных сбалансирован по классам, поскольку соотношение отрицательных меток к положительным меткам относительно близко к 1:
- 517 отрицательных меток
- 483 положительных метки
Многоклассовые наборы данных также могут быть несбалансированными по классам. Например, следующий многоклассовый набор данных классификации также несбалансирован по классам, поскольку одна метка содержит гораздо больше примеров, чем две другие:
- 1 000 000 этикеток с классом «зеленый»
- 200 этикеток с классом «фиолетовый»
- 350 этикеток с классом «оранжевый»
Наборы данных с несбалансированным классом обучения могут представлять особую сложность. Подробнее см. в разделе «Несбалансированные наборы данных» курса «Машинное обучение».
См. также энтропия , класс большинства и класс меньшинства .
вырезка
Метод обработки выбросов путем выполнения одного или обоих из следующих действий:
- Уменьшение значений признаков , которые превышают максимальный порог, до этого максимального порога.
- Увеличение значений признаков, которые меньше минимального порога, до этого минимального порога.
Например, предположим, что <0,5% значений для конкретного признака попадают за пределы диапазона 40–60. В этом случае можно сделать следующее:
- Обрезать все значения свыше 60 (максимальный порог) до значения ровно 60.
- Обрежьте все значения ниже 40 (минимальный порог), чтобы они были равны ровно 40.
Выбросы могут повредить модели, иногда приводя к переполнению весов во время обучения. Некоторые выбросы также могут существенно ухудшить такие показатели, как точность . Отсечение — распространённый метод ограничения ущерба.
Отсечение градиента устанавливает значения градиента в заданном диапазоне во время обучения.
Для получения дополнительной информации см . Числовые данные: нормализация в экспресс-курсе по машинному обучению.
матрица путаницы
Таблица NxN, в которой суммируется количество правильных и неправильных прогнозов, сделанных моделью классификации . Например, рассмотрим следующую матрицу ошибок для бинарной модели классификации :
Опухоль (прогнозируемая) | Неопухолевый (прогнозируемый) | |
---|---|---|
Опухоль (наземная правда) | 18 (ТП) | 1 (ФН) |
Нетумор (наземная проверка) | 6 (ФП) | 452 (Теннесси) |
Предыдущая матрица путаницы показывает следующее:
- Из 19 прогнозов, в которых истинной точкой была опухоль, модель правильно классифицировала 18 и неправильно классифицировала 1.
- Из 458 прогнозов, в которых истинной реакцией было отсутствие опухоли, модель правильно классифицировала 452 и неправильно классифицировала 6.
Матрица ошибок для задачи многоклассовой классификации может помочь выявить закономерности ошибок. Например, рассмотрим следующую матрицу ошибок для трёхклассовой модели многоклассовой классификации, которая классифицирует три различных типа ирисов (Virginica, Versicolor и Setosa). Когда в качестве исходного значения был выбран Virginica, матрица ошибок показывает, что модель с гораздо большей вероятностью ошибочно предсказывала Versicolor, чем Setosa:
Сетоза (предсказано) | Версиколор (предсказано) | Вирджиния (предсказано) | |
---|---|---|---|
Сетоса (наземная истина) | 88 | 12 | 0 |
Versicolor (наземная правда) | 6 | 141 | 7 |
Вирджиния (наземная истина) | 2 | 27 | 109 |
В качестве еще одного примера матрица ошибок может показать, что модель, обученная распознавать рукописные цифры, имеет тенденцию ошибочно предсказывать 9 вместо 4 или ошибочно предсказывать 1 вместо 7.
Матрицы путаницы содержат достаточно информации для расчета различных показателей эффективности, включая точность и полноту .
непрерывная функция
Функция с плавающей точкой с бесконечным диапазоном возможных значений, например температура или вес.
Контраст с дискретной особенностью .
конвергенция
Состояние, достигаемое при каждой итерации , когда значения потерь меняются очень мало или не меняются совсем. Например, следующая кривая потерь предполагает сходимость примерно при 700 итерациях:
Модель сходится , когда дополнительное обучение не улучшает модель.
В глубоком обучении значения потерь иногда остаются постоянными или почти постоянными в течение многих итераций, прежде чем наконец начать снижаться. В течение длительного периода постоянных значений потерь может временно возникнуть ложное ощущение сходимости.
См. также ранняя остановка .
Дополнительную информацию см. в разделе «Сходимость моделей и кривые потерь» курса «Машинное обучение».
Д
DataFrame
Популярный тип данных Pandas для представления наборов данных в памяти.
DataFrame аналогичен таблице или электронной таблице. Каждый столбец DataFrame имеет имя (заголовок), а каждая строка идентифицируется уникальным номером.
Каждый столбец в DataFrame структурирован как двумерный массив, за исключением того, что каждому столбцу может быть назначен собственный тип данных.
См. также официальную справочную страницу pandas.DataFrame .
набор данных или набор данных
Коллекция необработанных данных, обычно (но не исключительно) организованная в одном из следующих форматов:
- электронная таблица
- файл в формате CSV (значения, разделенные запятыми)
глубокая модель
Нейронная сеть , содержащая более одного скрытого слоя .
Глубокая модель также называется глубокой нейронной сетью .
Сравните с широкой моделью .
плотная особенность
Объект , в котором большинство или все значения ненулевые, обычно тензор значений с плавающей точкой. Например, следующий тензор из 10 элементов является плотным, поскольку 9 его значений ненулевые:
8 | 3 | 7 | 5 | 2 | 4 | 0 | 4 | 9 | 6 |
Контраст с разреженной чертой .
глубина
Сумма следующих величин в нейронной сети :
- количество скрытых слоев
- количество выходных слоев , которое обычно равно 1
- количество любых встраиваемых слоев
Например, нейронная сеть с пятью скрытыми слоями и одним выходным слоем имеет глубину 6.
Обратите внимание, что входной слой не влияет на глубину.
дискретная особенность
Признак с конечным набором возможных значений. Например, признак, значения которого могут быть только «животное» , «растение» или «минерал», является дискретным (или категориальным).
Контраст с непрерывной характеристикой .
динамический
Что-то, выполняемое часто или непрерывно. Термины «динамический» и «онлайн» являются синонимами в машинном обучении. Ниже приведены распространённые случаи использования терминов «динамический» и «онлайн» в машинном обучении:
- Динамическая модель (или онлайн-модель ) — это модель, которая часто или непрерывно переобучается.
- Динамическое обучение (или онлайн-обучение ) — это процесс частого или непрерывного обучения.
- Динамический вывод (или онлайн-вывод ) — это процесс генерации прогнозов по запросу.
динамическая модель
Модель , которая часто (возможно, даже постоянно) переобучается. Динамическая модель — это «постоянно обучающаяся» модель, постоянно адаптирующаяся к меняющимся данным. Динамическая модель также известна как онлайн-модель .
Сравните со статической моделью .
Э
ранняя остановка
Метод регуляризации , включающий завершение обучения до того, как потери в обучающем наборе данных перестанут уменьшаться. При раннем останове обучение модели намеренно прекращается, когда потери в проверочном наборе данных начинают увеличиваться, то есть когда качество обобщения ухудшается.
Сравните с ранним выходом .
слой внедрения
Специальный скрытый слой , который обучается на категориальном признаке высокой размерности для постепенного обучения вектору эмбеддинга меньшей размерности. Эмбеддинговый слой позволяет нейронной сети обучаться гораздо эффективнее, чем при обучении только на категориальном признаке высокой размерности.
Например, на Земле в настоящее время обитает около 73 000 видов деревьев. Предположим, что вид деревьев является элементом вашей модели, поэтому входной слой модели включает вектор с одним целым длиной 73 000 элементов. Например, baobab
можно представить следующим образом:
Массив из 73 000 элементов — это очень длинный массив. Если не добавить в модель слой эмбеддинга, обучение займёт очень много времени из-за умножения 72 999 нулей. Возможно, вы выберете 12-мерный слой эмбеддинга. Следовательно, слой эмбеддинга будет постепенно обучаться новому вектору эмбеддинга для каждого вида дерева.
В определенных ситуациях хеширование является разумной альтернативой встраиваемому слою.
Дополнительную информацию см. в курсе « Встраивание в машинное обучение».
эпоха
Полный проход обучения по всему обучающему набору таким образом, чтобы каждый пример был обработан один раз.
Эпоха представляет собой N
/ размер партии итераций обучения, где N
— общее количество примеров.
Например, предположим следующее:
- Набор данных состоит из 1000 примеров.
- Размер партии — 50 экземпляров.
Таким образом, для одной эпохи требуется 20 итераций:
1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations
Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.
пример
Значения одной строки признаков и, возможно, метки . Примеры в контролируемом обучении можно разделить на две основные категории:
- Помеченный пример состоит из одного или нескольких признаков и метки. Помеченные примеры используются во время обучения.
- Пример без метки содержит один или несколько признаков, но не имеет метки. Примеры без метки используются при выводе.
Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. Вот три помеченных примера:
Функции | Этикетка | ||
---|---|---|---|
Температура | Влажность | Давление | Результат теста |
15 | 47 | 998 | Хороший |
19 | 34 | 1020 | Отличный |
18 | 92 | 1012 | Бедный |
Вот три немаркированных примера:
Температура | Влажность | Давление | |
---|---|---|---|
12 | 62 | 1014 | |
21 | 47 | 1017 | |
19 | 41 | 1021 |
Строка набора данных обычно служит исходным источником для примера. То есть пример обычно состоит из подмножества столбцов набора данных. Более того, признаки в примере могут также включать синтетические признаки , например, пересечение признаков .
Более подробную информацию см. в разделе «Обучение под наблюдением» курса «Введение в машинное обучение».
Ф
ложноотрицательный результат (ЛО)
Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное сообщение электронной почты не является спамом (отрицательный класс), но на самом деле это сообщение электронной почты является спамом .
ложноположительный результат (ЛП)
Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное сообщение электронной почты является спамом (положительный класс), но на самом деле это сообщение электронной почты спамом не является.
Дополнительную информацию см. в разделе «Пороговые значения и матрица путаницы» курса «Ускоренный курс по машинному обучению».
частота ложноположительных результатов (FPR)
Доля фактических отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула рассчитывает долю ложноположительных результатов:
Показатель ложноположительных результатов — это ось x на ROC-кривой .
Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.
особенность
Входная переменная для модели машинного обучения. Пример состоит из одного или нескольких признаков. Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. В следующей таблице представлены три примера, каждый из которых содержит три признака и одну метку:
Функции | Этикетка | ||
---|---|---|---|
Температура | Влажность | Давление | Результат теста |
15 | 47 | 998 | 92 |
19 | 34 | 1020 | 84 |
18 | 92 | 1012 | 87 |
Сравните с этикеткой .
Более подробную информацию см. в разделе «Обучение под наблюдением» курса «Введение в машинное обучение».
кросс-функция
Синтетический признак , сформированный путем «пересечения» категориальных или сегментированных признаков.
Например, рассмотрим модель «прогнозирования настроения», которая представляет температуру в одном из следующих четырех диапазонов:
-
freezing
-
chilly
-
temperate
-
warm
И представляет скорость ветра в одном из следующих трех уровней:
-
still
-
light
-
windy
Без пересечений признаков линейная модель обучается независимо на каждом из семи предыдущих интервалов. Таким образом, модель обучается, например, freezing
независимо от обучения, например, windy
.
В качестве альтернативы можно создать комбинированный признак температуры и скорости ветра. Этот синтетический признак будет иметь следующие 12 возможных значений:
-
freezing-still
-
freezing-light
-
freezing-windy
-
chilly-still
-
chilly-light
-
chilly-windy
-
temperate-still
-
temperate-light
-
temperate-windy
-
warm-still
-
warm-light
-
warm-windy
Благодаря скрещиванию признаков модель может изучать разницу в настроении в freezing-windy
и freezing-still
день.
Если создать синтетический признак из двух признаков, каждый из которых содержит множество различных контейнеров, результирующее пересечение признаков будет содержать огромное количество возможных комбинаций. Например, если один признак содержит 1000 контейнеров, а другой — 2000, результирующее пересечение признаков будет содержать 2 000 000 контейнеров.
Формально крест — это декартово произведение .
Пересечения признаков в основном используются в линейных моделях и редко в нейронных сетях.
Дополнительную информацию см. в разделе Категориальные данные: Пересечение признаков в Курсе машинного обучения.
проектирование функций
Процесс, включающий следующие этапы:
- Определение того, какие признаки могут быть полезны при обучении модели.
- Преобразование необработанных данных из набора данных в эффективные версии этих функций.
Например, вы можете решить, что temperature
может быть полезной характеристикой. Затем вы можете поэкспериментировать с группировкой , чтобы оптимизировать то, чему модель может научиться в разных temperature
диапазонах.
Проектирование признаков иногда называют извлечением признаков или признаками .
Дополнительную информацию см. в разделе Числовые данные: как модель получает данные с использованием векторов признаков в ускоренном курсе по машинному обучению.
набор функций
Группа признаков, на основе которых обучается ваша модель машинного обучения. Например, простой набор признаков для модели, прогнозирующей цены на жильё, может включать почтовый индекс, размер и состояние недвижимости.
вектор признаков
Массив значений признаков , составляющих пример . Вектор признаков поступает на вход в процессе обучения и вывода . Например, вектор признаков для модели с двумя дискретными признаками может быть следующим:
[0.92, 0.56]
Каждый пример предоставляет различные значения для вектора признаков, поэтому вектор признаков для следующего примера может быть примерно таким:
[0.73, 0.49]
Метод проектирования признаков определяет способ представления признаков в векторе признаков. Например, двоичный категориальный признак с пятью возможными значениями может быть представлен методом прямого кодирования (one-hot encoding) . В этом случае часть вектора признаков для конкретного примера будет состоять из четырёх нулей и одной единицы в третьей позиции, как показано ниже:
[0.0, 0.0, 1.0, 0.0, 0.0]
В качестве другого примера предположим, что ваша модель состоит из трех функций:
- двоичный категориальный признак с пятью возможными значениями, представленными с помощью прямого кодирования; например:
[0.0, 1.0, 0.0, 0.0, 0.0]
- другой двоичный категориальный признак с тремя возможными значениями, представленными с помощью прямого кодирования; например:
[0.0, 0.0, 1.0]
- функция с плавающей точкой; например:
8.3
.
В этом случае вектор признаков для каждого примера будет представлен девятью значениями. С учётом значений примеров из предыдущего списка вектор признаков будет следующим:
0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3
Дополнительную информацию см. в разделе Числовые данные: как модель получает данные с использованием векторов признаков в ускоренном курсе по машинному обучению.
петля обратной связи
В машинном обучении это ситуация, когда прогнозы модели влияют на данные для обучения той же или другой модели. Например, модель, рекомендующая фильмы, будет влиять на выбор фильмов, которые смотрят пользователи, что, в свою очередь, повлияет на последующие модели рекомендаций фильмов.
Для получения дополнительной информации см. раздел Производственные системы машинного обучения: вопросы, которые следует задать в ускоренном курсе по машинному обучению.
Г
обобщение
Способность модели делать правильные прогнозы на основе новых, ранее не наблюдавшихся данных. Модель, способная к обобщению, является противоположностью модели, подверженной переобучению .
Более подробную информацию см. в разделе «Обобщение в ускоренном курсе по машинному обучению».
кривая обобщения
График потерь при обучении и потерях при проверке в зависимости от количества итераций .
Кривая обобщения может помочь обнаружить возможное переобучение . Например, следующая кривая обобщения указывает на переобучение, поскольку потери при валидации в конечном итоге оказываются значительно выше потерь при обучении.
Более подробную информацию см. в разделе «Обобщение в ускоренном курсе по машинному обучению».
градиентный спуск
Математический метод минимизации потерь . Градиентный спуск итеративно корректирует веса и смещения , постепенно находя наилучшую комбинацию для минимизации потерь.
Градиентный спуск появился гораздо раньше, чем машинное обучение.
Для получения дополнительной информации см. раздел Линейная регрессия: градиентный спуск в ускоренном курсе по машинному обучению.
истина
Реальность.
Что на самом деле произошло.
Например, рассмотрим бинарную модель классификации , которая предсказывает, окончит ли студент первого курса университета университет в течение шести лет. Базовым критерием для этой модели является то, действительно ли этот студент окончил университет в течение шести лет.
ЧАС
скрытый слой
Слой нейронной сети , расположенный между входным слоем (признаки) и выходным слоем (прогноз). Каждый скрытый слой состоит из одного или нескольких нейронов . Например, следующая нейронная сеть содержит два скрытых слоя: первый с тремя нейронами, а второй с двумя:
Глубокая нейронная сеть содержит более одного скрытого слоя. Например, представленная выше иллюстрация относится к глубокой нейронной сети, поскольку модель содержит два скрытых слоя.
Для получения дополнительной информации см. раздел Нейронные сети: узлы и скрытые слои в ускоренном курсе по машинному обучению.
гиперпараметр
Переменные, которые вы или служба настройки гиперпараметровКорректировать в ходе последовательных запусков обучения модели. Например, скорость обучения — это гиперпараметр. Вы можете установить скорость обучения 0,01 перед одним сеансом обучения. Если вы считаете, что 0,01 слишком много, возможно, стоит установить скорость обучения 0,003 для следующего сеанса обучения.
Напротив, параметры — это различные веса и смещения , которые модель усваивает в процессе обучения.
Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.
я
независимо и одинаково распределены (iid)
Данные берутся из распределения, которое не меняется, и каждое полученное значение не зависит от значений, полученных ранее. Независимый идентификатор (IID) — это идеальный газ для машинного обучения — полезная математическая конструкция, которая, однако, практически никогда не встречается в реальном мире. Например, распределение посетителей веб-страницы может быть независим от IID в течение короткого промежутка времени; то есть распределение не меняется в течение этого короткого промежутка, и посещение одного человека, как правило, не зависит от посещения другого. Однако, если расширить этот промежуток времени, могут проявиться сезонные различия в посещаемости веб-страницы.
См. также нестационарность .
вывод
В традиционном машинном обучении — это процесс построения прогнозов путём применения обученной модели к немаркированным примерам . Подробнее см. в разделе «Обучение с учителем » во введении в машинное обучение.
В больших языковых моделях вывод — это процесс использования обученной модели для генерации ответа на входную подсказку .
В статистике термин «вывод» имеет несколько иное значение. Подробнее см. статью в Википедии о статистическом выводе .
входной слой
Слой нейронной сети , содержащий вектор признаков . То есть входной слой предоставляет примеры для обучения или вывода . Например, входной слой в следующей нейронной сети состоит из двух признаков:
интерпретируемость
Способность объяснить или представить ход рассуждений модели машинного обучения в понятных человеку терминах.
Например, большинство моделей линейной регрессии легко интерпретируются. (Для этого достаточно посмотреть на обученные веса для каждого признака.) Леса решений также легко интерпретируются. Однако некоторым моделям требуется сложная визуализация для обеспечения интерпретации.
Для интерпретации моделей машинного обучения можно использовать инструмент интерпретации обучения (LIT) .
итерация
Однократное обновление параметров модели — весов и смещений — во время обучения . Размер пакета определяет, сколько примеров модель обрабатывает за одну итерацию. Например, если размер пакета равен 20, то модель обрабатывает 20 примеров, прежде чем корректировать параметры.
При обучении нейронной сети одна итерация включает в себя следующие два прохода:
- Прямой проход для оценки потерь в одной партии.
- Обратный проход ( обратное распространение ошибки ) для настройки параметров модели на основе потерь и скорости обучения.
Дополнительную информацию см. в разделе Градиентный спуск в ускоренном курсе машинного обучения.
Л
L 0 регуляризация
Тип регуляризации , который штрафует общее количество ненулевых весов в модели. Например, модель, имеющая 11 ненулевых весов, будет оштрафована больше, чем аналогичная модель, имеющая 10 ненулевых весов.
Регуляризацию L0 иногда называют регуляризацией L0-нормы .
Потеря L 1
Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 1 для партии из пяти примеров :
Фактическая стоимость примера | Прогнозируемая ценность модели | Абсолютное значение дельты |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 3 |
4 | 6 | 2 |
9 | 8 | 1 |
8 = потеря L 1 |
Потери L1 менее чувствительны к выбросам , чем потери L2 .
Средняя абсолютная ошибка — это средняя потеря L 1 на пример.
Дополнительную информацию см. в разделе «Линейная регрессия: потери в ускоренном курсе машинного обучения».
L 1 регуляризация
Тип регуляризации , при котором веса наказываются пропорционально сумме абсолютных значений весов. Регуляризация L 1 помогает довести веса нерелевантных или едва значимых функций ровно до 0 . Признак с весом 0 фактически удаляется из модели.
В отличие от регуляризации L2 .
L 2 потеря
Функция потерь , которая вычисляет квадрат разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 2 для партии из пяти примеров :
Фактическая стоимость примера | Прогнозируемая ценность модели | Площадь дельты |
---|---|---|
7 | 6 | 1 |
5 | 4 | 1 |
8 | 11 | 9 |
4 | 6 | 4 |
9 | 8 | 1 |
16 = потеря L 2 |
Из-за возведения в квадрат потеря L2 усиливает влияние выбросов . То есть потеря L2 сильнее реагирует на плохие прогнозы, чем потеря L1 . Например, потеря L 1 для предыдущей партии будет равна 8, а не 16. Обратите внимание, что на один выброс приходится 9 из 16.
В регрессионных моделях в качестве функции потерь обычно используются потери L2 .
Среднеквадратическая ошибка — это средняя потеря L 2 на пример. Квадратные потери — это другое название потерь L2 .
Дополнительную информацию см. в разделе «Логистическая регрессия: потери и регуляризация в ускоренном курсе машинного обучения».
L 2 регуляризация
Тип регуляризации , при котором веса наказываются пропорционально сумме квадратов весов. Регуляризация L 2 помогает приблизить веса выбросов (с высокими положительными или низкими отрицательными значениями) к 0, но не совсем к 0. Объекты со значениями, очень близкими к 0, остаются в модели, но не сильно влияют на прогноз модели.
Регуляризация L2 всегда улучшает обобщение в линейных моделях .
В отличие от регуляризации L 1 .
Дополнительную информацию см. в разделе «Переоснащение: регуляризация L2» в ускоренном курсе машинного обучения.
этикетка
В контролируемом машинном обучении — часть примера «ответ» или «результат».
Каждый помеченный пример состоит из одного или нескольких объектов и метки. Например, в наборе данных для обнаружения спама метка, вероятно, будет либо «спам», либо «не спам». В наборе данных об осадках меткой может быть количество дождя, выпавшего за определенный период.
Дополнительную информацию см. в разделе «Обучение с учителем» в разделе «Введение в машинное обучение».
помеченный пример
Пример, содержащий одну или несколько функций и метку . Например, в следующей таблице показаны три помеченных примера из модели оценки дома, каждый из которых имеет три характеристики и одну метку:
Количество спален | Количество ванных комнат | Возраст дома | Цена дома (этикетка) |
---|---|---|---|
3 | 2 | 15 | 345 000 долларов США |
2 | 1 | 72 | 179 000 долларов США |
4 | 2 | 34 | 392 000 долларов США |
При контролируемом машинном обучении модели обучаются на помеченных примерах и делают прогнозы на неразмеченных примерах .
Сравните помеченный пример с немаркированными примерами.
Дополнительную информацию см. в разделе «Обучение с учителем» в разделе «Введение в машинное обучение».
лямбда
Синоним коэффициента регуляризации .
Лямбда — перегруженный термин. Здесь мы сосредоточимся на определении этого термина в рамках регуляризации .
слой
Набор нейронов в нейронной сети . Три распространенных типа слоев:
- Входной слой , который предоставляет значения для всех объектов .
- Один или несколько скрытых слоев , которые обнаруживают нелинейные связи между объектами и метками.
- Выходной слой , который обеспечивает прогноз.
Например, на следующем рисунке показана нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним выходным слоем:
В TensorFlow слои также являются функциями Python, которые принимают тензоры и параметры конфигурации в качестве входных данных и создают другие тензоры в качестве выходных данных.
скорость обучения
Число с плавающей запятой, которое сообщает алгоритму градиентного спуска, насколько сильно корректировать веса и смещения на каждой итерации . Например, скорость обучения 0,3 будет корректировать веса и смещения в три раза эффективнее, чем скорость обучения 0,1.
Скорость обучения — ключевой гиперпараметр . Если вы установите слишком низкую скорость обучения, обучение займет слишком много времени. Если вы установите слишком высокую скорость обучения, градиентный спуск часто не сможет достичь сходимости .
Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.
линейный
Связь между двумя или более переменными, которую можно представить исключительно посредством сложения и умножения.
Участок линейной зависимости представляет собой линию.
В отличие от нелинейного .
линейная модель
Модель , которая присваивает каждому признаку один вес для прогнозирования . (Линейные модели также включают в себя смещение .) Напротив, в глубоких моделях взаимосвязь признаков с предсказаниями обычно нелинейна .
Линейные модели обычно легче обучать и более интерпретировать, чем глубокие модели. Однако глубокие модели могут изучать сложные взаимосвязи между функциями.
Линейная регрессия и логистическая регрессия — это два типа линейных моделей.
линейная регрессия
Тип модели машинного обучения, в которой выполняются оба следующих условия:
- Модель представляет собой линейную модель .
- Прогноз представляет собой значение с плавающей запятой. (Это регрессионная часть линейной регрессии .)
Сравните линейную регрессию с логистической регрессией . Кроме того, сравните регрессию с классификацией .
Дополнительную информацию см. в разделе «Линейная регрессия» в ускоренном курсе машинного обучения.
логистическая регрессия
Тип регрессионной модели , прогнозирующей вероятность. Модели логистической регрессии имеют следующие характеристики:
- Ярлык категоричен . Термин логистическая регрессия обычно относится к бинарной логистической регрессии , то есть к модели, которая вычисляет вероятности для меток с двумя возможными значениями. Менее распространенный вариант — полиномиальная логистическая регрессия — вычисляет вероятности для меток с более чем двумя возможными значениями.
- Функция потерь во время обучения — Log Loss . (Несколько единиц журнальных потерь можно разместить параллельно для меток с более чем двумя возможными значениями.)
- Модель имеет линейную архитектуру, а не глубокую нейронную сеть. Однако оставшаяся часть этого определения также применима к глубоким моделям , которые предсказывают вероятности для категориальных меток.
Например, рассмотрим модель логистической регрессии, которая вычисляет вероятность того, что входящее электронное письмо является спамом или не является спамом. Во время вывода предположим, что модель предсказывает 0,72. Таким образом, модель оценивает:
- Вероятность того, что письмо окажется спамом, составляет 72%.
- Вероятность того, что письмо не окажется спамом, составляет 28%.
Модель логистической регрессии использует следующую двухэтапную архитектуру:
- Модель генерирует необработанный прогноз (y'), применяя линейную функцию входных объектов.
- Модель использует это необработанное предсказание в качестве входных данных для сигмовидной функции , которая преобразует необработанное предсказание в значение от 0 до 1, исключая.
Как и любая регрессионная модель, модель логистической регрессии предсказывает число. Однако это число обычно становится частью модели двоичной классификации следующим образом:
- Если прогнозируемое число превышает порог классификации , модель двоичной классификации прогнозирует положительный класс.
- Если прогнозируемое число меньше порога классификации, модель двоичной классификации прогнозирует отрицательный класс.
Дополнительную информацию см. в разделе «Логистическая регрессия» в ускоренном курсе машинного обучения.
Потеря журнала
Функция потерь, используемая в бинарной логистической регрессии .
Дополнительную информацию см. в разделе «Логистическая регрессия: потери и регуляризация в ускоренном курсе машинного обучения».
логарифмические шансы
Логарифм шансов какого-либо события.
потеря
Во время обучения модели с учителем — это показатель того, насколько далеко предсказание модели находится от ее метки .
Функция потерь вычисляет потери.
Дополнительную информацию см. в разделе «Линейная регрессия: потери в ускоренном курсе машинного обучения».
кривая потерь
График потерь как функция количества обучающих итераций . На следующем графике показана типичная кривая потерь:
Кривые потерь могут помочь вам определить, когда ваша модель сходится или переоснащается .
Кривые потерь могут отображать все следующие типы потерь:
См. также кривую обобщения .
Дополнительную информацию см. в разделе «Переобучение: интерпретация кривых потерь» в ускоренном курсе машинного обучения.
функция потерь
Во время обучения или тестирования — математическая функция, вычисляющая потери на серии примеров. Функция потерь возвращает меньшие потери для моделей, дающих хорошие прогнозы, чем для моделей, дающих плохие прогнозы.
Целью обучения обычно является минимизация потерь, которые возвращает функция потерь.
Существует множество различных видов функций потерь. Выберите соответствующую функцию потерь для модели, которую вы строите. Например:
- Потери L 2 (или среднеквадратическая ошибка ) — это функция потерь для линейной регрессии .
- Log Loss — это функция потерь для логистической регрессии .
М
машинное обучение
Программа или система, которая обучает модель на основе входных данных. Обученная модель может делать полезные прогнозы на основе новых (никогда ранее не встречавшихся) данных, взятых из того же распределения, которое использовалось для обучения модели.
Машинное обучение также относится к области исследования, связанной с этими программами или системами.
Дополнительную информацию см. в курсе «Введение в машинное обучение» .
класс большинства
Более распространенная метка в наборе данных с несбалансированным классом . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, отрицательные метки представляют собой класс большинства.
Контраст с классом меньшинства .
Дополнительную информацию см. в разделе «Наборы данных: несбалансированные наборы данных» в ускоренном курсе машинного обучения.
мини-партия
Небольшая случайно выбранная часть пакета, обработанная за одну итерацию . Размер мини-партии обычно составляет от 10 до 1000 экземпляров.
Например, предположим, что весь обучающий набор (полный пакет) состоит из 1000 примеров. Далее предположим, что вы установили размер каждой мини-партии равным 20. Таким образом, каждая итерация определяет потери в случайных 20 примерах из 1000, а затем соответствующим образом корректирует веса и смещения .
Гораздо эффективнее рассчитать потери для мини-партии, чем для всех примеров в полной партии.
Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.
класс меньшинства
Менее распространенная метка в наборе данных с несбалансированным классом . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, положительные метки представляют собой класс меньшинства.
Контраст с классом большинства .
Дополнительную информацию см. в разделе «Наборы данных: несбалансированные наборы данных» в ускоренном курсе машинного обучения.
модель
В общем, любая математическая конструкция, которая обрабатывает входные данные и возвращает выходные данные. Другими словами, модель — это набор параметров и структуры, необходимые системе для прогнозирования. В контролируемом машинном обучении модель принимает пример в качестве входных данных и выводит прогноз в качестве выходных данных. В рамках контролируемого машинного обучения модели несколько различаются. Например:
- Модель линейной регрессии состоит из набора весов и смещения .
- Модель нейронной сети состоит из:
- Набор скрытых слоев , каждый из которых содержит один или несколько нейронов .
- Веса и смещение, связанные с каждым нейроном.
- Модель дерева решений состоит из:
- Форма дерева; то есть образец, по которому соединяются условия и листья.
- Условия и отпуск.
Вы можете сохранить, восстановить или сделать копии модели.
Машинное обучение без учителя также генерирует модели, обычно функцию, которая может сопоставить входной пример с наиболее подходящим кластером .
многоклассовая классификация
В контролируемом обучении — задача классификации , в которой набор данных содержит более двух классов меток. Например, метки в наборе данных Iris должны относиться к одному из следующих трех классов:
- Ирис сетоза
- Ирис виргинский
- Ирис разноцветный
Модель, обученная на наборе данных Iris и прогнозирующая тип Iris на новых примерах, выполняет многоклассовую классификацию.
Напротив, проблемы классификации, которые различают ровно два класса, представляют собой модели бинарной классификации . Например, модель электронной почты, которая прогнозирует наличие спама или его отсутствие, представляет собой модель бинарной классификации.
В задачах кластеризации многоклассовая классификация относится к более чем двум кластерам.
Дополнительную информацию см. в разделе «Нейронные сети: многоклассовая классификация» в ускоренном курсе машинного обучения.
Н
отрицательный класс
В бинарной классификации один класс называется положительным , а другой — отрицательным . Положительный класс — это вещь или событие, на которое тестируется модель, а отрицательный класс — это другая возможность. Например:
- Отрицательный класс медицинского теста может быть «не опухоль».
- Отрицательным классом в модели классификации электронной почты может быть «не спам».
Контраст с позитивным классом .
нейронная сеть
Модель , содержащая хотя бы один скрытый слой . Глубокая нейронная сеть — это тип нейронной сети, содержащей более одного скрытого слоя. Например, на следующей диаграмме показана глубокая нейронная сеть, содержащая два скрытых слоя.
Каждый нейрон нейронной сети соединяется со всеми узлами следующего слоя. Например, на предыдущей диаграмме обратите внимание, что каждый из трех нейронов первого скрытого слоя отдельно соединяется с обоими нейронами второго скрытого слоя.
Нейронные сети, реализованные на компьютерах, иногда называют искусственными нейронными сетями , чтобы отличить их от нейронных сетей, обнаруженных в мозге и других нервных системах.
Некоторые нейронные сети могут имитировать чрезвычайно сложные нелинейные отношения между различными функциями и меткой.
См. также сверточную нейронную сеть и рекуррентную нейронную сеть .
Дополнительную информацию см. в разделе «Нейронные сети в ускоренном курсе машинного обучения».
нейрон
В машинном обучении — отдельный модуль внутри скрытого слоя нейронной сети . Каждый нейрон выполняет следующее двухэтапное действие:
- Вычисляет взвешенную сумму входных значений, умноженную на соответствующие им веса.
- Передает взвешенную сумму в качестве входных данных функции активации .
Нейрон в первом скрытом слое принимает входные данные от значений признаков во входном слое . Нейрон в любом скрытом слое после первого принимает входные данные от нейронов предыдущего скрытого слоя. Например, нейрон второго скрытого слоя принимает входные данные от нейронов первого скрытого слоя.
На следующей иллюстрации показаны два нейрона и их входы.
Нейрон в нейронной сети имитирует поведение нейронов мозга и других частей нервной системы.
узел (нейронная сеть)
Нейрон в скрытом слое .
Дополнительную информацию см. в разделе «Нейронные сети в ускоренном курсе машинного обучения».
нелинейный
Связь между двумя или более переменными, которую невозможно представить только с помощью сложения и умножения. Линейную связь можно представить в виде линии; нелинейная связь не может быть представлена в виде линии. Например, рассмотрим две модели, каждая из которых связывает один объект с одной меткой. Модель слева линейная, а модель справа нелинейная:
См. раздел «Нейронные сети: узлы и скрытые слои» в ускоренном курсе машинного обучения, чтобы поэкспериментировать с различными видами нелинейных функций.
нестационарность
Объект, значения которого изменяются в одном или нескольких измерениях, обычно во времени. Например, рассмотрим следующие примеры нестационарности:
- Количество купальников, продаваемых в том или ином магазине, меняется в зависимости от сезона.
- Количество конкретных фруктов, собираемых в определенном регионе, равно нулю в течение большей части года, но велико в течение короткого периода времени.
- Из-за изменения климата среднегодовые температуры меняются.
Сравните со стационарностью .
нормализация
В широком смысле, это процесс преобразования фактического диапазона значений переменной в стандартный диапазон значений, например:
- от -1 до +1
- от 0 до 1
- Z-показатели (примерно от -3 до +3)
Например, предположим, что фактический диапазон значений определенного признака составляет от 800 до 2400. В рамках разработки функций вы можете нормализовать фактические значения до стандартного диапазона, например от -1 до +1.
Нормализация — обычная задача в разработке функций . Модели обычно обучаются быстрее (и дают более точные прогнозы), когда каждый числовой признак в векторе признаков имеет примерно одинаковый диапазон.
См. также нормализацию Z-показателя .
Дополнительную информацию см. в разделе «Численные данные: нормализация в ускоренном курсе машинного обучения».
числовые данные
Характеристики, представленные в виде целых или вещественных чисел. Например, модель оценки дома, вероятно, будет представлять размер дома (в квадратных футах или квадратных метрах) в виде числовых данных. Представление объекта в виде числовых данных указывает на то, что значения объекта имеют математическую связь с меткой. То есть количество квадратных метров в доме, вероятно, имеет некоторую математическую связь со стоимостью дома.
Не все целочисленные данные должны быть представлены в виде числовых данных. Например, почтовые индексы в некоторых частях мира являются целыми числами; однако целочисленные почтовые индексы не следует представлять в моделях в виде числовых данных. Это связано с тем, что почтовый индекс 20000
не в два (или половину) более эффективен, чем почтовый индекс 10000. Более того, хотя разные почтовые индексы действительно коррелируют с разной стоимостью недвижимости, мы не можем предполагать, что стоимость недвижимости с почтовым индексом 20000 в два раза выше, чем стоимость недвижимости с почтовым индексом 10000. Вместо этого почтовые индексы должны быть представлены как категориальные данные .
Числовые функции иногда называют непрерывными функциями .
Дополнительную информацию см. в разделе «Работа с числовыми данными» в ускоренном курсе машинного обучения.
О
офлайн
Синоним статического .
автономный вывод
Процесс, в котором модель генерирует пакет прогнозов и затем кэширует (сохраняет) эти прогнозы. Затем приложения смогут получить доступ к полученному прогнозу из кеша, а не перезапускать модель.
Например, рассмотрим модель, которая генерирует локальные прогнозы погоды (предсказания) раз в четыре часа. После каждого запуска модели система кэширует все местные прогнозы погоды. Погодные приложения извлекают прогнозы из кеша.
Автономный вывод также называется статическим выводом .
Сравните с онлайн-выводом . Дополнительные сведения см. в разделе «Производственные системы ML: статический и динамический вывод» в ускоренном курсе машинного обучения.
горячее кодирование
Представление категориальных данных в виде вектора, в котором:
- Один элемент имеет значение 1.
- Все остальные элементы установлены в 0.
Горячее кодирование обычно используется для представления строк или идентификаторов, имеющих конечный набор возможных значений. Например, предположим, что некий категориальный признак под названием Scandinavia
имеет пять возможных значений:
- "Дания"
- "Швеция"
- "Норвегия"
- "Финляндия"
- "Исландия"
Горячее кодирование может представлять каждое из пяти значений следующим образом:
Страна | Вектор | ||||
---|---|---|---|---|---|
"Дания" | 1 | 0 | 0 | 0 | 0 |
"Швеция" | 0 | 1 | 0 | 0 | 0 |
"Норвегия" | 0 | 0 | 1 | 0 | 0 |
"Финляндия" | 0 | 0 | 0 | 1 | 0 |
"Исландия" | 0 | 0 | 0 | 0 | 1 |
Благодаря горячему кодированию модель может изучать разные связи в зависимости от каждой из пяти стран.
Представление объекта в виде числовых данных является альтернативой горячему кодированию. К сожалению, представлять скандинавские страны численно – не лучший выбор. Например, рассмотрим следующее числовое представление:
- «Дания» — 0
- «Швеция» — 1
- «Норвегия» — 2
- «Финляндия» — 3
- «Исландия» — 4
При числовом кодировании модель будет математически интерпретировать необработанные числа и пытаться обучаться на этих числах. Однако в Исландии на самом деле не в два раза больше (или вполовину) чего-то, чем в Норвегии, поэтому модель пришла к некоторым странным выводам.
Дополнительные сведения см. в разделе Категориальные данные: словарь и горячее кодирование в ускоренном курсе машинного обучения.
один против всех
Учитывая задачу классификации с N классами, решение состоит из N отдельных моделей бинарной классификации — по одной модели бинарной классификации для каждого возможного результата. Например, при наличии модели, которая классифицирует примеры как животные, овощи или минералы, решение «один против всех» предоставит следующие три отдельные модели двоичной классификации:
- животное против не животного
- овощ или не овощ
- минеральное или не минеральное
онлайн
Синоним динамического .
онлайн-вывод
Генерация прогнозов по запросу. Например, предположим, что приложение передает входные данные модели и выдает запрос на прогноз. Система, использующая онлайн-вывод, отвечает на запрос, запуская модель (и возвращая прогноз в приложение).
Сравните с офлайн-выводом .
Для получения дополнительной информации см. раздел Производственные системы машинного обучения: статический и динамический вывод в ускоренном курсе по машинному обучению.
выходной слой
«Последний» слой нейронной сети. Выходной слой содержит прогноз.
На следующем рисунке показана небольшая глубокая нейронная сеть с входным слоем, двумя скрытыми слоями и выходным слоем:
переобучение
Создание модели , которая настолько точно соответствует обучающим данным , что модель не может делать правильные прогнозы на новых данных.
Регуляризация может уменьшить переобучение. Обучение на большом и разнообразном тренировочном наборе также может уменьшить переобучение.
Дополнительную информацию см. в разделе «Переобучение в ускоренном курсе машинного обучения».
П
панды
API анализа данных, ориентированный на столбцы, построенный на основе numpy . Многие платформы машинного обучения, включая TensorFlow, поддерживают структуры данных pandas в качестве входных данных. Подробности смотрите в документации pandas .
параметр
Веса и отклонения , которые модель изучает во время обучения . Например, в модели линейной регрессии параметры состоят из смещения ( b ) и всех весов ( w 1 , w 2 и т. д.) в следующей формуле:
Напротив, гиперпараметры — это значения, которые вы (или служба настройки гиперпараметров) предоставляете модели. Например, скорость обучения является гиперпараметром.
позитивный класс
Класс, для которого вы тестируете.
Например, положительным классом в модели рака может быть «опухоль». Положительным классом в модели классификации электронной почты может быть «спам».
Сравните с отрицательным классом .
постобработка
Корректировка вывода модели после ее запуска. Постобработка может использоваться для обеспечения соблюдения ограничений справедливости без изменения самих моделей.
Например, можно применить постобработку к модели двоичной классификации , установив порог классификации таким образом, чтобы для некоторого атрибута сохранялось равенство возможностей , проверяя, что истинный положительный уровень одинаков для всех значений этого атрибута.
точность
Метрика для моделей классификации , отвечающая на следующий вопрос:
Когда модель предсказала положительный класс , какой процент предсказаний оказался верным?
Вот формула:
где:
- истинно положительный результат означает, что модель правильно предсказала положительный класс.
- ложное срабатывание означает, что модель ошибочно предсказала положительный класс.
Например, предположим, что модель сделала 200 положительных прогнозов. Из этих 200 положительных предсказаний:
- 150 из них были настоящими положительными.
- 50 оказались ложноположительными.
В этом случае:
Сравните с точностью и отзывом .
Для получения дополнительной информации см. раздел Классификация: точность, полнота, достоверность и связанные с ними показатели в ускоренном курсе по машинному обучению.
прогноз
Выход модели. Например:
- Прогноз модели бинарной классификации — это либо положительный класс, либо отрицательный класс.
- Прогноз модели многоклассовой классификации представляет собой один класс.
- Прогноз модели линейной регрессии — это число.
прокси-метки
Данные, используемые для аппроксимации меток, не доступны напрямую в наборе данных.
Например, предположим, что вам необходимо обучить модель прогнозированию уровня стресса сотрудников. Ваш набор данных содержит множество прогнозных функций, но не содержит метки с названием «уровень стресса». Не испугавшись, вы выбираете «несчастные случаи на рабочем месте» в качестве индикатора уровня стресса. Ведь сотрудники, находящиеся в состоянии сильного стресса, попадают в больше несчастных случаев, чем спокойные сотрудники. Или они? Возможно, количество несчастных случаев на производстве на самом деле растет и уменьшается по нескольким причинам.
В качестве второго примера предположим, что вы хотите , идет ли дождь? быть логической меткой для вашего набора данных, но ваш набор данных не содержит данных о дожде. Если имеются фотографии, вы можете использовать изображения людей с зонтиками в качестве косвенного индикатора того , идет ли дождь? Это хороший прокси-лейбл? Возможно, но люди в некоторых культурах с большей вероятностью будут носить с собой зонтики для защиты от солнца, чем от дождя.
Прокси-метки часто несовершенны. По возможности выбирайте настоящие метки, а не прокси-метки. Тем не менее, когда фактическая метка отсутствует, выбирайте прокси-метку очень осторожно, выбирая наименее ужасного кандидата на прокси-метку.
Дополнительные сведения см. в разделе «Наборы данных: метки в ускоренном курсе машинного обучения».
Р
ТРЯПКА
Аббревиатура для генерации с расширенным поиском .
оценщик
Человек, который дает ярлыки для примеров . «Аннотатор» — еще одно название оценщика.
Дополнительные сведения см. в разделе Категориальные данные: распространенные проблемы ускоренного курса машинного обучения.
отзывать
Метрика для моделей классификации , отвечающая на следующий вопрос:
Когда основной истиной был положительный класс , какой процент прогнозов модель правильно определила как положительный класс?
Вот формула:
\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]
где:
- истинно положительный результат означает, что модель правильно предсказала положительный класс.
- ложноотрицательный означает, что модель ошибочно предсказала отрицательный класс .
Например, предположим, что ваша модель сделала 200 прогнозов на примерах, для которых основная истина была положительным классом. Из этих 200 предсказаний:
- 180 оказались настоящими положительными.
- 20 оказались ложноотрицательными.
В этом случае:
\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]
See Classification: Accuracy, recall, precision and related metrics for more information.
Rectified Linear Unit (ReLU)
An activation function with the following behavior:
- If input is negative or zero, then the output is 0.
- If input is positive, then the output is equal to the input.
Например:
- If the input is -3, then the output is 0.
- If the input is +3, then the output is 3.0.
Here is a plot of ReLU:
ReLU is a very popular activation function. Despite its simple behavior, ReLU still enables a neural network to learn nonlinear relationships between features and the label .
регрессионная модель
Informally, a model that generates a numerical prediction. (In contrast, a classification model generates a class prediction.) For example, the following are all regression models:
- A model that predicts a certain house's value in Euros, such as 423,000.
- A model that predicts a certain tree's life expectancy in years, such as 23.2.
- A model that predicts the amount of rain in inches that will fall in a certain city over the next six hours, such as 0.18.
Two common types of regression models are:
- Linear regression , which finds the line that best fits label values to features.
- Logistic regression , which generates a probability between 0.0 and 1.0 that a system typically then maps to a class prediction.
Not every model that outputs numerical predictions is a regression model. In some cases, a numeric prediction is really just a classification model that happens to have numeric class names. For example, a model that predicts a numeric postal code is a classification model, not a regression model.
регуляризация
Any mechanism that reduces overfitting . Popular types of regularization include:
- L 1 regularization
- L 2 регуляризация
- регуляризация отсева
- early stopping (this is not a formal regularization method, but can effectively limit overfitting)
Regularization can also be defined as the penalty on a model's complexity.
See Overfitting: Model complexity in Machine Learning Crash Course for more information.
regularization rate
A number that specifies the relative importance of regularization during training. Raising the regularization rate reduces overfitting but may reduce the model's predictive power. Conversely, reducing or omitting the regularization rate increases overfitting.
See Overfitting: L2 regularization in Machine Learning Crash Course for more information.
РеЛУ
Abbreviation for Rectified Linear Unit .
retrieval-augmented generation (RAG)
A technique for improving the quality of large language model (LLM) output by grounding it with sources of knowledge retrieved after the model was trained. RAG improves the accuracy of LLM responses by providing the trained LLM with access to information retrieved from trusted knowledge bases or documents.
Common motivations to use retrieval-augmented generation include:
- Increasing the factual accuracy of a model's generated responses.
- Giving the model access to knowledge it was not trained on.
- Changing the knowledge that the model uses.
- Enabling the model to cite sources.
For example, suppose that a chemistry app uses the PaLM API to generate summaries related to user queries. When the app's backend receives a query, the backend:
- Searches for ("retrieves") data that's relevant to the user's query.
- Appends ("augments") the relevant chemistry data to the user's query.
- Instructs the LLM to create a summary based on the appended data.
ROC (receiver operating characteristic) Curve
A graph of true positive rate versus false positive rate for different classification thresholds in binary classification.
The shape of an ROC curve suggests a binary classification model's ability to separate positive classes from negative classes. Suppose, for example, that a binary classification model perfectly separates all the negative classes from all the positive classes:
The ROC curve for the preceding model looks as follows:
In contrast, the following illustration graphs the raw logistic regression values for a terrible model that can't separate negative classes from positive classes at all:
The ROC curve for this model looks as follows:
Meanwhile, back in the real world, most binary classification models separate positive and negative classes to some degree, but usually not perfectly. So, a typical ROC curve falls somewhere between the two extremes:
The point on an ROC curve closest to (0.0,1.0) theoretically identifies the ideal classification threshold. However, several other real-world issues influence the selection of the ideal classification threshold. For example, perhaps false negatives cause far more pain than false positives.
A numerical metric called AUC summarizes the ROC curve into a single floating-point value.
Root Mean Squared Error (RMSE)
The square root of the Mean Squared Error .
С
sigmoid function
A mathematical function that "squishes" an input value into a constrained range, typically 0 to 1 or -1 to +1. That is, you can pass any number (two, a million, negative billion, whatever) to a sigmoid and the output will still be in the constrained range. A plot of the sigmoid activation function looks as follows:
The sigmoid function has several uses in machine learning, including:
- Converting the raw output of a logistic regression or multinomial regression model to a probability.
- Acting as an activation function in some neural networks.
софтмакс
A function that determines probabilities for each possible class in a multi-class classification model . The probabilities add up to exactly 1.0. For example, the following table shows how softmax distributes various probabilities:
Image is a... | Вероятность |
---|---|
собака | .85 |
кот | .13 |
лошадь | .02 |
Softmax is also called full softmax .
Contrast with candidate sampling .
See Neural networks: Multi-class classification in Machine Learning Crash Course for more information.
sparse feature
A feature whose values are predominately zero or empty. For example, a feature containing a single 1 value and a million 0 values is sparse. In contrast, a dense feature has values that are predominantly not zero or empty.
In machine learning, a surprising number of features are sparse features. Categorical features are usually sparse features. For example, of the 300 possible tree species in a forest, a single example might identify just a maple tree . Or, of the millions of possible videos in a video library, a single example might identify just "Casablanca."
In a model, you typically represent sparse features with one-hot encoding . If the one-hot encoding is big, you might put an embedding layer on top of the one-hot encoding for greater efficiency.
sparse representation
Storing only the position(s) of nonzero elements in a sparse feature.
For example, suppose a categorical feature named species
identifies the 36 tree species in a particular forest. Further assume that each example identifies only a single species.
You could use a one-hot vector to represent the tree species in each example. A one-hot vector would contain a single 1
(to represent the particular tree species in that example) and 35 0
s (to represent the 35 tree species not in that example). So, the one-hot representation of maple
might look something like the following:
Alternatively, sparse representation would simply identify the position of the particular species. If maple
is at position 24, then the sparse representation of maple
would simply be:
24
Notice that the sparse representation is much more compact than the one-hot representation.
Дополнительную информацию см. в разделе Работа с категориальными данными в ускоренном курсе машинного обучения.
sparse vector
A vector whose values are mostly zeroes. See also sparse feature and sparsity .
квадрат потерь
Synonym for L 2 loss .
статический
Something done once rather than continuously. The terms static and offline are synonyms. The following are common uses of static and offline in machine learning:
- static model (or offline model ) is a model trained once and then used for a while.
- static training (or offline training ) is the process of training a static model.
- static inference (or offline inference ) is a process in which a model generates a batch of predictions at a time.
Contrast with dynamic .
static inference
Synonym for offline inference .
стационарность
A feature whose values don't change across one or more dimensions, usually time. For example, a feature whose values look about the same in 2021 and 2023 exhibits stationarity.
In the real world, very few features exhibit stationarity. Even features synonymous with stability (like sea level) change over time.
Contrast with nonstationarity .
stochastic gradient descent (SGD)
A gradient descent algorithm in which the batch size is one. In other words, SGD trains on a single example chosen uniformly at random from a training set .
Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.
контролируемое машинное обучение
Training a model from features and their corresponding labels . Supervised machine learning is analogous to learning a subject by studying a set of questions and their corresponding answers. After mastering the mapping between questions and answers, a student can then provide answers to new (never-before-seen) questions on the same topic.
Compare with unsupervised machine learning .
See Supervised Learning in the Introduction to ML course for more information.
synthetic feature
A feature not present among the input features, but assembled from one or more of them. Methods for creating synthetic features include the following:
- Bucketing a continuous feature into range bins.
- Creating a feature cross .
- Multiplying (or dividing) one feature value by other feature value(s) or by itself. For example, if
a
andb
are input features, then the following are examples of synthetic features:- аб
- а 2
- Applying a transcendental function to a feature value. For example, if
c
is an input feature, then the following are examples of synthetic features:- sin(c)
- ln(c)
Features created by normalizing or scaling alone are not considered synthetic features.
Т
test loss
A metric representing a model's loss against the test set . When building a model , you typically try to minimize test loss. That's because a low test loss is a stronger quality signal than a low training loss or low validation loss .
A large gap between test loss and training loss or validation loss sometimes suggests that you need to increase the regularization rate .
обучение
The process of determining the ideal parameters (weights and biases) comprising a model . During training, a system reads in examples and gradually adjusts parameters. Training uses each example anywhere from a few times to billions of times.
See Supervised Learning in the Introduction to ML course for more information.
training loss
A metric representing a model's loss during a particular training iteration. For example, suppose the loss function is Mean Squared Error . Perhaps the training loss (the Mean Squared Error) for the 10th iteration is 2.2, and the training loss for the 100th iteration is 1.9.
A loss curve plots training loss versus the number of iterations. A loss curve provides the following hints about training:
- A downward slope implies that the model is improving.
- An upward slope implies that the model is getting worse.
- A flat slope implies that the model has reached convergence .
For example, the following somewhat idealized loss curve shows:
- A steep downward slope during the initial iterations, which implies rapid model improvement.
- A gradually flattening (but still downward) slope until close to the end of training, which implies continued model improvement at a somewhat slower pace then during the initial iterations.
- A flat slope towards the end of training, which suggests convergence.
Although training loss is important, see also generalization .
training-serving skew
The difference between a model's performance during training and that same model's performance during serving .
обучающий набор
The subset of the dataset used to train a model .
Traditionally, examples in the dataset are divided into the following three distinct subsets:
- a training set
- a validation set
- a test set
Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.
See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.
true negative (TN)
An example in which the model correctly predicts the negative class . For example, the model infers that a particular email message is not spam , and that email message really is not spam .
true positive (TP)
An example in which the model correctly predicts the positive class . For example, the model infers that a particular email message is spam, and that email message really is spam.
true positive rate (TPR)
Synonym for recall . That is:
True positive rate is the y-axis in an ROC curve .
У
недообучение
Producing a model with poor predictive ability because the model hasn't fully captured the complexity of the training data. Many problems can cause underfitting, including:
- Training on the wrong set of features .
- Training for too few epochs or at too low a learning rate .
- Training with too high a regularization rate .
- Providing too few hidden layers in a deep neural network.
See Overfitting in Machine Learning Crash Course for more information.
unlabeled example
An example that contains features but no label . For example, the following table shows three unlabeled examples from a house valuation model, each with three features but no house value:
Количество спален | Количество ванных комнат | Возраст дома |
---|---|---|
3 | 2 | 15 |
2 | 1 | 72 |
4 | 2 | 34 |
In supervised machine learning , models train on labeled examples and make predictions on unlabeled examples .
In semi-supervised and unsupervised learning, unlabeled examples are used during training.
Contrast unlabeled example with labeled example .
неконтролируемое машинное обучение
Training a model to find patterns in a dataset, typically an unlabeled dataset.
The most common use of unsupervised machine learning is to cluster data into groups of similar examples. For example, an unsupervised machine learning algorithm can cluster songs based on various properties of the music. The resulting clusters can become an input to other machine learning algorithms (for example, to a music recommendation service). Clustering can help when useful labels are scarce or absent. For example, in domains such as anti-abuse and fraud, clusters can help humans better understand the data.
Contrast with supervised machine learning .
See What is Machine Learning? in the Introduction to ML course for more information.
В
проверка
The initial evaluation of a model's quality. Validation checks the quality of a model's predictions against the validation set .
Because the validation set differs from the training set , validation helps guard against overfitting .
You might think of evaluating the model against the validation set as the first round of testing and evaluating the model against the test set as the second round of testing.
validation loss
A metric representing a model's loss on the validation set during a particular iteration of training.
See also generalization curve .
набор для проверки
The subset of the dataset that performs initial evaluation against a trained model . Typically, you evaluate the trained model against the validation set several times before evaluating the model against the test set .
Traditionally, you divide the examples in the dataset into the following three distinct subsets:
- a training set
- a validation set
- a test set
Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.
See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.
В
масса
A value that a model multiplies by another value. Training is the process of determining a model's ideal weights; inference is the process of using those learned weights to make predictions.
See Linear regression in Machine Learning Crash Course for more information.
взвешенная сумма
The sum of all the relevant input values multiplied by their corresponding weights. For example, suppose the relevant inputs consist of the following:
входное значение | входной вес |
2 | -1.3 |
-1 | 0,6 |
3 | 0,4 |
Таким образом, взвешенная сумма составляет:
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
A weighted sum is the input argument to an activation function .
З
Z-score normalization
A scaling technique that replaces a raw feature value with a floating-point value representing the number of standard deviations from that feature's mean. For example, consider a feature whose mean is 800 and whose standard deviation is 100. The following table shows how Z-score normalization would map the raw value to its Z-score:
Исходное значение | Z-оценка |
---|---|
800 | 0 |
950 | +1,5 |
575 | -2.25 |
The machine learning model then trains on the Z-scores for that feature instead of on the raw values.
Дополнительную информацию см. в разделе «Численные данные: нормализация в ускоренном курсе машинного обучения».