Глоссарий машинного обучения: основы машинного обучения

Эта страница содержит термины глоссария по основам машинного обучения. Все термины глоссария можно найти здесь .

А

точность

#основы
#Метрика

Количество правильных предсказаний классификации, делённое на общее количество предсказаний. То есть:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Бинарная классификация предусматривает специальные обозначения для различных категорий правильных и неправильных предсказаний . Таким образом, формула точности для бинарной классификации выглядит следующим образом:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

где:

Сравните и сопоставьте точность с точностью и полнотой .

Для получения дополнительной информации см. раздел Классификация: точность, полнота, достоверность и связанные с ними показатели в ускоренном курсе по машинному обучению.

функция активации

#основы

Функция, которая позволяет нейронным сетям изучать нелинейные (сложные) взаимосвязи между признаками и меткой.

Популярные функции активации включают в себя:

Графики функций активации никогда не представляют собой одну прямую линию. Например, график функции активации ReLU состоит из двух прямых линий:

Декартов график из двух линий. Первая линия имеет постоянное значение y, равное 0, и проходит вдоль оси x от -бесконечности,0 до 0,-0. Вторая линия начинается в точке 0,0. Эта линия имеет наклон +1, поэтому она проходит от 0,0 до +бесконечности,+бесконечности.

График сигмоидальной функции активации выглядит следующим образом:

Двумерный криволинейный график, где значения x охватывают область определения от -бесконечности до плюса, а значения y охватывают диапазон от почти 0 до почти 1. Когда x равен 0, y равен 0,5. Наклон кривой всегда положительный, с наибольшим наклоном в точках 0,0,5 и постепенно уменьшающимся наклоном по мере увеличения абсолютного значения x.

Для получения дополнительной информации см. раздел Нейронные сети: функции активации в ускоренном курсе по машинному обучению.

искусственный интеллект

#основы

Программа или модель , не являющаяся человеком, способная решать сложные задачи. Например, программа или модель, переводящая текст, или программа или модель, определяющая заболевания по рентгеновским снимкам, обладают искусственным интеллектом.

Формально машинное обучение является подразделом искусственного интеллекта. Однако в последние годы некоторые организации стали использовать термины «искусственный интеллект» и «машинное обучение» как взаимозаменяемые.

AUC (площадь под ROC-кривой)

#основы
#Метрика

Число от 0,0 до 1,0, представляющее способность модели бинарной классификации разделять положительные и отрицательные классы . Чем ближе значение AUC к 1,0, тем лучше модель способна разделять классы.

Например, на следующем рисунке показана модель классификации , которая идеально разделяет положительные классы (зелёные овалы) и отрицательные классы (фиолетовые прямоугольники). Эта нереалистично идеальная модель имеет AUC, равную 1,0:

Числовая прямая с 8 положительными примерами с одной стороны и 9 отрицательными примерами с другой стороны.

Напротив, на следующем рисунке показаны результаты для модели классификации , генерирующей случайные результаты. Эта модель имеет AUC 0,5:

Числовая прямая с 6 положительными примерами и 6 отрицательными примерами. Последовательность примеров: положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, отрицательный, положительный, отрицательный.

Да, предыдущая модель имела AUC 0,5, а не 0,0.

Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель в некоторой степени разделяет положительные и отрицательные результаты, поэтому её AUC находится где-то между 0,5 и 1,0:

Числовая прямая с 6 положительными примерами и 6 отрицательными примерами. Последовательность примеров: отрицательный, отрицательный, отрицательный, отрицательный, положительный, отрицательный, положительный, положительный, отрицательный, положительный, положительный.

AUC игнорирует любое заданное вами значение порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.

Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.

Б

обратное распространение

#основы

Алгоритм, реализующий градиентный спуск в нейронных сетях .

Обучение нейронной сети включает множество итераций следующего двухпроходного цикла:

  1. Во время прямого прохода система обрабатывает пакет примеров для получения прогноза(ов). Система сравнивает каждый прогноз с каждым значением метки . Разница между прогнозом и значением метки является потерей для данного примера. Система суммирует потери для всех примеров, чтобы вычислить общую потерю для текущего пакета.
  2. Во время обратного прохода (обратного распространения) система уменьшает потери, регулируя веса всех нейронов во всех скрытых слоях .

Нейронные сети часто содержат множество нейронов, расположенных на множестве скрытых слоёв. Каждый из этих нейронов вносит свой вклад в общие потери. Обратное распространение ошибки определяет, следует ли увеличивать или уменьшать веса, применяемые к конкретным нейронам.

Скорость обучения — это множитель, который контролирует степень увеличения или уменьшения каждого веса при каждом обратном проходе. Высокая скорость обучения увеличит или уменьшит каждый вес сильнее, чем низкая.

В терминах математического анализа обратное распространение реализует цепное правило . из математического анализа. То есть, обратное распространение вычисляет частную производную ошибки по каждому параметру.

Много лет назад специалистам по машинному обучению приходилось писать код для реализации обратного распространения. Современные API машинного обучения, такие как Keras, теперь реализуют обратное распространение автоматически. Уф!

Более подробную информацию см. в статье «Нейронные сети в ускоренном курсе машинного обучения».

партия

#основы

Набор примеров, используемых в одной итерации обучения. Размер пакета определяет количество примеров в пакете.

См. раздел эпоха для получения объяснения того, как партия соотносится с эпохой.

Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.

размер партии

#основы

Количество примеров в пакете . Например, если размер пакета равен 100, то модель обрабатывает 100 примеров за одну итерацию .

Ниже приведены популярные стратегии размера партии:

  • Стохастический градиентный спуск (SGD) , в котором размер партии равен 1.
  • Полный пакет, где размер пакета равен количеству примеров во всём обучающем наборе . Например, если обучающий набор содержит миллион примеров, то размер пакета будет равен миллиону примеров. Полный пакет обычно неэффективен.
  • мини-партии , размер партии которых обычно составляет от 10 до 1000 штук. Мини-партии обычно являются наиболее эффективной стратегией.

Более подробную информацию смотрите ниже:

предвзятость (этика/справедливость)

#ответственный
#основы

1. Стереотипы, предубеждения или фаворитизм по отношению к одним вещам, людям или группам по сравнению с другими. Эти предубеждения могут влиять на сбор и интерпретацию данных, структуру системы и взаимодействие пользователей с ней. Формы этого типа предубеждений включают:

2. Систематическая ошибка, вызванная процедурой выборки или составления отчёта. К формам этого типа смещения относятся:

Не путать с термином «смещение» в моделях машинного обучения или «смещение предсказания» .

Для получения дополнительной информации см. раздел «Справедливость: типы предвзятости» в ускоренном курсе по машинному обучению.

предвзятость (математика) или термин предвзятости

#основы

Пересечение или смещение относительно начала координат. Смещение — это параметр в моделях машинного обучения, который обозначается одним из следующих символов:

  • б
  • в 0

Например, смещение — это b в следующей формуле:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

В простой двумерной линии смещение означает просто «пересечение с осью Y». Например, смещение линии на следующем рисунке равно 2.

График прямой с наклоном 0,5 и смещением (пересечением с осью Y) 2.

Смещение возникает, поскольку не все модели начинаются с начала координат (0,0). Например, предположим, что вход в парк развлечений стоит 2 евро, а за каждый час пребывания посетителя взимается дополнительная плата в размере 0,5 евро. Следовательно, модель, отображающая общую стоимость, имеет смещение 2, поскольку минимальная стоимость составляет 2 евро.

Предвзятость не следует путать с предвзятостью в этике и справедливости или предвзятостью прогнозирования .

Для получения дополнительной информации см. Линейная регрессия в экспресс-курсе по машинному обучению.

бинарная классификация

#основы

Тип задачи классификации , которая предсказывает один из двух взаимоисключающих классов:

Например, следующие две модели машинного обучения выполняют двоичную классификацию:

  • Модель, которая определяет, являются ли сообщения электронной почты спамом (положительный класс) или не спамом (отрицательный класс).
  • Модель, которая оценивает медицинские симптомы, чтобы определить, есть ли у человека определенное заболевание (положительный класс) или нет этого заболевания (отрицательный класс).

Сравните с многоклассовой классификацией .

См. также логистическую регрессию и порог классификации .

Более подробную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».

распределение

#основы

Преобразование одного признака в несколько двоичных признаков, называемых контейнерами или бинами , обычно основанных на диапазоне значений. Разделённый признак обычно является непрерывным .

Например, вместо того, чтобы представлять температуру как единый непрерывный параметр с плавающей точкой, можно разбить диапазоны температур на отдельные сегменты, например:

  • <= 10 градусов Цельсия — «холодное» ведро.
  • 11–24 градуса по Цельсию — это «умеренный» климат.
  • >= 25 градусов Цельсия — «теплое» ведро.

Модель будет обрабатывать все значения в одном сегменте одинаково. Например, значения 13 и 22 относятся к умеренному сегменту, поэтому модель обрабатывает их одинаково.

Для получения дополнительной информации см. Числовые данные: биннинг в ускоренном курсе по машинному обучению.

С

категориальные данные

#основы

Признаки, имеющие определённый набор возможных значений. Например, рассмотрим категориальный признак с именем traffic-light-state , который может принимать только одно из следующих трёх возможных значений:

  • red
  • yellow
  • green

Представляя traffic-light-state как категориальную характеристику, модель может изучить различное влияние red , green и yellow на поведение водителя.

Категориальные признаки иногда называют дискретными признаками .

Сравните с числовыми данными .

Дополнительную информацию см. в разделе Работа с категориальными данными в ускоренном курсе по машинному обучению.

сорт

#основы

Категория, к которой может относиться метка . Например:

Модель классификации предсказывает класс. В отличие от неё, регрессионная модель предсказывает число, а не класс.

Более подробную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».

модель классификации

#основы

Модель , прогноз которой представляет собой класс . Например, ниже приведены все модели классификации:

  • Модель, которая предсказывает язык входного предложения (французский? испанский? итальянский?).
  • Модель, которая предсказывает виды деревьев (Клен? Дуб? Баобаб?).
  • Модель, которая предсказывает положительный или отрицательный класс для конкретного заболевания.

Напротив, регрессионные модели предсказывают числа, а не классы.

Два распространенных типа моделей классификации:

порог классификации

#основы

В двоичной классификации — число от 0 до 1, которое преобразует необработанный результат модели логистической регрессии в прогноз положительного или отрицательного класса . Обратите внимание, что порог классификации — это значение, которое выбирает человек, а не берётся в процессе обучения модели.

Модель логистической регрессии выдает необработанное значение от 0 до 1. Затем:

  • Если это необработанное значение превышает порог классификации, то прогнозируется положительный класс.
  • Если это необработанное значение меньше порога классификации, то прогнозируется отрицательный класс.

Например, предположим, что порог классификации равен 0,8. Если исходное значение равно 0,9, то модель предсказывает положительный класс. Если исходное значение равно 0,7, то модель предсказывает отрицательный класс.

Выбор порога классификации сильно влияет на количество ложноположительных и ложноотрицательных результатов .

Дополнительную информацию см. в разделе «Пороговые значения и матрица путаницы» курса «Ускоренный курс по машинному обучению».

классификатор

#основы

Неформальный термин для обозначения модели классификации .

набор данных с несбалансированным классом

#основы

Набор данных для классификации , в котором общее количество меток каждого класса существенно различается. Например, рассмотрим набор данных бинарной классификации , две метки которого разделены следующим образом:

  • 1 000 000 отрицательных меток
  • 10 положительных этикеток

Соотношение отрицательных и положительных меток составляет 100 000 к 1, поэтому это набор данных с несбалансированным классом.

Напротив, следующий набор данных сбалансирован по классам, поскольку соотношение отрицательных меток к положительным меткам относительно близко к 1:

  • 517 отрицательных меток
  • 483 положительных метки

Многоклассовые наборы данных также могут быть несбалансированными по классам. Например, следующий многоклассовый набор данных классификации также несбалансирован по классам, поскольку одна метка содержит гораздо больше примеров, чем две другие:

  • 1 000 000 этикеток с классом «зеленый»
  • 200 этикеток с классом «фиолетовый»
  • 350 этикеток с классом «оранжевый»

Наборы данных с несбалансированным классом обучения могут представлять особую сложность. Подробнее см. в разделе «Несбалансированные наборы данных» курса «Машинное обучение».

См. также энтропия , класс большинства и класс меньшинства .

вырезка

#основы

Метод обработки выбросов путем выполнения одного или обоих из следующих действий:

  • Уменьшение значений признаков , которые превышают максимальный порог, до этого максимального порога.
  • Увеличение значений признаков, которые меньше минимального порога, до этого минимального порога.

Например, предположим, что <0,5% значений для конкретного признака попадают за пределы диапазона 40–60. В этом случае можно сделать следующее:

  • Обрезать все значения свыше 60 (максимальный порог) до значения ровно 60.
  • Обрежьте все значения ниже 40 (минимальный порог), чтобы они были равны ровно 40.

Выбросы могут повредить модели, иногда приводя к переполнению весов во время обучения. Некоторые выбросы также могут существенно ухудшить такие показатели, как точность . Отсечение — распространённый метод ограничения ущерба.

Отсечение градиента устанавливает значения градиента в заданном диапазоне во время обучения.

Для получения дополнительной информации см . Числовые данные: нормализация в экспресс-курсе по машинному обучению.

матрица путаницы

#основы

Таблица NxN, в которой суммируется количество правильных и неправильных прогнозов, сделанных моделью классификации . Например, рассмотрим следующую матрицу ошибок для бинарной модели классификации :

Опухоль (прогнозируемая) Неопухолевый (прогнозируемый)
Опухоль (наземная правда) 18 (ТП) 1 (ФН)
Нетумор (наземная проверка) 6 (ФП) 452 (Теннесси)

Предыдущая матрица путаницы показывает следующее:

  • Из 19 прогнозов, в которых истинной точкой была опухоль, модель правильно классифицировала 18 и неправильно классифицировала 1.
  • Из 458 прогнозов, в которых истинной реакцией было отсутствие опухоли, модель правильно классифицировала 452 и неправильно классифицировала 6.

Матрица ошибок для задачи многоклассовой классификации может помочь выявить закономерности ошибок. Например, рассмотрим следующую матрицу ошибок для трёхклассовой модели многоклассовой классификации, которая классифицирует три различных типа ирисов (Virginica, Versicolor и Setosa). Когда в качестве исходного значения был выбран Virginica, матрица ошибок показывает, что модель с гораздо большей вероятностью ошибочно предсказывала Versicolor, чем Setosa:

Сетоза (предсказано) Версиколор (предсказано) Вирджиния (предсказано)
Сетоса (наземная истина) 88 12 0
Versicolor (наземная правда) 6 141 7
Вирджиния (наземная истина) 2 27 109

В качестве еще одного примера матрица ошибок может показать, что модель, обученная распознавать рукописные цифры, имеет тенденцию ошибочно предсказывать 9 вместо 4 или ошибочно предсказывать 1 вместо 7.

Матрицы путаницы содержат достаточно информации для расчета различных показателей эффективности, включая точность и полноту .

непрерывная функция

#основы

Функция с плавающей точкой с бесконечным диапазоном возможных значений, например температура или вес.

Контраст с дискретной особенностью .

конвергенция

#основы

Состояние, достигаемое при каждой итерации , когда значения потерь меняются очень мало или не меняются совсем. Например, следующая кривая потерь предполагает сходимость примерно при 700 итерациях:

График в декартовых координатах. Ось X — потери. Ось Y — количество обучающих итераций. Потери очень высоки в течение первых нескольких итераций, но резко снижаются. Примерно через 100 итераций потери продолжают снижаться, но гораздо более плавно. Примерно через 700 итераций потери остаются неизменными.

Модель сходится , когда дополнительное обучение не улучшает модель.

В глубоком обучении значения потерь иногда остаются постоянными или почти постоянными в течение многих итераций, прежде чем наконец начать снижаться. В течение длительного периода постоянных значений потерь может временно возникнуть ложное ощущение сходимости.

См. также ранняя остановка .

Дополнительную информацию см. в разделе «Сходимость моделей и кривые потерь» курса «Машинное обучение».

Д

DataFrame

#основы

Популярный тип данных Pandas для представления наборов данных в памяти.

DataFrame аналогичен таблице или электронной таблице. Каждый столбец DataFrame имеет имя (заголовок), а каждая строка идентифицируется уникальным номером.

Каждый столбец в DataFrame структурирован как двумерный массив, за исключением того, что каждому столбцу может быть назначен собственный тип данных.

См. также официальную справочную страницу pandas.DataFrame .

набор данных или набор данных

#основы

Коллекция необработанных данных, обычно (но не исключительно) организованная в одном из следующих форматов:

  • электронная таблица
  • файл в формате CSV (значения, разделенные запятыми)

глубокая модель

#основы

Нейронная сеть , содержащая более одного скрытого слоя .

Глубокая модель также называется глубокой нейронной сетью .

Сравните с широкой моделью .

плотная особенность

#основы

Объект , в котором большинство или все значения ненулевые, обычно тензор значений с плавающей точкой. Например, следующий тензор из 10 элементов является плотным, поскольку 9 его значений ненулевые:

8 3 7 5 2 4 0 4 9 6

Контраст с разреженной чертой .

глубина

#основы

Сумма следующих величин в нейронной сети :

Например, нейронная сеть с пятью скрытыми слоями и одним выходным слоем имеет глубину 6.

Обратите внимание, что входной слой не влияет на глубину.

дискретная особенность

#основы

Признак с конечным набором возможных значений. Например, признак, значения которого могут быть только «животное» , «растение» или «минерал», является дискретным (или категориальным).

Контраст с непрерывной характеристикой .

динамический

#основы

Что-то, выполняемое часто или непрерывно. Термины «динамический» и «онлайн» являются синонимами в машинном обучении. Ниже приведены распространённые случаи использования терминов «динамический» и «онлайн» в машинном обучении:

  • Динамическая модель (или онлайн-модель ) — это модель, которая часто или непрерывно переобучается.
  • Динамическое обучение (или онлайн-обучение ) — это процесс частого или непрерывного обучения.
  • Динамический вывод (или онлайн-вывод ) — это процесс генерации прогнозов по запросу.

динамическая модель

#основы

Модель , которая часто (возможно, даже постоянно) переобучается. Динамическая модель — это «постоянно обучающаяся» модель, постоянно адаптирующаяся к меняющимся данным. Динамическая модель также известна как онлайн-модель .

Сравните со статической моделью .

Э

ранняя остановка

#основы

Метод регуляризации , включающий завершение обучения до того, как потери в обучающем наборе данных перестанут уменьшаться. При раннем останове обучение модели намеренно прекращается, когда потери в проверочном наборе данных начинают увеличиваться, то есть когда качество обобщения ухудшается.

Сравните с ранним выходом .

слой внедрения

#основы

Специальный скрытый слой , который обучается на категориальном признаке высокой размерности для постепенного обучения вектору эмбеддинга меньшей размерности. Эмбеддинговый слой позволяет нейронной сети обучаться гораздо эффективнее, чем при обучении только на категориальном признаке высокой размерности.

Например, на Земле в настоящее время обитает около 73 000 видов деревьев. Предположим, что вид деревьев является элементом вашей модели, поэтому входной слой модели включает вектор с одним целым длиной 73 000 элементов. Например, baobab можно представить следующим образом:

Массив из 73 000 элементов. Первые 6232 элемента содержат значение 0. Следующий элемент содержит значение 1. Последние 66 767 элементов содержат значение ноль.

Массив из 73 000 элементов — это очень длинный массив. Если не добавить в модель слой эмбеддинга, обучение займёт очень много времени из-за умножения 72 999 нулей. Возможно, вы выберете 12-мерный слой эмбеддинга. Следовательно, слой эмбеддинга будет постепенно обучаться новому вектору эмбеддинга для каждого вида дерева.

В определенных ситуациях хеширование является разумной альтернативой встраиваемому слою.

Дополнительную информацию см. в курсе « Встраивание в машинное обучение».

эпоха

#основы

Полный проход обучения по всему обучающему набору таким образом, чтобы каждый пример был обработан один раз.

Эпоха представляет собой N / размер партии итераций обучения, где N — общее количество примеров.

Например, предположим следующее:

  • Набор данных состоит из 1000 примеров.
  • Размер партии — 50 экземпляров.

Таким образом, для одной эпохи требуется 20 итераций:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.

пример

#основы

Значения одной строки признаков и, возможно, метки . Примеры в контролируемом обучении можно разделить на две основные категории:

  • Помеченный пример состоит из одного или нескольких признаков и метки. Помеченные примеры используются во время обучения.
  • Пример без метки содержит один или несколько признаков, но не имеет метки. Примеры без метки используются при выводе.

Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. Вот три помеченных примера:

Функции Этикетка
Температура Влажность Давление Результат теста
15 47 998 Хороший
19 34 1020 Отличный
18 92 1012 Бедный

Вот три немаркированных примера:

Температура Влажность Давление
12 62 1014
21 47 1017
19 41 1021

Строка набора данных обычно служит исходным источником для примера. То есть пример обычно состоит из подмножества столбцов набора данных. Более того, признаки в примере могут также включать синтетические признаки , например, пересечение признаков .

Более подробную информацию см. в разделе «Обучение под наблюдением» курса «Введение в машинное обучение».

Ф

ложноотрицательный результат (ЛО)

#основы
#Метрика

Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное сообщение электронной почты не является спамом (отрицательный класс), но на самом деле это сообщение электронной почты является спамом .

ложноположительный результат (ЛП)

#основы
#Метрика

Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное сообщение электронной почты является спамом (положительный класс), но на самом деле это сообщение электронной почты спамом не является.

Дополнительную информацию см. в разделе «Пороговые значения и матрица путаницы» курса «Ускоренный курс по машинному обучению».

частота ложноположительных результатов (FPR)

#основы
#Метрика

Доля фактических отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула рассчитывает долю ложноположительных результатов:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Показатель ложноположительных результатов — это ось x на ROC-кривой .

Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.

особенность

#основы

Входная переменная для модели машинного обучения. Пример состоит из одного или нескольких признаков. Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. В следующей таблице представлены три примера, каждый из которых содержит три признака и одну метку:

Функции Этикетка
Температура Влажность Давление Результат теста
15 47 998 92
19 34 1020 84
18 92 1012 87

Сравните с этикеткой .

Более подробную информацию см. в разделе «Обучение под наблюдением» курса «Введение в машинное обучение».

кросс-функция

#основы

Синтетический признак , сформированный путем «пересечения» категориальных или сегментированных признаков.

Например, рассмотрим модель «прогнозирования настроения», которая представляет температуру в одном из следующих четырех диапазонов:

  • freezing
  • chilly
  • temperate
  • warm

И представляет скорость ветра в одном из следующих трех уровней:

  • still
  • light
  • windy

Без пересечений признаков линейная модель обучается независимо на каждом из семи предыдущих интервалов. Таким образом, модель обучается, например, freezing независимо от обучения, например, windy .

В качестве альтернативы можно создать комбинированный признак температуры и скорости ветра. Этот синтетический признак будет иметь следующие 12 возможных значений:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Благодаря скрещиванию признаков модель может изучать разницу в настроении в freezing-windy и freezing-still день.

Если создать синтетический признак из двух признаков, каждый из которых содержит множество различных контейнеров, результирующее пересечение признаков будет содержать огромное количество возможных комбинаций. Например, если один признак содержит 1000 контейнеров, а другой — 2000, результирующее пересечение признаков будет содержать 2 000 000 контейнеров.

Формально крест — это декартово произведение .

Пересечения признаков в основном используются в линейных моделях и редко в нейронных сетях.

Дополнительную информацию см. в разделе Категориальные данные: Пересечение признаков в Курсе машинного обучения.

проектирование функций

#основы
#TensorFlow

Процесс, включающий следующие этапы:

  1. Определение того, какие признаки могут быть полезны при обучении модели.
  2. Преобразование необработанных данных из набора данных в эффективные версии этих функций.

Например, вы можете решить, что temperature может быть полезной характеристикой. Затем вы можете поэкспериментировать с группировкой , чтобы оптимизировать то, чему модель может научиться в разных temperature диапазонах.

Проектирование признаков иногда называют извлечением признаков или признаками .

Дополнительную информацию см. в разделе Числовые данные: как модель получает данные с использованием векторов признаков в ускоренном курсе по машинному обучению.

набор функций

#основы

Группа признаков, на основе которых обучается ваша модель машинного обучения. Например, простой набор признаков для модели, прогнозирующей цены на жильё, может включать почтовый индекс, размер и состояние недвижимости.

вектор признаков

#основы

Массив значений признаков , составляющих пример . Вектор признаков поступает на вход в процессе обучения и вывода . Например, вектор признаков для модели с двумя дискретными признаками может быть следующим:

[0.92, 0.56]

Четыре слоя: входной слой, два скрытых слоя и один выходной слой. Входной слой содержит два узла, один из которых содержит значение 0,92, а другой — значение 0,56.

Каждый пример предоставляет различные значения для вектора признаков, поэтому вектор признаков для следующего примера может быть примерно таким:

[0.73, 0.49]

Метод проектирования признаков определяет способ представления признаков в векторе признаков. Например, двоичный категориальный признак с пятью возможными значениями может быть представлен методом прямого кодирования (one-hot encoding) . В этом случае часть вектора признаков для конкретного примера будет состоять из четырёх нулей и одной единицы в третьей позиции, как показано ниже:

[0.0, 0.0, 1.0, 0.0, 0.0]

В качестве другого примера предположим, что ваша модель состоит из трех функций:

  • двоичный категориальный признак с пятью возможными значениями, представленными с помощью прямого кодирования; например: [0.0, 1.0, 0.0, 0.0, 0.0]
  • другой двоичный категориальный признак с тремя возможными значениями, представленными с помощью прямого кодирования; например: [0.0, 0.0, 1.0]
  • функция с плавающей точкой; например: 8.3 .

В этом случае вектор признаков для каждого примера будет представлен девятью значениями. С учётом значений примеров из предыдущего списка вектор признаков будет следующим:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Дополнительную информацию см. в разделе Числовые данные: как модель получает данные с использованием векторов признаков в ускоренном курсе по машинному обучению.

петля обратной связи

#основы

В машинном обучении это ситуация, когда прогнозы модели влияют на данные для обучения той же или другой модели. Например, модель, рекомендующая фильмы, будет влиять на выбор фильмов, которые смотрят пользователи, что, в свою очередь, повлияет на последующие модели рекомендаций фильмов.

Для получения дополнительной информации см. раздел Производственные системы машинного обучения: вопросы, которые следует задать в ускоренном курсе по машинному обучению.

Г

обобщение

#основы

Способность модели делать правильные прогнозы на основе новых, ранее не наблюдавшихся данных. Модель, способная к обобщению, является противоположностью модели, подверженной переобучению .

Более подробную информацию см. в разделе «Обобщение в ускоренном курсе по машинному обучению».

кривая обобщения

#основы

График потерь при обучении и потерях при проверке в зависимости от количества итераций .

Кривая обобщения может помочь обнаружить возможное переобучение . Например, следующая кривая обобщения указывает на переобучение, поскольку потери при валидации в конечном итоге оказываются значительно выше потерь при обучении.

Декартов график, на котором ось Y обозначена как «потери», а ось X — как «итерации». Появляются два графика. Один показывает потери при обучении, а другой — потери при проверке. Два графика начинаются одинаково, но в конечном итоге потери при обучении опускаются значительно ниже, чем потери при проверке.

Более подробную информацию см. в разделе «Обобщение в ускоренном курсе по машинному обучению».

градиентный спуск

#основы

Математический метод минимизации потерь . Градиентный спуск итеративно корректирует веса и смещения , постепенно находя наилучшую комбинацию для минимизации потерь.

Градиентный спуск появился гораздо раньше, чем машинное обучение.

Для получения дополнительной информации см. раздел Линейная регрессия: градиентный спуск в ускоренном курсе по машинному обучению.

истина

#основы

Реальность.

Что на самом деле произошло.

Например, рассмотрим бинарную модель классификации , которая предсказывает, окончит ли студент первого курса университета университет в течение шести лет. Базовым критерием для этой модели является то, действительно ли этот студент окончил университет в течение шести лет.

ЧАС

скрытый слой

#основы

Слой нейронной сети , расположенный между входным слоем (признаки) и выходным слоем (прогноз). Каждый скрытый слой состоит из одного или нескольких нейронов . Например, следующая нейронная сеть содержит два скрытых слоя: первый с тремя нейронами, а второй с двумя:

Четыре слоя. Первый слой — входной, содержащий два признака. Второй слой — скрытый, содержащий три нейрона. Третий слой — скрытый, содержащий два нейрона. Четвертый слой — выходной. Каждый признак содержит три ребра, каждое из которых указывает на разный нейрон во втором слое. Каждый из нейронов во втором слое содержит два ребра, каждое из которых указывает на разный нейрон в третьем слое. Каждый из нейронов в третьем слое содержит одно ребро, каждое из которых указывает на выходной слой.

Глубокая нейронная сеть содержит более одного скрытого слоя. Например, представленная выше иллюстрация относится к глубокой нейронной сети, поскольку модель содержит два скрытых слоя.

Для получения дополнительной информации см. раздел Нейронные сети: узлы и скрытые слои в ускоренном курсе по машинному обучению.

гиперпараметр

#основы

Переменные, которые вы или служба настройки гиперпараметровКорректировать в ходе последовательных запусков обучения модели. Например, скорость обучения — это гиперпараметр. Вы можете установить скорость обучения 0,01 перед одним сеансом обучения. Если вы считаете, что 0,01 слишком много, возможно, стоит установить скорость обучения 0,003 для следующего сеанса обучения.

Напротив, параметры — это различные веса и смещения , которые модель усваивает в процессе обучения.

Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.

я

независимо и одинаково распределены (iid)

#основы

Данные берутся из распределения, которое не меняется, и каждое полученное значение не зависит от значений, полученных ранее. Независимый идентификатор (IID) — это идеальный газ для машинного обучения — полезная математическая конструкция, которая, однако, практически никогда не встречается в реальном мире. Например, распределение посетителей веб-страницы может быть независим от IID в течение короткого промежутка времени; то есть распределение не меняется в течение этого короткого промежутка, и посещение одного человека, как правило, не зависит от посещения другого. Однако, если расширить этот промежуток времени, могут проявиться сезонные различия в посещаемости веб-страницы.

См. также нестационарность .

вывод

#основы
#generativeAI

В традиционном машинном обучении — это процесс построения прогнозов путём применения обученной модели к немаркированным примерам . Подробнее см. в разделе «Обучение с учителем » во введении в машинное обучение.

В больших языковых моделях вывод — это процесс использования обученной модели для генерации ответа на входную подсказку .

В статистике термин «вывод» имеет несколько иное значение. Подробнее см. статью в Википедии о статистическом выводе .

входной слой

#основы

Слой нейронной сети , содержащий вектор признаков . То есть входной слой предоставляет примеры для обучения или вывода . Например, входной слой в следующей нейронной сети состоит из двух признаков:

Четыре слоя: входной слой, два скрытых слоя и выходной слой.

интерпретируемость

#основы

Способность объяснить или представить ход рассуждений модели машинного обучения в понятных человеку терминах.

Например, большинство моделей линейной регрессии легко интерпретируются. (Для этого достаточно посмотреть на обученные веса для каждого признака.) Леса решений также легко интерпретируются. Однако некоторым моделям требуется сложная визуализация для обеспечения интерпретации.

Для интерпретации моделей машинного обучения можно использовать инструмент интерпретации обучения (LIT) .

итерация

#основы

Однократное обновление параметров моделивесов и смещений — во время обучения . Размер пакета определяет, сколько примеров модель обрабатывает за одну итерацию. Например, если размер пакета равен 20, то модель обрабатывает 20 примеров, прежде чем корректировать параметры.

При обучении нейронной сети одна итерация включает в себя следующие два прохода:

  1. Прямой проход для оценки потерь в одной партии.
  2. Обратный проход ( обратное распространение ошибки ) для настройки параметров модели на основе потерь и скорости обучения.

Дополнительную информацию см. в разделе Градиентный спуск в ускоренном курсе машинного обучения.

Л

L 0 регуляризация

#основы

Тип регуляризации , который штрафует общее количество ненулевых весов в модели. Например, модель, имеющая 11 ненулевых весов, будет оштрафована больше, чем аналогичная модель, имеющая 10 ненулевых весов.

Регуляризацию L0 иногда называют регуляризацией L0-нормы .

Потеря L 1

#основы
#Метрика

Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 1 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Абсолютное значение дельты
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L 1

Потери L1 менее чувствительны к выбросам , чем потери L2 .

Средняя абсолютная ошибка — это средняя потеря L 1 на пример.

Дополнительную информацию см. в разделе «Линейная регрессия: потери в ускоренном курсе машинного обучения».

L 1 регуляризация

#основы

Тип регуляризации , при котором веса наказываются пропорционально сумме абсолютных значений весов. Регуляризация L 1 помогает довести веса нерелевантных или едва значимых функций ровно до 0 . Признак с весом 0 фактически удаляется из модели.

В отличие от регуляризации L2 .

L 2 потеря

#основы
#Метрика

Функция потерь , которая вычисляет квадрат разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 2 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Площадь дельты
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = потеря L 2

Из-за возведения в квадрат потеря L2 усиливает влияние выбросов . То есть потеря L2 сильнее реагирует на плохие прогнозы, чем потеря L1 . Например, потеря L 1 для предыдущей партии будет равна 8, а не 16. Обратите внимание, что на один выброс приходится 9 из 16.

В регрессионных моделях в качестве функции потерь обычно используются потери L2 .

Среднеквадратическая ошибка — это средняя потеря L 2 на пример. Квадратные потери — это другое название потерь L2 .

Дополнительную информацию см. в разделе «Логистическая регрессия: потери и регуляризация в ускоренном курсе машинного обучения».

L 2 регуляризация

#основы

Тип регуляризации , при котором веса наказываются пропорционально сумме квадратов весов. Регуляризация L 2 помогает приблизить веса выбросов (с высокими положительными или низкими отрицательными значениями) к 0, но не совсем к 0. Объекты со значениями, очень близкими к 0, остаются в модели, но не сильно влияют на прогноз модели.

Регуляризация L2 всегда улучшает обобщение в линейных моделях .

В отличие от регуляризации L 1 .

Дополнительную информацию см. в разделе «Переоснащение: регуляризация L2» в ускоренном курсе машинного обучения.

этикетка

#основы

В контролируемом машинном обучении — часть примера «ответ» или «результат».

Каждый помеченный пример состоит из одного или нескольких объектов и метки. Например, в наборе данных для обнаружения спама метка, вероятно, будет либо «спам», либо «не спам». В наборе данных об осадках меткой может быть количество дождя, выпавшего за определенный период.

Дополнительную информацию см. в разделе «Обучение с учителем» в разделе «Введение в машинное обучение».

помеченный пример

#основы

Пример, содержащий одну или несколько функций и метку . Например, в следующей таблице показаны три помеченных примера из модели оценки дома, каждый из которых имеет три характеристики и одну метку:

Количество спален Количество ванных комнат Возраст дома Цена дома (этикетка)
3 2 15 345 000 долларов США
2 1 72 179 000 долларов США
4 2 34 392 000 долларов США

При контролируемом машинном обучении модели обучаются на помеченных примерах и делают прогнозы на неразмеченных примерах .

Сравните помеченный пример с немаркированными примерами.

Дополнительную информацию см. в разделе «Обучение с учителем» в разделе «Введение в машинное обучение».

лямбда

#основы

Синоним коэффициента регуляризации .

Лямбда — перегруженный термин. Здесь мы сосредоточимся на определении этого термина в рамках регуляризации .

слой

#основы

Набор нейронов в нейронной сети . Три распространенных типа слоев:

Например, на следующем рисунке показана нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним выходным слоем:

Нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним           выходной слой. Входной слой состоит из двух объектов. Первый           скрытый слой состоит из трех нейронов и второго скрытого слоя           состоит из двух нейронов. Выходной слой состоит из одного узла.

В TensorFlow слои также являются функциями Python, которые принимают тензоры и параметры конфигурации в качестве входных данных и создают другие тензоры в качестве выходных данных.

скорость обучения

#основы

Число с плавающей запятой, которое сообщает алгоритму градиентного спуска, насколько сильно корректировать веса и смещения на каждой итерации . Например, скорость обучения 0,3 будет корректировать веса и смещения в три раза эффективнее, чем скорость обучения 0,1.

Скорость обучения — ключевой гиперпараметр . Если вы установите слишком низкую скорость обучения, обучение займет слишком много времени. Если вы установите слишком высокую скорость обучения, градиентный спуск часто не сможет достичь сходимости .

Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.

линейный

#основы

Связь между двумя или более переменными, которую можно представить исключительно посредством сложения и умножения.

Участок линейной зависимости представляет собой линию.

В отличие от нелинейного .

линейная модель

#основы

Модель , которая присваивает каждому признаку один вес для прогнозирования . (Линейные модели также включают в себя смещение .) Напротив, в глубоких моделях взаимосвязь признаков с предсказаниями обычно нелинейна .

Линейные модели обычно легче обучать и более интерпретировать, чем глубокие модели. Однако глубокие модели могут изучать сложные взаимосвязи между функциями.

Линейная регрессия и логистическая регрессия — это два типа линейных моделей.

линейная регрессия

#основы

Тип модели машинного обучения, в которой выполняются оба следующих условия:

Сравните линейную регрессию с логистической регрессией . Кроме того, сравните регрессию с классификацией .

Дополнительную информацию см. в разделе «Линейная регрессия» в ускоренном курсе машинного обучения.

логистическая регрессия

#основы

Тип регрессионной модели , прогнозирующей вероятность. Модели логистической регрессии имеют следующие характеристики:

  • Ярлык категоричен . Термин логистическая регрессия обычно относится к бинарной логистической регрессии , то есть к модели, которая вычисляет вероятности для меток с двумя возможными значениями. Менее распространенный вариант — полиномиальная логистическая регрессия — вычисляет вероятности для меток с более чем двумя возможными значениями.
  • Функция потерь во время обучения — Log Loss . (Несколько единиц журнальных потерь можно разместить параллельно для меток с более чем двумя возможными значениями.)
  • Модель имеет линейную архитектуру, а не глубокую нейронную сеть. Однако оставшаяся часть этого определения также применима к глубоким моделям , которые предсказывают вероятности для категориальных меток.

Например, рассмотрим модель логистической регрессии, которая вычисляет вероятность того, что входящее электронное письмо является спамом или не является спамом. Во время вывода предположим, что модель предсказывает 0,72. Таким образом, модель оценивает:

  • Вероятность того, что письмо окажется спамом, составляет 72%.
  • Вероятность того, что письмо не окажется спамом, составляет 28%.

Модель логистической регрессии использует следующую двухэтапную архитектуру:

  1. Модель генерирует необработанный прогноз (y'), применяя линейную функцию входных объектов.
  2. Модель использует это необработанное предсказание в качестве входных данных для сигмовидной функции , которая преобразует необработанное предсказание в значение от 0 до 1, исключая.

Как и любая регрессионная модель, модель логистической регрессии предсказывает число. Однако это число обычно становится частью модели двоичной классификации следующим образом:

  • Если прогнозируемое число превышает порог классификации , модель двоичной классификации прогнозирует положительный класс.
  • Если прогнозируемое число меньше порога классификации, модель двоичной классификации прогнозирует отрицательный класс.

Дополнительную информацию см. в разделе «Логистическая регрессия» в ускоренном курсе машинного обучения.

Потеря журнала

#основы

Функция потерь, используемая в бинарной логистической регрессии .

Дополнительную информацию см. в разделе «Логистическая регрессия: потери и регуляризация в ускоренном курсе машинного обучения».

логарифмические шансы

#основы

Логарифм шансов какого-либо события.

потеря

#основы
#Метрика

Во время обучения модели с учителем — это показатель того, насколько далеко предсказание модели находится от ее метки .

Функция потерь вычисляет потери.

Дополнительную информацию см. в разделе «Линейная регрессия: потери в ускоренном курсе машинного обучения».

кривая потерь

#основы

График потерь как функция количества обучающих итераций . На следующем графике показана типичная кривая потерь:

Декартовский график потерь в сравнении с обучающими итерациями, показывающий           быстрое падение потерь на начальных итерациях с последующим постепенным           падение, а затем пологий наклон во время последних итераций.

Кривые потерь могут помочь вам определить, когда ваша модель сходится или переоснащается .

Кривые потерь могут отображать все следующие типы потерь:

См. также кривую обобщения .

Дополнительную информацию см. в разделе «Переобучение: интерпретация кривых потерь» в ускоренном курсе машинного обучения.

функция потерь

#основы
#Метрика

Во время обучения или тестирования — математическая функция, вычисляющая потери на серии примеров. Функция потерь возвращает меньшие потери для моделей, дающих хорошие прогнозы, чем для моделей, дающих плохие прогнозы.

Целью обучения обычно является минимизация потерь, которые возвращает функция потерь.

Существует множество различных видов функций потерь. Выберите соответствующую функцию потерь для модели, которую вы строите. Например:

М

машинное обучение

#основы

Программа или система, которая обучает модель на основе входных данных. Обученная модель может делать полезные прогнозы на основе новых (никогда ранее не встречавшихся) данных, взятых из того же распределения, которое использовалось для обучения модели.

Машинное обучение также относится к области исследования, связанной с этими программами или системами.

Дополнительную информацию см. в курсе «Введение в машинное обучение» .

класс большинства

#основы

Более распространенная метка в наборе данных с несбалансированным классом . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, отрицательные метки представляют собой класс большинства.

Контраст с классом меньшинства .

Дополнительную информацию см. в разделе «Наборы данных: несбалансированные наборы данных» в ускоренном курсе машинного обучения.

мини-партия

#основы

Небольшая случайно выбранная часть пакета, обработанная за одну итерацию . Размер мини-партии обычно составляет от 10 до 1000 экземпляров.

Например, предположим, что весь обучающий набор (полный пакет) состоит из 1000 примеров. Далее предположим, что вы установили размер каждой мини-партии равным 20. Таким образом, каждая итерация определяет потери в случайных 20 примерах из 1000, а затем соответствующим образом корректирует веса и смещения .

Гораздо эффективнее рассчитать потери для мини-партии, чем для всех примеров в полной партии.

Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.

класс меньшинства

#основы

Менее распространенная метка в наборе данных с несбалансированным классом . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, положительные метки представляют собой класс меньшинства.

Контраст с классом большинства .

Дополнительную информацию см. в разделе «Наборы данных: несбалансированные наборы данных» в ускоренном курсе машинного обучения.

модель

#основы

В общем, любая математическая конструкция, которая обрабатывает входные данные и возвращает выходные данные. Другими словами, модель — это набор параметров и структуры, необходимые системе для прогнозирования. В контролируемом машинном обучении модель принимает пример в качестве входных данных и выводит прогноз в качестве выходных данных. В рамках контролируемого машинного обучения модели несколько различаются. Например:

  • Модель линейной регрессии состоит из набора весов и смещения .
  • Модель нейронной сети состоит из:
    • Набор скрытых слоев , каждый из которых содержит один или несколько нейронов .
    • Веса и смещение, связанные с каждым нейроном.
  • Модель дерева решений состоит из:
    • Форма дерева; то есть образец, по которому соединяются условия и листья.
    • Условия и отпуск.

Вы можете сохранить, восстановить или сделать копии модели.

Машинное обучение без учителя также генерирует модели, обычно функцию, которая может сопоставить входной пример с наиболее подходящим кластером .

многоклассовая классификация

#основы

В контролируемом обучении — задача классификации , в которой набор данных содержит более двух классов меток. Например, метки в наборе данных Iris должны относиться к одному из следующих трех классов:

  • Ирис сетоза
  • Ирис виргинский
  • Ирис разноцветный

Модель, обученная на наборе данных Iris и прогнозирующая тип Iris на новых примерах, выполняет многоклассовую классификацию.

Напротив, проблемы классификации, которые различают ровно два класса, представляют собой модели бинарной классификации . Например, модель электронной почты, которая прогнозирует наличие спама или его отсутствие, представляет собой модель бинарной классификации.

В задачах кластеризации многоклассовая классификация относится к более чем двум кластерам.

Дополнительную информацию см. в разделе «Нейронные сети: многоклассовая классификация» в ускоренном курсе машинного обучения.

Н

отрицательный класс

#основы
#Метрика

В бинарной классификации один класс называется положительным , а другой — отрицательным . Положительный класс — это вещь или событие, на которое тестируется модель, а отрицательный класс — это другая возможность. Например:

  • Отрицательный класс медицинского теста может быть «не опухоль».
  • Отрицательным классом в модели классификации электронной почты может быть «не спам».

Контраст с позитивным классом .

нейронная сеть

#основы

Модель , содержащая хотя бы один скрытый слой . Глубокая нейронная сеть — это тип нейронной сети, содержащей более одного скрытого слоя. Например, на следующей диаграмме показана глубокая нейронная сеть, содержащая два скрытых слоя.

Нейронная сеть с входным слоем, двумя скрытыми слоями и           выходной слой.

Каждый нейрон нейронной сети соединяется со всеми узлами следующего слоя. Например, на предыдущей диаграмме обратите внимание, что каждый из трех нейронов первого скрытого слоя отдельно соединяется с обоими нейронами второго скрытого слоя.

Нейронные сети, реализованные на компьютерах, иногда называют искусственными нейронными сетями , чтобы отличить их от нейронных сетей, обнаруженных в мозге и других нервных системах.

Некоторые нейронные сети могут имитировать чрезвычайно сложные нелинейные отношения между различными функциями и меткой.

См. также сверточную нейронную сеть и рекуррентную нейронную сеть .

Дополнительную информацию см. в разделе «Нейронные сети в ускоренном курсе машинного обучения».

нейрон

#основы

В машинном обучении — отдельный модуль внутри скрытого слоя нейронной сети . Каждый нейрон выполняет следующее двухэтапное действие:

  1. Вычисляет взвешенную сумму входных значений, умноженную на соответствующие им веса.
  2. Передает взвешенную сумму в качестве входных данных функции активации .

Нейрон в первом скрытом слое принимает входные данные от значений признаков во входном слое . Нейрон в любом скрытом слое после первого принимает входные данные от нейронов предыдущего скрытого слоя. Например, нейрон второго скрытого слоя принимает входные данные от нейронов первого скрытого слоя.

На следующей иллюстрации показаны два нейрона и их входы.

Нейронная сеть с входным слоем, двумя скрытыми слоями и           выходной слой. Выделены два нейрона: один в первом           скрытом слое и один во втором скрытом слое. Выделенный           нейрон в первом скрытом слое получает входные данные от обоих объектов           во входном слое. Выделенный нейрон во втором скрытом слое           получает входные данные от каждого из трех нейронов первого скрытого           слой.

Нейрон в нейронной сети имитирует поведение нейронов мозга и других частей нервной системы.

узел (нейронная сеть)

#основы

Нейрон в скрытом слое .

Дополнительную информацию см. в разделе «Нейронные сети в ускоренном курсе машинного обучения».

нелинейный

#основы

Связь между двумя или более переменными, которую невозможно представить только с помощью сложения и умножения. Линейную связь можно представить в виде линии; нелинейная связь не может быть представлена в виде линии. Например, рассмотрим две модели, каждая из которых связывает один объект с одной меткой. Модель слева линейная, а модель справа нелинейная:

Два сюжета. Один график представляет собой линию, поэтому это линейная зависимость.           Другой график представляет собой кривую, поэтому это нелинейная зависимость.

См. раздел «Нейронные сети: узлы и скрытые слои» в ускоренном курсе машинного обучения, чтобы поэкспериментировать с различными видами нелинейных функций.

нестационарность

#основы

Объект, значения которого изменяются в одном или нескольких измерениях, обычно во времени. Например, рассмотрим следующие примеры нестационарности:

  • Количество купальников, продаваемых в том или ином магазине, меняется в зависимости от сезона.
  • Количество конкретных фруктов, собираемых в определенном регионе, равно нулю в течение большей части года, но велико в течение короткого периода времени.
  • Из-за изменения климата среднегодовые температуры меняются.

Сравните со стационарностью .

нормализация

#основы

В широком смысле, это процесс преобразования фактического диапазона значений переменной в стандартный диапазон значений, например:

  • от -1 до +1
  • от 0 до 1
  • Z-показатели (примерно от -3 до +3)

Например, предположим, что фактический диапазон значений определенного признака составляет от 800 до 2400. В рамках разработки функций вы можете нормализовать фактические значения до стандартного диапазона, например от -1 до +1.

Нормализация — обычная задача в разработке функций . Модели обычно обучаются быстрее (и дают более точные прогнозы), когда каждый числовой признак в векторе признаков имеет примерно одинаковый диапазон.

См. также нормализацию Z-показателя .

Дополнительную информацию см. в разделе «Численные данные: нормализация в ускоренном курсе машинного обучения».

числовые данные

#основы

Характеристики, представленные в виде целых или вещественных чисел. Например, модель оценки дома, вероятно, будет представлять размер дома (в квадратных футах или квадратных метрах) в виде числовых данных. Представление объекта в виде числовых данных указывает на то, что значения объекта имеют математическую связь с меткой. То есть количество квадратных метров в доме, вероятно, имеет некоторую математическую связь со стоимостью дома.

Не все целочисленные данные должны быть представлены в виде числовых данных. Например, почтовые индексы в некоторых частях мира являются целыми числами; однако целочисленные почтовые индексы не следует представлять в моделях в виде числовых данных. Это связано с тем, что почтовый индекс 20000 не в два (или половину) более эффективен, чем почтовый индекс 10000. Более того, хотя разные почтовые индексы действительно коррелируют с разной стоимостью недвижимости, мы не можем предполагать, что стоимость недвижимости с почтовым индексом 20000 в два раза выше, чем стоимость недвижимости с почтовым индексом 10000. Вместо этого почтовые индексы должны быть представлены как категориальные данные .

Числовые функции иногда называют непрерывными функциями .

Дополнительную информацию см. в разделе «Работа с числовыми данными» в ускоренном курсе машинного обучения.

О

офлайн

#основы

Синоним статического .

автономный вывод

#основы

Процесс, в котором модель генерирует пакет прогнозов и затем кэширует (сохраняет) эти прогнозы. Затем приложения смогут получить доступ к полученному прогнозу из кеша, а не перезапускать модель.

Например, рассмотрим модель, которая генерирует локальные прогнозы погоды (предсказания) раз в четыре часа. После каждого запуска модели система кэширует все местные прогнозы погоды. Погодные приложения извлекают прогнозы из кеша.

Автономный вывод также называется статическим выводом .

Сравните с онлайн-выводом . Дополнительные сведения см. в разделе «Производственные системы ML: статический и динамический вывод» в ускоренном курсе машинного обучения.

горячее кодирование

#основы

Представление категориальных данных в виде вектора, в котором:

  • Один элемент имеет значение 1.
  • Все остальные элементы установлены в 0.

Горячее кодирование обычно используется для представления строк или идентификаторов, имеющих конечный набор возможных значений. Например, предположим, что некий категориальный признак под названием Scandinavia имеет пять возможных значений:

  • "Дания"
  • "Швеция"
  • "Норвегия"
  • "Финляндия"
  • "Исландия"

Горячее кодирование может представлять каждое из пяти значений следующим образом:

Страна Вектор
"Дания" 1 0 0 0 0
"Швеция" 0 1 0 0 0
"Норвегия" 0 0 1 0 0
"Финляндия" 0 0 0 1 0
"Исландия" 0 0 0 0 1

Благодаря горячему кодированию модель может изучать разные связи в зависимости от каждой из пяти стран.

Представление объекта в виде числовых данных является альтернативой горячему кодированию. К сожалению, представлять скандинавские страны численно – не лучший выбор. Например, рассмотрим следующее числовое представление:

  • «Дания» — 0
  • «Швеция» — 1
  • «Норвегия» — 2
  • «Финляндия» — 3
  • «Исландия» — 4

При числовом кодировании модель будет математически интерпретировать необработанные числа и пытаться обучаться на этих числах. Однако в Исландии на самом деле не в два раза больше (или вполовину) чего-то, чем в Норвегии, поэтому модель пришла к некоторым странным выводам.

Дополнительные сведения см. в разделе Категориальные данные: словарь и горячее кодирование в ускоренном курсе машинного обучения.

один против всех

#основы

Учитывая задачу классификации с N классами, решение состоит из N отдельных моделей бинарной классификации — по одной модели бинарной классификации для каждого возможного результата. Например, при наличии модели, которая классифицирует примеры как животные, овощи или минералы, решение «один против всех» предоставит следующие три отдельные модели двоичной классификации:

  • животное против не животного
  • овощ или не овощ
  • минеральное или не минеральное

онлайн

#основы

Синоним динамического .

онлайн-вывод

#основы

Генерация прогнозов по запросу. Например, предположим, что приложение передает входные данные модели и выдает запрос на прогноз. Система, использующая онлайн-вывод, отвечает на запрос, запуская модель (и возвращая прогноз в приложение).

Сравните с офлайн-выводом .

Для получения дополнительной информации см. раздел Производственные системы машинного обучения: статический и динамический вывод в ускоренном курсе по машинному обучению.

выходной слой

#основы

«Последний» слой нейронной сети. Выходной слой содержит прогноз.

На следующем рисунке показана небольшая глубокая нейронная сеть с входным слоем, двумя скрытыми слоями и выходным слоем:

Нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним           выходной слой. Входной слой состоит из двух объектов. Первый           скрытый слой состоит из трех нейронов и второго скрытого слоя           состоит из двух нейронов. Выходной слой состоит из одного узла.

переобучение

#основы

Создание модели , которая настолько точно соответствует обучающим данным , что модель не может делать правильные прогнозы на новых данных.

Регуляризация может уменьшить переобучение. Обучение на большом и разнообразном тренировочном наборе также может уменьшить переобучение.

Дополнительную информацию см. в разделе «Переобучение в ускоренном курсе машинного обучения».

П

панды

#основы

API анализа данных, ориентированный на столбцы, построенный на основе numpy . Многие платформы машинного обучения, включая TensorFlow, поддерживают структуры данных pandas в качестве входных данных. Подробности смотрите в документации pandas .

параметр

#основы

Веса и отклонения , которые модель изучает во время обучения . Например, в модели линейной регрессии параметры состоят из смещения ( b ) и всех весов ( w 1 , w 2 и т. д.) в следующей формуле:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Напротив, гиперпараметры — это значения, которые вы (или служба настройки гиперпараметров) предоставляете модели. Например, скорость обучения является гиперпараметром.

позитивный класс

#основы
#Метрика

Класс, для которого вы тестируете.

Например, положительным классом в модели рака может быть «опухоль». Положительным классом в модели классификации электронной почты может быть «спам».

Сравните с отрицательным классом .

постобработка

#ответственный
#основы

Корректировка вывода модели после ее запуска. Постобработка может использоваться для обеспечения соблюдения ограничений справедливости без изменения самих моделей.

Например, можно применить постобработку к модели двоичной классификации , установив порог классификации таким образом, чтобы для некоторого атрибута сохранялось равенство возможностей , проверяя, что истинный положительный уровень одинаков для всех значений этого атрибута.

точность

#основы
#Метрика

Метрика для моделей классификации , отвечающая на следующий вопрос:

Когда модель предсказала положительный класс , какой процент предсказаний оказался верным?

Вот формула:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

где:

  • истинно положительный результат означает, что модель правильно предсказала положительный класс.
  • ложное срабатывание означает, что модель ошибочно предсказала положительный класс.

Например, предположим, что модель сделала 200 положительных прогнозов. Из этих 200 положительных предсказаний:

  • 150 из них были настоящими положительными.
  • 50 оказались ложноположительными.

В этом случае:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Сравните с точностью и отзывом .

Для получения дополнительной информации см. раздел Классификация: точность, полнота, достоверность и связанные с ними показатели в ускоренном курсе по машинному обучению.

прогноз

#основы

Выход модели. Например:

  • Прогноз модели бинарной классификации — это либо положительный класс, либо отрицательный класс.
  • Прогноз модели многоклассовой классификации представляет собой один класс.
  • Прогноз модели линейной регрессии — это число.

прокси-метки

#основы

Данные, используемые для аппроксимации меток, не доступны напрямую в наборе данных.

Например, предположим, что вам необходимо обучить модель прогнозированию уровня стресса сотрудников. Ваш набор данных содержит множество прогнозных функций, но не содержит метки с названием «уровень стресса». Не испугавшись, вы выбираете «несчастные случаи на рабочем месте» в качестве индикатора уровня стресса. Ведь сотрудники, находящиеся в состоянии сильного стресса, попадают в больше несчастных случаев, чем спокойные сотрудники. Или они? Возможно, количество несчастных случаев на производстве на самом деле растет и уменьшается по нескольким причинам.

В качестве второго примера предположим, что вы хотите , идет ли дождь? быть логической меткой для вашего набора данных, но ваш набор данных не содержит данных о дожде. Если имеются фотографии, вы можете использовать изображения людей с зонтиками в качестве косвенного индикатора того , идет ли дождь? Это хороший прокси-лейбл? Возможно, но люди в некоторых культурах с большей вероятностью будут носить с собой зонтики для защиты от солнца, чем от дождя.

Прокси-метки часто несовершенны. По возможности выбирайте настоящие метки, а не прокси-метки. Тем не менее, когда фактическая метка отсутствует, выбирайте прокси-метку очень осторожно, выбирая наименее ужасного кандидата на прокси-метку.

Дополнительные сведения см. в разделе «Наборы данных: метки в ускоренном курсе машинного обучения».

Р

ТРЯПКА

#основы

Аббревиатура для генерации с расширенным поиском .

оценщик

#основы

Человек, который дает ярлыки для примеров . «Аннотатор» — еще одно название оценщика.

Дополнительные сведения см. в разделе Категориальные данные: распространенные проблемы ускоренного курса машинного обучения.

отзывать

#основы
#Метрика

Метрика для моделей классификации , отвечающая на следующий вопрос:

Когда основной истиной был положительный класс , какой процент прогнозов модель правильно определила как положительный класс?

Вот формула:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

где:

  • истинно положительный результат означает, что модель правильно предсказала положительный класс.
  • ложноотрицательный означает, что модель ошибочно предсказала отрицательный класс .

Например, предположим, что ваша модель сделала 200 прогнозов на примерах, для которых основная истина была положительным классом. Из этих 200 предсказаний:

  • 180 оказались настоящими положительными.
  • 20 оказались ложноотрицательными.

В этом случае:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

See Classification: Accuracy, recall, precision and related metrics for more information.

Rectified Linear Unit (ReLU)

#основы

An activation function with the following behavior:

  • If input is negative or zero, then the output is 0.
  • If input is positive, then the output is equal to the input.

Например:

  • If the input is -3, then the output is 0.
  • If the input is +3, then the output is 3.0.

Here is a plot of ReLU:

A cartesian plot of two lines. The first line has a constant
          y value of 0, running along the x-axis from -infinity,0 to 0,-0.
          The second line starts at 0,0. This line has a slope of +1, so
          it runs from 0,0 to +infinity,+infinity.

ReLU is a very popular activation function. Despite its simple behavior, ReLU still enables a neural network to learn nonlinear relationships between features and the label .

регрессионная модель

#основы

Informally, a model that generates a numerical prediction. (In contrast, a classification model generates a class prediction.) For example, the following are all regression models:

  • A model that predicts a certain house's value in Euros, such as 423,000.
  • A model that predicts a certain tree's life expectancy in years, such as 23.2.
  • A model that predicts the amount of rain in inches that will fall in a certain city over the next six hours, such as 0.18.

Two common types of regression models are:

  • Linear regression , which finds the line that best fits label values to features.
  • Logistic regression , which generates a probability between 0.0 and 1.0 that a system typically then maps to a class prediction.

Not every model that outputs numerical predictions is a regression model. In some cases, a numeric prediction is really just a classification model that happens to have numeric class names. For example, a model that predicts a numeric postal code is a classification model, not a regression model.

регуляризация

#основы

Any mechanism that reduces overfitting . Popular types of regularization include:

Regularization can also be defined as the penalty on a model's complexity.

See Overfitting: Model complexity in Machine Learning Crash Course for more information.

regularization rate

#основы

A number that specifies the relative importance of regularization during training. Raising the regularization rate reduces overfitting but may reduce the model's predictive power. Conversely, reducing or omitting the regularization rate increases overfitting.

See Overfitting: L2 regularization in Machine Learning Crash Course for more information.

РеЛУ

#основы

Abbreviation for Rectified Linear Unit .

retrieval-augmented generation (RAG)

#основы

A technique for improving the quality of large language model (LLM) output by grounding it with sources of knowledge retrieved after the model was trained. RAG improves the accuracy of LLM responses by providing the trained LLM with access to information retrieved from trusted knowledge bases or documents.

Common motivations to use retrieval-augmented generation include:

  • Increasing the factual accuracy of a model's generated responses.
  • Giving the model access to knowledge it was not trained on.
  • Changing the knowledge that the model uses.
  • Enabling the model to cite sources.

For example, suppose that a chemistry app uses the PaLM API to generate summaries related to user queries. When the app's backend receives a query, the backend:

  1. Searches for ("retrieves") data that's relevant to the user's query.
  2. Appends ("augments") the relevant chemistry data to the user's query.
  3. Instructs the LLM to create a summary based on the appended data.

ROC (receiver operating characteristic) Curve

#основы
#Метрика

A graph of true positive rate versus false positive rate for different classification thresholds in binary classification.

The shape of an ROC curve suggests a binary classification model's ability to separate positive classes from negative classes. Suppose, for example, that a binary classification model perfectly separates all the negative classes from all the positive classes:

A number line with 8 positive examples on the right side and
          7 negative examples on the left.

The ROC curve for the preceding model looks as follows:

An ROC curve. The x-axis is False Positive Rate and the y-axis
          is True Positive Rate. The curve has an inverted L shape. The curve
          starts at (0.0,0.0) and goes straight up to (0.0,1.0). Then the curve
          goes from (0.0,1.0) to (1.0,1.0).

In contrast, the following illustration graphs the raw logistic regression values for a terrible model that can't separate negative classes from positive classes at all:

A number line with positive examples and negative classes
          completely intermixed.

The ROC curve for this model looks as follows:

An ROC curve, which is actually a straight line from (0.0,0.0)
          to (1.0,1.0).

Meanwhile, back in the real world, most binary classification models separate positive and negative classes to some degree, but usually not perfectly. So, a typical ROC curve falls somewhere between the two extremes:

An ROC curve. The x-axis is False Positive Rate and the y-axis
          is True Positive Rate. The ROC curve approximates a shaky arc
          traversing the compass points from West to North.

The point on an ROC curve closest to (0.0,1.0) theoretically identifies the ideal classification threshold. However, several other real-world issues influence the selection of the ideal classification threshold. For example, perhaps false negatives cause far more pain than false positives.

A numerical metric called AUC summarizes the ROC curve into a single floating-point value.

Root Mean Squared Error (RMSE)

#основы
#Метрика

The square root of the Mean Squared Error .

С

sigmoid function

#основы

A mathematical function that "squishes" an input value into a constrained range, typically 0 to 1 or -1 to +1. That is, you can pass any number (two, a million, negative billion, whatever) to a sigmoid and the output will still be in the constrained range. A plot of the sigmoid activation function looks as follows:

Двумерный криволинейный график, где значения x охватывают область определения от -бесконечности до плюса, а значения y охватывают диапазон от почти 0 до почти 1. Когда x равен 0, y равен 0,5. Наклон кривой всегда положительный, с наибольшим наклоном в точках 0,0,5 и постепенно уменьшающимся наклоном по мере увеличения абсолютного значения x.

The sigmoid function has several uses in machine learning, including:

софтмакс

#основы

A function that determines probabilities for each possible class in a multi-class classification model . The probabilities add up to exactly 1.0. For example, the following table shows how softmax distributes various probabilities:

Image is a... Вероятность
собака .85
кот .13
лошадь .02

Softmax is also called full softmax .

Contrast with candidate sampling .

See Neural networks: Multi-class classification in Machine Learning Crash Course for more information.

sparse feature

#основы

A feature whose values are predominately zero or empty. For example, a feature containing a single 1 value and a million 0 values is sparse. In contrast, a dense feature has values that are predominantly not zero or empty.

In machine learning, a surprising number of features are sparse features. Categorical features are usually sparse features. For example, of the 300 possible tree species in a forest, a single example might identify just a maple tree . Or, of the millions of possible videos in a video library, a single example might identify just "Casablanca."

In a model, you typically represent sparse features with one-hot encoding . If the one-hot encoding is big, you might put an embedding layer on top of the one-hot encoding for greater efficiency.

sparse representation

#основы

Storing only the position(s) of nonzero elements in a sparse feature.

For example, suppose a categorical feature named species identifies the 36 tree species in a particular forest. Further assume that each example identifies only a single species.

You could use a one-hot vector to represent the tree species in each example. A one-hot vector would contain a single 1 (to represent the particular tree species in that example) and 35 0 s (to represent the 35 tree species not in that example). So, the one-hot representation of maple might look something like the following:

A vector in which positions 0 through 23 hold the value 0, position
          24 holds the value 1, and positions 25 through 35 hold the value 0.

Alternatively, sparse representation would simply identify the position of the particular species. If maple is at position 24, then the sparse representation of maple would simply be:

24

Notice that the sparse representation is much more compact than the one-hot representation.

Дополнительную информацию см. в разделе Работа с категориальными данными в ускоренном курсе машинного обучения.

sparse vector

#основы

A vector whose values are mostly zeroes. See also sparse feature and sparsity .

квадрат потерь

#основы
#Метрика

Synonym for L 2 loss .

статический

#fundamentals

Something done once rather than continuously. The terms static and offline are synonyms. The following are common uses of static and offline in machine learning:

  • static model (or offline model ) is a model trained once and then used for a while.
  • static training (or offline training ) is the process of training a static model.
  • static inference (or offline inference ) is a process in which a model generates a batch of predictions at a time.

Contrast with dynamic .

static inference

#основы

Synonym for offline inference .

стационарность

#fundamentals

A feature whose values don't change across one or more dimensions, usually time. For example, a feature whose values look about the same in 2021 and 2023 exhibits stationarity.

In the real world, very few features exhibit stationarity. Even features synonymous with stability (like sea level) change over time.

Contrast with nonstationarity .

stochastic gradient descent (SGD)

#fundamentals

A gradient descent algorithm in which the batch size is one. In other words, SGD trains on a single example chosen uniformly at random from a training set .

Для получения дополнительной информации см. Линейная регрессия: гиперпараметры в ускоренном курсе по машинному обучению.

контролируемое машинное обучение

#fundamentals

Training a model from features and their corresponding labels . Supervised machine learning is analogous to learning a subject by studying a set of questions and their corresponding answers. After mastering the mapping between questions and answers, a student can then provide answers to new (never-before-seen) questions on the same topic.

Compare with unsupervised machine learning .

See Supervised Learning in the Introduction to ML course for more information.

synthetic feature

#fundamentals

A feature not present among the input features, but assembled from one or more of them. Methods for creating synthetic features include the following:

  • Bucketing a continuous feature into range bins.
  • Creating a feature cross .
  • Multiplying (or dividing) one feature value by other feature value(s) or by itself. For example, if a and b are input features, then the following are examples of synthetic features:
    • аб
    • а 2
  • Applying a transcendental function to a feature value. For example, if c is an input feature, then the following are examples of synthetic features:
    • sin(c)
    • ln(c)

Features created by normalizing or scaling alone are not considered synthetic features.

Т

test loss

#fundamentals
#Metric

A metric representing a model's loss against the test set . When building a model , you typically try to minimize test loss. That's because a low test loss is a stronger quality signal than a low training loss or low validation loss .

A large gap between test loss and training loss or validation loss sometimes suggests that you need to increase the regularization rate .

обучение

#fundamentals

The process of determining the ideal parameters (weights and biases) comprising a model . During training, a system reads in examples and gradually adjusts parameters. Training uses each example anywhere from a few times to billions of times.

See Supervised Learning in the Introduction to ML course for more information.

training loss

#fundamentals
#Metric

A metric representing a model's loss during a particular training iteration. For example, suppose the loss function is Mean Squared Error . Perhaps the training loss (the Mean Squared Error) for the 10th iteration is 2.2, and the training loss for the 100th iteration is 1.9.

A loss curve plots training loss versus the number of iterations. A loss curve provides the following hints about training:

  • A downward slope implies that the model is improving.
  • An upward slope implies that the model is getting worse.
  • A flat slope implies that the model has reached convergence .

For example, the following somewhat idealized loss curve shows:

  • A steep downward slope during the initial iterations, which implies rapid model improvement.
  • A gradually flattening (but still downward) slope until close to the end of training, which implies continued model improvement at a somewhat slower pace then during the initial iterations.
  • A flat slope towards the end of training, which suggests convergence.

The plot of training loss versus iterations. This loss curve starts
     with a steep downward slope. The slope gradually flattens until the
     slope becomes zero.

Although training loss is important, see also generalization .

training-serving skew

#fundamentals

The difference between a model's performance during training and that same model's performance during serving .

обучающий набор

#fundamentals

The subset of the dataset used to train a model .

Traditionally, examples in the dataset are divided into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.

true negative (TN)

#fundamentals
#Metric

An example in which the model correctly predicts the negative class . For example, the model infers that a particular email message is not spam , and that email message really is not spam .

true positive (TP)

#fundamentals
#Metric

An example in which the model correctly predicts the positive class . For example, the model infers that a particular email message is spam, and that email message really is spam.

true positive rate (TPR)

#fundamentals
#Metric

Synonym for recall . That is:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

True positive rate is the y-axis in an ROC curve .

У

недообучение

#fundamentals

Producing a model with poor predictive ability because the model hasn't fully captured the complexity of the training data. Many problems can cause underfitting, including:

See Overfitting in Machine Learning Crash Course for more information.

unlabeled example

#fundamentals

An example that contains features but no label . For example, the following table shows three unlabeled examples from a house valuation model, each with three features but no house value:

Количество спален Количество ванных комнат Возраст дома
3 2 15
2 1 72
4 2 34

In supervised machine learning , models train on labeled examples and make predictions on unlabeled examples .

In semi-supervised and unsupervised learning, unlabeled examples are used during training.

Contrast unlabeled example with labeled example .

неконтролируемое машинное обучение

#кластеризация
#fundamentals

Training a model to find patterns in a dataset, typically an unlabeled dataset.

The most common use of unsupervised machine learning is to cluster data into groups of similar examples. For example, an unsupervised machine learning algorithm can cluster songs based on various properties of the music. The resulting clusters can become an input to other machine learning algorithms (for example, to a music recommendation service). Clustering can help when useful labels are scarce or absent. For example, in domains such as anti-abuse and fraud, clusters can help humans better understand the data.

Contrast with supervised machine learning .

See What is Machine Learning? in the Introduction to ML course for more information.

В

проверка

#fundamentals

The initial evaluation of a model's quality. Validation checks the quality of a model's predictions against the validation set .

Because the validation set differs from the training set , validation helps guard against overfitting .

You might think of evaluating the model against the validation set as the first round of testing and evaluating the model against the test set as the second round of testing.

validation loss

#fundamentals
#Metric

A metric representing a model's loss on the validation set during a particular iteration of training.

See also generalization curve .

набор для проверки

#fundamentals

The subset of the dataset that performs initial evaluation against a trained model . Typically, you evaluate the trained model against the validation set several times before evaluating the model against the test set .

Traditionally, you divide the examples in the dataset into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

See Datasets: Dividing the original dataset in Machine Learning Crash Course for more information.

В

масса

#fundamentals

A value that a model multiplies by another value. Training is the process of determining a model's ideal weights; inference is the process of using those learned weights to make predictions.

See Linear regression in Machine Learning Crash Course for more information.

взвешенная сумма

#fundamentals

The sum of all the relevant input values multiplied by their corresponding weights. For example, suppose the relevant inputs consist of the following:

входное значение входной вес
2 -1.3
-1 0,6
3 0,4

Таким образом, взвешенная сумма составляет:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

A weighted sum is the input argument to an activation function .

З

Z-score normalization

#fundamentals

A scaling technique that replaces a raw feature value with a floating-point value representing the number of standard deviations from that feature's mean. For example, consider a feature whose mean is 800 and whose standard deviation is 100. The following table shows how Z-score normalization would map the raw value to its Z-score:

Исходное значение Z-оценка
800 0
950 +1,5
575 -2.25

The machine learning model then trains on the Z-scores for that feature instead of on the raw values.

Дополнительную информацию см. в разделе «Численные данные: нормализация в ускоренном курсе машинного обучения».