Глоссарий машинного обучения: основы машинного обучения

На этой странице содержится глоссарий терминов по основам машинного обучения. Чтобы просмотреть все термины глоссария, нажмите здесь .

А

точность

#основы

Количество правильных прогнозов классификации, разделенное на общее количество прогнозов. То есть:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Бинарная классификация дает конкретные названия различным категориям правильных и неправильных прогнозов . Итак, формула точности бинарной классификации выглядит следующим образом:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

где:

Сравните и сопоставьте точность с точностью и отзывом .

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и связанные с ними показатели» в ускоренном курсе машинного обучения.

функция активации

#основы

Функция, которая позволяет нейронным сетям изучать нелинейные (сложные) связи между объектами и меткой.

Популярные функции активации включают в себя:

Графики функций активации никогда не представляют собой одиночные прямые линии. Например, график функции активации ReLU состоит из двух прямых:

Декартов график из двух линий. В первой строке есть константа           значение y, равное 0, вдоль оси X от -бесконечности,0 до 0,-0.           Вторая строка начинается с 0,0. Эта линия имеет наклон +1, поэтому           он работает от 0,0 до +бесконечности,+бесконечности.

График сигмовидной функции активации выглядит следующим образом:

Двумерный изогнутый график со значениями x, охватывающими область.           от -бесконечности до +положительного, а значения y охватывают диапазон от почти 0 до           почти 1. Когда x равен 0, y равен 0,5. Наклон кривой всегда           положительный, с наибольшим наклоном 0,0,5 и постепенно уменьшающимся           наклоны по мере увеличения абсолютного значения x.

Дополнительную информацию см. в разделе «Нейронные сети: функции активации в ускоренном курсе машинного обучения».

искусственный интеллект

#основы

Нечеловеческая программа или модель , способная решать сложные задачи. Например, программа или модель, которая переводит текст, или программа или модель, которая идентифицирует заболевания по радиологическим изображениям, обладают искусственным интеллектом.

Формально машинное обучение — это подобласть искусственного интеллекта. Однако в последние годы некоторые организации начали использовать термины «искусственный интеллект» и «машинное обучение» как синонимы.

AUC (Площадь под кривой ROC)

#основы

Число от 0,0 до 1,0, обозначающее способность модели бинарной классификации отделять положительные классы от отрицательных классов . Чем ближе AUC к 1,0, тем лучше способность модели отделять классы друг от друга.

Например, на следующем рисунке показана модель классификатора, которая идеально отделяет положительные классы (зеленые овалы) от отрицательных классов (фиолетовые прямоугольники). Эта нереально идеальная модель имеет AUC 1,0:

Числовая линия с 8 положительными примерами на одной стороне и           9 негативных примеров с другой стороны.

И наоборот, на следующем рисунке показаны результаты для модели классификатора, которая генерировала случайные результаты. Эта модель имеет AUC 0,5:

Числовая линия с 6 положительными примерами и 6 отрицательными примерами.           Последовательность примеров положительная, отрицательная,           положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный           отрицательный, положительный, отрицательный.

Да, предыдущая модель имеет AUC 0,5, а не 0,0.

Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель несколько отделяет положительные значения от отрицательных и поэтому имеет AUC где-то между 0,5 и 1,0:

Числовая линия с 6 положительными примерами и 6 отрицательными примерами.           Последовательность примеров отрицательная, отрицательная, отрицательная, отрицательная,           положительный, отрицательный, положительный, положительный, отрицательный, положительный, положительный,           позитивный.

AUC игнорирует любые значения, установленные вами для порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в ускоренном курсе машинного обучения».

Б

обратное распространение ошибки

#основы

Алгоритм, реализующий градиентный спуск в нейронных сетях .

Обучение нейронной сети включает в себя множество итераций следующего двухпроходного цикла:

  1. Во время прямого прохода система обрабатывает пакет примеров для получения прогнозов. Система сравнивает каждый прогноз с каждым значением метки . Разница между прогнозом и значением метки — это потеря для этого примера. Система суммирует потери для всех примеров, чтобы вычислить общие потери для текущей партии.
  2. Во время обратного прохода (обратного распространения ошибки) система уменьшает потери, корректируя веса всех нейронов во всех скрытых слоях .

Нейронные сети часто содержат множество нейронов во многих скрытых слоях. Каждый из этих нейронов по-разному вносит свой вклад в общую потерю. Обратное распространение ошибки определяет, следует ли увеличивать или уменьшать веса, применяемые к конкретным нейронам.

Скорость обучения — это множитель, который контролирует степень увеличения или уменьшения каждого веса при каждом обратном проходе. Большая скорость обучения будет увеличивать или уменьшать каждый вес больше, чем низкая скорость обучения.

С точки зрения исчисления, обратное распространение ошибки реализует правило цепочки . из исчисления. То есть обратное распространение ошибки вычисляет частную производную ошибки по каждому параметру.

Несколько лет назад специалистам по машинному обучению приходилось писать код для реализации обратного распространения ошибки. Современные API машинного обучения, такие как Keras, теперь реализуют обратное распространение ошибки. Уф!

Дополнительную информацию см. в разделе «Нейронные сети в ускоренном курсе машинного обучения».

партия

#основы

Набор примеров, используемых в одной обучающей итерации . Размер партии определяет количество примеров в партии.

См. «Эпоха» для объяснения того, как партия связана с эпохой.

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

размер партии

#основы

Количество примеров в пакете . Например, если размер пакета равен 100, модель обрабатывает 100 примеров за итерацию .

Ниже приведены популярные стратегии размера партии:

  • Стохастический градиентный спуск (SGD) , в котором размер пакета равен 1.
  • Полный пакет, в котором размер пакета — это количество примеров во всем обучающем наборе . Например, если обучающий набор содержит миллион примеров, то размер пакета будет составлять миллион примеров. Полная партия обычно является неэффективной стратегией.
  • Мини-пакет , размер которого обычно составляет от 10 до 1000. Мини-пакет обычно является наиболее эффективной стратегией.

Для получения дополнительной информации см. следующее:

предвзятость (этика/справедливость)

#справедливость
#основы

1. Стереотипы, предрассудки или фаворитизм в отношении одних вещей, людей или групп по сравнению с другими. Эти предубеждения могут повлиять на сбор и интерпретацию данных, дизайн системы и то, как пользователи взаимодействуют с системой. К формам этого типа предвзятости относятся:

2. Систематическая ошибка, вызванная процедурой выборки или отчетности. К формам этого типа предвзятости относятся:

Не путать с термином «предвзятость» в моделях машинного обучения или «предвзятость прогнозирования» .

Дополнительную информацию см. в разделе «Справедливость: типы предвзятости» в ускоренном курсе машинного обучения.

предвзятость (математика) или термин предвзятости

#основы

Перехват или смещение от начала координат. Смещение — это параметр в моделях машинного обучения, который обозначается одним из следующих символов:

  • б
  • ш 0

Например, смещение — это буква b в следующей формуле:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

В простой двумерной линии смещение означает просто «пересечение оси Y». Например, смещение линии на следующем рисунке равно 2.

График линии с наклоном 0,5 и смещением (пересечение оси Y) 2.

Смещение существует, потому что не все модели начинаются с начала координат (0,0). Например, предположим, что вход в парк развлечений стоит 2 евро и дополнительно 0,5 евро за каждый час пребывания клиента. Следовательно, модель, отображающая общую стоимость, имеет смещение 2, поскольку минимальная стоимость составляет 2 евро.

Предвзятость не следует путать с предвзятостью в вопросах этики и справедливости или предвзятостью прогнозирования .

Дополнительную информацию см. в разделе «Линейная регрессия в ускоренном курсе машинного обучения».

бинарная классификация

#основы

Тип задачи классификации , которая прогнозирует один из двух взаимоисключающих классов:

Например, каждая из следующих двух моделей машинного обучения выполняет двоичную классификацию:

  • Модель, определяющая, являются ли сообщения электронной почты спамом (положительный класс) или нет (негативный класс).
  • Модель, которая оценивает медицинские симптомы, чтобы определить, есть ли у человека определенное заболевание (положительный класс) или нет этого заболевания (негативный класс).

Сравните с многоклассовой классификацией .

См. также логистическую регрессию и порог классификации .

Дополнительную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».

группирование

#основы

Преобразование одного объекта в несколько двоичных объектов, называемых сегментами или контейнерами , обычно на основе диапазона значений. Вырезанный объект обычно является непрерывным объектом .

Например, вместо того, чтобы представлять температуру как один непрерывный признак с плавающей запятой, вы можете разбить диапазоны температур на отдельные сегменты, например:

  • <= 10 градусов по Цельсию будет «холодным» ведром.
  • 11–24 градуса по Цельсию будет «умеренным» ведром.
  • >= 25 градусов по Цельсию будет «теплым» ведром.

Модель будет обрабатывать каждое значение в одном и том же сегменте одинаково. Например, значения 13 и 22 относятся к сегменту умеренного климата, поэтому модель обрабатывает эти два значения одинаково.

Дополнительные сведения см. в разделе «Численные данные: группирование в ускоренном курсе машинного обучения».

С

категориальные данные

#основы

Функции, имеющие определенный набор возможных значений. Например, рассмотрим категориальную функцию под названием traffic-light-state , которая может иметь только одно из следующих трех возможных значений:

  • red
  • yellow
  • green

Представляя traffic-light-state как категориальную характеристику, модель может изучить различное влияние red , green и yellow на поведение водителя.

Категориальные признаки иногда называют дискретными признаками .

Сравните с числовыми данными .

Дополнительную информацию см. в разделе Работа с категориальными данными в ускоренном курсе машинного обучения.

сорт

#основы

Категория, к которой может принадлежать метка . Например:

Модель классификации предсказывает класс. Напротив, регрессионная модель предсказывает число, а не класс.

Дополнительную информацию см. в разделе «Классификация в ускоренном курсе машинного обучения».

модель классификации

#основы

Модель , предсказание которой является классом . Например, ниже приведены все модели классификации:

  • Модель, которая предсказывает язык входного предложения (французский? испанский? итальянский?).
  • Модель, предсказывающая породы деревьев (клен? дуб? баобаб?).
  • Модель, которая прогнозирует положительный или отрицательный класс конкретного заболевания.

Напротив, регрессионные модели предсказывают числа, а не классы.

Два распространенных типа классификационных моделей:

порог классификации

#основы

В двоичной классификации - число от 0 до 1, которое преобразует необработанные выходные данные модели логистической регрессии в прогноз либо положительного , либо отрицательного класса . Обратите внимание, что порог классификации — это значение, которое выбирает человек, а не значение, выбранное при обучении модели.

Модель логистической регрессии выводит необработанное значение от 0 до 1. Затем:

  • Если это необработанное значение превышает порог классификации, то прогнозируется положительный класс.
  • Если это необработанное значение меньше порога классификации, то прогнозируется отрицательный класс.

Например, предположим, что порог классификации равен 0,8. Если исходное значение равно 0,9, модель прогнозирует положительный класс. Если исходное значение равно 0,7, то модель прогнозирует отрицательный класс.

Выбор порога классификации сильно влияет на количество ложноположительных и ложноотрицательных результатов .

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

несбалансированный по классам набор данных

#основы

Набор данных для задачи классификации, в которой общее количество меток каждого класса значительно различается. Например, рассмотрим набор данных двоичной классификации, две метки которого разделены следующим образом:

  • 1 000 000 негативных ярлыков
  • 10 положительных ярлыков

Соотношение отрицательных и положительных меток составляет 100 000 к 1, поэтому это набор данных с несбалансированным классом.

Напротив, следующий набор данных не является несбалансированным по классам, поскольку соотношение отрицательных меток к положительным меткам относительно близко к 1:

  • 517 отрицательных ярлыков
  • 483 положительных метки

Многоклассовые наборы данных также могут быть несбалансированными по классам. Например, следующий набор данных многоклассовой классификации также несбалансирован по классам, поскольку одна метка содержит гораздо больше примеров, чем две другие:

  • 1 000 000 этикеток класса «зеленый»
  • 200 этикеток класса «фиолетовый».
  • 350 этикеток класса «оранжевый».

См. также энтропию , класс большинства и класс меньшинства .

вырезка

#основы

Техника обработки выбросов путем выполнения одного или обоих следующих действий:

  • Уменьшение значений функций , превышающих максимальный порог, до этого максимального порога.
  • Увеличение значений функций, которые меньше минимального порога, до этого минимального порога.

Например, предположим, что <0,5% значений определенного признака выходят за пределы диапазона 40–60. В этом случае вы можете сделать следующее:

  • Обрежьте все значения выше 60 (максимальный порог), чтобы они составляли ровно 60.
  • Обрежьте все значения ниже 40 (минимальный порог), чтобы они составляли ровно 40.

Выбросы могут повредить модели, иногда вызывая переполнение весов во время обучения. Некоторые выбросы также могут существенно испортить такие показатели, как точность . Обрезка — распространенный метод ограничения ущерба.

Отсечение градиента приводит к тому, что значения градиента находятся в пределах заданного диапазона во время обучения.

Дополнительную информацию см. в разделе «Численные данные: нормализация в ускоренном курсе машинного обучения».

матрица путаницы

#основы

Таблица NxN, в которой суммируется количество правильных и неправильных прогнозов, сделанных моделью классификации . Например, рассмотрим следующую матрицу путаницы для модели двоичной классификации :

Опухоль (прогнозируемая) Неопухолевый (прогнозируемый)
Опухоль (основная правда) 18 (ТП) 1 (ФН)
Не опухоль (основная правда) 6 (ФП) 452 (Теннесси)

Предыдущая матрица путаницы показывает следующее:

  • Из 19 прогнозов, в которых основной истиной была опухоль, модель правильно классифицировала 18 и неправильно классифицировала 1.
  • Из 458 прогнозов, в которых основной истиной было отсутствие опухоли, модель правильно классифицировала 452 и неправильно классифицировала 6.

Матрица путаницы для задачи классификации нескольких классов может помочь вам выявить закономерности ошибок. Например, рассмотрим следующую матрицу путаницы для трехклассовой многоклассовой модели классификации, которая классифицирует три разных типа радужной оболочки (Virginica, Versicolor и Setosa). Когда основной истиной была Вирджиния, матрица путаницы показывает, что модель с гораздо большей вероятностью ошибочно предсказывала Версиколор, чем Сетозу:

Сетоза (прогноз) Разноцветный (предсказано) Вирджиния (прогнозируется)
Сетоза (основная правда) 88 12 0
Версиколор (основная правда) 6 141 7
Вирджиния (основная правда) 2 27 109

Еще один пример: матрица путаницы может показать, что модель, обученная распознавать рукописные цифры, имеет тенденцию ошибочно предсказывать 9 вместо 4 или ошибочно предсказывать 1 вместо 7.

Матрицы ошибок содержат достаточно информации для расчета различных показателей производительности, включая точность и полноту .

непрерывный объект

#основы

Функция с плавающей запятой с бесконечным диапазоном возможных значений, таких как температура или вес.

Контраст с дискретной функцией .

конвергенция

#основы

Состояние, при котором значения потерь изменяются очень незначительно или вообще не меняются на каждой итерации . Например, следующая кривая потерь предполагает сходимость примерно через 700 итераций:

Картезианский сюжет. Ось X — потери. Ось Y — количество тренировок           итерации. Потери очень велики в течение первых нескольких итераций, но           резко падает. Примерно после 100 итераций потери все еще           нисходящее, но гораздо более постепенное. Примерно после 700 итераций           потери остаются неизменными.

Модель сходится , когда дополнительное обучение не улучшает ее.

При глубоком обучении значения потерь иногда остаются постоянными или почти постоянными в течение многих итераций, прежде чем, наконец, упасть. В течение длительного периода постоянных значений потерь у вас может временно возникнуть ложное ощущение конвергенции.

См. также раннюю остановку .

Дополнительные сведения см. в разделе Кривые сходимости и потерь модели в ускоренном курсе машинного обучения.

Д

DataFrame

#основы

Популярный тип данных pandas для представления наборов данных в памяти.

DataFrame аналогичен таблице или электронной таблице. Каждый столбец DataFrame имеет имя (заголовок), а каждая строка идентифицируется уникальным номером.

Каждый столбец в DataFrame структурирован как двумерный массив, за исключением того, что каждому столбцу можно назначить свой собственный тип данных.

См. также официальную справочную страницу pandas.DataFrame .

набор данных или набор данных

#основы

Коллекция необработанных данных, обычно (но не исключительно) организованная в одном из следующих форматов:

  • электронная таблица
  • файл в формате CSV (значения, разделенные запятыми)

глубокая модель

#основы

Нейронная сеть, содержащая более одного скрытого слоя .

Глубокую модель еще называют глубокой нейронной сетью .

Контраст с широкой моделью .

плотная особенность

#основы

Функция , в которой большинство или все значения не равны нулю, обычно это тензор значений с плавающей запятой. Например, следующий 10-элементный тензор является плотным, поскольку 9 его значений не равны нулю:

8 3 7 5 2 4 0 4 9 6

Контраст с редкими функциями .

глубина

#основы

Сумма следующего в нейронной сети :

Например, нейронная сеть с пятью скрытыми слоями и одним выходным слоем имеет глубину 6.

Обратите внимание, что входной слой не влияет на глубину.

дискретная функция

#основы

Объект с конечным набором возможных значений. Например, признак, значения которого могут быть только «животное» , «растение» или «минерал», является дискретным (или категориальным) признаком.

Контраст с непрерывной функцией .

динамичный

#основы

Что-то, что делается часто или постоянно. Термины динамический и онлайн являются синонимами в машинном обучении. Ниже приведены распространенные варианты использования динамического и онлайн- обучения в машинном обучении:

  • Динамическая модель (или онлайн-модель ) — это модель, которая часто или непрерывно переобучается.
  • Динамическое обучение (или онлайн-обучение ) — это процесс частого или непрерывного обучения.
  • Динамический вывод (или онлайн-вывод ) — это процесс генерации прогнозов по требованию.

динамическая модель

#основы

Модель , которая часто (возможно, даже постоянно) переобучается. Динамическая модель — это «обучение на протяжении всей жизни», которое постоянно адаптируется к меняющимся данным. Динамическая модель также известна как онлайн-модель .

Контраст со статической моделью .

Э

ранняя остановка

#основы

Метод регуляризации , который предполагает прекращение обучения до того, как перестанут уменьшаться потери при обучении. При ранней остановке вы намеренно прекращаете обучение модели, когда потери в наборе проверочных данных начинают увеличиваться; то есть, когда производительность обобщения ухудшается.

слой внедрения

#язык
#основы

Специальный скрытый слой , который обучается на многомерном категориальном признаке для постепенного изучения вектора внедрения более низкого измерения. Слой внедрения позволяет нейронной сети обучаться гораздо эффективнее, чем обучение только на многомерном категориальном признаке.

Например, на Земле в настоящее время произрастает около 73 000 видов деревьев. Предположим, что виды деревьев являются признаком вашей модели, поэтому входной слой вашей модели включает в себя вектор длиной 73 000 элементов. Например, возможно, baobab можно было бы представить примерно так:

Массив из 73 000 элементов. Первые 6232 элемента содержат значение      0. Следующий элемент содержит значение 1. Последние 66 767 элементов содержат значение      значение ноль.

Массив из 73 000 элементов очень длинный. Если вы не добавите в модель слой внедрения, обучение займет очень много времени из-за умножения 72 999 нулей. Возможно, вы выберете слой внедрения, состоящий из 12 измерений. Следовательно, слой внедрения постепенно изучает новый вектор внедрения для каждой породы деревьев.

В определенных ситуациях хеширование является разумной альтернативой слою внедрения.

Дополнительную информацию см. в разделе «Внедрения в ускоренный курс машинного обучения».

эпоха

#основы

Полный проход обучения по всему обучающему набору , при котором каждый пример обрабатывается один раз.

Эпоха представляет собой N / итераций обучения размера пакета , где N — общее количество примеров.

Например, предположим следующее:

  • Набор данных состоит из 1000 примеров.
  • Размер партии — 50 экземпляров.

Следовательно, для одной эпохи требуется 20 итераций:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

пример

#основы

Значения одной строки объектов и, возможно, метки . Примеры контролируемого обучения делятся на две общие категории:

  • Помеченный пример состоит из одного или нескольких объектов и метки. Маркированные примеры используются во время обучения.
  • Немаркированный пример состоит из одного или нескольких объектов, но без метки. Во время вывода используются немаркированные примеры.

Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. Вот три помеченных примера:

Функции Этикетка
Температура Влажность Давление Оценка теста
15 47 998 Хороший
19 34 1020 Отличный
18 92 1012 Бедный

Вот три немаркированных примера:

Температура Влажность Давление
12 62 1014
21 47 1017
19 41 1021

Строка набора данных обычно является необработанным источником примера. То есть пример обычно состоит из подмножества столбцов набора данных. Кроме того, объекты в примере также могут включать в себя синтетические объекты , такие как перекрестные объекты .

Дополнительную информацию см. в разделе «Обучение с учителем» в курсе «Введение в машинное обучение».

Ф

ложноотрицательный (ЛН)

#основы

Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное сообщение электронной почты не является спамом (негативный класс), но на самом деле это сообщение электронной почты является спамом .

ложноположительный результат (FP)

#основы

Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное сообщение электронной почты является спамом (положительный класс), но на самом деле это сообщение электронной почты не является спамом .

Дополнительные сведения см. в разделе «Пороговые значения и матрица путаницы» в ускоренном курсе машинного обучения.

уровень ложноположительных результатов (FPR)

#основы

Доля реальных отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула рассчитывает уровень ложноположительных результатов:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Частота ложноположительных результатов — это ось X на кривой ROC .

Дополнительную информацию см. в разделе «Классификация: ROC и AUC в ускоренном курсе машинного обучения».

особенность

#основы

Входная переменная модели машинного обучения. Пример состоит из одной или нескольких функций. Например, предположим, что вы обучаете модель для определения влияния погодных условий на результаты тестов учащихся. В следующей таблице показаны три примера, каждый из которых содержит три функции и одну метку:

Функции Этикетка
Температура Влажность Давление Оценка теста
15 47 998 92
19 34 1020 84
18 92 1012 87

Контраст с этикеткой .

Дополнительную информацию см. в разделе «Обучение с учителем» в курсе «Введение в машинное обучение».

особенность креста

#основы

Синтетический признак, образованный путем «пересечения» категориальных или группированных признаков.

Например, рассмотрим модель «прогноза настроения», которая представляет температуру в одном из следующих четырех сегментов:

  • freezing
  • chilly
  • temperate
  • warm

И представляет скорость ветра в одном из следующих трех сегментов:

  • still
  • light
  • windy

Без перекрестия функций линейная модель обучается независимо на каждом из семи предыдущих сегментов. Итак, модель тренируется, например, freezing независимо от тренировки, например, windy .

В качестве альтернативы вы можете создать перекрестную функцию температуры и скорости ветра. Эта синтетическая функция будет иметь следующие 12 возможных значений:

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

Благодаря крестикам функций модель может запоминать разницу в настроении между freezing-windy и freezing-still днем.

Если вы создадите синтетический объект из двух объектов, каждый из которых имеет множество разных сегментов, полученный кросс объектов будет иметь огромное количество возможных комбинаций. Например, если один объект имеет 1000 сегментов, а другой — 2000 сегментов, результирующий кросс объектов будет иметь 2 000 000 сегментов.

Формально крест — это декартово произведение .

Перекрещивания признаков в основном используются с линейными моделями и редко используются с нейронными сетями.

Дополнительную информацию см. в разделе Категориальные данные: перекрестия функций в ускоренном курсе машинного обучения.

разработка функций

#основы
#TensorFlow

Процесс, который включает в себя следующие этапы:

  1. Определение того, какие функции могут быть полезны при обучении модели.
  2. Преобразование необработанных данных из набора данных в эффективные версии этих функций.

Например, вы можете решить, что temperature может быть полезной функцией. Затем вы можете поэкспериментировать с группированием , чтобы оптимизировать то, что модель может узнать из разных temperature диапазонов.

Инжиниринг функций иногда называют извлечением функций или реализацией функций.

Дополнительные сведения см. в разделе «Численные данные: как модель принимает данные с использованием векторов признаков» в ускоренном курсе машинного обучения.

набор функций

#основы

Группа функций, на которых тренируется ваша модель машинного обучения. Например, почтовый индекс, размер и состояние недвижимости могут составлять простой набор функций для модели, прогнозирующей цены на жилье.

вектор признаков

#основы

Массив значений признаков , содержащий пример . Вектор признаков вводится во время обучения и во время вывода . Например, вектор признаков для модели с двумя дискретными признаками может быть следующим:

[0.92, 0.56]

Четыре слоя: входной слой, два скрытых слоя и один выходной слой.           Входной слой содержит два узла, один из которых содержит значение           0,92, а другой — со значением 0,56.

В каждом примере предоставляются разные значения вектора признаков, поэтому вектор признаков для следующего примера может выглядеть примерно так:

[0.73, 0.49]

Разработка признаков определяет, как представлять объекты в векторе признаков. Например, двоичный категориальный признак с пятью возможными значениями может быть представлен с помощью горячего кодирования . В этом случае часть вектора признаков для конкретного примера будет состоять из четырех нулей и одного 1,0 в третьей позиции, как показано ниже:

[0.0, 0.0, 1.0, 0.0, 0.0]

В качестве другого примера предположим, что ваша модель состоит из трех функций:

  • двоичный категориальный признак с пятью возможными значениями, представленными с помощью горячего кодирования; например: [0.0, 1.0, 0.0, 0.0, 0.0]
  • еще один двоичный категориальный признак с тремя возможными значениями, представленными с помощью горячего кодирования; например: [0.0, 0.0, 1.0]
  • функция с плавающей запятой; например: 8.3 .

В этом случае вектор признаков для каждого примера будет представлен девятью значениями. Учитывая примеры значений в предыдущем списке, вектор признаков будет следующим:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Дополнительные сведения см. в разделе «Численные данные: как модель принимает данные с использованием векторов признаков» в ускоренном курсе машинного обучения.

петля обратной связи

#основы

В машинном обучении — ситуация, в которой предсказания модели влияют на данные обучения для той же или другой модели. Например, модель, рекомендующая фильмы, будет влиять на фильмы, которые люди смотрят, что затем повлияет на последующие модели рекомендаций фильмов.

Дополнительные сведения см. в разделе «Производственные системы машинного обучения: вопросы, которые следует задать в ускоренном курсе машинного обучения».

Г

обобщение

#основы

Способность модели делать правильные прогнозы на основе новых, ранее невидимых данных. Модель, которая может обобщать, является противоположностью модели, которая переоснащается .

Дополнительную информацию см. в разделе «Обобщение в ускоренном курсе машинного обучения».

кривая обобщения

#основы

График потерь при обучении и потерь при проверке в зависимости от количества итераций .

Кривая обобщения может помочь вам обнаружить возможное переобучение . Например, следующая кривая обобщения предполагает переобучение, поскольку потери при проверке в конечном итоге становятся значительно выше, чем потери при обучении.

Декартов график, на котором ось Y отмечена потерями, а ось X           называется итерациями. Появляются два сюжета. Один график показывает           потеря обучения, а другой показывает потерю проверки.           Оба графика начинаются одинаково, но в конечном итоге происходит потеря обучения.           падает намного ниже, чем потери при проверке.

Дополнительную информацию см. в разделе «Обобщение в ускоренном курсе машинного обучения».

градиентный спуск

#основы

Математический метод минимизации потерь . Градиентный спуск итеративно корректирует веса и смещения , постепенно находя наилучшую комбинацию для минимизации потерь.

Градиентный спуск старше — намного старше — чем машинное обучение.

Дополнительную информацию см. в разделе «Линейная регрессия: градиентный спуск в ускоренном курсе машинного обучения».

основная истина

#основы

Реальность.

То, что произошло на самом деле.

Например, рассмотрим модель бинарной классификации , которая предсказывает, окончит ли студент первого курса университета обучение в течение шести лет. Основная истина для этой модели заключается в том, действительно ли этот студент окончил обучение в течение шести лет.

ЧАС

скрытый слой

#основы

Слой нейронной сети между входным слоем (функции) и выходным слоем (прогнозирование). Каждый скрытый слой состоит из одного или нескольких нейронов . Например, следующая нейронная сеть содержит два скрытых слоя: первый с тремя нейронами, а второй с двумя нейронами:

Четыре слоя. Первый слой — это входной слой, содержащий два           функции. Второй слой представляет собой скрытый слой, содержащий три           нейроны. Третий слой — это скрытый слой, содержащий два           нейроны. Четвертый слой — выходной. Каждая функция           содержит три ребра, каждое из которых указывает на отдельный нейрон           во втором слое. Каждый нейрон второго слоя           содержит два ребра, каждое из которых указывает на отдельный нейрон           в третьем слое. Каждый из нейронов третьего слоя содержит           одно ребро, каждое из которых указывает на выходной слой.

Глубокая нейронная сеть содержит более одного скрытого слоя. Например, предыдущая иллюстрация представляет собой глубокую нейронную сеть, поскольку модель содержит два скрытых слоя.

Дополнительную информацию см. в разделе «Нейронные сети: узлы и скрытые слои» ускоренного курса машинного обучения.

гиперпараметр

#основы

Переменные, которые вы или служба настройки гиперпараметровкорректировать во время последовательных запусков обучения модели. Например, скорость обучения является гиперпараметром. Вы можете установить скорость обучения 0,01 перед одной тренировкой. Если вы решите, что 0,01 слишком велико, возможно, вы можете установить скорость обучения на 0,003 для следующей тренировки.

Напротив, параметры — это различные веса и смещения , которые модель изучает во время обучения.

Дополнительную информацию см. в разделе «Линейная регрессия: гиперпараметры в ускоренном курсе машинного обучения».

я

независимо и одинаково распределены (iid)

#основы

Данные, полученные из распределения, которое не изменяется и где каждое нарисованное значение не зависит от значений, которые были нарисованы ранее. Iid — это идеальный газ машинного обучения — полезная математическая конструкция, но почти никогда не встречающаяся в реальном мире. Например, распределение посетителей веб-страницы можно отслеживать за короткий промежуток времени; то есть распределение не меняется в течение этого короткого периода, и визит одного человека обычно не зависит от визита другого. Однако если вы расширите это окно времени, могут появиться сезонные различия в посещаемости веб-страницы.

См. также нестационарность .

вывод

#основы

В машинном обучении — процесс прогнозирования путем применения обученной модели к неразмеченным примерам .

В статистике вывод имеет несколько иной смысл. Подробности смотрите в статье Википедии о статистических выводах .

См. «Обучение с учителем» в курсе «Введение в машинное обучение», чтобы увидеть роль вывода в системе обучения с учителем.

входной слой

#основы

Слой нейронной сети , содержащий вектор признаков . То есть входной уровень предоставляет примеры для обучения или вывода . Например, входной слой в следующей нейронной сети состоит из двух функций:

Четыре слоя: входной слой, два скрытых слоя и выходной слой.

интерпретируемость

#основы

Способность объяснять или представлять рассуждения модели ML в понятных для человека терминах.

Например, большинство моделей линейной регрессии легко интерпретируются. (Вам просто нужно посмотреть обученные веса для каждой функции.) Леса решений также легко интерпретируются. Однако некоторые модели требуют сложной визуализации, чтобы их можно было интерпретировать.

Вы можете использовать Инструмент интерпретации обучения (LIT) для интерпретации моделей ML.

итерация

#основы

Одно обновление параметров моделивесов и смещений модели — во время обучения . Размер пакета определяет, сколько примеров модель обрабатывает за одну итерацию. Например, если размер пакета равен 20, модель обрабатывает 20 примеров перед корректировкой параметров.

При обучении нейронной сети одна итерация включает в себя следующие два прохода:

  1. Прямой проход для оценки потерь в одной партии.
  2. Обратный проход ( обратное распространение ошибки ) для настройки параметров модели на основе потерь и скорости обучения.

л

L 0 регуляризация

#основы

Тип регуляризации , который штрафует общее количество ненулевых весов в модели. Например, модель, имеющая 11 ненулевых весов, будет оштрафована больше, чем аналогичная модель, имеющая 10 ненулевых весов.

Регуляризацию L0 иногда называют регуляризацией L0-нормы .

L 1 потеря

#основы

Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 1 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Абсолютное значение дельты
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = потеря L 1

Потери L1 менее чувствительны к выбросам, чем потери L2 .

Средняя абсолютная ошибка — это средняя потеря L 1 на пример.

L 1 регуляризация

#основы

Тип регуляризации , при котором веса наказываются пропорционально сумме абсолютных значений весов. Регуляризация L 1 помогает довести веса нерелевантных или едва релевантных функций ровно до 0 . Элемент с весом 0 фактически удаляется из модели.

В отличие от регуляризации L2 .

L 2 потеря

#основы

Функция потерь , которая вычисляет квадрат разницы между фактическими значениями метки и значениями, прогнозируемыми моделью . Например, вот расчет потерь L 2 для партии из пяти примеров :

Фактическая стоимость примера Прогнозируемая ценность модели Площадь дельты
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16 = потеря L 2

Из-за возведения в квадрат потеря L2 усиливает влияние выбросов . То есть потеря L2 сильнее реагирует на плохие прогнозы, чем потеря L1 . Например, потеря L 1 для предыдущей партии будет равна 8, а не 16. Обратите внимание, что на один выброс приходится 9 из 16.

В регрессионных моделях в качестве функции потерь обычно используются потери L2 .

Среднеквадратическая ошибка — это средняя потеря L 2 на пример. Квадратные потери — это другое название потерь L2 .

L 2 регуляризация

#основы

Тип регуляризации , при котором веса наказываются пропорционально сумме квадратов весов. Регуляризация L 2 помогает приблизить веса выбросов (с высокими положительными или низкими отрицательными значениями) к 0, но не совсем к 0 . Объекты со значениями, очень близкими к 0, остаются в модели, но не сильно влияют на прогноз модели.

Регуляризация L2 всегда улучшает обобщение в линейных моделях .

В отличие от регуляризации L 1 .

этикетка

#основы

В контролируемом машинном обучении — часть примера «ответ» или «результат».

Каждый помеченный пример состоит из одного или нескольких объектов и метки. Например, в наборе данных для обнаружения спама метка, вероятно, будет либо «спам», либо «не спам». В наборе данных об осадках меткой может быть количество дождя, выпавшего за определенный период.

помеченный пример

#основы

Пример, содержащий одну или несколько функций и метку . Например, в следующей таблице показаны три помеченных примера из модели оценки дома, каждый из которых имеет три характеристики и одну метку:

Количество спален Количество ванных комнат Возраст дома Цена дома (этикетка)
3 2 15 345 000 долларов США
2 1 72 179 000 долларов США
4 2 34 392 000 долларов США

В контролируемом машинном обучении модели обучаются на помеченных примерах и делают прогнозы на неразмеченных примерах .

Сравните помеченный пример с немаркированными примерами.

лямбда

#основы

Синоним коэффициента регуляризации .

Лямбда — перегруженный термин. Здесь мы сосредоточимся на определении этого термина в рамках регуляризации .

слой

#основы

Набор нейронов в нейронной сети . Три распространенных типа слоев:

Например, на следующем рисунке показана нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним выходным слоем:

Нейронная сеть с одним входным слоем, двумя скрытыми слоями и одним           выходной слой. Входной слой состоит из двух объектов. Первый           скрытый слой состоит из трех нейронов и второго скрытого слоя           состоит из двух нейронов. Выходной слой состоит из одного узла.

В TensorFlow слои также являются функциями Python, которые принимают тензоры и параметры конфигурации в качестве входного и производят другие тензоры в качестве вывода.

скорость обучения

#основы

Номер с плавающей запятой, который сообщает алгоритм градиентного спуска , насколько сильно регулировать веса и смещения на каждой итерации . Например, скорость обучения 0,3 будет корректировать вес и смещения в три раза более мощно, чем скорость обучения 0,1.

Уровень обучения является ключевым гиперпараметром . Если вы установите слишком низкую скорость обучения, обучение займет слишком много времени. Если вы устанавливаете слишком высокий уровень обучения, у градиентного спуска часто возникают проблемы с достижением сходимости .

линейный

#основы

Связь между двумя или более переменными, которые могут быть представлены исключительно посредством добавления и умножения.

Сюжет линейных отношений - это линия.

Контраст с нелинейным .

Линейная модель

#основы

Модель , которая присваивает один вес на функцию для прогнозирования . (Линейные модели также включают в себя смещение .) Напротив, связь функций к прогнозам в глубоких моделях , как правило, нелинейная .

Линейные модели, как правило, легче тренировать и более интерпретируются, чем глубокие модели. Тем не менее, глубокие модели могут изучать сложные отношения между функциями.

Линейная регрессия и логистическая регрессия являются двумя типами линейных моделей.

линейная регрессия

#основы

Тип модели машинного обучения, в которой оба из следующих

Контрастная линейная регрессия с логистической регрессией . Кроме того, контрастная регрессия с классификацией .

логистическая регрессия

#основы

Тип регрессионной модели , которая предсказывает вероятность. Модели логистической регрессии имеют следующие характеристики:

  • Этикетка категориальна . Термин логистическая регрессия обычно относится к бинарной логистической регрессии , то есть к модели, которая вычисляет вероятности для меток с двумя возможными значениями. Менее распространенный вариант, мультиномиальная логистическая регрессия , вычисляет вероятности для меток с более чем двумя возможными значениями.
  • Функция потери во время обучения - потеря журнала . (Несколько единиц потери журнала могут быть размещены на параллели для меток с более чем двумя возможными значениями.)
  • Модель имеет линейную архитектуру, а не глубокую нейронную сеть. Тем не менее, оставшаяся часть этого определения также применима к глубоким моделям , которые предсказывают вероятности категориальных меток.

Например, рассмотрим модель логистической регрессии, которая вычисляет вероятность того, что входное электронное письмо будет либо спамом, либо не спам. Во время вывода предположим, что модель предсказывает 0,72. Следовательно, модель оценивает:

  • 72% шанс на спам.
  • 28% вероятность того, что электронное письмо не является спамом.

Модель логистической регрессии использует следующую двухэтапную архитектуру:

  1. Модель генерирует необработанное прогноз (Y '), применяя линейную функцию входных функций.
  2. Модель использует этот необработанный прогноз в качестве входного вводного в сигмоидную функцию , которая преобразует необработанное прогноз в значение от 0 до 1, исключительно.

Как и любая модель регрессии, модель логистической регрессии предсказывает число. Однако это число обычно становится частью бинарной классификационной модели следующим образом:

  • Если прогнозируемое число больше , чем порог классификации , модель бинарной классификации предсказывает положительный класс.
  • Если прогнозируемое число меньше порога классификации, модель бинарной классификации предсказывает отрицательный класс.

Потеря

#основы

Функция потерь, используемая в бинарной логистической регрессии .

логарифмические

#основы

Логарифм шансов какого -то события.

потеря

#основы

Во время обучения контролируемой модели мера того, насколько далеко прогнозирование модели от его ярлыка .

Функция потери вычисляет потерю.

кривая потери

#основы

График потери как функция количества обучающих итераций . На следующем графике показана типичная кривая потерь:

Картезианский график потерь по сравнению с обучающими итерациями, показывающий           быстрое падение потерь для первоначальных итераций, за которыми следует постепенный           брось, а затем плоский склон во время последних итераций.

Кривые потерь могут помочь вам определить, когда ваша модель сходится или переживает .

Кривые потерь могут построить все следующие типы потерь:

См. Также кривая обобщения .

функция потерь

#основы

Во время обучения или тестирования математическая функция, которая вычисляет потерю на партии примеров. Функция потери возвращает более низкую потерю для моделей, которые делают хорошие прогнозы, чем для моделей, которые делают плохие прогнозы.

Цель обучения, как правило, состоит в том, чтобы минимизировать потери, которую возвращает функция потери.

Существует много различных видов потерь. Выберите соответствующую функцию потерь для той модели, которую вы строите. Например:

М

машинное обучение

#основы

Программа или система, которая обучает модель из входных данных. Обученная модель может сделать полезные прогнозы из новых (никогда не видно) данных, взятых из того же распределения, что и то, что используется для обучения модели.

Машинное обучение также относится к области исследования, связанной с этими программами или системами.

большинство класс

#основы

Более распространенная метка в классе-имбалансированном наборе данных . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, отрицательные этикетки - это большинство класса.

Контраст с классом меньшинства .

мини-партия

#основы

Небольшая, случайно выбранная подмножество партии , обработанного в одной итерации . Размер партии мини-партии обычно составляет от 10 до 1000 примеров.

Например, предположим, что весь учебный набор (полная партия) состоит из 1000 примеров. Кроме того, предположим, что вы устанавливаете размер партии каждой мини-партии на 20. Следовательно, каждая итерация определяет потерю на случайных 20 из 1000 примеров, а затем соответственно корректирует веса и смещения .

Гораздо эффективнее рассчитать потерю на мини-партии, чем потери всех примеров в полной партии.

класс меньшинства

#основы

Менее распространенная метка в класс-имбалансированном наборе данных . Например, учитывая набор данных, содержащий 99% отрицательных меток и 1% положительных меток, положительными этикетками являются класс меньшинства.

Контраст с классом большинства .

модель

#основы

В целом, любая математическая конструкция, которая обрабатывает входные данные и возвращает вывод. Фрагрировано иначе, модель - это набор параметров и структуры, необходимых для системы для прогнозирования. В контролируемом машинном обучении модель получает пример в качестве ввода и делает прогноз в качестве вывода. Внутри контролируемого машинного обучения модели несколько отличаются. Например:

Вы можете сохранить, восстановить или сделать копии модели.

Неконтролируемое машинное обучение также генерирует модели, как правило, функция, которая может отобразить входной пример с наиболее подходящим кластером .

Многоклассовая классификация

#основы

В контролируемом обучении задача классификации , в которой набор данных содержит более двух классов метки. Например, этикетки в наборе данных Iris должны быть одним из следующих трех классов:

  • Радужная оболочка Сетоса
  • Айрис Вирджиния
  • Iris versicolor

Модель, обученная набору данных IRIS, которая прогнозирует тип IRIS на новых примерах,-это многоклассная классификация.

Напротив, проблемы классификации, которые различают ровно двух классов, являются моделями бинарной классификации . Например, модель электронной почты, которая прогнозирует либо спам , либо не спам, является моделью бинарной классификации.

В задачах кластеризации многоклассная классификация относится к более чем двум кластерам.

Н

отрицательный класс

#основы

В бинарной классификации один класс называется положительным , а другой называется отрицательным . Положительный класс - это то, что модель тестирует, а отрицательный класс - другая возможность. Например:

  • Отрицательный класс в медицинском тесте может быть «не опухоль».
  • Негативным классом в классификаторе электронной почты может быть «не спам».

Контраст с положительным классом .

нейронная сеть

#основы

Модель, содержащая хотя бы один скрытый слой . Глубокая нейронная сеть - это тип нейронной сети, содержащей более одного скрытого уровня. Например, на следующей диаграмме показана глубокая нейронная сеть, содержащая два скрытых слоя.

Нейронная сеть с входным слоем, два скрытых слоя и           выходной слой.

Каждый нейрон в нейронной сети подключается ко всем узлам в следующем уровне. Например, на предыдущей диаграмме обратите внимание, что каждый из трех нейронов в первом скрытом слое отдельно соединяется с обоими двумя нейронами во втором скрытом слое.

Нейронные сети, внедренные на компьютерах, иногда называют искусственными нейронными сетями , чтобы дифференцировать их от нейронных сетей, обнаруженных в мозге и других нервных системах.

Некоторые нейронные сети могут имитировать чрезвычайно сложные нелинейные отношения между различными функциями и меткой.

См. Также сверточная нейронная сеть и повторяющаяся нейронная сеть .

нейрон

#основы

В машинном обучении отличное устройство в скрытом слое нейронной сети . Каждый нейрон выполняет следующее двухэтапное действие:

  1. Вычисляет взвешенную сумму входных значений, умноженную на соответствующие веса.
  2. Передает взвешенную сумму в качестве входной функции в функцию активации .

Нейрон в первом скрытом слое принимает входы из значений функций в входном слое . Нейрон в любом скрытом слое за пределами первого принимает входные данные от нейронов в предыдущем скрытом слое. Например, нейрон во втором скрытом слое принимает входные данные от нейронов в первом скрытом слое.

Следующая иллюстрация подчеркивает два нейрона и их входные данные.

Нейронная сеть с входным слоем, два скрытых слоя и           выходной слой. Выделились два нейрона: один в первом           Скрытый слой и один во втором скрытом слое. Выделено           Нейрон в первом скрытом слое получает входы от обеих функций           в входном слое. Выделенный нейрон во втором скрытом слое           получает входные данные от каждого из трех нейронов в первом скрытом           слой.

Нейрон в нейронной сети имитирует поведение нейронов в мозге и других частях нервных систем.

Узел (нейронная сеть)

#основы

Нейрон в скрытом слое .

нелинейный

#основы

Отношения между двумя или более переменными, которые не могут быть представлены исключительно через сложение и умножение. Линейная связь может быть представлена ​​как линия; Нелинейные отношения не могут быть представлены как строка. Например, рассмотрим две модели, которые каждая связывает одну функцию с одной меткой. Модель слева линейна, а модель справа нелинейна:

Два сюжета. Один сюжет - это линия, так что это линейная связь.           Другой сюжет - это кривая, так что это нелинейные отношения.

нестационарность

#основы

Функция, значения которых изменяются по одному или нескольким измерениям, обычно время. Например, рассмотрим следующие примеры нестационарности:

  • Количество купальников, проданных в конкретном магазине, зависит от сезона.
  • Количество конкретного фрукта, собранного в конкретном регионе, составляет равное большую часть года, но большое количество в течение короткого периода.
  • Из -за изменения климата, годовая средняя температура меняется.

Контрастировать со стационарностью .

нормализация

#основы

Вообще говоря, процесс преобразования фактического диапазона значений переменной в стандартный диапазон значений, таких как:

  • -1 до +1
  • От 0 до 1
  • Z -оценки (примерно от -3 до +3)

Например, предположим, что фактический диапазон значений определенной функции составляет от 800 до 2400. В рамках инженерии функций вы можете нормализовать фактические значения до стандартного диапазона, например от -1 до +1.

Нормализация является общей задачей в разработке функций . Модели обычно тренируются быстрее (и производят лучшие прогнозы), когда каждая численная особенность в векторе объектов имеет примерно одинаковый диапазон.

См. Работа с численным модулем данных о сбою машинного обучения для более подробной информации. Также см. Нормализацию Z-показателя .

числовые данные

#основы

Особенности, представленные в виде целых чисел или реальных чисел. Например, модель оценки дома, вероятно, будет представлять размер дома (в квадратных футах или квадратных метрах) в качестве численных данных. Представление функции в качестве численных данных указывает на то, что значения функции имеют математическое отношение к этикетке. То есть количество квадратных метров в доме, вероятно, имеет некоторое математическое отношение к ценности дома.

Не все целочисленные данные должны быть представлены в виде числовых данных. Например, почтовые коды в некоторых частях мира являются целыми исходами; Тем не менее, целочисленные почтовые коды не должны быть представлены как числовые данные в моделях. Это связано с тем, что почтовый код 20000 не является дважды (или половиной) столь же мощным, как почтовый индекс 10000. Кроме того, хотя различные почтовые коды коррелируют с различными значениями недвижимости, мы не можем предположить, что значения недвижимости в почтовом коде 20000 в два раза больше ценно, чем значения недвижимости в почтовом коде 10000. Вместо этого почтовые коды должны быть представлены как категориальные данные .

Численные особенности иногда называют непрерывными функциями .

О

офлайн

#основы

Синоним статического .

автономный вывод

#основы

Процесс модели, генерирующей партию прогнозов , а затем кэширование (сохранение) этих прогнозов. Затем приложения могут получить доступ к предполагаемому прогнозу из кэша, а не повторять модель.

Например, рассмотрим модель, которая генерирует локальные прогнозы погоды (прогнозы) раз в четыре часа. После каждой модели запуска система кэширует все локальные прогнозы погоды. Погодные приложения извлекают прогнозы из кеша.

Вывод о автономном режиме также называется статическим выводом .

Контрастировать с онлайн -выводом .

ОДНА-HOT CODING

#основы

Представляя категориальные данные как вектор, в котором:

  • Один элемент установлен на 1.
  • Все остальные элементы установлены на 0.

Одногоральное кодирование обычно используется для представления строк или идентификаторов, которые имеют конечный набор возможных значений. Например, предположим, что определенная категориальная функция с именем Scandinavia имеет пять возможных значений:

  • "Дания"
  • "Швеция"
  • "Норвегия"
  • "Финляндия"
  • "Исландия"

Один-горячее кодирование может представлять каждое из пяти значений следующим образом:

страна Вектор
"Дания" 1 0 0 0 0
"Швеция" 0 1 0 0 0
"Норвегия" 0 0 1 0 0
"Финляндия" 0 0 0 1 0
"Исландия" 0 0 0 0 1

Благодаря однокачественному кодированию модель может изучать различные связи, основанные на каждой из пяти стран.

Представление функции в качестве численных данных является альтернативой однопольнуемому кодированию. К сожалению, представление скандинавских стран численно не является хорошим выбором. Например, рассмотрим следующее числовое представление:

  • "Дания" - 0
  • «Швеция» - 1
  • «Норвегия» - 2
  • «Финляндия» 3
  • «Исландия» 4

При числовом кодировании модель математически интерпретирует необработанные числа и будет пытаться тренироваться на этих числах. Тем не менее, Исландия на самом деле не вдвое больше (или вдвое меньше) чего -то, чем Норвегия, поэтому модель сделает некоторые странные выводы.

One-Vs.-All

#основы

Учитывая проблему классификации с классами N, решение, состоящее из N отдельных бинарных классификаторов - одного двоичного классификатора для каждого возможного результата. Например, учитывая модель, которая классифицирует примеры как животные, овощные или минеральные, одно и все, что обеспечит следующие три отдельных бинарных классификаторов:

  • животное против не животное
  • овощно не овощ
  • Минерал, а не минерал

онлайн

#основы

Синоним для динамики .

онлайн -вывод

#основы

Генерирование прогнозов по требованию. Например, предположим, что приложение передает вход в модель и выдает запрос на прогноз. Система, использующая онлайн -вывод, отвечает на запрос, запустив модель (и возвращая прогноз в приложение).

Контрастировать с автономным выводом .

выходной слой

#основы

«Последний» слой нейронной сети. Выходной слой содержит прогноз.

На следующей иллюстрации показана небольшая глубокая нейронная сеть с входным слоем, два скрытых слоя и выходной слой:

Нейронная сеть с одним входным уровнем, двумя скрытыми слоями и одним           выходной слой. Входной слой состоит из двух функций. Первый           Скрытый слой состоит из трех нейронов и второго скрытого слоя           состоит из двух нейронов. Выходной слой состоит из одного узла.

переосмысление

#основы

Создание модели , которая так близко соответствует учебным данным , что модель не может сделать правильные прогнозы на новых данных.

Ретализация может уменьшить переосмысление. Обучение на большом и разнообразном учебном наборе также может уменьшить переосмысление.

П

панды

#основы

API анализа данных, ориентированный на столбцы, построенный на вершине Numpy . Многие структуры машинного обучения, включая Tensorflow, поддерживают структуры данных Pandas в качестве входных данных. Смотрите документацию Pandas для деталей.

параметр

#основы

Вес и предубеждения , которые модель учится во время тренировки . Например, в модели линейной регрессии параметры состоят из смещения ( b ) и всех весов ( W 1 , W 2 и т. Д.) В следующей формуле:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Напротив, гиперпараметры - это значения, которые вы (или служба настройки гиперпараметров) поставляете в модель. Например, скорость обучения является гиперпараметром.

положительный класс

#основы

Класс, на который вы тестируете.

Например, положительным классом в модели рака может быть «опухоль». Позитивным классом в классификаторе электронной почты может быть «спам».

Контраст с негативным классом .

постобработка

#справедливость
#основы

Регулирование вывода модели после запуска модели. Пост-обработка может быть использована для обеспечения соблюдения ограничений справедливости без моделей самих моделей.

Например, можно применить после обработки к бинарному классификатору, установив порог классификации, так что равенство возможностей поддерживается для некоторого атрибута путем проверки того, что истинная положительная скорость одинакова для всех значений этого атрибута.

прогноз

#основы

Вывод модели. Например:

  • Прогнозой модели бинарной классификации является либо положительным классом, либо отрицательным классом.
  • Прогнозирование многоклассовой классификационной модели-один класс.
  • Прогноз линейной регрессионной модели - это число.

прокси -этикетки

#основы

Данные, используемые для приблизительных меток, недоступных в наборе данных.

Например, предположим, что вы должны обучить модель для прогнозирования уровня стресса сотрудников. Ваш набор данных содержит много прогнозных функций, но не содержит метки с именем напряжения. Неустрашимый, вы выбираете «аварии на рабочем месте» в качестве прокси -лейбла для уровня стресса. В конце концов, сотрудники с высоким стрессом попадают в большее количество несчастных случаев, чем спокойные сотрудники. Или они? Может быть, несчастные случаи на рабочем месте на самом деле растут и падают по нескольким причинам.

В качестве второго примера, предположим, что вы хотите , это дождь? Чтобы быть логическим меткой для вашего набора данных, но ваш набор данных не содержит данных дождя. Если фотографии доступны, вы можете создать фотографии людей, несущих зонтики в качестве прокси -лейбла для того, дождь ли? Это хороший прокси -лейбл? Возможно, но люди в некоторых культурах могут с большей вероятностью нести зонтики, чтобы защитить от солнца, чем дождь.

Прокси -этикетки часто несовершенны. Когда это возможно, выберите реальные этикетки над прокси -этикетками. Тем не менее, когда настоящий этикетка отсутствует, выберите прокси -лейбл очень тщательно, выбирая наименее ужасного кандидата для прокси.

Р

ТРЯПКА

#основы

Аббревиатура для получения поколения .

оценить

#основы

Человек, который предоставляет этикетки для примеров . «Аннотатор» - это еще одно имя для Rater.

Исправленная линейная единица (RELU)

#основы

Функция активации со следующим поведением:

  • Если вход отрицательный или нулевой, то выход равен 0.
  • Если вход положительный, то выход равен входу.

Например:

  • Если вход составляет -3, то выход равен 0.
  • Если вход - +3, то выход 3,0.

Вот сюжет Relu:

Декартов график из двух линий. В первой строке есть константа           значение y, равное 0, вдоль оси X от -бесконечности,0 до 0,-0.           Вторая строка начинается с 0,0. Эта линия имеет наклон +1, поэтому           он работает от 0,0 до +бесконечности,+бесконечности.

Relu - очень популярная функция активации. Несмотря на свое простое поведение, Relu по -прежнему позволяет нейронной сети изучать нелинейные отношения между функциями и меткой .

регрессионная модель

#основы

Неофициально модель, которая генерирует числовой прогноз. (Напротив, классификационная модель генерирует прогноз класса.) Например, все приведены регрессионные модели:

  • Модель, которая предсказывает ценность определенного дома в евро, такую ​​как 423 000.
  • Модель, которая предсказывает ожидаемую продолжительность жизни определенного дерева за последние годы, например, 23,2.
  • Модель, которая предсказывает количество дождя в дюймах, которое в течение следующих шести часов упадет в определенном городе, например, 0,18.

Два распространенных типа регрессионных моделей:

  • Линейная регрессия , которая находит линию, которая наилучшим образом соответствует значениям метки для функций.
  • Логистическая регрессия , которая генерирует вероятность от 0,0 до 1,0, которую обычно система отображается с прогнозом класса.

Не каждая модель, которая выводит численные прогнозы, является регрессионной моделью. В некоторых случаях числовое предсказание - это просто классификационная модель, которая имеет числовые имена классов. Например, модель, которая прогнозирует числовой почтовый код, является классификационной моделью, а не регрессионной моделью.

регуляризация

#основы

Любой механизм, который уменьшает переосмысление . Популярные типы регуляризации включают:

Ретализация также может быть определена как штраф о сложности модели.

Уровень регуляризации

#основы

Число, которое указывает относительную важность регуляризации во время обучения. Повышение уровня регуляризации уменьшает переосмысление , но может уменьшить прогнозирующую силу модели. И наоборот, снижение или пропущение уровня регуляризации увеличивает переосмысление.

РеЛУ

#основы

Аббревиатура для исправленной линейной единицы .

Поколение поиска (RAG) (RAG)

#основы

Метод улучшения качества модели крупной языковой модели (LLM), заземляя его источниками знаний, полученных после обучения модели. RAG повышает точность ответов LLM, предоставляя обученную LLM доступ к информации, полученной из доверенных баз или документов знаний.

Общие мотивы для использования поколения в поисках-августа включают в себя:

  • Увеличение фактической точности генерируемых ответов модели.
  • Предоставляя модели доступ к знаниям, на которые он не был обучен.
  • Изменение знаний, которые использует модель.
  • Позволяя модели цитировать источники.

Например, предположим, что химическое приложение использует API PALM для генерации резюме, связанных с запросами пользователя. Когда бэкэнд приложения получает запрос, бэкэнд:

  1. Поиск данных («Reties»), которые имеют отношение к запросу пользователя.
  2. Прилагается («увеличивает») соответствующие данные химии к запросу пользователя.
  3. Инструктирует LLM создать сводку на основе добавленных данных.

Кривая ROC (операционная характеристика приемника)

#основы

График истинной положительной скорости и ложной положительной скорости для различных порогов классификации в бинарной классификации.

Форма кривой ROC предполагает способность бинарной классификационной модели отделять положительные классы от негативных классов. Предположим, например, что модель бинарной классификации идеально отделяет все отрицательные классы от всех положительных классов:

Номерная строка с 8 положительными примерами на правой стороне и           7 отрицательных примеров слева.

Кривая ROC для предыдущей модели выглядит следующим образом:

Кривая ROC. Ось X является ложной положительной скоростью и осью Y           это истинный положительный показатель. Кривая имеет инвертированную форму L. Кривая           начинается с (0,0,0,0) и идет прямо до (0,0,1,0). Тогда кривая           переходит от (0,0,1,0) до (1,0,1,0).

Напротив, в следующих иллюстрации графики значения необработанной логистической регрессии для ужасной модели, которая вообще не может отделить отрицательные классы от положительных классов:

Числовая строка с положительными примерами и отрицательными классами           Полностью смешан.

Кривая ROC для этой модели выглядит следующим образом:

Кривая ROC, которая на самом деле является прямой линией от (0,0,0,0)           к (1,0,1,0).

Между тем, в реальном мире большинство моделей бинарной классификации в некоторой степени разделяют положительные и отрицательные классы, но обычно не совсем идеально. Итак, типичная кривая ROC падает где -то между двумя крайностями:

Кривая ROC. Ось X является ложной положительной скоростью и осью Y           это истинный положительный показатель. Кривая ROC приближается к шаткой дуге           переселение точек компаса с запада на север.

Точка на кривой ROC, ближайшей к (0,0,1,0), теоретически идентифицирует идеальный порог классификации. Тем не менее, несколько других реальных проблем влияют на выбор идеального порога классификации. Например, возможно, ложные негативы вызывают гораздо большую боль, чем ложные позитивы.

Численная метрика, называемая AUC, суммирует кривую ROC в единое значение с плавающей точкой.

Средняя ошибка в квадрате корня (RMSE)

#основы

Квадратный корень средней квадратной ошибки .

С

сигмоидальная функция

#основы

Математическая функция, которая «сжимает» входное значение в ограниченный диапазон, обычно от 0 до 1 или от -1 до +1. То есть вы можете передать любому числу (два, миллион, отрицательный миллиард, что угодно) к сигмоиду, и выход по -прежнему будет находиться в ограниченном диапазоне. График сигмовидной функции активации выглядит следующим образом:

Двумерный изогнутый график со значениями x, охватывающими область.           от -бесконечности до +положительного, а значения y охватывают диапазон от почти 0 до           почти 1. Когда x равен 0, y равен 0,5. Наклон кривой всегда           положительный, с наибольшим наклоном 0,0,5 и постепенно уменьшающимся           наклоны по мере увеличения абсолютного значения x.

Сигмоидальная функция имеет несколько применений в машинном обучении, в том числе:

Softmax

#основы

Функция, которая определяет вероятности для каждого возможного класса в многоклассной классификационной модели . Вероятности составляют ровно 1,0. Например, в следующей таблице показано, как SoftMax распределяет различные вероятности:

Изображение ... Вероятность
собака .85
кот .13
лошадь .02

Softmax также называется Full Softmax .

Сравните с выборкой кандидатов .

редкая функция

#язык
#основы

Функция , значения которых преимущественно нулевые или пустые. Например, функция, содержащая единое значение 1, и значения миллиона 0, является редкой. Напротив, плотная функция имеет значения, которые преимущественно не являются нулевыми или пустыми.

В машинном обучении неожиданное количество функций - редкие функции. Категориальные особенности обычно являются редкими функциями. Например, из 300 возможных видов деревьев в лесу один пример может идентифицировать только кленовое дерево . Или из миллионов возможных видео в видео библиотеке, один пример может идентифицировать только «Касабланку».

В модели вы, как правило, представляете редкие функции с однократным кодированием . If the one-hot encoding is big, you might put an embedding layer on top of the one-hot encoding for greater efficiency.

sparse representation

#язык
#основы

Storing only the position(s) of nonzero elements in a sparse feature.

For example, suppose a categorical feature named species identifies the 36 tree species in a particular forest. Further assume that each example identifies only a single species.

You could use a one-hot vector to represent the tree species in each example. A one-hot vector would contain a single 1 (to represent the particular tree species in that example) and 35 0 s (to represent the 35 tree species not in that example). So, the one-hot representation of maple might look something like the following:

A vector in which positions 0 through 23 hold the value 0, position
          24 holds the value 1, and positions 25 through 35 hold the value 0.

Alternatively, sparse representation would simply identify the position of the particular species. If maple is at position 24, then the sparse representation of maple would simply be:

24

Notice that the sparse representation is much more compact than the one-hot representation.

sparse vector

#основы

A vector whose values are mostly zeroes. See also sparse feature and sparsity .

squared loss

#основы

Synonym for L 2 loss .

статический

#основы

Something done once rather than continuously. The terms static and offline are synonyms. The following are common uses of static and offline in machine learning:

  • static model (or offline model ) is a model trained once and then used for a while.
  • static training (or offline training ) is the process of training a static model.
  • static inference (or offline inference ) is a process in which a model generates a batch of predictions at a time.

Contrast with dynamic .

static inference

#основы

Synonym for offline inference .

stationarity

#основы

A feature whose values don't change across one or more dimensions, usually time. For example, a feature whose values look about the same in 2021 and 2023 exhibits stationarity.

In the real world, very few features exhibit stationarity. Even features synonymous with stability (like sea level) change over time.

Contrast with nonstationarity .

stochastic gradient descent (SGD)

#основы

A gradient descent algorithm in which the batch size is one. In other words, SGD trains on a single example chosen uniformly at random from a training set .

supervised machine learning

#основы

Training a model from features and their corresponding labels . Supervised machine learning is analogous to learning a subject by studying a set of questions and their corresponding answers. After mastering the mapping between questions and answers, a student can then provide answers to new (never-before-seen) questions on the same topic.

Compare with unsupervised machine learning .

synthetic feature

#основы

A feature not present among the input features, but assembled from one or more of them. Methods for creating synthetic features include the following:

  • Bucketing a continuous feature into range bins.
  • Creating a feature cross .
  • Multiplying (or dividing) one feature value by other feature value(s) or by itself. For example, if a and b are input features, then the following are examples of synthetic features:
    • аб
    • 2
  • Applying a transcendental function to a feature value. For example, if c is an input feature, then the following are examples of synthetic features:
    • sin(c)
    • ln(c)

Features created by normalizing or scaling alone are not considered synthetic features.

Т

test loss

#основы

A metric representing a model's loss against the test set . When building a model , you typically try to minimize test loss. That's because a low test loss is a stronger quality signal than a low training loss or low validation loss .

A large gap between test loss and training loss or validation loss sometimes suggests that you need to increase the regularization rate .

обучение

#основы

The process of determining the ideal parameters (weights and biases) comprising a model . During training, a system reads in examples and gradually adjusts parameters. Training uses each example anywhere from a few times to billions of times.

training loss

#основы

A metric representing a model's loss during a particular training iteration. For example, suppose the loss function is Mean Squared Error . Perhaps the training loss (the Mean Squared Error) for the 10th iteration is 2.2, and the training loss for the 100th iteration is 1.9.

A loss curve plots training loss versus the number of iterations. A loss curve provides the following hints about training:

  • A downward slope implies that the model is improving.
  • An upward slope implies that the model is getting worse.
  • A flat slope implies that the model has reached convergence .

For example, the following somewhat idealized loss curve shows:

  • A steep downward slope during the initial iterations, which implies rapid model improvement.
  • A gradually flattening (but still downward) slope until close to the end of training, which implies continued model improvement at a somewhat slower pace then during the initial iterations.
  • A flat slope towards the end of training, which suggests convergence.

The plot of training loss versus iterations. This loss curve starts
     with a steep downward slope. The slope gradually flattens until the
     slope becomes zero.

Although training loss is important, see also generalization .

training-serving skew

#основы

The difference between a model's performance during training and that same model's performance during serving .

обучающий набор

#основы

The subset of the dataset used to train a model .

Traditionally, examples in the dataset are divided into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

true negative (TN)

#основы

An example in which the model correctly predicts the negative class . For example, the model infers that a particular email message is not spam , and that email message really is not spam .

true positive (TP)

#fundamentals

An example in which the model correctly predicts the positive class . For example, the model infers that a particular email message is spam, and that email message really is spam.

true positive rate (TPR)

#основы

Synonym for recall . То есть:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

True positive rate is the y-axis in an ROC curve .

ты

underfitting

#fundamentals

Producing a model with poor predictive ability because the model hasn't fully captured the complexity of the training data. Many problems can cause underfitting, including:

unlabeled example

#основы

An example that contains features but no label . For example, the following table shows three unlabeled examples from a house valuation model, each with three features but no house value:

Количество спален Количество ванных комнат House age
3 2 15
2 1 72
4 2 34

In supervised machine learning , models train on labeled examples and make predictions on unlabeled examples .

In semi-supervised and unsupervised learning, unlabeled examples are used during training.

Contrast unlabeled example with labeled example .

unsupervised machine learning

#кластеризация
#основы

Training a model to find patterns in a dataset, typically an unlabeled dataset.

The most common use of unsupervised machine learning is to cluster data into groups of similar examples. For example, an unsupervised machine learning algorithm can cluster songs based on various properties of the music. The resulting clusters can become an input to other machine learning algorithms (for example, to a music recommendation service). Clustering can help when useful labels are scarce or absent. For example, in domains such as anti-abuse and fraud, clusters can help humans better understand the data.

Contrast with supervised machine learning .

В

проверка

#fundamentals

The initial evaluation of a model's quality. Validation checks the quality of a model's predictions against the validation set .

Because the validation set differs from the training set , validation helps guard against overfitting .

You might think of evaluating the model against the validation set as the first round of testing and evaluating the model against the test set as the second round of testing.

validation loss

#fundamentals

A metric representing a model's loss on the validation set during a particular iteration of training.

See also generalization curve .

validation set

#fundamentals

The subset of the dataset that performs initial evaluation against a trained model . Typically, you evaluate the trained model against the validation set several times before evaluating the model against the test set .

Traditionally, you divide the examples in the dataset into the following three distinct subsets:

Ideally, each example in the dataset should belong to only one of the preceding subsets. For example, a single example shouldn't belong to both the training set and the validation set.

Вт

масса

#fundamentals

A value that a model multiplies by another value. Training is the process of determining a model's ideal weights; inference is the process of using those learned weights to make predictions.

weighted sum

#fundamentals

The sum of all the relevant input values multiplied by their corresponding weights. For example, suppose the relevant inputs consist of the following:

входное значение входной вес
2 -1,3
-1 0,6
3 0,4

Таким образом, взвешенная сумма равна:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

A weighted sum is the input argument to an activation function .

З

Z-score normalization

#fundamentals

A scaling technique that replaces a raw feature value with a floating-point value representing the number of standard deviations from that feature's mean. For example, consider a feature whose mean is 800 and whose standard deviation is 100. The following table shows how Z-score normalization would map the raw value to its Z-score:

Raw value Z-score
800 0
950 +1.5
575 -2,25

The machine learning model then trains on the Z-scores for that feature instead of on the raw values.