Эта страница переведена с помощью Cloud Translation API.

Глоссарий машинного обучения: метрики

Эта страница содержит термины глоссария «Метрика». Все термины глоссария можно найти здесь .

А

точность

#основы

#Метрика

Количество правильных предсказаний классификации, делённое на общее количество предсказаний. То есть:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Например, модель, которая сделала 40 правильных прогнозов и 10 неправильных прогнозов, будет иметь точность:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Бинарная классификация предусматривает специальные обозначения для различных категорий правильных и неправильных предсказаний . Таким образом, формула точности для бинарной классификации выглядит следующим образом:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

где:

TP — количество истинно положительных результатов (правильных предсказаний).
TN — количество истинно отрицательных результатов (правильных предсказаний).
FP — количество ложноположительных результатов (неверных предсказаний).
FN — количество ложноотрицательных результатов (неверных предсказаний).

Сравните и сопоставьте точность с точностью и полнотой .

Щелкните значок, чтобы получить подробную информацию о точности и несбалансированности классов наборов данных.

Хотя точность и является ценной метрикой в некоторых ситуациях, в других она может быть весьма обманчивой. В частности, точность обычно не подходит для оценки моделей классификации, обрабатывающих несбалансированные по классам наборы данных .

Например, предположим, что в некоем субтропическом городе снег идёт всего 25 дней в столетие. Поскольку количество дней без снега (отрицательный класс) значительно превышает количество дней со снегом (положительный класс), набор данных о снеге для этого города несбалансирован по классам. Представьте себе бинарную модель классификации , которая должна предсказывать либо снег, либо его отсутствие каждый день, но просто предсказывает «нет снега». Эта модель высокоточна, но не обладает предсказательной силой. В следующей таблице представлены результаты прогнозов за столетие:

Категория	Число
ТП	0
Теннесси	36499
ФП	0
ФН	25

Точность этой модели, таким образом, составляет:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Хотя точность в 99,93% кажется весьма впечатляющим показателем, на самом деле модель не обладает предсказательной силой.

Точность и полнота обычно являются более полезными показателями, чем точность, для оценки моделей, обученных на наборах данных с несбалансированным классом.

Для получения дополнительной информации см. раздел Классификация: точность, полнота, достоверность и связанные с ними показатели в ускоренном курсе по машинному обучению.

площадь под кривой PR

#Метрика

См. PR AUC (площадь под кривой PR) .

площадь под кривой ROC

#Метрика

См. AUC (площадь под ROC-кривой) .

AUC (площадь под ROC-кривой)

#основы

#Метрика

Число от 0,0 до 1,0, представляющее способность модели бинарной классификации разделять положительные и отрицательные классы . Чем ближе значение AUC к 1,0, тем лучше модель способна разделять классы.

Например, на следующем рисунке показана модель классификации , которая идеально разделяет положительные классы (зелёные овалы) и отрицательные классы (фиолетовые прямоугольники). Эта нереалистично идеальная модель имеет AUC, равную 1,0:

Числовая прямая с 8 положительными примерами с одной стороны и 9 отрицательными примерами с другой стороны.

Напротив, на следующем рисунке показаны результаты для модели классификации , генерирующей случайные результаты. Эта модель имеет AUC 0,5:

Числовая прямая с 6 положительными примерами и 6 отрицательными примерами. Последовательность примеров: положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, положительный, отрицательный, отрицательный, положительный, отрицательный.

Да, предыдущая модель имела AUC 0,5, а не 0,0.

Большинство моделей находятся где-то между двумя крайностями. Например, следующая модель в некоторой степени разделяет положительные и отрицательные результаты, поэтому её AUC находится где-то между 0,5 и 1,0:

Числовая прямая с 6 положительными примерами и 6 отрицательными примерами. Последовательность примеров: отрицательный, отрицательный, отрицательный, отрицательный, положительный, отрицательный, положительный, положительный, отрицательный, положительный, положительный.

AUC игнорирует любое заданное вами значение порога классификации . Вместо этого AUC учитывает все возможные пороги классификации.

Нажмите на значок, чтобы узнать о взаимосвязи между кривыми AUC и ROC.

AUC представляет собой площадь под ROC-кривой . Например, ROC-кривая для модели, которая идеально разделяет положительные и отрицательные значения, выглядит следующим образом:

AUC — это площадь серой области на предыдущей иллюстрации. В этом необычном случае площадь равна просто длине серой области (1,0), умноженной на ширину серой области (1,0). Таким образом, произведение 1,0 и 1,0 даёт AUC, равную ровно 1,0, что является максимально возможным значением AUC.

Напротив, ROC-кривая для модели классификации , которая вообще не может разделить классы, выглядит следующим образом. Площадь этой серой области равна 0,5.

Более типичная кривая ROC выглядит примерно так:

Расчет площади под этой кривой вручную потребовал бы больших усилий, поэтому обычно большую часть значений AUC рассчитывает программа.

Нажмите на значок, чтобы увидеть более формальное определение AUC.

AUC — это вероятность того, что модель классификации будет более уверена в том, что случайно выбранный положительный пример действительно является положительным, чем в том, что случайно выбранный отрицательный пример является положительным.

Для получения дополнительной информации см. раздел Классификация: ROC и AUC в ускоренном курсе по машинному обучению.

средняя точность при k

#Метрика

Метрика для суммирования эффективности модели по одному запросу, генерирующая ранжированные результаты, например, нумерованный список рекомендуемых книг. Средняя точность при k — это, по сути, среднее значение точности при k для каждого релевантного результата. Таким образом, формула для средней точности при k выглядит следующим образом:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

где:

$n$ — это количество соответствующих элементов в списке.

Сравните с отзывом в точке k .

Нажмите на значок, чтобы увидеть пример.

Предположим, что большой языковой модели задан следующий запрос:

List the 6 funniest movies of all time in order.

А большая языковая модель возвращает следующий список:

Генерал
Дрянные девчонки
Взвод
Подружки невесты
Гражданин Кейн
Это спинномозговая пункция

Четыре фильма из полученного списка очень смешные (то есть релевантные), но два — драмы (не релевантные). Результаты представлены в следующей таблице:

Позиция	Фильм	Соответствующий?	Точность при k
1	Генерал	Да	1.0
2	Дрянные девчонки	Да	1.0
3	Взвод	Нет	не актуально
4	Подружки невесты	Да	0,75
5	Гражданин Кейн	Нет	не актуально
6	Это спинномозговая пункция	Да	0,67

Число релевантных результатов равно 4. Следовательно, среднюю точность при 6 можно рассчитать следующим образом:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$$${\text{average precision at 6}} = {\text{~0.85} } $$

Б

базовый уровень

#Метрика

Модель, используемая в качестве точки отсчёта для сравнения эффективности другой модели (обычно более сложной). Например, модель логистической регрессии может служить хорошей основой для глубокой модели .

Для конкретной проблемы базовый уровень помогает разработчикам моделей количественно оценить минимальную ожидаемую производительность, которую должна достичь новая модель, чтобы она была полезной.

С

расходы

#Метрика

Синоним слова «потеря» .

контрфактуальная справедливость

#ответственный

#Метрика

Метрика справедливости , которая проверяет, даёт ли модель классификации тот же результат для одного человека, что и для другого, идентичного первому, за исключением одного или нескольких чувствительных атрибутов . Оценка модели классификации на контрфактическую справедливость — один из методов выявления потенциальных источников смещения в модели.

Более подробную информацию можно найти в одном из следующих источников:

Справедливость: контрфактуальная справедливость в ускоренном курсе по машинному обучению.
Когда миры сталкиваются: интеграция различных контрфактуальных предположений в справедливость

кросс-энтропия

#Метрика

Обобщение логарифмической модели потерь для задач многоклассовой классификации . Перекрёстная энтропия количественно определяет разницу между двумя распределениями вероятностей. См. также «perplexity» (загадочность) .

кумулятивная функция распределения (CDF)

#Метрика

Функция, определяющая частоту выборок, меньших или равных целевому значению. Например, рассмотрим нормальное распределение непрерывных значений. Функция распределения (CDF) показывает, что примерно 50% выборок должны быть меньше или равны среднему значению, а примерно 84% выборок должны быть меньше или равны одному стандартному отклонению от среднего значения.

Д

демографический паритет

#ответственный

#Метрика

Метрика справедливости , которая выполняется, если результаты классификации модели не зависят от заданного чувствительного атрибута .

Например, если и лилипуты, и бробдингнегцы подают заявления в университет Глаббдабдриб, демографический паритет достигается, если процент принятых лилипутов совпадает с процентом принятых бробдингнегцев, независимо от того, является ли одна группа в среднем более квалифицированной, чем другая.

Сравните с уравненными шансами и равенством возможностей , которые допускают зависимость результатов классификации в совокупности от чувствительных атрибутов, но не допускают зависимости результатов классификации для определённых меток истинности от чувствительных атрибутов. Визуализацию, демонстрирующую компромиссы при оптимизации для достижения демографического паритета, см. в разделе «Борьба с дискриминацией с помощью более интеллектуального машинного обучения».

Для получения дополнительной информации см. раздел «Справедливость: демографический паритет» в учебном курсе по машинному обучению.

Э

расстояние землеройной машины (EMD)

#Метрика

Мера относительного сходства двух распределений . Чем меньше расстояние между землеройными машинами, тем больше сходства распределений.

расстояние редактирования

#Метрика

Мера схожести двух текстовых строк. В машинном обучении расстояние редактирования полезно по следующим причинам:

Расстояние редактирования легко вычислить.
Расстояние редактирования позволяет сравнивать две строки, заведомо похожие друг на друга.
Расстояние редактирования может определить степень, в которой различные строки похожи на заданную строку.

Существует несколько определений расстояния редактирования, каждое из которых использует различные строковые операции. См. пример расстояния Левенштейна .

эмпирическая кумулятивная функция распределения (eCDF или EDF)

#Метрика

Кумулятивная функция распределения , основанная на эмпирических измерениях реального набора данных. Значение функции в любой точке оси X представляет собой долю наблюдений в наборе данных, которые меньше или равны заданному значению.

энтропия

#дф

#Метрика

В теории информации — описание непредсказуемости распределения вероятностей. В качестве альтернативы, энтропия также определяется как количество информации, содержащейся в каждом примере . Распределение имеет максимально возможную энтропию, когда все значения случайной величины равновероятны.

Энтропия набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) имеет следующую формулу:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

где:

H — энтропия.
p — доля примеров «1».
q — доля примеров, равных нулю. Обратите внимание, что q = (1 - p).
Логарифм обычно равен логарифму _2. В данном случае единицей измерения энтропии является бит.

Например, предположим следующее:

100 примеров содержат значение «1»
300 примеров содержат значение «0»

Следовательно, значение энтропии равно:

р = 0,25
q = 0,75
H = (-0,25)log ₂ (0,25) - (0,75)log ₂ (0,75) = 0,81 бита на пример

Идеально сбалансированный набор (например, 200 нулей и 200 единиц) будет иметь энтропию 1,0 бит на экземпляр. По мере того, как набор становится более несбалансированным , его энтропия стремится к 0,0.

В деревьях решений энтропия помогает сформулировать прирост информации , чтобы помочь разделителю выбрать условия в процессе роста дерева решений классификации.

Сравните энтропию с:

примесь джини
функция потерь кросс-энтропии

Энтропию часто называют энтропией Шеннона .

Дополнительную информацию см. в разделе Точный разделитель для бинарной классификации с числовыми признаками в курсе «Леса решений».

равенство возможностей

#ответственный

#Метрика

Метрика справедливости, позволяющая оценить, одинаково ли хорошо модель предсказывает желаемый результат для всех значений чувствительного атрибута . Другими словами, если желаемым результатом модели является положительный класс , целью будет достижение одинаковой истинной положительной частоты для всех групп.

Равенство возможностей связано с уравниванием шансов , что требует, чтобы как истинно положительные показатели, так и ложноположительные показатели были одинаковыми для всех групп.

Предположим, что Университет Глаббдабдриб принимает как лилипутов, так и бробдингнегцев на сложную программу обучения математике. Средние школы лилипутов предлагают насыщенную программу занятий по математике, и подавляющее большинство учащихся имеют право поступить в университет. В средних школах бробдингнегцев математика вообще не преподаётся, и в результате гораздо меньше их учеников имеют право поступить. Равенство возможностей для предпочтительного статуса «зачислен» по национальности (лилипут или бробдингнегец) соблюдается, если учащиеся, соответствующие требованиям, имеют одинаковую вероятность быть зачисленными независимо от того, являются ли они лилипутами или бробдингнегцами.

Например, предположим, что 100 лилипутов и 100 бробдингнегцев подают заявления в университет Глаббдабдриб, и решения о приеме принимаются следующим образом:

Таблица 1. Кандидаты-лилипуты (90% имеют квалификацию)

	Квалифицированный	Неквалифицированный
Допущенный	45	3
Отклоненный	45	7
Общий	90	10
Процент принятых квалифицированных студентов: 45/90 = 50% Процент отклоненных неквалифицированных студентов: 7/10 = 70% Общий процент принятых студентов-лилипутов: (45+3)/100 = 48%

Таблица 2. Кандидаты из Бробдингнега (10% соответствуют требованиям):

	Квалифицированный	Неквалифицированный
Допущенный	5	9
Отклоненный	5	81
Общий	10	90
Процент принятых квалифицированных студентов: 5/10 = 50% Процент отклоненных неквалифицированных студентов: 81/90 = 90% Общий процент принятых студентов Бробдингнега: (5+9)/100 = 14%

Приведенные выше примеры подтверждают равенство возможностей для приема квалифицированных студентов, поскольку как квалифицированные лилипуты, так и бробдингнегцы имеют 50% шанс быть принятыми.

Хотя равенство возможностей соблюдается, следующие два показателя справедливости не соблюдаются:

Демографический паритет : лилипуты и бробдингнегцы поступают в университет с разной частотой: из числа лилипутов поступает 48%, а из числа бробдингнегцев — только 14%.
Уравненные шансы : хотя квалифицированные лилипуты и бробдингнегцы имеют равные шансы на поступление, дополнительное ограничение, согласно которому неквалифицированные лилипуты и бробдингнегцы имеют равные шансы на отчисление, не выполняется. У неквалифицированных лилипутов процент отчисления составляет 70%, тогда как у неквалифицированных бробдингнегцев — 90%.

Для получения дополнительной информации см. статью Справедливость: равенство возможностей в ускоренном курсе по машинному обучению.

уравняли шансы

#ответственный

#Метрика

Метрика справедливости, позволяющая оценить, одинаково ли хорошо модель предсказывает результаты для всех значений чувствительного атрибута как в положительном , так и в отрицательном классе , а не только в одном из них. Другими словами, как истинно положительные , так и ложноотрицательные результаты должны быть одинаковыми для всех групп.

Уравненные шансы связаны с равенством возможностей , которое фокусируется только на частоте ошибок для одного класса (положительного или отрицательного).

Например, предположим, что Университет Глаббдабдриб принимает как лилипутов, так и бробдингнегцев на сложную программу по математике. Средние школы лилипутов предлагают насыщенную программу по математике, и подавляющее большинство учащихся имеют право поступить в университет. В средних школах бробдингнегцев математика вообще не преподаётся, и, как следствие, гораздо меньше их учеников имеют право поступить. Уравнение шансов выполняется при условии, что независимо от того, является ли абитуриент лилипутом или бробдингнегцем, если он имеет право, он с равной вероятностью будет зачислен в программу, а если нет, то с равной вероятностью будет отчислен.

Предположим, что 100 лилипутов и 100 бробдингнегцев подают заявления в университет Глаббдабдриб, и решения о приеме принимаются следующим образом:

Таблица 3. Кандидаты-лилипуты (90% имеют квалификацию)

	Квалифицированный	Неквалифицированный
Допущенный	45	2
Отклоненный	45	8
Общий	90	10
Процент принятых квалифицированных студентов: 45/90 = 50% Процент отклоненных неквалифицированных студентов: 8/10 = 80% Общий процент принятых студентов-лилипутов: (45+2)/100 = 47%

Таблица 4. Кандидаты из Бробдингнега (10% соответствуют требованиям):

	Квалифицированный	Неквалифицированный
Допущенный	5	18
Отклоненный	5	72
Общий	10	90
Процент принятых квалифицированных студентов: 5/10 = 50% Процент отклоненных неквалифицированных студентов: 72/90 = 80% Общий процент принятых студентов Бробдингнега: (5+18)/100 = 23%

Уравнивание шансов выполняется, поскольку квалифицированные лилипуты и бробдингнегцы имеют 50% шанс быть принятыми, а неквалифицированные лилипуты и бробдингнегцы имеют 80% шанс быть отвергнутыми.

Выровненные шансы формально определены в «Равенстве возможностей в контролируемом обучении» следующим образом: «предиктор Ŷ удовлетворяет выровненным шансам относительно защищенного атрибута A и результата Y, если Ŷ и A независимы и зависят от Y».

оценки

#generativeAI

#Метрика

В основном используется как сокращение для обозначения оценок LLM . В более широком смысле, evals — это сокращение для любой формы оценки .

оценка

#generativeAI

#Метрика

Процесс измерения качества модели или сравнения различных моделей друг с другом.

Чтобы оценить модель машинного обучения с учителем , её обычно сравнивают с проверочным и тестовым наборами . Оценка степени магистра права (LLM) обычно включает более широкие оценки качества и безопасности.

Ф

Ф ₁

#Метрика

«Свёрнутая» бинарная метрика классификации , основанная как на точности , так и на полноте . Вот формула:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Нажмите на значок, чтобы увидеть примеры.

Предположим, что точность и полнота имеют следующие значения:

точность = 0,6
отзыв = 0,4

F ₁ рассчитывается следующим образом:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Когда точность и полнота достаточно близки (как в предыдущем примере), _F1 близок к их среднему значению. Если точность и полнота значительно различаются, _F1 ближе к нижнему значению. Например:

точность = 0,9
отзыв = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

метрика справедливости

#ответственный

#Метрика

Математическое определение «справедливости», поддающееся измерению. Некоторые часто используемые показатели справедливости включают:

уравняли шансы
предиктивная четность
контрфактуальная справедливость
демографический паритет

Многие показатели справедливости являются взаимоисключающими; см. несовместимость показателей справедливости .

ложноотрицательный результат (ЛО)

#основы

#Метрика

Пример, в котором модель ошибочно предсказывает отрицательный класс . Например, модель предсказывает, что конкретное сообщение электронной почты не является спамом (отрицательный класс), но на самом деле это сообщение электронной почты является спамом .

ложноотрицательный показатель

#Метрика

Доля фактических положительных примеров, для которых модель ошибочно предсказала отрицательный класс. Следующая формула рассчитывает долю ложноотрицательных результатов:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Дополнительную информацию см. в разделе «Пороговые значения и матрица путаницы» курса «Ускоренный курс по машинному обучению».

ложноположительный результат (ЛП)

#основы

#Метрика

Пример, в котором модель ошибочно предсказывает положительный класс . Например, модель предсказывает, что конкретное сообщение электронной почты является спамом (положительный класс), но на самом деле это сообщение электронной почты спамом не является.

частота ложноположительных результатов (FPR)

#основы

#Метрика

Доля фактических отрицательных примеров, для которых модель ошибочно предсказала положительный класс. Следующая формула рассчитывает долю ложноположительных результатов:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Показатель ложноположительных результатов — это ось x на ROC-кривой .

важность функций

#дф

#Метрика

Синоним переменных важностей .

модель фундамента

#generativeAI

#Метрика

Очень большая предобученная модель, обученная на огромном и разнообразном обучающем наборе . Базовая модель может выполнять оба следующих действия:

Хорошо реагируют на широкий спектр запросов.
Служить базовой моделью для дополнительной тонкой настройки или других настроек.

Другими словами, базовая модель уже весьма функциональна в общем смысле, но ее можно дополнительно настроить, чтобы она стала еще более полезной для конкретной задачи.

доля успехов

#generativeAI

#Метрика

Метрика для оценки сгенерированного текста модели машинного обучения. Доля успешных результатов — это количество «успешных» сгенерированных текстовых результатов, делённое на общее количество сгенерированных текстовых результатов. Например, если большая языковая модель сгенерировала 10 блоков кода, пять из которых были успешными, то доля успешных результатов составит 50%.

Хотя доля успеха широко используется в статистике, в машинном обучении эта метрика в первую очередь полезна для измерения проверяемых задач, таких как генерация кода или решение математических задач.

Г

примесь джини

#дф

#Метрика

Метрика, аналогичная энтропии . Разделители используют значения, полученные либо из коэффициента Джини, либо из энтропии, для составления условий для деревьев решений классификации. Прирост информации определяется энтропией. Общепринятого эквивалентного термина для метрики, полученной из коэффициента Джини, не существует; однако эта безымянная метрика так же важна, как и прирост информации.

Примесь Джини также называется индексом Джини или просто Джини .

Нажмите на значок, чтобы получить математическую информацию о примеси Джини.

Примесь Джини — это вероятность ошибочной классификации нового фрагмента данных, взятого из того же распределения. Примесь Джини для набора с двумя возможными значениями «0» и «1» (например, метки в задаче бинарной классификации ) рассчитывается по следующей формуле:

Я = 1 - (p ² + q ² ) = 1 - (p ² + (1-p) ² )

где:

I — примесь Джини.
p — доля примеров «1».
q — доля примеров «0». Обратите внимание, что q = 1-p.

Например, рассмотрим следующий набор данных:

100 меток (0,25 набора данных) содержат значение «1».
300 меток (0,75 от набора данных) содержат значение «0».

Следовательно, примесь Джини равна:

р = 0,25
q = 0,75
Я = 1 - (0,25 ² + 0,75 ² ) = 0,375

Следовательно, случайная метка из того же набора данных будет иметь 37,5% вероятность неправильной классификации и 62,5% вероятность правильной классификации.

Идеально сбалансированная метка (например, 200 «0» и 200 «1») будет иметь примесь Джини 0,5. Сильно несбалансированная метка будет иметь примесь Джини, близкую к 0,0.

ЧАС

потеря шарнира

#Метрика

Семейство функций потерь для классификации , предназначенное для нахождения границы решения как можно дальше от каждого обучающего примера, тем самым максимизируя разницу между примерами и границей. KSVM используют функцию потери по оси (или родственную функцию, например, квадратичную функцию потери по оси). Для бинарной классификации функция потери по оси определяется следующим образом:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

где y — истинная метка, либо -1, либо +1, а y' — необработанный вывод модели классификации :

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Следовательно, график потери шарнира в зависимости от (y * y') выглядит следующим образом:

Декартов график, состоящий из двух соединённых отрезков. Первый отрезок начинается в точке (-3, 4) и заканчивается в точке (1, 0). Второй отрезок начинается в точке (1, 0) и продолжается бесконечно с наклоном, равным 0.

я

несовместимость показателей справедливости

#ответственный

#Метрика

Идея о том, что некоторые понятия справедливости несовместимы и не могут быть удовлетворены одновременно. В результате не существует единой универсальной метрики для количественной оценки справедливости, применимой ко всем задачам машинного обучения.

Хотя это может показаться обескураживающим, несовместимость метрик справедливости не означает, что усилия по обеспечению справедливости бесполезны. Напротив, это предполагает, что справедливость должна определяться в контексте конкретной проблемы машинного обучения с целью предотвращения вреда, характерного для конкретных вариантов её использования.

Более подробное обсуждение несовместимости показателей справедливости см. в разделе «О (не)возможности справедливости» .

индивидуальная справедливость

#ответственный

#Метрика

Метрика справедливости, которая проверяет, классифицируются ли похожие люди одинаково. Например, Бробдингнегская академия может стремиться к обеспечению индивидуальной справедливости, гарантируя, что два студента с одинаковыми оценками и результатами стандартизированных тестов будут иметь равные шансы на поступление.

Обратите внимание, что индивидуальная справедливость полностью зависит от того, как вы определяете «сходство» (в данном случае это оценки и результаты тестов), и вы рискуете столкнуться с новыми проблемами справедливости, если ваша метрика сходства не учитывает важную информацию (например, строгость учебной программы учащегося).

Более подробное обсуждение индивидуальной справедливости см. в статье «Справедливость через осознанность» .

получение информации

#дф

#Метрика

В лесах решений — разность между энтропией узла и взвешенной (по числу примеров) суммой энтропии его дочерних узлов. Энтропия узла — это энтропия примеров в этом узле.

Например, рассмотрим следующие значения энтропии:

Энтропия родительского узла = 0,6
Энтропия одного дочернего узла с 16 соответствующими примерами = 0,2
Энтропия другого дочернего узла с 24 соответствующими примерами = 0,1

Таким образом, 40% примеров находятся в одном дочернем узле, а 60% — в другом дочернем узле. Следовательно:

Сумма взвешенной энтропии дочерних узлов = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Итак, прирост информации составляет:

прирост информации = энтропия родительского узла - взвешенная сумма энтропии дочерних узлов
прирост информации = 0,6 - 0,14 = 0,46

Большинство разделителей стремятся создать условия , которые максимизируют получение информации.

межэкспертное соглашение

#Метрика

Показатель того, насколько часто оценщики-люди соглашаются друг с другом при выполнении задания. Если оценщики расходятся во мнениях, может потребоваться улучшение инструкций к заданию. Иногда также называется межаннотаторским согласием или межоценочной надёжностью . См. также каппу Коэна , которая является одним из самых популярных показателей межоценочного согласия.

Для получения дополнительной информации см. раздел Категориальные данные: распространенные проблемы в ускоренном курсе по машинному обучению.

Л

Потеря L ₁

#основы

#Метрика

Функция потерь , которая вычисляет абсолютное значение разницы между фактическими значениями на этикетке и значениями, предсказанными моделью . Например, вот расчёт потери _L1 для партии из пяти образцов :

Фактическое значение примера	Прогнозируемое значение модели	Абсолютное значение дельты
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = потеря _L1

Потеря L ₁ менее чувствительна к выбросам , чем потеря L ₂ .

Средняя абсолютная ошибка — это средняя потеря _L1 на пример.

Нажмите на значок, чтобы увидеть формальные математические вычисления.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

где:

$n$ — количество примеров.
$y$ — фактическое значение метки.
$\hat{y}$ — это значение, которое модель предсказывает для $y$.

Для получения дополнительной информации см. Линейная регрессия: экспресс-курс по потерям в машинном обучении.

потеря L ₂

#основы

#Метрика

Функция потерь , которая вычисляет квадрат разницы между фактическими значениями этикетки и значениями, предсказанными моделью . Например, вот расчёт потери _L2 для партии из пяти образцов :

Фактическое значение примера	Прогнозируемое значение модели	Квадрат дельты
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = потеря L ₂

Из-за возведения в квадрат, потери _L2 усиливают влияние выбросов . То есть, потери _L2 сильнее реагируют на неверные прогнозы, чем потери _L1 . Например, потери _L1 для предыдущей партии составили бы 8, а не 16. Обратите внимание, что один выброс составляет 9 из 16.

В моделях регрессии в качестве функции потерь обычно используется потеря _L2 .

Среднеквадратическая ошибка — это средний убыток _L2 для каждого примера. Квадратичный убыток — это другое название убытка _L2 .

Нажмите на значок, чтобы увидеть формальные математические вычисления.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

где:

$n$ — количество примеров.
$y$ — фактическое значение метки.
$\hat{y}$ — это значение, которое модель предсказывает для $y$.

Для получения дополнительной информации см. раздел Логистическая регрессия: потери и регуляризация в ускоренном курсе по машинному обучению.

Оценки LLM (evals)

#generativeAI

#Метрика

Набор метрик и контрольных показателей для оценки эффективности больших языковых моделей (LLM). На высоком уровне оценки LLM:

Помогите исследователям определить области, в которых необходимо улучшить работу LLM.
Полезны для сравнения различных программ LLM и определения лучшей программы LLM для конкретной задачи.
Помогите обеспечить безопасность и этичность использования программ LLM.

Для получения дополнительной информации см. Большие языковые модели (LLM) в Ускоренном курсе по машинному обучению.

потеря

#основы

#Метрика

В процессе обучения контролируемой модели мера того, насколько далеко предсказание модели от ее метки .

Функция потерь вычисляет потери.

функция потерь

#основы

#Метрика

Во время обучения или тестирования — математическая функция, которая вычисляет потери для набора примеров. Функция потерь возвращает меньшие потери для моделей, дающих хорошие прогнозы, чем для моделей, дающих плохие прогнозы.

Целью обучения обычно является минимизация потерь, возвращаемых функцией потерь.

Существует множество различных видов функций потерь. Выберите подходящую функцию потерь для типа модели, которую вы строите. Например:

Потеря L ₂ (или средняя квадратическая ошибка ) — это функция потерь для линейной регрессии .
Log Loss — это функция потерь для логистической регрессии .

М

Средняя абсолютная ошибка (MAE)

#Метрика

Средние потери на пример при использовании потерь L _1. Рассчитайте среднюю абсолютную погрешность следующим образом:

Рассчитайте потери L ₁ для партии.
Разделите потерю L ₁ на количество примеров в партии.

Нажмите на значок, чтобы увидеть формальные математические вычисления.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

где:

$n$ — количество примеров.
$y$ — фактическое значение метки.
$\hat{y}$ — это значение, которое модель предсказывает для $y$.

Например, рассмотрим расчет убытка L ₁ для следующей партии из пяти примеров:

Фактическое значение примера	Прогнозируемое значение модели	Убыток (разница между фактическим и прогнозируемым)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = потеря _L1

Итак, потеря _L1 равна 8, а количество примеров равно 5. Следовательно, средняя абсолютная ошибка равна:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Сравните среднюю абсолютную ошибку со средней квадратической ошибкой и среднеквадратической ошибкой .

средняя точность при k (mAP@k)

#generativeAI

#Метрика

Статистическое среднее значение всех средних значений точности при k в наборе данных проверки. Одним из применений средней точности при k является оценка качества рекомендаций, генерируемых рекомендательной системой .

Хотя словосочетание «среднее среднее» звучит избыточно, название метрики вполне уместно. Ведь эта метрика вычисляет среднее значение точности множественных средних при k значениях.

Нажмите на значок, чтобы увидеть пример.

Предположим, вы создаете систему рекомендаций, которая генерирует персонализированный список рекомендуемых романов для каждого пользователя. На основе отзывов выбранных пользователей вы рассчитываете следующие пять средних показателей точности при k баллах (один балл на пользователя):

0,73
0,77
0,67
0,82
0,76

Таким образом, средняя точность при К составляет:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Среднеквадратическая ошибка (MSE)

#Метрика

Средний убыток в каждом примере при использовании потерь _L2 . Рассчитайте среднюю квадратическую ошибку следующим образом:

Рассчитайте потери _L2 для партии.
Разделите потерю _L2 на количество примеров в партии.

Нажмите на значок, чтобы увидеть формальные математические вычисления.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$где:

$n$ — количество примеров.
$y$ — фактическое значение метки.
$\hat{y}$ — это прогноз модели для $y$.

Например, рассмотрим убыток по следующей партии из пяти образцов:

Фактическое значение	Прогноз модели	Потеря	Квадратный убыток
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = потеря L ₂

Таким образом, среднеквадратическая ошибка равна:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Среднеквадратическая ошибка — популярный оптимизатор обучения, особенно для линейной регрессии .

Сравните среднюю квадратическую ошибку со средней абсолютной ошибкой и среднеквадратической ошибкой .

TensorFlow Playground использует среднеквадратичную ошибку для расчета значений потерь.

Нажмите на значок, чтобы увидеть более подробную информацию о выбросах.

Выбросы сильно влияют на среднеквадратическую ошибку. Например, потеря 1 — это потеря в квадрате 1, а потеря 3 — это потеря в квадрате 9. В предыдущей таблице пример с потерей 3 составляет ~ 56% среднеквадратической ошибки, в то время как каждый из примеров с потерей 1 составляет только 6% среднеквадратической ошибки.

Выбросы не влияют на среднюю абсолютную ошибку так сильно, как на среднеквадратическую ошибку. Например, потеря 3 составляет лишь ~38% средней абсолютной ошибки.

Отсечение — это один из способов предотвратить повреждение прогнозирующих способностей вашей модели экстремальными выбросами.

метрика

#TensorFlow

#Метрика

Статистика, которая вас волнует.

Цель — это показатель, который система машинного обучения пытается оптимизировать.

API метрик (tf.metrics)

#Метрика

API TensorFlow для оценки моделей. Например, tf.metrics.accuracy определяет, как часто прогнозы модели соответствуют меткам.

минимаксные потери

#Метрика

Функция потерь для генеративно-состязательных сетей , основанная на перекрестной энтропии между распределением сгенерированных и реальных данных.

Минимаксные потери используются в первой статье для описания генеративно-состязательных сетей.

Дополнительную информацию см. в разделе «Функции потерь» в курсе «Генераторно-состязательные сети».

мощность модели

#Метрика

Сложность проблем, которые может изучить модель. Чем сложнее проблемы, которые может изучить модель, тем выше ее емкость. Емкость модели обычно увеличивается с увеличением количества параметров модели. Формальное определение емкости модели классификации см. в разделе «Измерение VC» .

Н

отрицательный класс

#основы

#Метрика

В бинарной классификации один класс называется положительным , а другой — отрицательным . Положительный класс — это вещь или событие, на которое тестируется модель, а отрицательный класс — это другая возможность. Например:

Отрицательный класс медицинского теста может быть «не опухоль».
Отрицательным классом в модели классификации электронной почты может быть «не спам».

Контраст с позитивным классом .

О

цель

#Метрика

Метрика , которую ваш алгоритм пытается оптимизировать.

целевая функция

#Метрика

Математическая формула или показатель , который призвана оптимизировать модель. Например, целевой функцией для линейной регрессии обычно является среднеквадратичная потеря . Следовательно, при обучении модели линейной регрессии цель обучения — минимизировать среднеквадратическую потерю.

В некоторых случаях целью является максимизация целевой функции. Например, если целевой функцией является точность, цель состоит в том, чтобы максимизировать точность.

См. также потерю .

П

пройти через k (pass@k)

#Метрика

Метрика для определения качества кода (например, Python), который генерирует большая языковая модель . Точнее говоря, проход по k говорит вам о вероятности того, что хотя бы один сгенерированный блок кода из k сгенерированных блоков кода пройдет все свои модульные тесты.

Большие языковые модели часто с трудом генерируют хороший код для решения сложных задач программирования. Инженеры-программисты адаптируются к этой проблеме, побуждая большую языковую модель генерировать несколько ( k ) решений для одной и той же проблемы. Затем инженеры-программисты тестируют каждое решение с помощью модульных тестов. Расчет прохода при k зависит от результатов модульных тестов:

Если одно или несколько из этих решений проходят модульный тест, то LLM успешно справляется с задачей генерации кода.
Если ни одно из решений не проходит модульный тест, то LLM не справляется с задачей генерации кода.

Формула прохода по k выглядит следующим образом:

\[\text{pass at k} = \frac{\text{total number of passes}} {\text{total number of challenges}}\]

В целом, более высокие значения k обеспечивают более высокую проходимость при k баллах; однако более высокие значения k требуют более крупных языковых моделей и ресурсов модульного тестирования.

Нажмите на значок, чтобы просмотреть пример.

Предположим, инженер-программист просит большую языковую модель сгенерировать k = 10 решений для n = 50 сложных задач кодирования. Вот результаты:

30 проходов
20 неудач

Таким образом, проход на 10 баллов:

$$\text{pass at 10} = \frac{\text{30}} {\text{50}} = 0.6$$

производительность

#Метрика

Перегруженный термин со следующими значениями:

Стандартное значение в разработке программного обеспечения. А именно: насколько быстро (или эффективно) работает эта программа?
Значение машинного обучения. Здесь производительность отвечает на следующий вопрос: насколько правильна эта модель ? То есть, насколько хороши предсказания модели?

permutation variable importances

#df

#Метрика

Тип важности переменной , которая оценивает увеличение ошибки прогнозирования модели после перестановки значений признака. Важность переменной перестановки — это метрика, независимая от модели.

недоумение

#Метрика

Один из показателей того, насколько хорошо модель выполняет свою задачу. Например, предположим, что ваша задача — прочитать первые несколько букв слова, которое пользователь набирает на клавиатуре телефона, и предложить список возможных слов-дополнений. Недоумение P для этой задачи — это примерно количество предположений, которые вам нужно предложить, чтобы ваш список содержал фактическое слово, которое пытается ввести пользователь.

Растерянность связана с перекрестной энтропией следующим образом:

$$P= 2^{-\text{cross entropy}}$$

позитивный класс

#основы

#Метрика

Класс, для которого вы тестируете.

Например, положительным классом в модели рака может быть «опухоль». Положительным классом в модели классификации электронной почты может быть «спам».

Сравните с отрицательным классом .

Нажмите на значок, чтобы просмотреть дополнительные примечания.

Термин «позитивный класс» может сбивать с толку, поскольку «положительный» результат многих тестов часто является нежелательным результатом. Например, положительный класс во многих медицинских тестах соответствует опухолям или заболеваниям. В общем, вы хотите, чтобы врач сказал вам: «Поздравляем! Результаты вашего анализа были отрицательными». В любом случае положительный класс — это событие, которое пытается обнаружить тест.

По общему признанию, вы одновременно проверяете как положительные, так и отрицательные классы.

PR AUC (площадь под кривой PR)

#Метрика

Площадь под интерполированной кривой точности-напоминаемости , полученной путем построения точек (напоминаемости, точности) для различных значений порога классификации .

точность

#основы

#Метрика

Метрика для моделей классификации , отвечающая на следующий вопрос:

Когда модель предсказала положительный класс , какой процент предсказаний оказался верным?

Вот формула:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

где:

истинно положительный результат означает, что модель правильно предсказала положительный класс.
ложное срабатывание означает, что модель ошибочно предсказала положительный класс.

Например, предположим, что модель сделала 200 положительных прогнозов. Из этих 200 положительных предсказаний:

150 из них были настоящими положительными.
50 оказались ложноположительными.

В этом случае:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Сравните с точностью и отзывом .

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и связанные с ними показатели» в ускоренном курсе машинного обучения.

точность при k (precision@k)

#Метрика

Метрика для оценки ранжированного (упорядоченного) списка элементов. Точность в k определяет долю первых k элементов в этом списке, которые являются «релевантными». То есть:

\[\text{precision at k} = \frac{\text{relevant items in first k items of the list}} {\text{k}}\]

Значение k должно быть меньше или равно длине возвращаемого списка. Обратите внимание, что длина возвращаемого списка не является частью расчета.

Релевантность часто бывает субъективной; даже эксперты -оценщики часто расходятся во мнениях относительно того, какие элементы являются релевантными.

Сравните с:

средняя точность при k
средняя средняя точность при k

Нажмите на значок, чтобы увидеть пример.

Предположим, что большая языковая модель получает следующий запрос:

List the 6 funniest movies of all time in order.

А модель большого языка возвращает список, показанный в первых двух столбцах следующей таблицы:

Позиция	Фильм	Соответствующий?
1	Генерал	Да
2	Дрянные девчонки	Да
3	Взвод	Нет
4	Подружки невесты	Да
5	Гражданин Кейн	Нет
6	Это Спинальная Тэп	Да

Два из первых трех фильмов актуальны, поэтому точность на уровне 3 равна:

$$\text{precision at 3} = \frac{\text{2}} {\text{3}} = 0.67$$

Три из первых пяти фильмов очень забавные, поэтому точность на 5:

$$\text{precision at 5} = \frac{\text{3}} {\text{5}} = 0.6$$

кривая точного отзыва

#Метрика

Кривая точности и полноты при различных порогах классификации .

смещение прогноза

#Метрика

Значение, указывающее, насколько далеко среднее значение прогнозов отличается от среднего значения меток в наборе данных.

Не путать с термином предвзятости в моделях машинного обучения или с предвзятостью в вопросах этики и справедливости .

прогнозируемая четность

#ответственный

#Метрика

Метрика справедливости , которая проверяет, эквивалентны ли для данной модели классификации уровни точности для рассматриваемых подгрупп.

Например, модель, предсказывающая поступление в колледж, будет удовлетворять прогнозному паритету национальности, если ее уровень точности одинаков для лилипутов и бробдингнегов.

Прогнозируемый паритет иногда также называют прогнозирующим паритетом ставок .

См. «Объяснение определений справедливости» (раздел 3.2.1) для более подробного обсуждения прогнозируемой четности.

прогнозируемый паритет ставок

#ответственный

#Метрика

Другое название прогнозирующей четности .

функция плотности вероятности

#Метрика

Функция, которая определяет частоту выборок данных, имеющих точно определенное значение. Если значения набора данных представляют собой непрерывные числа с плавающей запятой, точные совпадения встречаются редко. Однако интегрирование функции плотности вероятности от значения x до значения y дает ожидаемую частоту выборок данных между x и y .

Например, рассмотрим нормальное распределение, имеющее среднее значение 200 и стандартное отклонение 30. Чтобы определить ожидаемую частоту выборок данных, попадающих в диапазон от 211,4 до 218,7, вы можете проинтегрировать функцию плотности вероятности для нормального распределения от 211,4 до 218,7.

Р

отзывать

#основы

#Метрика

Метрика для моделей классификации , отвечающая на следующий вопрос:

Когда основной истиной был положительный класс , какой процент прогнозов модель правильно определила как положительный класс?

Вот формула:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

где:

истинно положительный результат означает, что модель правильно предсказала положительный класс.
ложноотрицательный означает, что модель ошибочно предсказала отрицательный класс .

Например, предположим, что ваша модель сделала 200 прогнозов на примерах, для которых основная истина была положительным классом. Из этих 200 предсказаний:

180 оказались настоящими положительными.
20 оказались ложноотрицательными.

В этом случае:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Щелкните значок, чтобы увидеть примечания о наборах данных с несбалансированным классом.

Напомним, особенно полезно для определения предсказательной силы классификационных моделей, в которых положительный класс встречается редко. Например, рассмотрим несбалансированный набор данных , в котором положительный класс определенного заболевания встречается только у 10 пациентов из миллиона. Предположим, ваша модель делает пять миллионов прогнозов, которые дают следующие результаты:

30 настоящих позитивов
20 ложноотрицательных результатов
4 999 000 истинно отрицательных результатов
950 ложных срабатываний

Таким образом, отзыв этой модели:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Напротив, точность этой модели:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Такое высокое значение точности выглядит впечатляюще, но по сути бессмысленно. Напомним, что для наборов данных с несбалансированным классом наборов данных гораздо более полезная метрика, чем точность.

Дополнительную информацию см. в разделе «Классификация: точность, полнота, прецизионность и соответствующие показатели» .

отзыв в k (recall@k)

#Метрика

Метрика для оценки систем, которые выводят ранжированный (упорядоченный) список элементов. Напомним, что k определяет долю релевантных элементов в первых k элементах этого списка из общего количества возвращенных релевантных элементов.

\[\text{recall at k} = \frac{\text{relevant items in first k items of the list}} {\text{total number of relevant items in the list}}\]

Сравните с точностью в k .

Нажмите на значок, чтобы увидеть пример.

Предположим, что большая языковая модель получает следующий запрос:

List the 10 funniest movies of all time in order.

А большая языковая модель возвращает список, показанный в первых двух столбцах:

Позиция	Фильм	Соответствующий?
1	Генерал	Да
2	Дрянные девчонки	Да
3	Взвод	Нет
4	Подружки невесты	Да
5	Это Спинальная Тэп	Да
6	Самолет!	Да
7	День сурка	Да
8	Монти Пайтон и Святой Грааль	Да
9	Оппенгеймер	Нет
10	Бестолковый	Да

Восемь фильмов из предыдущего списка очень смешные, поэтому они являются «релевантными пунктами в списке». Следовательно, 8 будет знаменателем во всех вычислениях отзыва при k . А что насчет числителя? Итак, 3 из первых 4 пунктов актуальны, поэтому напомним пункт 4:

$$\text{recall at 4} = \frac{\text{3}} {\text{8}} = 0.375$$

7 из первых 8 фильмов очень смешные, поэтому вспомните в 8:

$$\text{recall at 8} = \frac{\text{7}} {\text{8}} = 0.875$$

Кривая ROC (рабочая характеристика приемника)

#основы

#Метрика

График зависимости истинно положительного результата от ложноположительного для различных порогов классификации в бинарной классификации.

Форма кривой ROC предполагает способность модели бинарной классификации отделять положительные классы от отрицательных классов. Предположим, например, что модель бинарной классификации идеально отделяет все отрицательные классы от всех положительных классов:

Числовая линия с 8 положительными примерами справа и 7 отрицательных примеров слева.

Кривая ROC для предыдущей модели выглядит следующим образом:

Кривая ROC. По оси X — частота ложноположительных результатов, а по оси Y — частота ложноположительных результатов. является истинно положительным коэффициентом. Кривая имеет форму перевернутой буквы L. Кривая начинается с (0.0,0.0) и идет прямо до (0.0,1.0). Тогда кривая переходит от (0.0,1.0) к (1.0,1.0).

Напротив, на следующей иллюстрации показаны необработанные значения логистической регрессии для ужасной модели, которая вообще не может отделить отрицательные классы от положительных классов:

Числовая линия с положительными примерами и отрицательными классами полностью перемешаны.

Кривая ROC для этой модели выглядит следующим образом:

Кривая ROC, которая на самом деле представляет собой прямую линию от (0,0,0,0). до (1.0,1.0).

Между тем, в реальном мире большинство моделей бинарной классификации в некоторой степени разделяют положительные и отрицательные классы, но обычно не идеально. Итак, типичная кривая ROC находится где-то между двумя крайностями:

Кривая ROC. По оси X — частота ложноположительных результатов, а по оси Y — частота ложноположительных результатов. является истинно положительным коэффициентом. Кривая ROC представляет собой шаткую дугу. пересекая направления компаса с запада на север.

Точка на кривой ROC, ближайшая к (0,0,1,0), теоретически определяет идеальный порог классификации. Однако на выбор идеального порога классификации влияют несколько других проблем реального мира. Например, возможно, ложноотрицательные результаты причиняют гораздо больше боли, чем ложноположительные.

Числовая метрика, называемая AUC , суммирует кривую ROC в одно значение с плавающей запятой.

Среднеквадратическая ошибка (RMSE)

#основы

#Метрика

Квадратный корень из среднеквадратической ошибки .

ROUGE (Дублер, ориентированный на отзыв, для оценки Gisting)

#Метрика

Семейство метрик, которые оценивают модели автоматического суммирования и машинного перевода . Метрики ROUGE определяют степень, в которой ссылочный текст перекрывает текст, сгенерированный моделью ML. Каждый член семейства ROUGE измеряет перекрытие по-своему. Более высокие баллы ROUGE указывают на большее сходство между текстом ссылки и сгенерированным текстом, чем более низкие баллы ROUGE.

Каждый член семейства ROUGE обычно генерирует следующие показатели:

Точность
Отзывать
Ф ₁

Подробности и примеры см.:

РУЖ-Л
РУЖ-Н
РУЖ-С

РУЖ-Л

#Метрика

Член семейства ROUGE сосредоточился на длине самой длинной общей подпоследовательности в справочном и сгенерированном тексте . Следующие формулы рассчитывают полноту и точность ROUGE-L:

$$\text{ROUGE-L recall} = \frac{\text{longest common sequence}} {\text{number of words in the reference text} }$$

$$\text{ROUGE-L precision} = \frac{\text{longest common sequence}} {\text{number of words in the generated text} }$$

Затем вы можете использовать F ₁ , чтобы свести отзыв ROUGE-L и точность ROUGE-L в единую метрику:

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{ROUGE-L recall} * \text{ROUGE-L precision}} {\text{ROUGE-L recall} + \text{ROUGE-L precision} }$$

Щелкните значок, чтобы просмотреть пример расчета ROUGE-L.

Рассмотрим следующий справочный текст и сгенерированный текст.

Категория	Кто произвел?	Текст
Справочный текст	Человек-переводчик	Я хочу понять самые разные вещи.
Сгенерированный текст	Модель машинного обучения	Я хочу многому научиться.

Поэтому:

Самая длинная общая подпоследовательность — 5 ( я хочу вещей )
Количество слов в тексте ссылки – 9.
Количество слов в сгенерированном тексте — 7.

Следовательно:

$$\text{ROUGE-L recall} = \frac{\text{5}} {\text{9} } = 0.56$$

$$\text{ROUGE-L precision} = \frac{\text{5}} {\text{7} } = 0.71$$

$$\text{ROUGE-L F} {_1} = \frac{\text{2} * \text{0.56} * \text{0.71}} {\text{0.56} + \text{0.71} } = 0.63$$

ROUGE-L игнорирует любые новые строки в справочном и сгенерированном тексте, поэтому самая длинная общая подпоследовательность может пересекать несколько предложений. Когда справочный текст и сгенерированный текст состоят из нескольких предложений, вариант ROUGE-L, называемый ROUGE-Lsum, обычно является лучшим показателем. ROUGE-Lsum определяет самую длинную общую подпоследовательность для каждого предложения в отрывке, а затем вычисляет среднее значение этих самых длинных общих подпоследовательностей.

Щелкните значок, чтобы просмотреть пример расчета ROUGE-Lsum.

Рассмотрим следующий справочный текст и сгенерированный текст.

Категория	Кто произвел?	Текст
Справочный текст	Человек-переводчик	Поверхность Марса сухая. Почти вся вода находится глубоко под землей.
Сгенерированный текст	Модель машинного обучения	Марс имеет сухую поверхность. Однако подавляющее большинство воды находится под землей.

Поэтому:

	Первое предложение	Второе предложение
Самая длинная общая последовательность	2 (Марс сухой)	3 (вода под землей)
Длина предложения ссылочного текста	6	7
Длина предложения сгенерированного текста	5	8

Следовательно:

$$\text{recall of first sentence} = \frac{\text{2}} {\text{6}} = 0.33 $$

$$\text{recall of second sentence} = \frac{\text{3}} {\text{7}} = 0.43 $$

$$\text{ROUGE-Lsum recall} = \frac{\text{0.33} + \text{0.43}} {\text{2}} = 0.38 $$

$$\text{precision of first sentence} = \frac{\text{2}} {\text{5}} = 0.4 $$

$$\text{precision of second sentence} = \frac{\text{3}} {\text{8}} = 0.38 $$

$$\text{ROUGE-Lsum precision} = \frac{\text{0.4} + \text{0.38}} {\text{2}} = 0.39 $$

$$\text{ROUGE-Lsum F}{_1} = \frac{\text{2} * \text{0.38} * \text{0.39}} {\text{0.38} + \text{0.39}} = 0.38 $$

РУЖ-Н

#Метрика

Набор метрик в семействе ROUGE , который сравнивает общие N-граммы определенного размера в справочном и сгенерированном тексте . Например:

ROUGE-1 измеряет количество общих токенов в справочном и сгенерированном тексте.
ROUGE-2 измеряет количество общих биграмм (2 грамма) в справочном и сгенерированном тексте.
ROUGE-3 измеряет количество общих триграмм (3 грамма) в справочном и сгенерированном тексте.

Вы можете использовать следующие формулы для расчета отзыва ROUGE-N и точности ROUGE-N для любого члена семейства ROUGE-N:

$$\text{ROUGE-N recall} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the reference text} }$$

$$\text{ROUGE-N precision} = \frac{\text{number of matching N-grams}} {\text{number of N-grams in the generated text} }$$

Затем вы можете использовать F ₁ , чтобы свести отзыв ROUGE-N и точность ROUGE-N в единую метрику:

$$\text{ROUGE-N F}{_1} = \frac{\text{2} * \text{ROUGE-N recall} * \text{ROUGE-N precision}} {\text{ROUGE-N recall} + \text{ROUGE-N precision} }$$

Нажмите на значок, чтобы просмотреть пример.

Предположим, вы решили использовать ROUGE-2 для измерения эффективности перевода модели МО по сравнению с переводом человека.

Категория	Кто произвел?	Текст	Биграммы
Справочный текст	Человек-переводчик	Я хочу понять самые разные вещи.	Я хочу, хочу, понять, понять большое, большое разнообразие, множество вещей
Сгенерированный текст	Модель машинного обучения	Я хочу многому научиться.	Я хочу, хочу, узнать, узнать много, много вещей

Поэтому:

Число совпадающих 2-х грамм равно 3 ( хочу , хочу , и всего ).
Количество 2-грамм в тексте ссылки равно 8.
Количество 2-грамм в сгенерированном тексте равно 6.

Следовательно:

$$\text{ROUGE-2 recall} = \frac{\text{3}} {\text{8} } = 0.375$$

$$\text{ROUGE-2 precision} = \frac{\text{3}} {\text{6} } = 0.5$$

$$\text{ROUGE-2 F}{_1} = \frac{\text{2} * \text{0.375} * \text{0.5}} {\text{0.375} + \text{0.5} } = 0.43$$

РУЖ-С

#Метрика

Простая форма ROUGE-N , позволяющая сопоставлять пропуски грамм . То есть ROUGE-N считает только N-граммы , которые точно совпадают, но ROUGE-S также считает N-граммы, разделенные одним или несколькими словами. Например, рассмотрим следующее:

текст ссылки : Белые облака
сгенерированный текст : Белые клубящиеся облака.

При расчете ROUGE-N 2-граммовые белые облака не соответствуют белым вздымающимся облакам . Однако при расчете ROUGE-S Белые облака соответствуют Белым вздымающимся облакам .

R-квадрат

#Метрика

Метрика регрессии , показывающая, насколько сильно изменение метки связано с отдельным признаком или набором признаков. R-квадрат — это значение от 0 до 1, которое можно интерпретировать следующим образом:

R-квадрат, равный 0, означает, что ни одно из изменений метки не связано с набором функций.
R-квадрат, равный 1, означает, что все изменения метки обусловлены набором функций.
R-квадрат от 0 до 1 указывает, в какой степени можно предсказать изменение метки на основе конкретного признака или набора признаков. Например, R-квадрат, равный 0,10, означает, что 10 процентов отклонений в метке обусловлен набором функций, R-квадрат, равный 0,20, означает, что 20 процентов обусловлены набором функций, и так далее.

R-квадрат — это квадрат коэффициента корреляции Пирсона между значениями, предсказанными моделью, и истинными значениями .

С

подсчет очков

#Метрика

Часть системы рекомендаций , которая обеспечивает ценность или рейтинг для каждого элемента, созданного на этапе генерации кандидатов .

мера сходства

#кластеризация

#Метрика

В алгоритмах кластеризации - метрика, используемая для определения того, насколько похожи (насколько похожи) любые два примера.

редкость

#Метрика

Количество элементов, для которых установлено значение ноль (или null) в векторе или матрице, деленное на общее количество записей в этом векторе или матрице. Например, рассмотрим матрицу из 100 элементов, в которой 98 ячеек содержат ноль. Расчет разреженности выглядит следующим образом:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Разреженность признаков относится к разреженности вектора признаков; Разреженность модели относится к разреженности весов модели.

потеря шарнира в квадрате

#Метрика

Квадрат шарнирных потерь . Квадратная потеря шарнира наказывает выбросы более жестко, чем обычная потеря шарнира.

квадрат убытка

#основы

#Метрика

Синоним потери _L2 .

Т

потеря теста

#основы

#Метрика

Метрика , отражающая потери модели по сравнению с тестовым набором . При построении модели вы обычно пытаетесь минимизировать потери при тестировании. Это связано с тем, что низкие потери при тестировании являются более сильным сигналом качества, чем низкие потери при обучении или низкие потери при проверке .

Большой разрыв между потерей теста и потерей обучения или потерей проверки иногда говорит о том, что вам нужно увеличить уровень регуляризации .

высшая точность

#Метрика

Процент случаев, когда «целевой ярлык» появляется в первых k позициях созданных списков. Списки могут представлять собой персонализированные рекомендации или список элементов, заказанных softmax .

Точность Top-k также известна как точность при k .

Нажмите на значок, чтобы просмотреть пример.

Рассмотрим систему машинного обучения, которая использует softmax для определения вероятностей деревьев на основе изображения листьев деревьев. В следующей таблице показаны выходные списки, созданные на основе пяти входных изображений дерева. Каждая строка содержит целевую метку и пять наиболее вероятных деревьев. Например, когда целевой меткой был клен , модель машинного обучения определила вяз как наиболее вероятное дерево, дуб как второе наиболее вероятное дерево и так далее.

Целевая метка	1	2	3	4	5
клен	вяз	дуб	клен	бук	тополь
кизил	дуб	кизил	тополь	гикори	клен
дуб	дуб	липа	саранча	ольха	липа
липа	клен	папайя	дуб	липа	тополь
дуб	саранча	липа	дуб	клен	папайя

Целевая метка появляется в первой позиции только один раз, поэтому точность "топ-1" составляет:

$$\text{top-1 accuracy} = \frac{\text{1}} {\text{5}} = 0.2$$

Целевая метка появляется в одной из трех верхних позиций четыре раза, поэтому точность топ-3 составляет:

$$\text{top-1 accuracy} = \frac{\text{4}} {\text{5}} = 0.8$$

токсичность

#Метрика

Степень, в которой контент является оскорбительным, угрожающим или оскорбительным. Многие модели машинного обучения могут выявлять и измерять токсичность. Большинство этих моделей определяют токсичность по нескольким параметрам, таким как уровень ненормативной лексики и уровень угрожающей лексики.

потеря тренировки

#основы

#Метрика

Метрика , отражающая потери модели во время определенной итерации обучения. Например, предположим, что функция потерь — это среднеквадратическая ошибка . Возможно, потеря обучения (среднеквадратическая ошибка) для 10-й итерации составит 2,2, а потеря обучения для 100-й итерации составит 1,9.

Кривая потерь отображает потери при обучении в зависимости от количества итераций. Кривая потерь дает следующие подсказки по поводу обучения:

Наклон вниз означает, что модель улучшается.
Наклон вверх означает, что модель становится хуже.
Плоский наклон означает, что модель достигла сходимости .

Например, следующая несколько идеализированная кривая потерь показывает:

Крутой наклон вниз во время начальных итераций, что предполагает быстрое улучшение модели.
Постепенно выравнивающийся (но все же нисходящий) наклон почти до конца обучения, что подразумевает дальнейшее улучшение модели несколько более медленными темпами, чем во время начальных итераций.
Плоский наклон к концу тренировки, что предполагает сближение.

График потерь обучения в сравнении с итерациями. Эта кривая потерь начинается с крутым спуском. Склон постепенно выравнивается, пока наклон становится нулевым.

Хотя потеря обучения важна, см. также обобщение .

истинно отрицательный (TN)

#основы

#Метрика

Пример, в котором модель правильно предсказывает отрицательный класс . Например, модель предполагает, что конкретное сообщение электронной почты не является спамом и что это сообщение электронной почты действительно не является спамом .

истинно положительный (TP)

#основы

#Метрика

Пример, в котором модель правильно предсказывает положительный класс . Например, модель предполагает, что конкретное сообщение электронной почты является спамом, и это сообщение действительно является спамом.

истинно положительный уровень (TPR)

#основы

#Метрика

Синоним слова отзыв . То есть:

$$\text{true positive rate} = \frac {\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Истинно положительная ставка — это ось Y на кривой ROC .

В

потеря проверки

#основы

#Метрика

Метрика , представляющая потери модели в проверочном наборе во время определенной итерации обучения.

См. также кривую обобщения .

переменные значения

#df

#Метрика

Набор оценок, указывающий относительную важность каждой функции для модели.

Например, рассмотрим дерево решений , которое оценивает цены на жилье. Предположим, что в этом дереве решений используются три характеристики: размер, возраст и стиль. Если набор важностей переменных для трех признаков рассчитан как {size=5,8, age=2,5, style=4,7}, то размер более важен для дерева решений, чем возраст или стиль.

Существуют различные метрики важности переменных, которые могут информировать экспертов по машинному обучению о различных аспектах моделей.

В

Потеря Вассерштейна

#Метрика

Одна из функций потерь, обычно используемых в генеративно-состязательных сетях , основанная на расстоянии землеройного машины между распределением сгенерированных и реальных данных.

Глоссарий машинного обучения: метрики Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

А

точность

Щелкните значок, чтобы получить подробную информацию о точности и несбалансированности классов наборов данных.

площадь под кривой PR

площадь под кривой ROC

AUC (площадь под ROC-кривой)

Нажмите на значок, чтобы узнать о взаимосвязи между кривыми AUC и ROC.

Нажмите на значок, чтобы увидеть более формальное определение AUC.

средняя точность при k

Нажмите на значок, чтобы увидеть пример.

Б

базовый уровень

С

расходы

контрфактуальная справедливость

кросс-энтропия

кумулятивная функция распределения (CDF)

Д

демографический паритет

Э

расстояние землеройной машины (EMD)

расстояние редактирования

эмпирическая кумулятивная функция распределения (eCDF или EDF)

энтропия

равенство возможностей

уравняли шансы

оценки

оценка

Ф

Ф 1

Нажмите на значок, чтобы увидеть примеры.

метрика справедливости

ложноотрицательный результат (ЛО)

ложноотрицательный показатель

ложноположительный результат (ЛП)

частота ложноположительных результатов (FPR)

важность функций

модель фундамента

доля успехов

Г

примесь джини

Нажмите на значок, чтобы получить математическую информацию о примеси Джини.

ЧАС

потеря шарнира

я

несовместимость показателей справедливости

индивидуальная справедливость

получение информации

межэкспертное соглашение

Л

Потеря L 1

Нажмите на значок, чтобы увидеть формальные математические вычисления.

потеря L 2

Нажмите на значок, чтобы увидеть формальные математические вычисления.

Оценки LLM (evals)

потеря

функция потерь

М

Средняя абсолютная ошибка (MAE)

Нажмите на значок, чтобы увидеть формальные математические вычисления.

средняя точность при k (mAP@k)

Нажмите на значок, чтобы увидеть пример.

Среднеквадратическая ошибка (MSE)

Нажмите на значок, чтобы увидеть формальные математические вычисления.

Нажмите на значок, чтобы увидеть более подробную информацию о выбросах.

метрика

API метрик (tf.metrics)

минимаксные потери

мощность модели

Н

отрицательный класс

О

цель

целевая функция

П

пройти через k (pass@k)

Нажмите на значок, чтобы просмотреть пример.

производительность

permutation variable importances

Глоссарий машинного обучения: метрики

Ф ₁

Потеря L ₁

потеря L ₂