Ведро

Начнем с быстрого обзора ключевой идеи из Machine Learning Crash Course . Посмотрите на распределение на графике ниже.

Участок домов на широту. График очень неравномерный, содержит депрессивные состояния около 36 широты и огромные всплески вокруг широт 34 и 38. Рисунок 1: Цены на жилье в зависимости от широты.

Для следующего вопроса щелкните нужную стрелку, чтобы проверить свой ответ:

Рассмотрим рис. 1. Если вы считаете, что широта может быть хорошим показателем стоимости жилья, должны ли вы оставить широту как значение с плавающей запятой? Почему или почему нет? (Предположим, что это линейная модель.)
Да — если широта является значением с плавающей запятой в наборе данных, вы не должны его изменять.
Если вы передадите эти значения с плавающей запятой в свою сеть, она попытается изучить линейную связь между функцией и меткой. Но линейная зависимость маловероятна для широты. Увеличение широты на один градус (скажем, с 34 до 35 градусов) может привести к некоторым изменениям в выходных данных модели, тогда как другое увеличение на один градус (скажем, с 35 до 36 градусов) может привести к другому количеству изменений. . Это нелинейное поведение.
Нет — линейной зависимости между широтой и стоимостью жилья нет.
Вы подозреваете, что отдельные широты и стоимость жилья связаны, но эта связь не является линейной.

В случаях, подобных примеру с широтой, вам нужно разделить широты на сегменты, чтобы узнать что-то другое о стоимости жилья для каждого сегмента. Это преобразование числовых признаков в категориальные с использованием набора пороговых значений называется группировкой (или биннингом). В этом примере с группировкой границы расположены на одинаковом расстоянии друг от друга.

Тот же график зависимости широты от цен на жилье, что и на предыдущем рисунке. Однако на этот раз сюжет разделен на 11 «закромов». между целыми числами широт.

Рисунок 2: Цены на жилье в зависимости от широты, теперь разделенные на корзины.

Квантильное группирование

Давайте вернемся к нашему набору данных о ценах на автомобили с добавлением сегментов. С одной функцией на сегмент модель использует столько же ресурсов для одного примера в диапазоне> 45000, сколько для всех примеров в диапазоне 5000-10000. Это кажется расточительным. Как мы можем улучшить эту ситуацию?

График цены автомобиля на количество автомобилей, проданных по этой цене. Участок разбит на 10 одинаковых по размеру ковшей с ассортиментом 5000 (цена автомобиля). Первые три сегмента содержат много примеров, но последние семь сегментов содержат очень мало примеров.

Рисунок 3: Количество автомобилей, проданных по разным ценам.

Проблема в том, что одинаковые сегменты плохо отражают это распределение. Решение заключается в создании сегментов, каждый из которых имеет одинаковое количество баллов. Этот метод называется квантильным группированием . Например, на следующем рисунке цены на автомобили разделены на квантильные корзины. Чтобы получить одинаковое количество примеров в каждой корзине, некоторые корзины охватывают узкий ценовой диапазон, а другие охватывают очень широкий ценовой диапазон.

То же, что и на рис. 3, за исключением квантильных сегментов. То есть ковши теперь имеют разные размеры. Самая маленькая ведро имеет диапазон около 1000 долларов, а самая большая ведро имеет диапазон около 25000 долларов. Количество машин в каждом ведре теперь примерно одинаковое.

Рисунок 4: Квантильное группирование дает каждому сегменту примерно одинаковое количество автомобилей.

Сводка по сегментам

Если вы решите разбить числовые признаки на сегменты, четко определите, как вы устанавливаете границы и какой тип разделения вы применяете:

  • Сегменты с равномерно расположенными границами : границы фиксированы и охватывают один и тот же диапазон (например, 0–4 градуса, 5–9 градусов и 10–14 градусов или 5 000–9 999 долларов США, 10 000–14 999 долларов США и 15 000–19 999 долларов США). Некоторые корзины могут содержать много точек, в то время как в других их может быть мало или вообще не быть вовсе.
  • Сегменты с квантильными границами : каждый сегмент имеет одинаковое количество точек. Границы не фиксированы и могут охватывать узкий или широкий диапазон значений.