Начнем с быстрого обзора ключевой идеи из Machine Learning Crash Course . Посмотрите на распределение на графике ниже.
Рисунок 1: Цены на жилье в зависимости от широты.
Для следующего вопроса щелкните нужную стрелку, чтобы проверить свой ответ:
В случаях, подобных примеру с широтой, вам нужно разделить широты на сегменты, чтобы узнать что-то другое о стоимости жилья для каждого сегмента. Это преобразование числовых признаков в категориальные с использованием набора пороговых значений называется группировкой (или биннингом). В этом примере с группировкой границы расположены на одинаковом расстоянии друг от друга.
Рисунок 2: Цены на жилье в зависимости от широты, теперь разделенные на корзины.Квантильное группирование
Давайте вернемся к нашему набору данных о ценах на автомобили с добавлением сегментов. С одной функцией на сегмент модель использует столько же ресурсов для одного примера в диапазоне> 45000, сколько для всех примеров в диапазоне 5000-10000. Это кажется расточительным. Как мы можем улучшить эту ситуацию?
Рисунок 3: Количество автомобилей, проданных по разным ценам.
Проблема в том, что одинаковые сегменты плохо отражают это распределение. Решение заключается в создании сегментов, каждый из которых имеет одинаковое количество баллов. Этот метод называется квантильным группированием . Например, на следующем рисунке цены на автомобили разделены на квантильные корзины. Чтобы получить одинаковое количество примеров в каждой корзине, некоторые корзины охватывают узкий ценовой диапазон, а другие охватывают очень широкий ценовой диапазон.
Рисунок 4: Квантильное группирование дает каждому сегменту примерно одинаковое количество автомобилей.
Сводка по сегментам
Если вы решите разбить числовые признаки на сегменты, четко определите, как вы устанавливаете границы и какой тип разделения вы применяете:
- Сегменты с равномерно расположенными границами : границы фиксированы и охватывают один и тот же диапазон (например, 0–4 градуса, 5–9 градусов и 10–14 градусов или 5 000–9 999 долларов США, 10 000–14 999 долларов США и 15 000–19 999 долларов США). Некоторые корзины могут содержать много точек, в то время как в других их может быть мало или вообще не быть вовсе.
- Сегменты с квантильными границами : каждый сегмент имеет одинаковое количество точек. Границы не фиксированы и могут охватывать узкий или широкий диапазон значений.