Леса решений наиболее эффективны, когда у вас есть табличный набор данных (данные, которые вы можете представить в электронной таблице, CSV-файле или таблице базы данных). Табличные данные — один из наиболее распространенных форматов данных, и леса решений должны стать вашим идеальным решением для их моделирования.
Таблица 1. Пример табличного набора данных.
Количество ножек | Количество глаз | Вес (фунты) | Вид (этикетка) |
---|---|---|---|
2 | 2 | 12 | Пингвин |
8 | 6 | 0,1 | Паук |
4 | 2 | 44 | Собака |
… | … | … | … |
В отличие от нейронных сетей, леса решений изначально используют табличные данные модели. При разработке лесов решений вам не обязательно выполнять следующие задачи:
- Выполните предварительную обработку, например нормализацию функций или горячее кодирование.
- Выполните вменение (например, заменив пропущенное значение на
-1
).
Однако леса решений не очень хорошо подходят для прямого использования нетабличных данных (также называемых неструктурированными данными), таких как изображения или текст. Да, существуют обходные пути для этого ограничения, но нейронные сети обычно лучше обрабатывают неструктурированные данные.
Производительность
Леса решений являются выборочно эффективными. То есть леса решений хорошо подходят для обучения на небольших наборах данных или на наборах данных, где соотношение количества признаков/количества примеров велико (возможно, больше 1). Несмотря на то, что леса решений являются выборочно эффективными, как и все модели машинного обучения, леса решений работают лучше всего, когда доступно много данных.
Леса решений обычно делают выводы быстрее, чем сопоставимые нейронные сети. Например, лес решений среднего размера выполняет вывод за несколько микросекунд на современном процессоре.
,Леса решений наиболее эффективны, когда у вас есть табличный набор данных (данные, которые вы можете представить в электронной таблице, CSV-файле или таблице базы данных). Табличные данные — один из наиболее распространенных форматов данных, и леса решений должны стать вашим идеальным решением для их моделирования.
Таблица 1. Пример табличного набора данных.
Количество ножек | Количество глаз | Вес (фунты) | Вид (этикетка) |
---|---|---|---|
2 | 2 | 12 | Пингвин |
8 | 6 | 0,1 | Паук |
4 | 2 | 44 | Собака |
… | … | … | … |
В отличие от нейронных сетей, леса решений изначально используют табличные данные модели. При разработке лесов решений вам не обязательно выполнять следующие задачи:
- Выполните предварительную обработку, например нормализацию функций или горячее кодирование.
- Выполните вменение (например, заменив пропущенное значение на
-1
).
Однако леса решений не очень хорошо подходят для прямого использования нетабличных данных (также называемых неструктурированными данными), таких как изображения или текст. Да, существуют обходные пути для этого ограничения, но нейронные сети обычно лучше обрабатывают неструктурированные данные.
Производительность
Леса решений являются выборочно эффективными. То есть леса решений хорошо подходят для обучения на небольших наборах данных или на наборах данных, где соотношение количества признаков/количества примеров велико (возможно, больше 1). Несмотря на то, что леса решений являются выборочно эффективными, как и все модели машинного обучения, леса решений работают лучше всего, когда доступно много данных.
Леса решений обычно делают выводы быстрее, чем сопоставимые нейронные сети. Например, лес решений среднего размера выполняет вывод за несколько микросекунд на современном процессоре.