Модель машинного обучения не может напрямую видеть, слышать или воспринимать примеры входных данных. Вместо этого вы должны создать представление данных, чтобы предоставить модели полезную точку зрения на ключевые качества данных. То есть, чтобы обучить модель, вы должны выбрать набор функций, которые лучше всего представляют данные.
Представление
От необработанных данных к функциям
Идея состоит в том, чтобы сопоставить каждую часть вектора слева с одним или несколькими полями вектора признаков справа.
От необработанных данных к функциям
От необработанных данных к функциям
От необработанных данных к функциям
Словарь сопоставляет каждое название улицы с целым числом в {0,...,V-1}.
Теперь представьте один горячий вектор выше как <i>
Свойства хорошей функции
Значения объектов должны появляться с ненулевым значением несколько раз в наборе данных.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Свойства хорошей функции
Характеристики должны иметь четкое и очевидное значение.
user_age:23
user_age:123456789
Свойства хорошей функции
Функции не должны принимать «магические» значения.
(вместо этого используйте дополнительную логическую функцию, например, watch_time_is_define!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Свойства хорошей функции
Определение функции не должно меняться со временем.
(Остерегайтесь зависимости от других систем машинного обучения!)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Свойства хорошей функции
Распределение не должно иметь крайних выбросов.
В идеале все функции преобразуются в одинаковый диапазон, например (-1, 1) или (0, 5).
Трюк с биннингом
Трюк с биннингом
Создайте несколько логических ячеек, каждая из которых соответствует новой уникальной функции.
Позволяет модели соответствовать разным значениям для каждого интервала
Хорошие привычки
ЗНАЙТЕ СВОИ ДАННЫЕ
Визуализируйте : постройте гистограммы, ранжируйте их от наиболее частых к наименее распространенным.
Отладка : повторяющиеся примеры? Отсутствуют значения? Выбросы? Данные согласуются с информационными панелями? Данные обучения и проверки схожи?
Монитор : Квантили функций, количество примеров с течением времени?