表現

ML モデルは入力の例を直接見たり、聞いたり、検知したりすることはできません。その代わりに、データの表現を作成して、データの主な性質について有用な視点をモデルに提供する必要があります。つまり、モデルをトレーニングするには、データを最もよく表す特徴のセットを選択する必要があります。

元データから特徴へ

考え方は、左側のベクトルの各部分を 1 つ以上のフィールドにマッピングし、右側の特徴ベクトルにマッピングするというものです。

特徴値は、データセット内でゼロ以外の値（ごく少数の回数）で出現する必要があります。

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

対象物には明確で明確な意味が必要です。

user_age:23

user_age:123456789

機能が「マジック」値を利用すべきではない

（代わりに watch_time_is_defined などのブール値機能を使用してください）。

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

特徴の定義が時間の経過とともに変化してはならない。

（他の ML システムに依存することに注意！）

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

分布に極端な外れ値があってはいけません

すべての特徴量が (-1, 1) や (0, 5) などの類似範囲に変換されていることが理想的です。

データを把握する

可視化: ヒストグラムをプロットし、共通性が高い順に並べます。
デバッグ: サンプルが重複している場合は、欠損値の場合特に外れ値については、データはダッシュボードと合致しているかトレーニングデータと検証データは類似していますか？
モニタリング: 特徴分位数、時間の経過に伴う例の数。