数値データ: 優れた数値特徴量の品質

このユニットでは、元データを適切なデータセットにマッピングする方法を 特徴ベクトル。 良い数値特徴量は、 要件を満たす必要があります。

明確な名前

各特徴は、すべての人間にとって明確で理にかなった、わかりやすい意味を持つ必要があります。 できます。たとえば、次の特徴値の意味は、 わかりにくい:

非推奨

house_age: 851472000

一方、次の特徴名と値はより明確です。

推奨

house_age_years: 27

で確認できます。 <ph type="x-smartling-placeholder">

トレーニング前にチェックまたはテストする

このモジュールでは、これまで多くの 外れ値の場合、トピックは 最後にお伝えしておきますが 重要です場合によっては 不明確な値を引き起こす可能性があります。たとえば 次のuser_age_in_yearsは、 次のように指定します。

非推奨

user_age_in_years: 224

24 歳になることはあります

推奨

user_age_in_years: 24

データを確認してください。

現実的

マジック値他の点では連続的であるが、意図的な不連続性を 機能。たとえば、watch_time_in_seconds という名前の連続的な特徴があるとします。 0 ~ 30 の任意の浮動小数点値を保持できますが、不在を表す マジック値 -1 を持つ測定値の例です。

非推奨

watch_time_in_seconds: -1

watch_time_in_seconds を -1 にすると、モデルは 映画を過去にさかのぼって見ることの意味を説明します生成されるモデルは次のようになります。 良い予測はできない可能性があります

もう 1 つの方法として、ブール値の特徴値を示すブール値の特徴量を watch_time_in_seconds であるかどうか 指定できます。例:

推奨

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

次に、離散 数値特徴量の特徴の分布が変化します。この 値が欠落している場合、新しい値を使用して欠損値を 有限集合です。離散特徴を使用すると、モデルはさまざまな重みを学習する 欠損している特徴の元の重みを含みます。