数値データ: 最初のステップ

特徴ベクトルを作成する前に、次の 2 つの方法で数値データを調査することをおすすめします。

  • データをプロットまたはグラフで可視化します。
  • データに関する統計情報を取得する。

データを可視化

グラフを使用すると、データに潜む異常やパターンを見つけることができます。そのため、分析を深めすぎないうちに、散布図またはヒストグラムとしてデータをグラフで確認します。データ パイプラインの開始時だけでなく、データ変換全体でグラフを表示します。可視化は、仮説を継続的に確認するのに役立ちます。

可視化には pandas を使用することをおすすめします。

一部の可視化ツールは、特定のデータ形式に合わせて最適化されています。プロトコル バッファの評価に役立つ可視化ツールは、CSV データの評価に役立つ場合とそうでない場合があります。

データを統計的に評価する

視覚的な分析に加えて、潜在的な特徴とラベルを数学的に評価し、次のような基本的な統計情報を収集することをおすすめします。

  • 平均値と中央値
  • 標準偏差
  • 四分位の区切り(0 パーセンタイル、25 パーセンタイル、50 パーセンタイル、75 パーセンタイル、100 パーセンタイル)の値。0 パーセンタイルはこの列の最小値で、100 パーセンタイルはこの列の最大値です。(50 パーセンタイルは中央値です)。

外れ値を見つける

外れ値とは、特徴またはラベル内の他のほとんどの値から離れている値です。外れ値はモデル トレーニングで問題を引き起こすことがよくあるため、外れ値を見つけることが重要です。

0 パーセンタイルから 25 パーセンタイルの差が 75 パーセンタイルから 100 パーセンタイルの差と大きく異なる場合、データセットに外れ値が含まれている可能性があります。

外れ値は次のいずれかのカテゴリに分類できます。

  • 外れ値はミスによるものです。たとえば、実験者が誤ってゼロを入力した、データ収集機器が誤動作したなどです。通常は、誤りのある外れ値を含む例を削除します。
  • 外れ値は間違いではなく、有効なデータポイントです。この場合、トレーニング済みモデルは最終的に、これらの外れ値に関する優れた予測を推測する必要がありますか?
    • はいの場合は、これらの外れ値をトレーニング セットに残します。特定の特徴量の外れ値がラベルの外れ値を反映している場合があるため、外れ値がモデルの予測精度の向上に役立つこともあります。ただし、極端な外れ値はモデルに悪影響を与える可能性があります。
    • そうでない場合は、外れ値を削除するか、クリッピングなどのより侵襲的な特徴量エンジニアリング手法を適用します。