数値データ: 最初のステップ

特徴ベクトルを作成する前に、 次の 2 つの方法があります。

  • プロットやグラフでデータを可視化します。
  • データに関する統計情報を確認できます。

データを視覚化

グラフは、データに隠れている異常やパターンを見つけるのに役立ちます。 そのため、本格的な分析に入る前に、 データを散布図またはヒストグラムとしてグラフィカルに表示できます。グラフを表示できない データ パイプラインの初期段階だけでなく、 必要があります。可視化により、自分の仮説を継続的に確認することができます。

可視化には pandas を使用することをおすすめします。

一部の可視化ツールは、特定のデータ形式向けに最適化されています。 プロトコル バッファの評価に役立つ可視化ツールは、 CSV データを評価できます

データを統計的に評価する

ビジュアル分析だけでなく、潜在的な機能と 次のような基本的な統計を収集して、数学的にラベルを付けます。

  • 平均値と中央値
  • 標準偏差
  • 四分位の除算の値: 0、25、50、75、100 パーセンタイルで評価されます0 パーセンタイルはこの列の最小値です。 100 パーセンタイルがこの列の最大値です。(50% パーセンタイル 中央値)。

外れ値を確認する

外れ値遠い値 他のほとんどの値との差を測定します。外れ値は通常の問題を引き起こす 外れ値を見つけることが重要です。

0 パーセンタイルと 25 パーセンタイルのデルタが大きく異なる場合 75 パーセンタイルと 100 パーセンタイルの差分から、おそらく 外れ値が含まれている可能性があります。

外れ値は次のいずれかのカテゴリに分類できます。

  • この外れ値は誤りによるものです。 たとえば、誤って余分なゼロを入力してしまった場合や、 データを収集した機器が故障した場合などです 通常は、誤った外れ値を含む例を削除します。
  • 外れ値は正当なデータポイントであり、間違いではありません。 この場合、トレーニングしたモデルは どうすればよいでしょうか。
    • 「はい」の場合、これらの外れ値をトレーニング セットに保持します。結局、外れ値は ラベルの外れ値を反映する可能性があるため、 外れ値を使用することで、モデルの予測精度を高めることができます。 極端な外れ値でも、モデルに悪影響を及ぼす可能性があるので注意してください。
    • 「いいえ」の場合は、外れ値を削除するか、より侵襲的な特徴量エンジニアリングを適用します。 クリッピングなどの手法を使用します。