ML 担当者は、評価、クリーニング、変革にはるかに多くの時間を費やしている モデルの構築よりもはるかに優れています。 データは非常に重要であるため、このコースでは 3 つのユニット全体をこのトピックに割いています。
- 数値データを操作する(このユニット)
- カテゴリデータの操作
- データセット、一般化、過学習
このユニットでは、 数値データ つまり 整数値または浮動小数点値で 関数を呼び出せますつまり、加算可能、可算、順序付け可能などです。次のユニットでは、カテゴリのように動作する数値を含むカテゴリデータについて説明します。3 つ目のユニットでは、モデルのトレーニングと評価で高品質の結果を確保するためにデータを準備する方法について説明します。
数値データの例:
- 温度
- 重量
- 自然保護区で越冬する鹿の数
一方、米国の郵便番号は 5 桁または 9 桁の数字ですが、数値のように動作したり、数学的な関係を表したりしません。郵便番号 40004(ケンタッキー州ネルソン郡)は、郵便番号 20002(ワシントン D.C.)の 2 倍ではありません。これらの数値はカテゴリ(具体的には地理的エリア)を表し、カテゴリデータと見なされます。