リンゴの木には、素晴らしい果実と害虫が混在しています。 しかし、高級食料品店のリンゴは 100% 完璧なフルーツです。 果樹園と食料品店の間では、誰かが果物を運ぶのに多大な時間を費やしている 傷んだリンゴに ワックスを吹き付け ML エンジニアは膨大な時間を費やして 不適切な例を捨てて 残存可能な例を一掃します たとえ悪いリンゴのいくつかでも、大規模なデータセットが損なわれる可能性があります。
データセットのサンプルの多くは信頼性が低いものですが、 次のような問題があります。
問題のカテゴリ | 例 |
---|---|
省略された値 | 国勢調査担当者が住民の年齢を記録していません。 |
重複した例 | サーバーが同じログを 2 回アップロードします。 |
範囲外の特徴値。 | 人間が誤って余分な数字を入力する。 |
不適切なラベル | 人間の評価者が、オークの木の写真を カエデ。 |
次のような問題を検出するプログラムやスクリプトを作成できます。
- 省略された値
- 重複した例
- 範囲外の特徴値
たとえば、次のデータセットには 6 つの繰り返し値が含まれています。
別の例として、特定の特徴の温度範囲が 10 度以上 30 度以下である必要があります。しかし 事故は 体温計が一時的に日光にさらされているため、異常値が発生しています。 プログラムまたはスクリプトは、10 未満の温度値を識別する必要があります です。
複数のユーザーがラベルを生成する場合は、統計的に 各評価者が同等のラベルセットを生成したかどうかを判別します。 評価担当者の 1 人が他の評価者よりも厳しい採点基準であったり、 どうなるでしょうか
検出されると、通常は不適切な特徴を含む例 不適切なラベルをデータセットから削除するか、値を代入します。 詳しくは、 データの特性 セクション( データセット、一般化、過学習 説明します。