Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

数値データ: スクラブ

リンゴの木には、素晴らしい果実と害虫が混在しています。しかし、高級食料品店のリンゴは 100% 完璧なフルーツです。果樹園と食料品店の間では、誰かが果物を運ぶのに多大な時間を費やしている傷んだリンゴにワックスを吹き付け ML エンジニアは膨大な時間を費やして不適切な例を捨てて残存可能な例を一掃しますたとえ悪いリンゴのいくつかでも、大規模なデータセットが損なわれる可能性があります。

データセットのサンプルの多くは信頼性が低いものですが、次のような問題があります。

問題のカテゴリ	例
省略された値	国勢調査担当者が住民の年齢を記録していません。
重複した例	サーバーが同じログを 2 回アップロードします。
範囲外の特徴値。	人間が誤って余分な数字を入力する。
不適切なラベル	人間の評価者が、オークの木の写真をカエデ。

次のような問題を検出するプログラムやスクリプトを作成できます。

省略された値
重複した例
範囲外の特徴値

たとえば、次のデータセットには 6 つの繰り返し値が含まれています。

図 15：最初の 6 つの値は繰り返されます。ファイナル 8
ありません。 — **図 15.** 最初の 6 つの値は繰り返されます。

別の例として、特定の特徴の温度範囲が 10 度以上 30 度以下である必要があります。しかし事故は体温計が一時的に日光にさらされているため、異常値が発生しています。プログラムまたはスクリプトは、10 未満の温度値を識別する必要がありますです。

図 16：範囲内の値 19 個と範囲外の値 1 個。 — **図 16.** 範囲外の値。

複数のユーザーがラベルを生成する場合は、統計的に各評価者が同等のラベルセットを生成したかどうかを判別します。評価担当者の 1 人が他の評価者よりも厳しい採点基準であったり、どうなるでしょうか

検出されると、通常は不適切な特徴を含む例不適切なラベルをデータセットから削除するか、値を代入します。詳しくは、データの特性セクション（データセット、一般化、過学習説明します。

ビニング（15 分）

優れた数値特徴の品質（5 分）

数値データ: スクラブ コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

数値データ: スクラブ