データセット: データの特性

データセットとは、

多くのデータセットでは、テーブル(グリッド)にデータが格納されています。たとえば、 カンマ区切り値(CSV)を使用するか、スプレッドシートや 自動的に作成されます。テーブルはマシンの直感的な入力形式 モデルの学習。 テーブルの各行は例として、 各列を特徴量またはラベルとして指定します ただし、データセットは、 プロトコル バッファです。

どのような形式であっても、ML モデルの品質は 基づいて処理します。このセクションでは、データの主な特徴を検証します。

データの種類

データセットにはさまざまな種類のデータ型を含めることができる 以下に限定されません。

上記のデータ型はさらに細分化できます。 このコースの後続のモジュール(たとえば、 データ モジュール - 詳細 サブカテゴリに分類できます

データ量

おおまかに言えば、モデルのトレーニングには少なくとも 1 つの注文が必要です。 トレーニング可能なパラメータよりも数(または 2)数の例が必要になります。ただし、 一般的に、モデルはこれよりも実質的に多くのサンプルでトレーニングします。

モデルは大規模なデータセットでトレーニングされ、 機能 小規模なデータセットでトレーニングしたモデルよりも 多くの機能が備わっています。 Google はこれまで、Google Cloud 上でのシンプルなモデルのトレーニングに 学習します。

ML プログラムごとに異なるデータセットを使用するため、 有用なモデルを構築できます。比較的多くの 数十の例で十分かもしれません。その他の問題については 1 兆個の例では不十分な場合があるからです。

モデルを適応させれば、小さなデータセットでも良い結果を得られる可能性あり 大量のデータですでにトレーニングされた 既存のモデルをトレーニングし 使用できます。

データの品質と信頼性

低品質より高品質が好まれるが、品質は曖昧 さまざまな方法で定義できると考えました。このコースでは、 品質を実用的に:

高品質のデータセットは、モデルの目標達成に役立ちます。 低品質のデータセットは、モデルの目標達成を妨げます。

通常、高品質のデータセットは信頼性も高くなります。 信頼性とは、データがどの程度信頼できるかを指します。 信頼性の高いデータセットでトレーニングしたモデルほど有用な結果を得られる可能性が高くなる トレーニングしたモデルよりも優れたパフォーマンスを期待できます。

信頼性の測定では、以下を判断する必要があります。

  • ラベルエラーはどれくらいの頻度で発生しますか。たとえば データが 評価者はどれくらいの頻度で間違えたでしょうか?
  • 特徴がうるさいかどうか。つまり、特徴量の値を使用して エラーの有無現実的 - データセットは削除できない 防ぐことができます。多少のノイズは正常です。あらゆる場所の GPS 測定値を 地域は週ごとに少し変動します
  • データは問題に応じて適切にフィルタリングされていますか?たとえば bot の検索クエリをデータセットに含めるべきでしょうか。もし 構築している場合、その答えはイエスである可能性が高いです。 しかし、人間に対する検索結果を改善しようとするのであれば、それは不可能です。

データセット内のデータの信頼性が低い一般的な原因は次のとおりです。

  • 省略された値。たとえば、ユーザーがスペースに値を入力するのを忘れてしまいました。 築年数です。
  • 例が重複しています。たとえば、サーバーが誤って同じファイルを 重複しています。
  • 不正な特徴値。たとえば、ユーザーが余分な数字を入力したり、 温度計が日の当たる場所に置かれていた。
  • 不適切なラベル。たとえば、誰かが誤って画像にラベルを付けて カエデの木に見えるようにしています。
  • 不適切なデータ セクション。たとえば ある特徴の信頼性が高い場合や その日のうちにネットワークがクラッシュし続けた日を除きます

自動化を使用して信頼性の低いデータを報告することをおすすめします。たとえば 外部の正式なデータスキーマを定義または使用する単体テストでは、 定義された範囲にない値にはフラグを付ける必要があります。

完全な例と不完全な例

完璧な世界では、それぞれの例が完全な形になります。つまり、各サンプルには、 特徴ごとに値を設定します

図 1. 5 つすべての値を含む例は、
       説明します。
図 1. 完全な例。

 

残念ながら、実際の例は多くの場合不完全です。つまり、 欠損している特徴値が 1 つ以上あります

図 2. 5 つのうち 4 つの値を含む例
            説明します。1 件の対象物が未提出とマークされています。
図 2. 不完全な例。

 

不完全なサンプルでモデルをトレーニングしないでください。代わりに、修正または排除し、 作成するには、次のいずれかを行います。

  • 不完全な例を削除します。
  • 欠損値をImputeする つまり、次の文を追加して、不完全な例を完全な例に変換します。 欠損値について十分な根拠のある推測を行う。
図 3. 3 つのサンプル(そのうちの 2 つは
            不完全な例です。誰かがこの 2 つの未完了の攻撃を仕掛けた
            取得します。
図 3. 不完全なサンプルをデータセットから削除する。

 

図 4. 3 つのサンプルを含むデータセット。そのうちの 2 つは
            欠損データを含む不完全な例を返します。なんらかのエンティティ(人間
            代入ソフトウェアなど)に代入された値が
            欠損データがあります
図 4. 不完全なサンプルの欠損値の入力。

 

有用なモデルをトレーニングするのに十分な完全なサンプルがデータセットに含まれている場合は、 不完全な例を削除することを検討してください。 同様に、1 つの特徴だけでかなりの量のデータがなく、 モデルにあまり役に立たない特徴がある場合は、 モデル入力からその特徴を取得し、モデル入力によって 削除されます。モデルがなくても、まったく、またはほぼ同じように機能するのであれば、それは素晴らしいことです。 逆に、有用なモデルをトレーニングするのに十分な完全なサンプルがない場合は、 欠損値を補完することを検討します

役に立たない例や冗長な例を削除しても問題ありませんが、削除は推奨されません。 重要な例です。残念ながら、画像と動画、音声、 見分けがつくようになります。判断が難しい場合は 削除または代入するには、2 つのデータセットを構築することを検討してください。 不完全な例ともう一方を補完することによって行います。 次に、より優れたモデルをトレーニングするデータセットを決定します。


<ph type="x-smartling-placeholder">

一般的なアルゴリズムの 1 つは、補完値として平均または中央値を使用することです。 そのため、数値特徴量を Z スコアの場合、 代入される値は通常 0 です(0 は一般的に平均 Z スコアであるため)。

演習:理解度をチェックする

Timestamp で並べ替えたデータセットの 2 つの列を次に示します。

タイムスタンプ 温度
2023 年 6 月 8 日 09:00 12
2023 年 6 月 8 日 10:00 18
2023 年 6 月 8 日 11:00 missing
2023 年 6 月 8 日 12:00 24
2023 年 6 月 8 日 13:00 38

代入として妥当な値は、次のうちどれですか。 どうすればよいでしょうか。

23
おそらく、23 は隣接する値(12、18、24、38)の平均です。 残りのデータセットは確認できないため、 23 が他の日の 11:00 の外れ値になります。
31
可能性は低い。データセットの限られた部分から 11:00 の温度に対して 31 は高すぎます。ただし、 より多くの情報に基づいた補完を行わなければ、確信が持てない 説明します。
51
可能性はとても低いです。51 は表示されたどの値よりもはるかに高いです (そのため、平均よりもはるかに高くなります)。