多くのデータセットでは、テーブル(グリッド)にデータが格納されています。たとえば、 カンマ区切り値(CSV)を使用するか、スプレッドシートや 自動的に作成されます。テーブルはマシンの直感的な入力形式 モデルの学習。 テーブルの各行は例として、 各列を特徴量またはラベルとして指定します ただし、データセットは、 プロトコル バッファです。
どのような形式であっても、ML モデルの品質は 基づいて処理します。このセクションでは、データの主な特徴を検証します。
データの種類
データセットにはさまざまな種類のデータ型を含めることができる 以下に限定されません。
- 数値データについては、別のモジュールで 単位
- カテゴリデータについては、別のモジュールで 単位
- 個々の単語や文を含む人間の言語、 テキスト ドキュメント全体
- マルチメディア(画像、動画、音声ファイルなど)
- 他の ML システムからの出力
- エンベディング ベクトル。 この後のユニットで説明します
上記のデータ型はさらに細分化できます。 このコースの後続のモジュール(たとえば、 データ モジュール - 詳細 サブカテゴリに分類できます
データ量
おおまかに言えば、モデルのトレーニングには少なくとも 1 つの注文が必要です。 トレーニング可能なパラメータよりも数(または 2)数の例が必要になります。ただし、 一般的に、モデルはこれよりも実質的に多くのサンプルでトレーニングします。
モデルは大規模なデータセットでトレーニングされ、 機能 小規模なデータセットでトレーニングしたモデルよりも 多くの機能が備わっています。 Google はこれまで、Google Cloud 上でのシンプルなモデルのトレーニングに 学習します。
ML プログラムごとに異なるデータセットを使用するため、 有用なモデルを構築できます。比較的多くの 数十の例で十分かもしれません。その他の問題については 1 兆個の例では不十分な場合があるからです。
モデルを適応させれば、小さなデータセットでも良い結果を得られる可能性あり 大量のデータですでにトレーニングされた 既存のモデルをトレーニングし 使用できます。
データの品質と信頼性
低品質より高品質が好まれるが、品質は曖昧 さまざまな方法で定義できると考えました。このコースでは、 品質を実用的に:
高品質のデータセットは、モデルの目標達成に役立ちます。 低品質のデータセットは、モデルの目標達成を妨げます。
通常、高品質のデータセットは信頼性も高くなります。 信頼性とは、データがどの程度信頼できるかを指します。 信頼性の高いデータセットでトレーニングしたモデルほど有用な結果を得られる可能性が高くなる トレーニングしたモデルよりも優れたパフォーマンスを期待できます。
信頼性の測定では、以下を判断する必要があります。
- ラベルエラーはどれくらいの頻度で発生しますか。たとえば データが 評価者はどれくらいの頻度で間違えたでしょうか?
- 特徴がうるさいかどうか。つまり、特徴量の値を使用して エラーの有無現実的 - データセットは削除できない 防ぐことができます。多少のノイズは正常です。あらゆる場所の GPS 測定値を 地域は週ごとに少し変動します
- データは問題に応じて適切にフィルタリングされていますか?たとえば bot の検索クエリをデータセットに含めるべきでしょうか。もし 構築している場合、その答えはイエスである可能性が高いです。 しかし、人間に対する検索結果を改善しようとするのであれば、それは不可能です。
データセット内のデータの信頼性が低い一般的な原因は次のとおりです。
- 省略された値。たとえば、ユーザーがスペースに値を入力するのを忘れてしまいました。 築年数です。
- 例が重複しています。たとえば、サーバーが誤って同じファイルを 重複しています。
- 不正な特徴値。たとえば、ユーザーが余分な数字を入力したり、 温度計が日の当たる場所に置かれていた。
- 不適切なラベル。たとえば、誰かが誤って画像にラベルを付けて カエデの木に見えるようにしています。
- 不適切なデータ セクション。たとえば ある特徴の信頼性が高い場合や その日のうちにネットワークがクラッシュし続けた日を除きます
自動化を使用して信頼性の低いデータを報告することをおすすめします。たとえば 外部の正式なデータスキーマを定義または使用する単体テストでは、 定義された範囲にない値にはフラグを付ける必要があります。
完全な例と不完全な例
完璧な世界では、それぞれの例が完全な形になります。つまり、各サンプルには、 特徴ごとに値を設定します
残念ながら、実際の例は多くの場合不完全です。つまり、 欠損している特徴値が 1 つ以上あります
不完全なサンプルでモデルをトレーニングしないでください。代わりに、修正または排除し、 作成するには、次のいずれかを行います。
- 不完全な例を削除します。
- 欠損値をImputeする つまり、次の文を追加して、不完全な例を完全な例に変換します。 欠損値について十分な根拠のある推測を行う。
有用なモデルをトレーニングするのに十分な完全なサンプルがデータセットに含まれている場合は、 不完全な例を削除することを検討してください。 同様に、1 つの特徴だけでかなりの量のデータがなく、 モデルにあまり役に立たない特徴がある場合は、 モデル入力からその特徴を取得し、モデル入力によって 削除されます。モデルがなくても、まったく、またはほぼ同じように機能するのであれば、それは素晴らしいことです。 逆に、有用なモデルをトレーニングするのに十分な完全なサンプルがない場合は、 欠損値を補完することを検討します
役に立たない例や冗長な例を削除しても問題ありませんが、削除は推奨されません。 重要な例です。残念ながら、画像と動画、音声、 見分けがつくようになります。判断が難しい場合は 削除または代入するには、2 つのデータセットを構築することを検討してください。 不完全な例ともう一方を補完することによって行います。 次に、より優れたモデルをトレーニングするデータセットを決定します。
<ph type="x-smartling-placeholder">
一般的なアルゴリズムの 1 つは、補完値として平均または中央値を使用することです。 そのため、数値特徴量を Z スコアの場合、 代入される値は通常 0 です(0 は一般的に平均 Z スコアであるため)。
演習:理解度をチェックする
Timestamp
で並べ替えたデータセットの 2 つの列を次に示します。
タイムスタンプ | 温度 |
---|---|
2023 年 6 月 8 日 09:00 | 12 |
2023 年 6 月 8 日 10:00 | 18 |
2023 年 6 月 8 日 11:00 | missing |
2023 年 6 月 8 日 12:00 | 24 |
2023 年 6 月 8 日 13:00 | 38 |
代入として妥当な値は、次のうちどれですか。 どうすればよいでしょうか。