データセット、一般化、過剰適合

学習目標

データとデータセットの 4 つの異なる特性を特定する。
データの信頼性の低下の原因を少なくとも 4 つ特定する。
欠損データを破棄するタイミングと、欠損データを補完するタイミングを決定します。
直接ラベルと派生ラベルを区別する。
人間が評価したラベルの品質を向上させる 2 つの方法を特定します。
データセットをトレーニングセット、検証セット、テストセットに分割する理由を説明します。データ分割で発生する可能性のある問題を特定します。
過剰適合について説明し、その考えられる 3 つの原因を特定します。
正則化の概念を説明する。特に、次のとおりです。 <ph type="x-smartling-placeholder">
- バイアスと分散（外れ値への適応など）
- L₂ 正則化（ラムダ（正則化率）を含む）
- 早期停止
さまざまな種類の損失曲線を解釈し、損失曲線の収束と過学習を検出します。

で確認できます。

はじめに

このモジュールは先頭の質問から始まります。次のいずれかを選択します。

次の分野のいずれかの改善を優先する必要がある場合最もレイテンシの高い部分が多いため、効果は？

データセットの品質を改善する

データがすべてを凌駕します。データセットの品質とサイズは何よりもモデルの構築に使用できます

より巧妙な損失関数を適用してモデルをトレーニングする

正しい損失関数にするとモデルのトレーニングが速くなりますがリストの別のアイテムとはかけ離れています。

そして、さらに重要な質問です。

機械学習プロジェクトで、データの準備と変換に通常どれくらいの時間を費やしていますか？

プロジェクト時間の半分以上

はい。ML 担当者は、データセットの構築と特徴量エンジニアリングに大部分の時間を費やします。

プロジェクト時間の半分未満

今後の計画を立てましょう。通常、機械学習プロジェクトの時間の 80% は、データセットの構築とデータの変換に費やされます。

このモジュールでは、機械学習データセットの特性と、モデルのトレーニングと評価で高品質な結果を得るためにデータを準備する方法について学習します。