データセット、一般化、過学習

はじめに

このモジュールは先頭の質問から始まります。 次のいずれかを選択してください。

次の分野のいずれかの改善を優先する必要がある場合 最もレイテンシの高い部分が多いため、 効果は?
データセットの品質の向上
データはすべてに優先します。 データセットの品質とサイズは何よりも モデルの構築に使用できます
より巧妙な損失関数を適用してモデルをトレーニングする
正しい損失関数にするとモデルのトレーニングが速くなります リストの別のアイテムとはかけ離れています。

ここで、さらに重要な質問があります。

クイズ: あなたの ML プロジェクトでは、 通常、データの準備と変換に時間を費やしていますか?
プロジェクト時間の半分以上
はい。ML 担当者は大半の時間を費やしている データセットの構築 特徴量エンジニアリングです
プロジェクト時間の半分未満
さらに計画を立てる通常 80% の時間は ML に費やす データセットの構築とデータの変換に費やされます。

このモジュールでは、ML の特徴について詳しく学習します。 高品質の結果を出力するためのデータの準備方法について、 モデルのトレーニングと評価を行います