機械学習のためのデータ準備と特徴量エンジニアリングはこれで完了です。
ここでは、以下の方法について理解を深めました。
- データ品質とサイズがアルゴリズムにもたらす相対的な影響を認識する。
- データの変換にかかる時間について、十分な情報に基づいて現実的な期待値を設定します。
- ML ワークフロー全体におけるデータの収集と変換の一般的なプロセスを説明する。
- 元データを収集してデータセットを構築する
- 不均衡なデータを考慮に入れて、データセットをサンプリングして分割する。
- 数値データとカテゴリデータを変換する。