データの変換: 理解度チェック

次の質問については、目的の矢印をクリックして答えを確認してください。

あなたは回帰モデルのデータを前処理しています。必須の変換該当する項目をすべて選択してください。
数値以外のすべての特徴を数値特徴に変換する。
正解です。これは必須の変換です。文字列には行列乗算を行えないため、文字列はなんらかの数値表現に変換する必要があります。
数値データを正規化する。
数値データを正規化するのも便利ですが、これはオプションの品質変換です。

 

以下の表をご覧ください。どのデータ変換手法を導入したら高い効果が得られるでしょうか。また、その理由は何ですか。ここでは、roomPerPerson と住宅価格の線形関係を求めることが目標だとします。
Z スコア
外れ値が極端でない場合は、Z-score が適しています。 ただし、この外れ値は極端です。
クリッピング
データセットには極端な外れ値が含まれているため、クリッピングに適しています。他の正規化を適用する前に、極端な外れ値を修正する必要があります。
ログのスケーリング
データがべき乗法則の分布に適合していることを確認したら、ログのスケーリングをおすすめします。ただし、このデータは電力法則の分布ではなく通常の分布に準拠しています。
分位点境界を持つバケット化(ビニング)
分位点バケットは、偏りのあるデータに適した手法ですが、この場合、極端な外れ値がいくつか原因となっていることがあります。また、モデルに線形関係を学習させたいと考えています。そのため、roomsPerPerson は、それをカテゴリに変換するのではなく、数値として維持する必要があります。これがバケット化の仕組みです。代わりに、正規化の手法をお試しください。

さまざまな RoomsPerPerson の相対頻度を示すグラフ。RoomsPerPerson は、ある住宅の部屋数をその部屋の数で割ったものです。ほとんどのデータは 0 ~ 5 の分布で、ポイントは 5 ~ 55 の範囲で交差しています。

 

以下の表をご覧ください。どのデータ変換手法を導入したら高い効果が得られるでしょうか。また、その理由は何ですか。
Z スコア
外れ値が極端でなくクリッピングが必要な場合は Z スコアが適しています。しかし、ここでは違います。データのスキューの仕方はヒントになります。
クリッピング
極端な外れ値がある場合は、クリッピングが適しています。ただし、このグラフは電力法の分布を示しています。これに対応する別の正規化手法があります。
ログのスケーリング
データはべき乗法の分布を遵守しているため、ここではログのスケーリングが適切です。
分位点境界を持つバケット化(ビニング)
分位点バケットは、偏りのある手法に適しています。ただし、線形関係を学習するためのモデルを探しています。したがって、データを数値のままにして、バケットに配置しないでください。代わりに正規化の手法をお試しください。

棒グラフが最下位に大きく集中している棒グラフ最初の棒の大きさは 1,200、2 番目の棒の大きさは 460、3 番目の棒の大きさは 300 です。15 の棒までは、大きさが約 30 まで下がっています。ロングテールはさらに 90 本連続して続き、ロングテールの大きさは 10 を超えることはありません。

 

以下の表をご覧ください。線形モデルは、圧縮率と city-mpg の関係について適切な予測を行いますか?ない場合、モデルを適切にトレーニングするためにデータをどのように変換すればよいでしょうか。
はい。モデルはおそらく線形関係を見つけ、かなり正確な予測を行います。
モデルは直線的な関係を見つけますが、予測の精度は高くありません。このデータセットをデータ モデリング 演習でトレーニングすることで、理由をより深く理解できます。
いいえ。スケーリング後にはモデルの精度が上がったと思われます。
線形スケーリングも適用できますが、圧縮率と city-mpg の関係の傾きは同じように見えます。2 つの傾きを個別に表示してみましょう。1 つは低い圧縮率のポイントのクラスタ、もう 1 つは高い方の圧縮率のポイントです。
いいえ。2 つの異なる動作が行われているようです。中間にしきい値を設定し、バケット化された特徴を使用すると、この 2 つの領域で何が起こっているかを詳しく把握できます。
正解です。境界を設定する理由と方法について明確にしておくことが重要です。このアプローチが、より優れたモデルの作成にどのように役立つかについて、データ モデリングの演習で詳しく学習します。

圧縮率に対する Highway-mpg を示す散布図。2 つの異なるデータクロップ(一方は他方よりもはるかに大きいクランプ)が、圧縮比軸の両端に表示されます。大きいクランプは圧縮比の範囲 7 ~ 12 をカバーし、小さいクランプは圧縮比の範囲 21 ~ 23 をカバーします。通常、ハイウェイ MPG は大きなクランプよりも小さいクランプよりも少し低くなります。

 

ピアチームが、ML プロジェクトにおける進捗状況について報告します。ボキャブラリーを計算し、モデルをオフラインでトレーニングしました。しかし、最新でない問題を回避するために、オンラインで別のモデルをトレーニングしようとしています。この後の流れ
新しいデータが届くと、モデルが常に最新の状態に保たれます。相手チームは入力データを継続的にモニタリングする必要があります。
ダイナミック トレーニングの主な利点はモデルの古さを避けることですが、モデルをオフラインでトレーニングした語彙を使用すると問題が生じます。
使用しているインデックスがボキャブラブに対応していないことがわかる場合があります。
正解です。トレーニング/サービング スキューの危険性について同僚に警告し、Google の ML データ準備と特徴量エンジニアリングに関するコースで詳細を学習することをおすすめします。