このレッスンでは、本番環境システムのデータとモデルについて確認すべき質問について説明します。
各機能は役に立ちましたか?
モデルを継続的にモニタリングして、モデルの予測能力にほとんどまたはまったく貢献しない特徴を削除する必要があります。その特徴の入力データが急激に変化すると、モデルの動作も望ましくない方法で急激に変化する可能性があります。
以下の関連する質問も検討してください。
- 機能の有用性が、その機能の追加にかかる費用を正当化するものですか?
モデルに機能を追加したくなるのは当然です。たとえば、追加することでモデルの予測がわずかに改善される新しい特徴を見つけたとします。予測の精度が少し向上することは、精度が少し低下するよりも確かに良いことですが、追加機能はメンテナンスの負担を増やします。
データソースは信頼できますか?
入力データの信頼性について確認すべき点は次のとおりです。
- シグナルは常に利用可能か、信頼できないソースから取得されるか。例:
- シグナルは、負荷が高いときにクラッシュするサーバーから送信されていますか?
- 8 月に休暇を取る人間から発信されたシグナルですか?
- モデルの入力データを計算するシステムは変更されますか?該当する場合:
- どのくらいの頻度で発生しますか?
- そのシステムが変更されたことをどのようにして知ることができますか?
アップストリーム プロセスから受信したデータのコピーを独自に作成することを検討してください。安全にアップストリーム データの次のバージョンに進む場合は、そのことを確認してください。
モデルはフィードバック ループの一部ですか?
モデルが独自のトレーニング データに影響することもあります。たとえば、一部のモデルの結果は、その同じモデルへの入力特徴(直接的または間接的)になります。
モデルが別のモデルに影響を与えることもあります。たとえば、株価を予測する 2 つのモデルについて考えてみましょう。
- モデル A: 不適切な予測モデル。
- モデル B。
モデル A にはバグがあるため、誤って Stock X の株式を購入することにします。これらの購入により、株式 X の価格が上昇します。モデル B は、株式 X の価格を入力特徴として使用するため、株式 X の価値について誤った結論に至る可能性があります。したがって、モデル B は、モデル A のバグのある動作に基づいて、株式 X の株を売買する可能性があります。モデル B の動作がモデル A に影響し、チューリップ マニアや会社 X の株価の下落を引き起こす可能性があります。