이 강의는 데이터에 대해 물어봐야 할 질문에 중점을 둡니다. 살펴봤습니다
각 기능이 유용한가요?
모델을 지속적으로 모니터링하여 모델에 기여하는 특성을 삭제해야 합니다. 모델의 예측 능력에 거의 또는 전혀 영향을 미치지 않습니다. 모델의 입력 데이터가 모델의 동작이 변경할 수 있습니다.
다음과 같은 관련 질문도 생각해 보세요.
- 특성의 유용성이 특성을 포함하는 비용을 정당화하나요?
모델에 더 많은 특성을 추가하고 싶은 유혹이 생길 수 있습니다. 예를 들어 덧셈이 모델의 예측을 수행하는 새 특성을 발견했다고 가정하겠습니다. 좋습니다. 약간 더 나은 예측이 확실히 예측이 약간 나빠졌습니다. 추가 기능을 사용하면 유지보수의 부담을 줄일 수 있습니다
데이터 소스를 신뢰할 수 있나요?
입력 데이터의 신뢰성에 관해 물어야 할 몇 가지 질문은 다음과 같습니다.
- 신호를 항상 사용할 수 있나요, 아니면
신뢰할 수 없는 출처인가요? 예를 들면 다음과 같습니다.
- 부하가 크면 비정상 종료되는 서버에서 신호가 오나요?
- 매년 8월마다 휴가를 떠나는 사람으로부터 신호가 오나요?
- 모델의 입력 데이터를 계산하는 시스템이 변경되기도 하나요? 이 경우 다음 단계를 따르세요.
<ph type="x-smartling-placeholder">
- </ph>
- 얼마나 자주 발생하나요?
- 시스템이 변경되면 어떻게 알 수 있나요?
Google Cloud에서 제공하는 실행할 수도 있습니다 그런 다음 업스트림의 다음 버전으로만 진행합니다. 안전하다고 확신하는 경우에는 데이터를 수집하지 않아도 됩니다.
모델이 피드백 루프의 일부인가요?
모델이 자체 학습 데이터에 영향을 미치는 경우도 있습니다. 예를 들어 일부 모델의 결과는 다시 (직접적 또는 간접적으로) 입력으로 동일한 모델에 적용할 수 있습니다
모델이 다른 모델에 영향을 줄 수 있는 경우도 있습니다. 예를 들어 2개의 주가를 예측하는 모델입니다.
- 모델 A: 잘못된 예측 모델입니다.
- 모델 B
모델 A는 버그가 많아 실수로 주식 X를 구입하기로 결정합니다. 이러한 구매는 주식 X의 가격을 상승시킵니다. 모델 B는 가격을 사용합니다. 입력 특성으로 설정하여 모델 B는 일부 잘못된 예측을 할 수 있습니다. 주식 X의 가치에 대한 결론을 내릴 수 있습니다. 따라서 모델 B는 모델 A의 버그 행동에 기초하여 주식 X의 주식을 사고팔 수 있습니다. 결과적으로 모델 B의 행동은 모델 A에 영향을 미쳐 튤립 매니아 또는 슬라이드 인 회사 X의 주식입니다.