모델 구현

모델을 구현할 때는 단순하게 시작하세요. ML 작업은 대부분 데이터 측에서 이루어지므로 복잡한 모델에 대해 전체 파이프라인을 실행하는 것은 모델 자체에서 반복하는 것보다 어렵습니다. 데이터 파이프라인을 설정하고 몇 가지 특성을 사용하는 간단한 모델을 구현한 후에는 더 나은 모델을 만드는 과정을 반복할 수 있습니다.

단순한 모델은 결국에는 실행에 옮기지 않더라도 좋은 기준을 제공합니다. 사실 단순한 모델을 사용하는 것이 생각보다 나을 것입니다. 단순하게 시작하면 복잡한 모델이 타당한지 여부를 판단하는 데 도움이 됩니다.

자체 모델 학습과 이미 학습된 모델 사용 비교

학습된 모델은 다양한 사용 사례에 적합하며 여러 가지 장점이 있습니다. 그러나 학습된 모델은 라벨과 특성이 데이터 세트와 정확히 일치하는 경우에만 작동합니다. 예를 들어 학습된 모델이 25개의 특성을 사용하고 그 중 24개만 데이터 세트에 포함된 경우 학습된 모델이 잘못된 예측을 할 가능성이 높습니다.

일반적으로 ML 실무자는 미세 조정 또는 전이 학습을 위해 학습된 모델에서 입력의 하위 섹션을 매칭하는 방식을 사용합니다. 특정 사용 사례에 학습된 모델이 없는 경우 자체 학습 시 학습된 모델의 하위 섹션을 사용하는 것이 좋습니다.

학습된 모델에 대한 자세한 내용은 다음을 참조하세요.

모니터링

문제 프레이밍 중에 ML 솔루션에 필요한 인프라의 모니터링 및 알림을 고려하세요.

모델 배포

경우에 따라 새로 학습된 모델이 현재 프로덕션 단계에 있는 모델보다 더 나쁠 수도 있습니다. 이 경우 프로덕션으로 출시되지 않도록 하고 자동 배포가 실패했다는 알림을 받는 것이 좋습니다.

학습-서빙 편향

추론에 사용되는 수신 특성 중 학습에 사용된 데이터의 분포 범위를 벗어나는 값이 있으면 모델의 예측을 잘못 수행할 가능성이 높으므로 알림이 전송됩니다. 예를 들어 모델이 해수면에서 적도 도시의 온도를 예측하도록 학습된 경우 서빙 시스템은 위도 및 경도 또는 모델이 학습된 범위 밖의 고도가 포함된 수신 데이터에 대해 사용자에게 알려야 합니다. 반대로 모델이 학습 중에 표시된 분포 범위를 벗어나는 예측을 수행하는 경우 제공 시스템이 사용자에게 이를 알려야 합니다.

추론 서버

RPC 시스템을 통해 추론을 제공하는 경우 RPC 서버 자체를 모니터링하고 추론 제공이 중지되면 알림을 받는 것이 좋습니다.