모델 구현

모델을 구현할 때는 단순하게 시작하세요. ML 작업은 대부분 데이터 측에서 이루어지므로 복잡한 모델에 대해 전체 파이프라인을 실행하는 것은 모델 자체에서 반복하는 것보다 어렵습니다. 데이터 파이프라인을 설정하고 몇 가지 기능을 사용하는 간단한 모델을 구현한 후에는 더 나은 모델 만들기를 반복할 수 있습니다.

단순한 모델은 결국 모델을 시작하지 않더라도 좋은 기준을 제공합니다. 사실, 단순한 모델을 사용하는 것이 생각보다 더 나을 것입니다. 단순하게 시작하면 복잡한 모델이 타당한지 여부를 판단하는 데 도움이 됩니다.

자체 모델 학습과 선행 학습된 모델 사용 비교

다양한 사용 사례를 위한 선행 학습된 여러 모델이 존재하며 여러 이점을 제공합니다. 하지만 선행 학습된 모델은 라벨과 특성이 데이터 세트와 정확히 일치할 때만 제대로 작동합니다. 예를 들어 선행 학습된 모델에서 25개의 특성을 사용하고 그 중 24개만 데이터 세트에 포함된 경우 선행 학습된 모델의 예측이 잘못될 가능성이 높습니다.

일반적으로 ML 실무자는 미세 조정 또는 전이 학습을 위해 선행 학습된 모델에서 입력과 일치하는 하위 섹션을 사용합니다. 특정 사용 사례에 선행 학습된 모델이 없다면 자체 학습 시 선행 학습된 모델의 하위 섹션을 사용하는 것이 좋습니다.

선행 학습된 모델에 대한 자세한 내용은 다음을 참조하세요.

모니터링

문제를 프레이밍하는 동안 ML 솔루션에 필요한 모니터링 및 알림 인프라를 고려합니다.

모델 배포

경우에 따라 새로 학습된 모델이 현재 프로덕션 단계의 모델보다 나쁠 수 있습니다. 이 경우 프로덕션으로 출시되지 않도록 하고 자동 배포가 실패했다는 알림을 받는 것이 좋습니다.

학습-서빙 편향

추론에 사용되는 수신 특성 중 학습에 사용된 데이터의 분포 범위를 벗어나는 값이 있으면 모델의 예측이 잘못될 가능성이 높으므로 알림을 받는 것이 좋습니다. 예를 들어 모델이 해수면 적도 도시의 온도를 예측하도록 학습되었다면 서비스 제공 시스템은 위도와 경도 또는 모델이 학습된 범위 밖에 있는 고도가 포함된 수신 데이터를 사용자에게 알려야 합니다. 반대로 모델이 학습 중에 표시된 분포 범위를 벗어나는 예측을 하면 제공 시스템에서 알림을 보냅니다.

추론 서버

RPC 시스템을 통해 추론을 제공하는 경우 RPC 서버 자체를 모니터링하고 추론 제공을 중지하면 알림을 받아야 합니다.