프로덕션을 위해 ML 파이프라인을 준비하려면 다음을 수행해야 합니다.
- 파이프라인의 컴퓨팅 리소스 프로비저닝
- 로깅, 모니터링, 알림 구현
컴퓨팅 리소스 프로비저닝
ML 파이프라인을 실행하려면 RAM, CPU, GPU/TPU와 같은 컴퓨팅 리소스가 필요합니다. 적절한 컴퓨팅 없이는 파이프라인을 실행할 수 없습니다. 따라서 파이프라인에서 필요한 리소스를 프로비저닝하기에 충분한 할당량 확보 프로덕션에서 실행해야 합니다
서빙, 학습, 검증 파이프라인. 이러한 파이프라인에는 TPU, GPU, CPU가 포함됩니다. 사용 사례에 따라 모델을 학습시키고 동일한 하드웨어를 사용할 수도 있습니다 예를 들어 학습은 CPU에서 발생하지만 서빙에는 TPU가 사용될 수 있으며 그 반대의 경우도 마찬가지입니다. 일반적으로 학습한 다음 더 작은 하드웨어에서 제공하는 것이 일반적입니다.
하드웨어를 선택할 때 다음 사항을 고려하세요.
- 더 저렴한 하드웨어로 학습시킬 수 있나요?
- 다른 하드웨어로 전환하면 성능이 향상되나요?
- 모델은 어떤 크기이며 어떤 하드웨어가 성능을 최적화하나요?
- 모델의 아키텍처에 따라 이상적인 하드웨어는 무엇인가요?
데이터 파이프라인. 데이터 파이프라인에는 RAM 및 CPU 할당량이 필요함 이러한 디바이스에서 성공하는 파이프라인에서 학습 및 테스트 데이터 세트를 생성하는 데 필요한 할당량이 훨씬 더 많기 때문입니다.
각 파이프라인에 할당량을 할당하지 않을 수도 있습니다. 대신 파이프라인이 공유하는 할당량을 할당할 수 있습니다 이러한 경우 모든 파이프라인을 실행할 수 있는 할당량이 충분하며 잘못된 단일 파이프라인이 모든 할당량을 소비하지 않도록 변경하는 것입니다.
할당량 예측
데이터 및 학습 파이프라인에 필요한 할당량을 예측하려면 견적의 근거가 되는 유사한 프로젝트를 선택합니다. 게재 할당량을 예상하려면 서비스의 초당 쿼리 수를 예측합니다 이러한 방법이 기준을 제공합니다. 따라서 실험 단계에서 솔루션의 프로토타입 제작을 시작하면 보다 정확한 할당량 추정치를 얻을 수 있습니다.
할당량을 예측할 때는 프로덕션뿐만 아니라 진행 중인 실험에도 사용할 수 있습니다
이해도 확인
로깅, 모니터링, 알림
프로덕션 모델의 동작을 로깅하고 모니터링하는 것은 매우 중요합니다. Robust 모니터링 인프라를 통해 모델이 안정적으로 제공하는지 확인할 수 있습니다 얻을 수 있습니다
ML에서 문제를 사전에 식별하는 데 도움이 되는 우수한 로깅 및 모니터링 관행 잠재적인 비즈니스 영향을 완화할 수 있습니다 문제가 발생하면 알림은 팀원에게 알릴 수 있고, 종합적인 로그는 근본 원인을 파악합니다
다음 문제를 감지하려면 로깅 및 모니터링을 구현해야 합니다. ML 파이프라인:
파이프라인 | 모니터링 |
---|---|
서빙 |
|
데이터 |
|
학습 |
|
유효성 검사 |
|
또한 다음에 대한 로깅, 모니터링, 알림이 필요합니다.
- 지연 시간. 예측을 전달하는 데 시간이 얼마나 걸리나요?
- 서비스 중단. 모델의 예측 제공이 중지되었나요?
이해도 확인
모델 배포
모델 배포에서는 다음을 문서화합니다.
- 배포를 시작하고 출시를 늘리려면 승인이 필요합니다.
- 모델을 프로덕션에 배치하는 방법
- 모델이 배포되는 위치(예: 스테이징 또는 카나리아가 있는 경우) 지원합니다
- 배포 실패 시 수행할 작업입니다.
- 이미 프로덕션에 있는 모델을 롤백하는 방법
모델 학습을 자동화한 후에는 자동화합니다 배포 자동화를 통해 다른 인프라로 인해 배포 시 병목 현상이 발생할 가능성을 한 사람입니다. 또한 잠재적인 실수를 줄이고 효율성을 높이며 안정성을 높이고 긴급 대기 교대 및 SRE 지원을 지원합니다.
일반적으로 사용자의 하위 집합에 새 모델을 배포하여 모델이 적합한지 확인합니다. 확인할 수 있습니다 설정된 경우 배포를 계속 진행합니다. 그렇지 않은 경우 배포를 롤백하고 문제 진단 및 디버깅을 시작할 수 있습니다.