ML 구현이 충분한 가치가 있는지 어떻게 알 수 있을까요? 모델이 프로덕션으로 전환되고 첫 번째 예측을 제공한 직후에 축하를 시작해야 할까요? 아니면 정량적 비즈니스 측정항목이 올바른 방향으로 움직이기 시작한 후에야 할까요?
프로젝트를 시작하기 전에 성공 측정항목을 정의하고 결과에 합의하는 것이 중요합니다 다음 두 가지 유형의 측정항목을 정의하고 추적해야 합니다.
비즈니스 측정항목. 수익, 클릭률, 사용자 수 등 비즈니스 성과를 수치화하기 위한 측정항목입니다.
비즈니스 측정항목
비즈니스 측정항목이 가장 중요합니다. 이것이 바로 ML을 사용하는 이유이며 비즈니스 개선을 원하기 때문입니다
먼저 정량화할 수 있는 제품 또는 비즈니스 측정항목으로 시작하세요. 측정항목은 최대한 세분화되고 집중되어야 합니다. 다음은 집중적이고 정량화 가능한 비즈니스 측정항목의 예입니다.
- 데이터 센터의 월간 전기 비용을 30% 절감할 수 있습니다.
- 제품 추천을 통한 수익 12% 증가
- 클릭률 9% 증가
- 수신 동의 설문조사에서의 고객 감정 20% 향상
- 페이지에 머문 시간을 4% 늘립니다.
비즈니스 측정항목 추적
개선하려는 비즈니스 측정항목을 추적하지 않고 있다면 먼저 인프라를 구현해 보세요. 현재 클릭률을 측정하지 않고 있다면 클릭률을 15% 높이도록 목표를 설정하는 것은 논리적이지 않습니다.
더 중요한 것은 문제에 적합한 측정항목을 측정하고 있는지 확인하는 것입니다. 예를 들어 추천에서 얻는 수익이 더 중요한 측정항목이라면 클릭률을 추적하기 위한 계측을 작성하는 데 시간을 낭비하지 마세요.
프로젝트가 진행됨에 따라 목표 성공 측정항목이 실제로 현실적인 목표인지 알게 됩니다. 경우에 따라 정의된 성공 측정항목을 고려할 때 프로젝트가 실행 가능하지 않다고 판단할 수 있습니다.
모델 측정항목
모델을 언제 프로덕션에 적용해야 할까요? AUC가 특정 값인 경우는 언제인가요? 모델이 특정 F1 점수에 도달하면 어떻게 해야 하나요? 이 질문에 대한 답은 해결하려는 문제의 유형과 비즈니스 측정항목을 개선하는 데 필요하다고 생각하는 예측 품질에 따라 달라집니다.
모델을 평가할 측정항목을 결정할 때 다음 사항을 고려하세요.
최적화할 단일 측정항목을 결정합니다. 예를 들어 분류 모델은 다양한 측정항목(AUC, AUC-PR 등)을 기준으로 평가할 수 있습니다. 측정항목마다 선호하는 모델이 다르면 최상의 모델을 선택하기가 어려울 수 있습니다 따라서 모델을 평가할 단일 측정항목에 동의해야 합니다.
달성할 수용성 목표를 결정합니다. 허용 가능성 목표는 모델 평가 측정항목과 다릅니다 모델이 사용 사례에 적합한 것으로 간주되려면 달성해야 하는 목표를 의미합니다 예를 들어 허용 가능성 목표는 '잘못된 출력이 0.1% 미만임' 또는 '상위 5개 카테고리의 재현율이 97% 초과'일 수 있습니다.
예를 들어 이진 분류 모델이 허위 거래를 감지한다고 가정해 보겠습니다. 최적화 측정항목은 재현율일 수 있지만 허용 가능성 목표는 정밀도일 수 있습니다. 즉, 정밀도가 특정 값 또는 그 이상으로 유지되도록 (실제 사기 거래 식별)하기 위해 재현율 (대부분의 경우 사기를 올바르게 식별)에 우선순위를 둡니다.
모델 측정항목과 비즈니스 측정항목 간의 연결
기본적으로 예측 품질이 비즈니스 측정항목과 인과 관계가 있는 모델을 개발하려고 합니다. 모델 측정항목이 우수하다고 해서 비즈니스 측정항목이 반드시 향상되는 것은 아닙니다 팀이 인상적인 측정항목을 사용하여 모델을 개발하더라도 모델의 예측으로 비즈니스 측정항목을 개선하지 못할 수 있습니다.
모델의 예측 품질이 만족스러우면 모델의 측정항목이 비즈니스 측정항목에 어떤 영향을 미치는지 확인합니다. 일반적으로 팀은 1% 의 사용자에게 모델을 배포한 후 비즈니스 측정항목을 모니터링합니다.
예를 들어 팀에서 고객 이탈을 예측하여 수익을 늘리는 모델을 개발했다고 가정해 보겠습니다. 이론적으로 고객이 플랫폼을 떠날지 여부를 예측할 수 있다면 고객이 플랫폼을 계속 하도록 유도할 수 있습니다.
팀에서 95% 의 예측 품질로 모델을 만들고 소수의 사용자를 대상으로 테스트합니다. 하지만 수익은 증가하지 않습니다. 고객 이탈은 실제로 증가합니다. 이와 같은 현상이 발생할 수 있는 원인은 다음과 같습니다.
예측이 실행 가능할 만큼 일찍 발생하지 않습니다. 이 모델은 7일 이내의 고객 이탈만 예측할 수 있으며, 이 기간 동안은 고객이 플랫폼을 계속 사용하도록 인센티브를 제공하기에 충분하지 않습니다.
불완전한 기능. 학습 데이터 세트에 없는 다른 요인이 고객 이탈을 유발할 수도 있습니다
기준점이 충분히 높지 않습니다. 모델이 유용하려면 예측 품질이 97% 이상이어야 합니다.
이 간단한 예에서는 두 가지 사항을 강조합니다.
- 초기 사용자 테스트를 수행하여 모델의 측정항목과 비즈니스 측정항목 간의 연결을 입증하고 이해하는 것이 중요합니다.
- 모델 측정항목이 우수하다고 해서 비즈니스 측정항목 개선이 보장되지는 않습니다.
생성형 AI
생성형 AI 출력을 평가하는 데는 고유한 어려움이 따릅니다. 개방형 또는 창의적인 결과물과 같이 대부분의 경우 기존 ML 출력을 평가하는 것보다는 더 어렵습니다.
LLM은 다양한 측정항목을 기준으로 측정하고 평가할 수 있습니다. 모델을 평가할 측정항목을 결정하는 것은 사용 사례에 따라 다릅니다. 자세한 내용은 LLM 평가 소개를 참조하세요.
주의사항
모델 성공과 비즈니스 성공을 혼동하지 마세요. 즉, 우수한 측정항목이 있는 모델이라고 해서 비즈니스 성공을 보장하지는 않습니다.
숙련된 엔지니어 다수가 우수한 측정항목을 사용한 모델을 만들 수 있습니다. 일반적으로 양호한 모델 학습은 문제가 아닙니다. 오히려 모델이 비즈니스 측정항목을 개선하지 않기 때문입니다 ML 프로젝트는 비즈니스 측정항목과 모델 측정항목 간의 불일치로 인해 실패할 수 있습니다.