문제 이해하기

문제를 파악하려면 다음 작업을 수행합니다.

  • 개발 또는 리팩터링 중인 제품의 목표를 명시하세요.
  • 예측 ML을 사용하여 목표가 가장 잘 해결되는지 확인 또는 비ML 솔루션일 수 있습니다
  • BigQuery ML을 사용하는 경우 모델을 학습시키는 데 필요한 데이터가 있는지 예측 ML 접근 방식을 취합니다.

목표 명시

ML 이외의 용어로 목표를 설명합니다. 목표는 질문할 수 있습니다.

다음 표에는 가상 앱의 목표가 명확하게 설명되어 있습니다.

애플리케이션 목표
날씨 앱 특정 지역의 강수량을 6시간 단위로 계산합니다.
패션 앱 다양한 셔츠 디자인을 생성합니다.
동영상 앱 유용한 동영상을 추천합니다.
메일 앱 스팸을 감지합니다.
금융 앱 여러 뉴스 매체의 금융 정보를 요약합니다.
지도 앱 이동 시간 계산
뱅킹 앱 허위 거래를 식별합니다.
식당 앱 레스토랑의 메뉴를 통해 음식 종류를 식별합니다.
전자상거래 앱 유용한 답변으로 리뷰에 답글을 달아주세요.

명확한 ML 사용 사례

일부에서는 ML을 모든 문제에 적용할 수 있는 보편적인 도구로 간주합니다. 포함 ML은 특정 문제에만 적합한 특수 도구입니다. 더 간단한 비-ML 솔루션으로 충분한데 복잡한 ML 솔루션을 구현하고 싶지 않습니다.

ML 시스템은 크게 두 가지 카테고리로 나눌 수 있습니다. 예측 ML생성형 AI입니다. 다음 표에는 다음과 같이 정의된 특성이 나와 있습니다.

입력 출력 학습 기법
예측 ML 텍스트
이미지
오디오
동영상
숫자
예를 들어 이메일을 스팸 또는 스팸이 아닌 것으로 분류하거나, 내일의 강우량을 추측하거나, 주식 가격을 예측하는 등의 예측을 실행합니다. 출력은 일반적으로 실제와 비교하여 확인할 수 있습니다. 지도 학습에서는 일반적으로 많은 데이터를 사용하여 비지도 또는 강화 학습 모델을 사용하여 실행할 수 있습니다
생성형 AI 텍스트
이미지
오디오
동영상
숫자
사용자의 의도에 따라 출력을 생성합니다(예: 기사 요약, 오디오 클립 또는 짧은 동영상 제작). 일반적으로 라벨이 지정되지 않은 대량의 데이터를 사용하여 대규모 언어 모델 또는 이미지 생성기를 학습시켜 누락된 데이터를 채웁니다. 그런 다음 모델을 사용하여 빈칸 채우기 태스크로 프레이밍할 수 있거나 특정 작업에 대해 라벨이 지정된 데이터로 학습하여 미세 조정(예: 있습니다.

ML이 적절한 접근 방식인지 확인하려면 먼저 현재 비 ML 솔루션이 최적화되어 있는지 확인합니다. ML 이외의 솔루션이 구현되어 있지 않으면 휴리스틱을 사용하여 문제를 수동으로 해결해 보세요.

ML 이외의 솔루션은 ML이 문제에 적합한 사용 사례인지 판단하는 데 사용할 벤치마크입니다. ML 이외의 접근 방식과 ML 접근 방식을 비교할 때 다음 질문을 고려하세요.

  • 품질 ML 솔루션이 얼마나 더 나을까요? 만약 ML 솔루션이 약간 개선되었다고 생각하는 것은 현재 솔루션이 가장 좋은 방법입니다

  • 비용 및 유지관리. 머신러닝 솔루션과 장단기인가? 어떤 경우에는 ML을 구현하는 데 필요한 컴퓨팅 리소스와 시간을 배웠습니다 다음 질문을 고려하세요.

    • ML 솔루션이 비용 증가를 정당화할 수 있을까요? 작은 것은 대규모 시스템의 개선을 통해 비용 및 투자의 타당성을 쉽게 ML 솔루션 구현 유지보수
    • 솔루션에 어느 정도의 유지보수가 필요할까요? 많은 경우 ML은 장기적인 전담 유지보수가 필요합니다.
    • 제품에 교육 또는 채용에 도움이 되는 리소스가 있나요? 어떻게 해야 할까요?

이해도 확인

ML 솔루션을 분석하기 전에 ML 이외의 솔루션이나 휴리스틱을 마련하는 것이 중요한 이유는 무엇인가요?
비 ML 솔루션은 ML 솔루션을 측정하는 벤치마크입니다.
비 ML 솔루션은 ML 솔루션의 비용을 판단하는 데 도움이 됩니다.

예측 ML 및 데이터

데이터는 예측 ML의 원동력입니다. 좋은 일을 하다 예측을 불가능하게 하려면 포함된 특성을 강력합니다. 데이터는 다음과 같은 특성을 지녀야 합니다.

  • 풍부함 데이터 세트에 관련성 있고 유용한 예가 많을수록 모델이 더 향상됩니다.

  • 일관되고 안정적입니다. 일관되고 안정적인 데이터를 보유하는 것이 더 나은 모델이 생성됩니다. 예를 들어 ML 기반 날씨는 신뢰할 수 있는 모델로부터 수년간 수집된 데이터를 활용하여 배우게 됩니다.

  • 신뢰할 수 있음 데이터의 출처를 파악하세요. 데이터는 신뢰할 수 있는 소스(예: 제품의 로그)에서 액세스할 수 있는지, 아니면 다른 데이터의 출력과 같이 유용한 정보가 많지 않은 소스의 데이터는 어떻게 해야 할까요?

  • 사용 가능 예측 시점에 모든 입력이 확인해 보시기 바랍니다. 예측 시 특정 특성 값을 얻기 어렵다면 데이터 세트에서 해당 특성을 생략합니다.

  • 정답입니다. 대규모 데이터 세트의 경우 일부 데이터가 라벨에 잘못된 값이 포함되므로 잘못된 라벨의 비율이 적으면 모델이 잘못된 예측을 생성합니다.

  • 담당자. 데이터 세트는 실제 데이터 세트와 최대한의 힘이 필요합니다. 즉, 데이터 세트가 이벤트, 사용자 행동 및/또는 실제 세상에서 발생하는 현상 등을 있습니다. 대표성이 없는 데이터 세트로 학습하면 모델에 실제 예측을 요청할 때 성능이 저하될 수 있습니다.

필요한 데이터를 필요한 형식으로 얻을 수 없는 경우 모델이 잘못된 예측입니다.

예측력

모델이 제대로 예측하려면 데이터 세트의 특성이 예측 능력. 특성이 라벨과 상관관계가 높을수록 라벨을 예측할 가능성이 높습니다.

일부 특성은 다른 특성보다 예측 성능이 높습니다. 예를 들어 날씨 데이터 세트, cloud_coverage, temperature, moon_phase보다 dew_point이(가) 더 나은 강수 예측 변수입니다. day_of_week입니다. 동영상 앱의 경우 동영상 앱에서만 사용할 수 있는 video_description, length, views가 사용자가 보고 싶어 할 만한 동영상

특성의 예측 능력은 맥락 또는 특성의 특성이나 특성이 변경할 수 있습니다. 예를 들어 동영상 앱에서 upload_date와 같은 기능이 있습니다. 일반적으로 라벨과 상관관계가 약한 것으로 나타납니다. 하지만 게임 동영상의 하위 도메인에서는 upload_date가 음반사와 밀접한 관련이 있을 수 있습니다.

어떤 특성에 예측 성능이 있는지 판단하는 데 시간이 오래 걸릴 수 있음 프로세스입니다 모델을 학습하는 동안 특성을 삭제했다가 추가하여 특성의 예측력을 수동으로 살펴볼 수 있습니다. 피어슨 상관관계, 조정된 상호 정보(AMI), 샤플리 값과 같은 알고리즘을 사용하여 특성의 예측력을 찾는 작업을 자동화할 수 있습니다. 이러한 알고리즘은 특성의 예측력을 분석하기 위한 수치 평가를 제공합니다.

이해도 확인

데이터 세트를 분석할 때 확인해야 하는 세 가지 주요 속성은 무엇인가요?
실제를 대표합니다.
올바른 값이 포함되어 있습니다.
특성은 라벨에 대한 예측력을 갖습니다.
로컬 머신에 로드할 수 있을 정도로 작습니다.
예측할 수 없는 다양한 소스에서 수집됩니다.

데이터 세트 분석 및 준비에 대한 자세한 안내는 다음을 참조하세요. 머신러닝을 위한 데이터 준비 및 특성 추출.

예측과 작업 비교

예측을 실제 데이터로 바꿀 수 없다면 예측해도 무의미함 사용자를 돕는 행동입니다. 즉, 제품은 모델의 출력에서 작업을 실행해야 합니다.

예를 들어 사용자가 동영상을 유용하게 생각할지 예측하는 모델은 유용한 동영상을 추천하는 앱에 제공해야 합니다. 비가 올지 예측하는 모델은 날씨 앱에 제공해야 합니다.

이해도 확인

다음 시나리오를 기반으로 ML을 사용하는 것이 가장 좋은지 결정하세요. 접근하는 방법을 배웁니다.

대기업의 엔지니어링팀이 수신 전화를 관리합니다.

목표: 발신자에게 지정된 대기 시간을 알립니다. 현재 통화 볼륨입니다.

현재 해결 방법은 없지만 대기 중인 현재 고객 수를 전화에 응답하는 직원 수로 나눈 다음 10분으로 곱하는 것이 휴식 시간의 휴식 시간을 추정하는 데 도움이 될 것이라고 생각합니다. 하지만 일부 고객의 문제는 2분 내에 해결되는 반면 다른 고객의 문제는 최대 45분 이상 걸릴 수 있다는 것을 알고 있습니다.

휴리스틱을 사용해도 충분히 정확한 숫자를 얻지 못할 수 있습니다. 그들은 다음 열이 있는 데이터 세트를 만들 수 있습니다. number_of_callcenter_phones, user_issue, time_to_resolve, call_time, time_on_hold입니다.

ML을 사용합니다. 엔지니어링팀에 명확하게 정의된 목표가 있습니다. 고객의 휴리스틱이 사용 사례에 충분하지 않을 것입니다. 데이터 세트가 표시됩니다. time_on_hold 라벨의 예측 특성을 포함합니다.
ML을 사용하지 마세요. 명확하게 정의된 목표가 있지만 먼저 ML 이외의 솔루션을 구현하고 최적화해야 합니다. 또한 데이터 세트에 예측 성능이 있는 특성이 충분하지 않은 것으로 보입니다.