AutoML: 시작하기

AutoML을 사용하려는 경우 작동 방식과 시작하는 데 필요한 단계에 관해 궁금한 점이 있을 수 있습니다. 이 섹션에서는 일반적인 AutoML 패턴을 자세히 살펴보고 AutoML이 작동하는 방식을 살펴본 후 프로젝트에 AutoML을 사용하기 전에 취해야 할 수 있는 단계를 살펴봅니다.

AutoML 도구

AutoML 도구는 크게 두 가지 카테고리로 나뉩니다.

코딩이 필요 없는 도구는 일반적으로 웹 애플리케이션의 형태를 취하며, 이를 통해 사용자 인터페이스를 통해 실험을 구성하고 실행하여 코드를 작성하지 않고도 데이터에 가장 적합한 모델을 찾을 수 있습니다.
API 및 CLI 도구는 고급 자동화 기능을 제공하지만 프로그래밍 및 ML 전문 지식이 더 많이(때로는 훨씬 더 많이) 필요합니다.

코딩이 필요한 AutoML 도구는 노코드 도구보다 강력하고 유연할 수 있지만 사용하기 더 어려울 수도 있습니다. 이 모듈에서는 모델 개발을 위한 코드 없는 옵션에 중점을 두지만 맞춤 자동화가 필요한 경우 API 및 CLI 옵션이 도움이 될 수 있습니다.

AutoML 워크플로

일반적인 ML 워크플로를 살펴보고 AutoML을 사용할 때 어떻게 작동하는지 알아보겠습니다. 워크플로의 대략적인 단계는 맞춤 학습에 사용하는 단계와 동일합니다. 가장 큰 차이점은 AutoML이 일부 작업을 자동으로 처리한다는 점입니다.

문제 정의

모든 ML 워크플로의 첫 번째 단계는 문제를 정의하는 것입니다. AutoML을 사용할 때는 선택한 도구가 ML 프로젝트의 목표를 지원할 수 있는지 확인합니다. 대부분의 AutoML 도구는 다양한 감독 머신러닝 알고리즘과 입력 데이터 유형을 지원합니다.

문제 프레이밍에 관한 자세한 내용은 머신러닝 문제 프레이밍 소개 모듈을 참고하세요.

데이터 수집

AutoML 도구로 작업을 시작하려면 먼저 데이터를 단일 데이터 소스로 수집해야 합니다. 제품 문서를 확인하여 도구에서 데이터 소스, 데이터 세트의 데이터 유형, 데이터 세트의 크기를 지원하는지 확인하세요.

데이터 준비

데이터 준비는 AutoML 도구가 도움이 될 수 있는 영역이지만 모든 작업을 자동으로 처리할 수 있는 도구는 없으므로 데이터를 도구로 가져오기 전에 몇 가지 작업을 해야 합니다. AutoML을 위한 데이터 준비는 모델을 수동으로 학습시키기 위해 해야 하는 작업과 유사합니다. 학습에 사용할 데이터를 준비하는 방법을 자세히 알아보려면 데이터 준비 섹션을 참고하세요.

데이터 준비에 관한 자세한 내용은 숫자 데이터 작업 및 카테고리 데이터 작업 모듈을 참고하세요.

AutoML 학습을 위해 데이터를 가져오기 전에 다음 단계를 완료해야 합니다.

데이터 라벨 지정하기

데이터 세트의 모든 예시에는 라벨이 필요합니다.
데이터 정리 및 형식 지정

실제 데이터는 지저분한 경향이 있으므로 데이터를 사용하기 전에 정리해야 합니다. AutoML을 사용하더라도 특정 데이터 세트와 문제에 가장 적합한 처리 방법을 결정해야 합니다. 최적의 결과를 얻으려면 몇 가지 탐색과 AutoML을 여러 번 실행해야 할 수 있습니다.
특성 변환 실행

일부 AutoML 도구는 특정 기능 변환을 자동으로 처리합니다. 하지만 사용 중인 도구가 필요한 기능 변환을 지원하지 않거나 제대로 지원하지 않는 경우 변환을 미리 실행해야 할 수 있습니다.

모델 개발 (노 코드 AutoML 사용)

AutoML은 학습 중에 자동으로 작업을 실행합니다. 하지만 학습을 시작하기 전에 실험을 구성해야 합니다. AutoML 학습 실행을 설정하려면 일반적으로 다음과 같은 대략적인 단계를 지정해야 합니다.

데이터 가져오기

데이터를 가져오려면 데이터 소스를 지정하세요. 가져오기 프로세스 중에 AutoML 도구는 각 데이터 값에 시맨틱 데이터 유형을 할당합니다.
데이터 분석

AutoML 제품은 일반적으로 학습 전후에 데이터 세트를 분석하는 도구를 제공합니다. 권장사항에 따라 AutoML 실행을 시작하기 전에 이러한 분석 도구를 사용하여 데이터를 이해하고 확인하는 것이 좋습니다.
데이터 세부 조정

AutoML 도구는 가져오기 후와 학습 전에 데이터를 미세 조정하는 데 도움이 되는 메커니즘을 제공하는 경우가 많습니다. 다음은 데이터를 미세 조정하기 위해 완료할 수 있는 몇 가지 작업입니다.
- 시맨틱 검사: 가져오기 중에 AutoML 도구는 각 지형지물에 적절한 시맨틱 유형을 결정하려고 시도하지만 이는 추측에 불과합니다. 모든 지형지물에 지정된 유형을 확인하고 잘못 할당된 경우 변경해야 합니다.
  
  예를 들어 데이터베이스의 열에 우편번호가 숫자로 저장되어 있을 수 있습니다. 대부분의 AutoML 시스템은 이 데이터를 연속 숫자 데이터로 감지합니다. 이는 우편번호에 적합하지 않으며 사용자는 이 지형지물 열의 의미 유형을 연속형이 아닌 카테고리형으로 변경하고 싶을 것입니다.
- 변환: 일부 도구에서는 사용자가 세부 조정 프로세스의 일환으로 데이터 변환을 맞춤설정할 수 있습니다. 데이터 세트에 AutoML 도구가 도움 없이 결정하기 어려운 방식으로 변환 또는 결합해야 하는 잠재적 예측 기능이 있는 경우 이러한 작업이 필요할 수 있습니다.
  
  예를 들어 주택의 판매 가격을 예측하는 데 사용 중인 주택 데이터 세트를 생각해 보겠습니다. description라는 주택 등록정보의 설명을 나타내는 지형지물이 있고 이 데이터를 사용하여 description_length라는 새 지형지물을 만들고 싶다고 가정해 보겠습니다. 일부 AutoML 시스템에서는 맞춤 변환을 사용하는 방법을 제공합니다. 이 예에서는 다음과 같이 새 설명 길이 기능을 생성하는 LENGTH 함수가 있을 수 있습니다. LENGTH(description)
AutoML 실행 매개변수 구성

학습 실험을 실행하기 전에 마지막으로 몇 가지 구성 설정을 선택하여 도구에 모델을 학습할 방법을 알려야 합니다. 각 AutoML 도구에는 고유한 구성 옵션 집합이 있지만 다음은 완료해야 할 수 있는 몇 가지 중요한 구성 작업입니다.
- 해결하려는 ML 문제 유형을 선택합니다. 예를 들어 분류 문제와 회귀 문제 중 무엇을 해결하고 있나요?
- 데이터 세트에서 라벨이 될 열을 선택합니다.
- 모델을 학습시키는 데 사용할 기능 집합을 선택합니다.
- AutoML이 모델 검색 시 고려하는 ML 알고리즘 집합을 선택합니다.
- AutoML에서 가장 적합한 모델을 선택하는 데 사용하는 평가 측정항목을 선택합니다.

AutoML 실험을 구성한 후에는 학습 실행을 시작할 수 있습니다. 학습이 완료되는 데 몇 시간 정도 걸릴 수 있습니다.

모델 평가

학습이 완료되면 AutoML 제품에서 제공하는 도구를 사용하여 결과를 검토할 수 있습니다.

특성 중요도 측정항목을 검토하여 특성을 평가합니다.
모델을 빌드하는 데 사용된 아키텍처와 초매개변수를 검토하여 모델을 이해합니다.
출력 모델 학습 중에 수집된 플롯과 측정항목을 사용하여 최상위 모델 성능을 평가합니다.

생산화

이 모듈의 범위를 벗어나지만 일부 AutoML 시스템을 사용하면 모델을 테스트하고 배포할 수 있습니다.

모델 재학습

새 데이터로 모델을 재학습시켜야 할 수 있습니다. 이는 AutoML 학습 실행을 평가한 후 또는 모델이 프로덕션에 일정 시간 동안 적용된 후에 발생할 수 있습니다. 어느 쪽이든 AutoML 시스템은 재학습에도 도움이 될 수 있습니다. AutoML 실행 후 데이터를 다시 살펴보고 개선된 데이터 세트로 다시 학습하는 경우가 많습니다.

다음 단계

축하합니다. 이 모듈을 완료했습니다.

원하는 속도로 관심 있는 다양한 MLCC 모듈을 살펴보시기 바랍니다. 권장 순서를 따르고 싶다면 다음 모듈인 ML 공정성을 진행하는 것이 좋습니다.

이점 및 제한사항 (10분)

소개 (5분)