AutoML: 시작하기

AutoML 사용을 고려하고 있다면 AutoML이 어떻게 시작하기 위해 취해야 할 단계를 설명합니다. 이 섹션에서 더 자세히 알아봅니다. 일반적인 AutoML 패턴을 살펴보고 AutoML의 작동 방식을 알아보며 프로젝트에 AutoML을 사용하기 전에 수강해야 할 수도 있습니다

AutoML 도구

AutoML 도구는 크게 두 가지 카테고리로 나뉩니다.

  • 코딩이 필요 없는 도구는 일반적으로 웹 애플리케이션 형태입니다. 이 기능을 이용하면 사용자 인터페이스를 통해 실험을 구성하고 실행하여 데이터에 가장 적합한 모델을 찾을 수 있습니다.
  • API 및 CLI 도구는 고급 자동화 기능을 제공하지만 더 많은 기능이 필요합니다. (때로는 훨씬 그 이상) 프로그래밍 및 ML 전문 지식을 갖출 수 있습니다.

코딩이 필요한 AutoML 도구는 다른 AutoML 도구보다 사용하기 더 어려울 수 있습니다. 이 모듈에서는 노 코드(no-code) 옵션에 대해 살펴보겠지만 API와 CLI는 커스텀 자동화가 필요한 경우 옵션이 도움이 될 수 있습니다.

AutoML 워크플로

일반적인 ML 워크플로를 살펴보면서 AutoML을 사용할 수 있습니다 워크플로의 상위 단계는 커스텀 학습 가장 큰 차이점은 AutoML이 일부 작업을 알아서 처리한다는 것입니다

문제 정의

모든 ML 워크플로의 첫 단계는 문제를 정의하는 것입니다. 선택한 도구가 ML 모델을 지원하도록 해야 합니다 ML 프로젝트의 목표입니다 대부분의 AutoML 도구는 다양한 지도 학습 머신러닝 알고리즘과 입력 데이터 유형을 살펴보겠습니다

문제 프레이밍에 대한 자세한 내용은 머신러닝 문제 프레이밍 소개.

데이터 수집

AutoML 도구 작업을 시작하려면 먼저 데이터를 수집해야 합니다. 하나의 데이터 소스로 통합할 수 있습니다 제품 문서를 확인하여 데이터 소스, 데이터 세트의 데이터 유형, 크기 데이터 세트입니다.

데이터 준비

데이터 준비는 AutoML 도구가 도움이 될 수 있지만 모든 작업을 자동으로 처리할 수 있으므로, 작업을 진행하기 전에 도구로 데이터를 가져올 수 있습니다 AutoML의 데이터 준비는 다음과 비슷합니다. 모델을 수동으로 학습시키기 위해 무엇을 해야 하는지를 보여주는 것입니다. 더 자세한 정보가 필요한 경우 학습을 위해 데이터를 준비하는 방법을 알아보려면 섹션으로 이동합니다.

데이터 준비에 대한 자세한 내용은 수치 데이터로 작업하기범주형 데이터 작업 모듈을 마칩니다

AutoML 학습을 위해 데이터를 가져오기 전에 다음을 완료해야 합니다. 단계:

  • 데이터 라벨 지정

    데이터 세트의 모든 예시에는 라벨이 필요합니다.

  • 데이터 정리 및 형식 지정

    실제 데이터는 지저분한 경향이 있으므로 사용하기 전에 데이터를 정리해야 합니다. 있습니다. AutoML을 사용하더라도 특정 데이터 세트와 문제를 파악할 수 있습니다 이를 위해서는 약간의 탐색과 작업이 필요할 수 있습니다 여러 차례 AutoML을 실행할 수도 있습니다.

  • 특성 변환 수행

    일부 AutoML 도구는 특정 특성 변환을 자동으로 처리합니다. 그러나 사용 중인 도구가 필요한 특성 변환을 지원하지 않거나 잘 지원되지 않는 경우 미리 변환을 수행해야 할 수 있습니다. 할 수 있습니다.

모델 개발 (노코드 AutoML 사용)

AutoML은 학습 중에도 작업을 자동으로 수행합니다. 하지만 시작하기 전에 먼저 실험을 구성해야 합니다 AutoML 학습을 설정하려면 다음 안내를 따르세요. 일반적으로 다음과 같은 상위 단계를 지정해야 합니다.

  1. 데이터 가져오기

    데이터를 가져오려면 데이터 소스를 지정합니다. 가져오기 도중 프로세스에서 AutoML 도구는 각 데이터 값에 시맨틱 데이터 유형을 할당합니다.

  2. 데이터 분석하기

    AutoML 제품은 일반적으로 데이터를 사용하기 전에 데이터 세트를 분석하는 도구를 확인할 수 있습니다 가장 좋은 방법은 바로 이러한 분석 도구를 AutoML 실행을 시작하기 전에 데이터를 이해하고 확인할 수 있습니다.

  3. 데이터 미세 조정

    AutoML 도구는 종종 이후 데이터를 미세 조정하는 데 도움이 되는 메커니즘을 제공합니다 데이터를 가져올 수 있습니다 다음은 완료할 수 있는 몇 가지 작업입니다. 다음과 같이 데이터를 미세 조정합니다.

    • 시맨틱 확인: 가져오기 중에 AutoML 도구는 추측에 불과합니다 모든 지형지물에 지정된 유형을 확인하고 변경해야 합니다. 자동으로 할당될 수 있습니다

      예를 들어 살펴보겠습니다 대부분의 AutoML 시스템은 데이터를 연속적인 것으로 감지합니다. 숫자 데이터입니다. 우편번호와 사용자 이름이 잘못된 경우 시맨틱 유형을 범주형으로 변경하는 것이 좋습니다 이 특성 열의 연속보다 더 낮은 값을 나타냅니다.

    • 변환: 일부 도구를 사용하면 데이터를 맞춤설정할 수 있습니다. 미세 조정 프로세스의 일부로 사용할 수 있습니다 때로는 예측이 필요한 특성이 데이터 세트에 있을 때 필요합니다. AutoML 도구가 사용하기 어려운 방식으로 변환 또는 결합하는 작업 판단하기가 쉽지 않습니다

      예를 들어 예측에 사용하는 주택 데이터 세트를 집의 판매가입니다. 인코더-디코더 아키텍처를 description라는 주택 등록정보에 대한 설명을 입력하고 이 데이터를 사용해 description_length입니다. 일부 AutoML 시스템은 커스텀 ML 모델을 사용할 수 있습니다 이 예시에서는 LENGTH 함수가 있을 수 있습니다. 다음과 같은 새 설명 길이 특성을 생성합니다. LENGTH(description)입니다.

  4. AutoML 실행 매개변수 구성

    학습 실험을 실행하기 전에 수행할 마지막 단계는 도구를 사용하여 모델을 학습시키는 방법을 지정합니다. 각 AutoML 도구에는 고유한 구성 옵션 세트가 있지만 여기 몇 가지 중요한 구성 작업이 있습니다. 완료:

    • 해결하려는 ML 문제 유형을 선택합니다. 예를 들어, 어떻게 해결할 수 있을까요?
    • 데이터세트에서 라벨로 사용할 열을 선택합니다.
    • 모델을 학습시키는 데 사용할 특성 세트를 선택합니다.
    • AutoML이 모델 검색에서 고려하는 ML 알고리즘 집합을 선택합니다.
    • AutoML이 최상의 모델을 선택하는 데 사용하는 평가 측정항목을 선택합니다.

AutoML 실험을 구성한 후 학습을 시작할 수 있습니다. 실행할 수 있습니다 학습을 완료하는 데 몇 시간 정도 걸릴 수 있습니다.

모델 평가

학습이 끝난 후 AutoML의 도구를 사용하여 결과를 검사할 수 있습니다. 다음과 같은 이점을 제공합니다.

  • 특성 중요도 측정항목을 검토하여 특성을 평가합니다.
  • 사용된 아키텍처와 초매개변수를 검토하여 모델 이해 있습니다.
  • 다음 기간 중 수집된 플롯 및 측정항목으로 최상위 모델 성능 평가 출력 모델 학습입니다.

생산화

이 모듈에서 다루지는 않지만 일부 AutoML 시스템의 경우 모델을 테스트하고 배포합니다

모델 재학습

새 데이터로 모델을 다시 학습시켜야 할 수도 있습니다. 이 문제는 AutoML 학습 실행을 평가하거나 모델이 일부의 프로덕션 단계에서 있습니다. 어느 쪽이든 AutoML 시스템은 재학습에도 도움이 될 수 있습니다. 그렇지 않습니다. 데이터를 다시 살펴보고 ML 모델을 사용하여 데이터 세트를 학습합니다.

다음 단계

이 모듈을 완료하신 것을 축하합니다. </ph>

다양한 MLCC 모듈을 살펴보시기 바랍니다. 자신만의 속도와 관심분야에 맞춰 조정할 수 있습니다 권장 순서를 따르려면 다음 모듈로 넘어가시기 바랍니다. ML 공정성.