머신러닝이란 무엇인가요?

머신러닝 (ML)은 번역 앱부터 자율 주행 자동차에 이르기까지 Google이 사용하는 가장 중요한 기술을 지원합니다. 이 과정에서는 ML의 핵심 개념을 설명합니다.

ML은 문제를 해결하고 복잡한 질문에 답하는 새로운 방법을 제공합니다. 기본적으로 ML은 데이터에서 유용한 예측을 하도록 모델이라고 하는 소프트웨어 조각을 학습시키는 프로세스입니다. ML 모델은 ML 시스템이 예측을 위해 사용하는 데이터 요소 간의 수학적 관계를 나타냅니다.

예를 들어 강수량을 예측하는 앱을 만든다고 가정해 보겠습니다. 기존 접근 방식 또는 ML 접근 방식을 사용할 수 있습니다. 전통적인 접근방식을 사용하여 지구의 대기와 표면을 물리학 기반으로 표현한 다음, 엄청난 양의 유동 역학 방정식을 계산합니다. 정말 쉽지 않은 일입니다.

ML 접근 방식을 사용하면 결국 서로 다른 빗물을 생성하는 날씨 패턴 간의 수학적 관계를 학습할 때까지 ML 모델에 방대한 양의 날씨 데이터를 제공하게 됩니다. 그런 다음 모델에 현재 날씨 데이터를 제공하고 비가 내릴 것으로 예측합니다.

이해도 확인

머신러닝에서 '모델'이란 무엇일까요?
모델은 ML 시스템이 예측을 위해 사용하는 데이터에서 파생되는 수학적 관계입니다.
모델은 컴퓨터 하드웨어의 일부입니다.
모델은 연구하는 대상을 더 작게 표현한 것입니다.

ML 시스템 유형

ML 시스템은 예측을 수행하는 방법에 따라 세 가지 카테고리로 분류됩니다.

  • 지도 학습
  • 비지도 학습
  • 강화 학습

지도 학습

지도 학습 모델은 정답을 제시하는 많은 데이터를 확인한 다음 정답을 생성하는 요소의 요소 간 연결을 탐색하여 예측을 수행할 수 있습니다. 이는 질문과 답을 모두 포함하는 이전 시험을 학습하여 새로운 자료를 학습하는 것과 같습니다. 충분한 수의 시험에 대한 학습을 완료한 학생은 새 시험을 치를 준비가 된 것입니다. 이러한 ML 시스템은 인간이 ML 시스템 데이터에 알려진 올바른 결과를 제공한다는 의미에서 '지도'입니다.

지도 학습의 가장 일반적인 두 가지 사용 사례는 회귀 및 분류입니다.

회귀

회귀 모델은 숫자 값을 예측합니다. 예를 들어 비를 예측하는 날씨 모델은 인치 또는 밀리미터를 사용하여 회귀 모델입니다.

회귀 모델의 더 많은 예는 아래 표를 참고하세요.

시나리오 가능한 입력 데이터 숫자 예측
향후 주택 가격 제곱피트, 우편번호, 침실 및 욕실 수, 부지, 주택담보대출 이자율, 부동산 세율, 건설 비용, 이 지역의 주택 수 주택의 가격입니다.
향후 탑승 시간 이전 교통상황 (스마트폰, 교통정보 센서, 차량 호출 및 기타 내비게이션 애플리케이션), 목적지에서의 거리, 기상 상황 대상에 도착하는 데 걸리는 시간(분 및 초)입니다.

분류

분류 모델은 카테고리에 속할 가능성을 예측합니다. 출력이 숫자인 회귀 모델과 달리 분류 모델은 무언가가 특정 카테고리에 속하는지 여부를 나타내는 값을 출력합니다. 예를 들어 분류 모델은 이메일이 스팸인지 또는 사진에 고양이가 포함되어 있는지 예측하는 데 사용됩니다.

분류 모델은 이진 분류와 멀티클래스 분류라는 두 그룹으로 나뉩니다. 이진 분류 모델은 값이 두 개만 포함된 클래스의 값을 출력합니다(예: rain 또는 no rain을 출력하는 모델). 멀티클래스 분류 모델은 3개 이상의 값이 포함된 클래스의 값을 출력합니다. 예를 들어 rain, hail, snow 또는 sleet를 출력할 수 있는 모델입니다.

이해도 확인

ML 모델을 사용하여 상업용 건물의 에너지 사용량을 예측하고자 한다면 어떤 유형의 모델을 사용하나요?
회귀
에너지 사용량은 숫자인 킬로와트시 (kWh) 단위로 측정되므로 회귀 모델을 사용하고자 합니다.
분류
분류 모델은 무언가가 카테고리에 속하는지 여부를 예측하지만 회귀 모델은 숫자를 예측합니다. 에너지 사용량은 숫자인 킬로와트시 (kWh) 단위로 측정되므로 회귀 모델을 사용하고자 합니다.

비지도 학습

비지도 학습 모델은 정답이 포함되지 않은 데이터를 제공받아 예측을 수행합니다. 비지도 학습 모델의 목표는 데이터에서 의미 있는 패턴을 식별하는 것입니다. 즉, 이 모델은 각 데이터를 분류하는 방법에 관한 힌트가 없으며 대신 자체 규칙을 추론해야 합니다.

일반적으로 사용되는 비지도 학습 모델에서는 클러스터링이라는 기법을 사용합니다. 이 모델은 자연스러운 그룹을 구분하는 데이터 포인트를 찾습니다.

클러스터의 색상 점이 표시된 이미지입니다.

그림 1. 유사한 데이터 포인트를 클러스터링하는 ML 모델

클러스터 내에서 도형으로 둘러싸여 있고 서로 테두리가 있는 색상 점이 있는 이미지

그림 2. 자연스러운 경계가 있는 클러스터 그룹

클러스터링은 분류자가 정의하지 않으므로 분류와 다릅니다. 예를 들어 비지도 학습 모델은 온도에 따라 날씨 데이터 세트를 클러스터링하여 계절을 정의하는 분류를 표시할 수 있습니다. 그런 다음 데이터 세트에 대한 이해를 바탕으로 클러스터 이름을 지정하려고 할 수 있습니다.

눈, 비, 우박, 비 없음으로 라벨이 지정된 클러스터에서 색상 점을 나타내는 이미지

그림 3. 유사한 날씨 패턴을 클러스터링하는 ML 모델

서로 가까우며 서로 테두리가 있는 눈, 비, 우박, 비 오는 라벨이 있는 클러스터에서 색상 점이 표시된 이미지

그림 4. 눈, 진눈깨비, 비, 비와 같이 라벨이 지정된 날씨 패턴의 클러스터입니다.

이해도 확인

감독 접근 방식과 비지도 접근 방식의 차이는 무엇인가요?
지도 방식에는 정답이 포함된 데이터가 제공됩니다.
지도 방식에는 정답이 포함된 데이터가 제공됩니다. 이 모델의 역할은 데이터에서 정답을 생성하는 연결을 찾는 것입니다. 비지도 접근 방식에는 정답이 없는 데이터가 부여됩니다. 그 역할은 데이터에서 그룹화를 찾는 것입니다.
지도 방식에서는 일반적으로 클러스터링을 사용합니다.
비지도 접근 방식은 클러스터링을 사용합니다.
비지도 접근 방식은 데이터 클러스터에 라벨을 지정하는 방법을 알고 있습니다.
비지도 접근 방식은 데이터 클러스터의 의미를 모릅니다. 데이터에 대한 이해를 바탕으로 데이터를 정의하는 것은 여러분의 몫입니다.

강화 학습

강화 학습 모델은 환경 내에서 수행된 작업을 기반으로 보상 또는 불이익을 받아 예측을 수행합니다. 강화 학습 시스템은 가장 많은 보상을 얻기 위한 최고의 전략을 정의하는 정책을 생성합니다.

강화 학습은 로봇이 방을 돌아다니는 등의 작업을 하도록 학습시키고 AlphaGo와 같은 소프트웨어 프로그램을 사용하여 Go 게임을 플레이하는 데 사용됩니다.