머신러닝이란 무엇인가요?

머신러닝 (ML)은 번역 앱에서 자율주행 자동차에 이르기까지 우리가 사용하는 가장 중요한 기술을 지원합니다. 이 과정에서는 ML의 핵심 개념을 설명합니다.

ML은 문제를 해결하고, 복잡한 질문에 답변하고, 새로운 콘텐츠를 만드는 새로운 방법을 제공합니다. ML은 날씨를 예측하고, 이동 시간을 추정하고, 노래를 추천하고, 문장을 자동 완성하고, 기사를 요약하고, 전에 보지 못한 이미지를 생성할 수 있습니다.

기본적으로 ML은 모델이라는 소프트웨어를 학습하여 유용한 예측을 하거나 데이터에서 콘텐츠를 생성하는 프로세스입니다.

예를 들어 강우량을 예측하는 앱을 만들고 싶다고 가정해 보겠습니다. 기존 접근 방식 또는 ML 접근 방식을 사용할 수 있습니다. 기존 접근 방식을 사용하면 지구의 대기와 표면을 물리 기반으로 표현하여 대량의 유체역학 방정식을 계산합니다. 이는 매우 어렵습니다.

ML 접근 방식을 사용하면 ML 모델이 결국 다양한 양의 비를 내리는 날씨 패턴 간의 수학적 관계를 학습할 때까지 ML 모델에 방대한 양의 날씨 데이터를 제공합니다. 그런 다음 모델에 현재 날씨 데이터를 제공하면 모델이 비의 양을 예측합니다.

이해도 확인

머신러닝에서 '모델'이란 무엇인가요?
모델은 ML 시스템이 예측하는 데 사용하는 데이터에서 파생된 수학적 관계입니다.
모델은 컴퓨터 하드웨어입니다.
모델은 연구 대상을 축소하여 표현한 것입니다.

ML 시스템 유형

ML 시스템은 예측을 하거나 콘텐츠를 생성하는 방법에 따라 다음 카테고리 중 하나 이상에 속합니다.

  • 지도 학습
  • 비지도 학습
  • 강화 학습
  • 생성형 AI

지도 학습

지도 학습 모델은 정답이 포함된 많은 데이터를 확인한 후 정답을 생성하는 데이터의 요소 간의 연결을 발견하여 예측할 수 있습니다. 이는 학생이 질문과 답변이 모두 포함된 이전 시험을 공부하여 새로운 자료를 학습하는 것과 같습니다. 학생이 이전 시험을 충분히 학습하면 새 시험을 치를 준비가 된 것입니다. 이러한 ML 시스템은 사람이 알려진 올바른 결과가 포함된 ML 시스템 데이터를 제공한다는 의미에서 '감독'됩니다.

지도 학습의 가장 일반적인 사용 사례 중 두 가지는 회귀와 분류입니다.

회귀

회귀 모델은 숫자 값을 예측합니다. 예를 들어 비의 양(인치 또는 밀리미터)을 예측하는 날씨 모델은 회귀 모델입니다.

회귀 모델의 추가 예는 아래 표를 참고하세요.

시나리오 가능한 입력 데이터 숫자 예측
향후 주택 가격 면적, 우편번호, 침실 및 욕실 수, 대지 면적, 주택담보대출 이자율, 재산세율, 건설비, 해당 지역의 판매용 주택 수 주택 가격입니다.
향후 이동 시간 과거 교통상황 (스마트폰, 교통 센서, 차량 호출 및 기타 내비게이션 애플리케이션에서 수집), 목적지까지의 거리, 날씨 조건 목적지에 도착하는 데 걸리는 시간(분 및 초)입니다.

분류

분류 모델은 특정 항목이 카테고리에 속할 가능성을 예측합니다. 출력이 숫자인 회귀 모델과 달리 분류 모델은 특정 카테고리에 속하는지 여부를 나타내는 값을 출력합니다. 예를 들어 분류 모델은 이메일이 스팸인지 또는 사진에 고양이가 있는지 예측하는 데 사용됩니다.

분류 모델은 이진 분류와 다중 클래스 분류라는 두 그룹으로 나뉩니다. 바이너리 분류 모델은 두 개의 값만 포함된 클래스의 값을 출력합니다(예: rain 또는 no rain를 출력하는 모델). 다중 클래스 분류 모델은 두 개 이상의 값이 포함된 클래스의 값을 출력합니다. 예를 들어 rain, hail, snow 또는 sleet를 출력할 수 있는 모델이 여기에 해당합니다.

이해도 확인

ML 모델을 사용하여 상업용 건물의 에너지 사용량을 예측하려면 어떤 유형의 모델을 사용해야 할까요?
회귀
에너지 사용량은 숫자인 킬로와트시 (kWh)로 측정되므로 회귀 모델을 사용하는 것이 좋습니다.
분류
분류 모델은 특정 항목이 카테고리에 속하는지 여부를 예측하는 반면 회귀 모델은 숫자를 예측합니다. 에너지 사용량은 숫자인 킬로와트-시간 (kWh)으로 측정되므로 회귀 모델을 사용하는 것이 좋습니다.

비지도 학습

비지도 학습 모델은 올바른 답변이 포함되지 않은 데이터를 제공받아 예측합니다. 비지도 학습 모델의 목표는 데이터 중에서 의미 있는 패턴을 식별하는 것입니다. 즉, 모델에는 각 데이터를 분류하는 방법에 관한 힌트가 없으며 대신 자체 규칙을 추론해야 합니다.

일반적으로 사용되는 비지도 학습 모델은 클러스터링이라는 기법을 사용합니다. 모델은 자연 그룹을 구분하는 데이터 포인트를 찾습니다.

클러스터의 색상이 지정된 점을 보여주는 이미지

그림 1. 유사한 데이터 포인트를 클러스터링하는 ML 모델

도형으로 묶여 있고 서로 경계를 이루는 클러스터의 색상 있는 점을 보여주는 이미지

그림 2. 자연스러운 구분선이 있는 클러스터 그룹

클러스터링은 사용자가 정의하는 카테고리가 아니므로 분류와 다릅니다. 예를 들어 비감독 모델은 온도를 기반으로 날씨 데이터 세트를 클러스터링하여 계절을 정의하는 세분화를 드러낼 수 있습니다. 그런 다음 데이터 세트에 대한 이해를 바탕으로 이러한 클러스터의 이름을 지정할 수 있습니다.

눈, 비, 우박, 비 없음으로 라벨이 지정된 클러스터의 색상 점들이 표시된 이미지

그림 3. 유사한 날씨 패턴을 클러스터링하는 ML 모델

눈, 비, 우박, 비 없음으로 라벨이 지정된 색깔 있는 점들이 모여 있으며, 이러한 점들은 도형으로 묶여 있고 서로 경계를 이루고 있습니다.

그림 4. 눈, 진눈깨비, 비, 비 없음으로 라벨이 지정된 날씨 패턴의 클러스터입니다.

이해도 확인

지도 학습 접근 방식과 비지도 학습 접근 방식의 차이점은 무엇인가요?
감독 학습 접근 방식에는 정답이 포함된 데이터가 제공됩니다.
감독 학습 접근 방식에는 정답이 포함된 데이터가 제공됩니다. 모델의 역할은 데이터에서 올바른 답변을 생성하는 연결을 찾는 것입니다. 비지도 접근 방식에는 올바른 답변이 없는 데이터가 제공됩니다. 이 클래스의 역할은 데이터에서 그룹을 찾는 것입니다.
감독식 접근 방식은 일반적으로 클러스터링을 사용합니다.
비지도 접근 방식은 클러스터링을 사용합니다.
비지도 접근 방식은 데이터 클러스터에 라벨을 지정하는 방법을 알고 있습니다.
비지도 접근 방식은 데이터 클러스터가 무엇을 의미하는지 알지 못합니다. 데이터에 대한 이해를 바탕으로 정의하는 것은 광고주에게 달려 있습니다.

강화 학습

강화 학습 모델은 환경 내에서 수행된 작업에 따라 보상 또는 불이익을 받아 예측합니다. 강화 학습 시스템은 최대한 많은 보상을 얻기 위한 최적의 전략을 정의하는 정책을 생성합니다.

강화 학습은 로봇이 방 안을 돌아다니는 등의 작업을 수행하도록 학습시키고 AlphaGo와 같은 소프트웨어 프로그램이 바둑 게임을 플레이하도록 학습시키는 데 사용됩니다.

생성형 AI

생성형 AI는 사용자 입력에서 콘텐츠를 생성하는 모델 클래스입니다. 예를 들어 생성형 AI는 고유한 이미지, 음악 작품, 농담을 만들 수 있습니다. 또한 기사를 요약하거나, 작업을 수행하는 방법을 설명하거나, 사진을 수정할 수 있습니다.

생성형 AI는 다양한 입력을 받아 텍스트, 이미지, 오디오, 동영상과 같은 다양한 출력을 생성할 수 있습니다. 또한 이러한 항목의 조합을 가져오고 만들 수 있습니다. 예를 들어 모델은 이미지를 입력으로 받아 이미지와 텍스트를 출력으로 만들거나 이미지와 텍스트를 입력으로 받아 동영상을 출력할 수 있습니다.

생성형 모델은 일반적으로 '입력 유형'-'출력 유형'으로 표시되는 입력과 출력에 따라 논의할 수 있습니다. 예를 들어 다음은 생성형 모델의 일부 입력 및 출력 목록입니다.

  • 텍스트 간 변환
  • 텍스트 이미지 변환
  • 텍스트 동영상 변환
  • 텍스트 코드 변환
  • TTS(text-to-speech)
  • 이미지 및 텍스트 이미지 변환

다음 표에는 생성형 모델의 예, 입력, 가능한 출력의 예가 나와 있습니다.

모델 입력 출력 예
텍스트 간 변환 르망 레이스는 누가 발명했나요? 르망 24시는 1906년에 설립된 자동차 조직인 Automobile Club de l'Ouest(ACO)에서 창설했습니다. 첫 번째 레이스는 1923년 5월 26일과 27일에 프랑스 르망 마을 근처에 위치한 13.426km(8.345마일) 길이의 도로 서킷인 사르트 서킷에서 열렸습니다. 이 경기는 원래 ACO와 Sarthe 지역을 홍보하기 위한 방법으로 고안되었습니다.
소스: Bard
텍스트 이미지 변환 외계인 문어가 신문을 읽으며 포털을 통해 떠다닙니다. 만화 문어 이미지
출처: Imagen
텍스트 동영상 변환 샌프란시스코의 바다에서 수영하는 실사 테디베어 테디베어가 물에 잠깁니다. 테디베어가 다채로운 물고기와 함께 물속에서 계속 헤엄치고 있습니다. 물속에서 헤엄치는 판다. 수영하는 테디베어의 동영상
출처: Phenaki
텍스트 코드 변환 숫자 목록을 반복하고 소수를 출력하는 Python 루프를 작성합니다.
for number in numbers:
  # Check if the number is prime.
  is_prime = True
  for i in range(2, number):
    if number % i == 0:
        is_prime = False
        break
  # If the number is prime, print it.
  if is_prime:
    print(number)

출처: Bard
이미지 텍스트 변환 플라밍고 이미지 플라밍고입니다. 카리브해에서 볼 수 있습니다.
출처: Google DeepMind

생성형 AI는 어떻게 작동하나요? 대략적으로 생성형 모델은 유사하지만 새로운 데이터를 생성하는 것을 목표로 데이터의 패턴을 학습합니다. 생성형 모델은 다음과 같습니다.

  • 사람들의 행동과 말투를 관찰하여 다른 사람을 모방하는 것을 배우는 코미디언
  • 특정 스타일의 그림을 많이 연구하여 특정 스타일로 그림을 그리는 방법을 배우는 아티스트
  • 특정 음악 그룹의 음악을 많이 들으면서 해당 그룹의 음악처럼 연주하는 커버 밴드

고유하고 창의적인 출력을 생성하기 위해 생성형 모델은 처음에 비지도 접근 방식을 사용하여 학습됩니다. 이 접근 방식에서 모델은 학습한 데이터를 모방하는 방법을 학습합니다. 모델이 수행하도록 요청받을 수 있는 태스크(예: 기사 요약, 사진 수정)와 관련된 특정 데이터에 대해 지도 학습 또는 강화 학습을 사용하여 모델을 추가로 학습시키는 경우도 있습니다.

생성형 AI는 빠르게 진화하는 기술로, 새로운 사용 사례가 끊임없이 발견되고 있습니다. 예를 들어 생성형 모델은 방해가 되는 배경을 자동으로 삭제하거나 저해상도 이미지의 품질을 개선하여 비즈니스가 이커머스 제품 이미지를 개선하는 데 도움이 됩니다.