배운 내용 테스트하기

다음 질문을 통해 핵심 ML 개념에 대한 이해를 다져 보세요.

예측 성능

지도 ML 모델은 라벨이 있는 예가 포함된 데이터 세트를 사용하여 학습됩니다. 모델은 특성에서 라벨을 예측하는 방법을 학습합니다. 하지만 데이터 세트의 모든 특성에 예측 성능이 있는 것은 아닙니다. 일부 경우에는 몇 가지 특성만 라벨의 예측 변수 역할을 합니다. 아래 데이터 세트에서 가격을 라벨로 사용하고 나머지 열을 특성으로 사용합니다.

자동차 속성의 라벨이 지정된 예

자동차 가격을 가장 잘 예측할 수 있는 특성 3가지는 무엇이라고 생각하시나요?
제조사_모델, 연식, 주행 거리
자동차의 제조사/모델, 연식, 주행 거리는 가격을 가장 잘 예측할 수 있는 특성일 가능성이 높습니다.
색상, 높이, 제조사_모델
자동차의 높이와 색상은 자동차 가격을 잘 예측할 수 있는 특성이 아닙니다.
주행 거리, 기어박스, 제조사_모델
기어박스는 가격의 주요 예측 변수가 아닙니다.
타이어_크기, 휠베이스, 연식
타이어 크기와 휠베이스는 자동차 가격을 잘 예측할 수 있는 특성이 아닙니다.

지도 학습 및 비지도 학습

문제에 따라 지도 학습 또는 비지도 학습 접근 방식을 사용합니다. 예를 들어 예측하려는 값 또는 카테고리를 미리 알고 있는 경우 지도 학습을 사용합니다. 하지만 데이터 세트에 관련 예의 세분화 또는 그룹화가 포함되어 있는지 알아보려면 비지도 학습을 사용합니다.

온라인 쇼핑 웹사이트의 사용자 데이터 세트가 있고 다음 열이 포함되어 있다고 가정해 보겠습니다.

고객 속성 행의 이미지

사이트를 방문하는 사용자 유형을 파악하려면 지도 학습 또는 비지도 학습을 사용해야 할까요?
비지도 학습
모델이 관련 고객 그룹을 클러스터링하도록 하려면 비지도 학습을 사용합니다. 모델이 사용자를 클러스터링한 후 각 클러스터에 '할인 혜택을 찾는 고객', '특가 상품을 찾는 고객', '둘러보는 고객', '충성 고객', '방문하는 고객'과 같은 자체 이름을 만듭니다.
사용자가 속한 클래스 를 예측하려고 하므로 지도 학습을 사용합니다.
지도 학습에서는 데이터 세트에 예측하려는 라벨이 포함되어야 합니다. 데이터 세트에는 사용자 카테고리를 나타내는 라벨이 없습니다.

다음 열이 포함된 주택의 에너지 사용량 데이터 세트가 있다고 가정해 보겠습니다.

홈 속성 행의 이미지

새로 지어진 주택의 연간 사용 전력량을 예측하려면 어떤 유형의 ML을 사용해야 할까요?
지도 학습
지도 학습은 라벨이 있는 예로 학습합니다. 이 데이터 세트에서 "연간 사용 전력량"은 모델이 예측할 값이기 때문에 라벨이 됩니다. 특성은 '평방 피트', '위치', '연식'이 됩니다.
비지도 학습
비지도 학습은 라벨이 없는 예를 사용합니다. 이 예에서 '연간 사용 전력량'은 모델이 예측할 값이기 때문에 라벨이 됩니다.

다음 열이 포함된 항공편 데이터 세트가 있다고 가정해 보겠습니다.

항공편 데이터 행 이미지

비행기 티켓 비용을 예측하려면 회귀 또는 분류를 사용해야 할까요?
회귀
회귀 모델의 출력은 숫자 값입니다.
분류
분류 모델의 출력은 일반적으로 단어인 개별 값입니다. 이 경우 비행기 티켓 비용은 숫자 값입니다.
데이터 세트를 기반으로 비행기 티켓 비용을 '높음', '평균', '낮음'으로 분류하는 분류 모델을 학습시킬 수 있을까요?
예, 하지만 먼저 airplane_ticket_cost 열의 숫자 값을 카테고리 값으로 변환해야 합니다.
데이터 세트에서 분류 모델을 만들 수 있습니다. 다음과 같은 작업을 실행합니다.
  1. 출발 공항에서 도착 공항까지의 티켓 평균 비용을 찾습니다.
  2. '높음', '평균', '낮음'을 구성하는 기준점을 결정합니다.
  3. 예측된 비용을 기준점과 비교하고 값이 속하는 카테고리를 출력합니다.
아니요. 분류 모델을 만들 수 없습니다. 값은 카테고리 값이 아닌 숫자 값입니다.airplane_ticket_cost
약간의 작업으로 분류 모델을 만들 수 있습니다.
아니요. 분류 모델은 또는 spam과 같은 두 가지 카테고리만 예측합니다.not_spam 이 모델은 세 가지 카테고리를 예측해야 합니다.
분류 모델은 여러 카테고리를 예측할 수 있습니다. 이를 다중 클래스 분류 모델이라고 합니다.

학습 및 평가

모델을 학습시킨 후 라벨이 있는 예가 포함된 데이터 세트를 사용하여 모델을 평가하고 모델의 예측 값을 라벨의 실제 값과 비교합니다.

질문에 가장 적합한 답변 두 가지를 선택하세요.

모델의 예측이 크게 벗어난 경우 예측을 개선하기 위해 어떤 조치를 취할 수 있을까요?
모델을 다시 학습시키되 라벨에 가장 큰 예측 성능이 있다고 생각되는 특성만 사용합니다.
예측 성능이 더 높은 특성을 사용하여 모델을 다시 학습시키면 더 나은 예측을 하는 모델을 만들 수 있습니다.
예측이 크게 벗어난 모델은 수정할 수 없습니다.
예측이 벗어난 모델은 수정할 수 있습니다. 대부분의 모델은 유용한 예측을 할 때까지 여러 번의 학습이 필요합니다.
더 크고 다양한 데이터 세트를 사용하여 모델을 다시 학습시킵니다.
더 많은 예와 더 넓은 범위의 값으로 학습된 모델은 모델이 특성과 라벨 간의 관계에 대한 더 나은 일반화된 솔루션을 가지고 있기 때문에 더 나은 예측을 생성할 수 있습니다.
다른 학습 접근 방식을 사용해 보세요. 예를 들어 지도 학습 접근 방식을 사용한 경우 비지도 학습 접근 방식을 사용해 보세요.
다른 학습 접근 방식은 더 나은 예측을 생성하지 않습니다.

이제 ML 여정의 다음 단계를 진행할 준비가 되었습니다.

  • 머신러닝 단기집중과정. ML에 대해 자세히 알아볼 수 있는 심층적인 실습 접근 방식을 원한다면 이 과정을 수강하세요.

  • 문제 프레이밍. ML 모델을 만들고 자주 발생하는 문제를 피하기 위한 현장 테스트를 거친 접근 방식을 찾고 있다면 이 과정을 수강하세요.

  • 사람 + AI 안내서. 인간 중심 AI 제품을 설계하기 위한 실용적인 안내를 찾고 있다면 이 과정을 수강하세요.