배운 내용 테스트하기

다음 질문은 핵심 ML 개념을 확실히 이해하는 데 도움이 됩니다.

예측 능력

지도 ML 모델은 라벨이 지정된 예가 있는 데이터 세트를 사용하여 학습됩니다. 모델은 특성에서 라벨을 예측하는 방법을 학습합니다. 그러나 데이터 세트의 모든 특성에 예측 성능이 있는 것은 아닙니다. 일부 경우, 소수의 특성만 라벨의 예측자 역할을 하기도 합니다. 아래 데이터 세트에서 가격을 라벨로 사용하고 나머지 열을 특성으로 사용합니다.

자동차 속성의 라벨이 지정된 예

자동차 가격을 예측할 수 있는 세 가지 특징은 무엇일까요?
Make_model, 연도, 마일.
자동차의 제조사/모델, 연식, 주행 거리는 차량 가격을 가장 잘 예측할 수 있는 요인일 가능성이 높습니다.
색상, 높이, make_model
차량의 높이와 색상은 차량 가격을 예측할 수 있는 확실한 요인이 아닙니다.
마일, 기어박스, make_model.
기어박스는 주요 가격 예측 요소가 아닙니다.
Tire_size, wheel_base, age.
타이어 크기와 휠 베이스는 자동차 가격을 예측할 수 있는 효과적인 요소가 아닙니다.

지도 학습 및 비지도 학습

문제에 따라 지도 또는 비지도 접근 방식을 사용합니다. 예를 들어 예측할 값 또는 카테고리를 미리 알고 있는 경우 지도 학습을 사용합니다. 그러나 데이터 세트에 관련 예의 세분화 또는 그룹화가 포함되어 있는지 알아보려면 비지도 학습을 사용하세요.

온라인 쇼핑 웹사이트의 사용자 데이터 세트에 다음과 같은 열이 있다고 가정해 보겠습니다.

고객 속성 행의 이미지입니다.

사이트를 방문하는 사용자 유형을 이해하려면 지도 학습과 비지도 학습 중 무엇을 사용해야 할까요?
비지도 학습
관련 고객 그룹을 클러스터링해야 하므로 비지도 학습을 사용합니다. 모델이 사용자를 클러스터링한 후 각 클러스터의 이름을 직접 만듭니다(예: '할인을 찾는 사람', '특가 사냥꾼', '서퍼', '충성도 높은 사람', '방랑자').
사용자가 속한 클래스를 예측하려고 하므로 지도 학습입니다.
지도 학습에서는 예측하려는 라벨이 데이터 세트에 포함되어야 합니다. 데이터 세트에 사용자 카테고리를 참조하는 라벨이 없습니다.

다음 열이 포함된 주택의 에너지 사용량 데이터 세트가 있다고 가정해 보겠습니다.

집 속성 행의 이미지입니다.

새로 건축된 주택에 연간 사용되는 킬로와트 시간을 예측하려면 어떤 유형의 ML을 사용해야 하나요?
지도 학습.
지도 학습은 라벨이 있는 예를 학습합니다. 이 데이터 세트에서 '연간 사용한 킬로와트 시간'은 모델이 예측할 값이므로 라벨이 됩니다. 특성으로는 '정사각형 영상', '위치', '제작 연도' 등이 있습니다.
비지도 학습
비지도 학습에서는 라벨이 없는 예를 사용합니다. 이 예시에서는 모델에서 예측할 값이기 때문에 '연간 사용된 킬로와트 시간'이 라벨이 됩니다.

다음 열이 포함된 항공편 데이터 세트가 있다고 가정해 보겠습니다.

항공편 데이터 행의 이미지입니다.

코치 티켓의 비용을 예측하려면 회귀와 분류를 사용해야 할까요?
회귀
회귀 모델의 출력은 숫자 값입니다.
분류
분류 모델의 출력은 불연속적인 값(일반적으로 단어)입니다. 이 경우 코치 티켓의 비용은 숫자 값입니다.
데이터 세트를 토대로 코치 티켓의 비용을 '높음', '평균' 또는 '낮음'으로 분류하도록 분류 모델을 학습시킬 수 있나요?
예. 하지만 먼저 coach_ticket_cost 열의 숫자 값을 범주형 값으로 변환해야 합니다.
데이터 세트에서 분류 모델을 만들 수 있습니다. 다음과 같이 하면 됩니다.
  1. 출발 공항에서 도착지 공항까지의 평균 티켓 가격을 확인합니다.
  2. '높음', '평균', '낮음'으로 구성할 기준을 결정합니다.
  3. 예측 비용을 임곗값과 비교하고 값이 속한 카테고리를 출력합니다.
아니요. 분류 모델을 만들 수 없습니다. coach_ticket_cost 값은 범주형이 아닌 숫자입니다.
약간의 작업만으로 분류 모델을 만들 수 있습니다.
아니요. 분류 모델은 spam 또는 not_spam와 같은 두 가지 카테고리만 예측합니다. 이 모델은 세 가지 카테고리를 예측해야 합니다.
분류 모델은 여러 카테고리를 예측할 수 있습니다. 이를 멀티클래스 분류 모델이라고 합니다.

학습 및 평가

모델을 학습시킨 후 라벨이 지정된 예가 있는 데이터 세트를 사용하여 모델을 평가하고 모델의 예측 값을 라벨의 실제 값과 비교합니다.

질문에 가장 적절한 답변을 두 개 선택하세요.

모델의 예측이 멀리 떨어진다면 어떻게 하면 예측을 개선할 수 있을까요?
모델을 다시 학습시키되, 라벨에 대해 가장 강력한 예측 성능이 있다고 생각되는 특성만 사용합니다.
특성은 적지만 예측 성능이 더 높은 모델을 다시 학습시키면 더 나은 예측을 수행하는 모델이 생성될 수 있습니다.
예측이 멀리 떨어진 모델은 수정할 수 없습니다.
예측이 꺼진 모델을 수정할 수 있습니다. 대부분의 모델은 유용한 예측을 할 때까지 여러 번의 학습이 필요합니다.
더 크고 다양한 데이터 세트를 사용하여 모델을 다시 학습시킵니다.
더 많은 예시와 더 광범위한 값이 포함된 데이터 세트로 학습된 모델은 특성과 라벨 간의 관계에 대해 더 일반화된 솔루션을 사용하기 때문에 더 나은 예측을 제공할 수 있습니다.
다른 교육 방법을 사용해 보세요. 예를 들어 지도 방식을 사용했다면 비지도 접근 방식을 사용해 보세요.
다른 학습 접근 방식을 사용하면 더 나은 예측을 얻을 수 없습니다.

이제 ML 여정을 다음 단계로 진행할 준비가 되었습니다.

  • People + AI Guidebook(인물 + AI 가이드북) ML 사용에 관한 Google 직원, 업계 전문가, 학술 연구가 제공하는 일련의 방법, 권장사항, 예시를 찾고 있다면

  • 문제 프레이밍. ML 모델을 만들고 진행 과정에서 흔히 발생하는 함정을 피할 수 있는 현장 테스트를 거친 접근 방식을 찾고 있다면

  • 머신러닝 단기집중과정. ML에 대해 자세히 알아볼 수 있는 심층적이고 실습할 준비가 된 경우.