이해도 확인: 모델 디버깅

다음 질문의 경우 선택 항목을 클릭하여 펼치고 답변을 확인하세요.

모델링 접근 방식

여러분과 친구 멜은 유니콘을 좋아합니다. 실제로 유니콘을 정말 좋아하므로 머신러닝을 사용하여 유니콘의 모양을 예측할 수도 있습니다. 10,000개의 유니콘 모양 모양에 대한 데이터 세트가 있습니다. 데이터 세트에는 각 위치, 하루 중 시간대, 고도, 온도, 습도, 인구 밀도, 나무 덮개, 무지개의 존재 등 다양한 특징이 포함됩니다.

ML 모델 개발을 시작하려고 합니다. 다음 중 개발을 시작하기에 좋은 접근 방식은 무엇인가요?
유니콘은 주로 새벽과 해 질 무렵에 나타납니다. 따라서 '시간' 특성을 사용하여 선형 모델을 만듭니다.
정답입니다. 고도로 예측 가능한 한두 개의 특성을 사용하는 선형 모델이 효과적인 시작 방법입니다.
유니콘의 모양을 예측하는 것은 매우 어려운 문제입니다. 따라서 사용 가능한 모든 특성이 있는 심층신경망을 사용해야 합니다.
정답이 아닙니다. 복잡한 모델로 시작하면 디버깅이 복잡해집니다.
간단한 선형 모델로 시작하지만 모든 특성을 사용하여 간단한 모델에 예측 성능이 있는지 확인합니다.
정답이 아닙니다. 선형 모델이더라도 여러 특성을 사용하면 결과 모델은 복잡하고 디버깅하기 어렵습니다.

기준

평균 제곱 오차 (MSE) 손실로 회귀하면서 탑승 시간, 거리, 출발지, 끝을 사용하여 택시 탑승 비용을 예측합니다. 명심하세요.

  • 평균 탑승 비용은 15달러입니다.
  • 탑승 비용이 킬로미터당 고정 금액으로 증가합니다.
  • 시내 지역 내에서 이용 시 추가 요금이 부과됩니다.
  • 놀이 기구는 최소 3달러의 가격으로 시작합니다.

다음 기준이 유용한지 확인합니다.

15달러의 탑승 비용이 유용합니다.
정답입니다. 평균 비용은 유용한 기준입니다.
아니요
정답이 아닙니다. 항상 평균을 예측하면 다른 값을 예측하는 것보다 MSE가 더 낮아집니다. 따라서 이 기준에 따라 모델을 테스트하면 유의미한 비교가 제공됩니다.
탑승 비용의 표준 편차에 따라 달라집니다.
정답이 아닙니다. 표준 편차와 관계없이 탑승 평균 비용은 유용한 기준값입니다. 항상 다른 값을 예측하는 경우에 비해 항상 평균을 예측하면 MSE가 낮아지기 때문입니다.
유용한 기준: 기간과 출처만 특성으로 사용하는 학습된 모델입니다.
정답이 아닙니다. 프로덕션에서 모델이 완전히 검증된 후에만 학습된 모델을 기준으로 사용해야 합니다. 또한 학습된 모델 자체는 더 단순한 기준에서 검증되어야 합니다.
아니요
정답입니다. 프로덕션에서 모델이 완전히 검증된 후에만 학습된 모델을 기준으로 사용해야 합니다.
유용한 기준: 탑승 비용은 탑승 거리(킬로미터)에 킬로미터당 요금을 곱한 값입니다.
정답입니다. 거리는 탑승 비용을 결정할 때 가장 중요한 요소입니다. 따라서 거리를 사용하는 기준이 유용합니다.
아니요
정답이 아닙니다. 거리는 확정 탑승 비용에서 가장 중요한 요소입니다. 따라서 거리를 사용하는 기준이 유용합니다.
1회 탑승 비용이 유용한 기준입니다. 모델이 항상 이 기준을 초과해야 하기 때문입니다. 모델이 이 기준보다 높지 않으면 모델에 버그가 있다고 확신할 수 있습니다.
정답이 아닙니다. 이 기준은 항상 정확하지 않으므로 유용한 기준이 아닙니다. 모델을 항상 잘못된 기준과 비교하는 것은 의미가 없습니다.
아니요
정답입니다. 이 기준은 모델을 유용하게 테스트하지 못합니다.

초매개변수

다음 질문은 분류기 학습의 문제를 설명합니다. 설명된 문제를 해결할 수 있는 작업을 선택하세요.

학습 손실은 0.24이고 검증 손실은 0.36입니다. 다음 중 학습과 검증 손실 간의 차이를 줄일 수 있는 작업은 무엇인가요?
학습 및 검증 세트에 동일한 통계 속성이 있어야 합니다.
정답입니다. 학습 세트와 검증 세트에 서로 다른 통계 속성이 있는 경우, 학습 데이터가 검증 데이터를 예측하는 데 도움이 되지 않습니다.
정규화를 사용하여 과적합 방지
정답입니다. 학습 손실이 검증 손실보다 작으면 모델이 학습 데이터에 과적합한 것일 수 있습니다. 정규화는 과적합을 방지합니다.
학습 세대 수를 늘립니다.
정답이 아닙니다. 학습 손실이 검증 손실보다 작으면 모델이 일반적으로 학습 데이터에 과적합하는 것입니다. 학습 에포크를 늘리면 과적합만 증가합니다.
학습률을 낮춥니다.
정답이 아닙니다. 검증 손실이 학습 손실보다 큰 경우 일반적으로 과적합을 의미합니다. 학습률을 변경해도 과적합은 감소하지 않습니다.
이전 질문에 설명된 올바른 작업을 수행하면 이제 학습 및 검증 손실이 에포크 동안 학습 후 1.0에서 약 0.24로 감소합니다. 다음 중 학습 손실을 더 줄일 수 있는 조치는 무엇인가요?
신경망의 깊이와 너비를 확대합니다.
정답입니다. 여러 세대 동안 학습 후 학습 손실이 0.24로 동일하게 유지되면 모델은 손실을 더 줄일 수 있는 예측 기능이 없을 수 있습니다. 모델의 깊이와 너비를 높이면 모델에 학습 손실을 더 줄이는 데 필요한 추가 예측 기능이 제공될 수 있습니다.
학습 세대 수를 늘립니다.
정답이 아닙니다. 여러 세대 동안 학습 후 학습 손실이 0.24로 유지된다면 모델을 계속 학습시켜도 학습 손실이 크게 감소하지 않을 수 있습니다.
학습률 높이기
정답이 아닙니다. 많은 학습 세대의 학습 손실이 감소하지 않았으므로 학습률을 높여도 최종 학습 손실이 감소하지 않을 수 있습니다. 대신 학습률을 높이면 학습이 불안정해지고 모델이 데이터를 학습하지 못할 수 있습니다.
이전 질문에서 올바른 조치를 취했습니다. 모델의 학습 손실이 0.20으로 감소했습니다. 모델의 학습 손실을 조금 더 줄여야 한다고 가정해 보겠습니다. 예측 성능이 있는 것으로 보이는 특성 몇 개를 추가합니다. 하지만 학습 손실은 약 0.20으로 계속 변동합니다. 다음 중 학습 손실을 줄일 수 있는 세 가지 옵션은 무엇인가요?
레이어의 깊이와 너비를 늘립니다.
정답입니다. 모델에 새 특성의 예측 신호를 학습할 수 있는 용량이 없을 수 있습니다.
학습 세대를 늘립니다.
정답이 아닙니다. 모델의 학습 손실이 약 0.20 정도 변동하는 경우 학습 세대 수를 늘리면 모델의 학습 손실이 약 0.20 정도 계속 변동할 수 있습니다.
이 기능은 기존 특성과 관련된 정보를 추가하지 않습니다. 다른 기능을 사용해 보세요.
정답입니다. 해당 특성으로 인코딩된 예측 신호가 사용 중인 특성에 이미 존재할 수도 있습니다.
학습률을 낮춥니다.
정답입니다. 새로운 특성을 추가하면 문제가 더 복잡해질 수 있습니다. 특히 손실의 변동은 학습률이 너무 높고 모델이 최솟값을 뛰어넘고 있음을 나타냅니다. 학습률을 낮추면 모델이 최솟값을 학습할 수 있습니다.