과적합

과적합은 모델을 만드는 것을 의미합니다. 일치 (기억)하는 학습 세트를 모델이 새 데이터에 대해 정확한 예측을 하지 못한다는 것을 알 수 있습니다. 과적합 모델은 실험실에서 잘 작동하지만 현실 세계에서는 쓸모가 없습니다.

그림 11에서 각각의 기하학적 도형이 나무의 위치를 나타낸다고 가정해 보겠습니다. 정사각형 숲에서 파란색 마름모는 건강한 나무의 위치를 표시하며 주황색 원은 병든 나무의 위치를 표시합니다.

그림 11. 이 그림에는 약 60개의 점이 포함되어 있으며 그 중 절반은
            건강한 나무와 병든 나무의 나머지 한 그루가 말이죠.
            건강한 나무는 주로 북동쪽 사분면에 있지만 몇 개는
            북서쪽 사분면에 잠입하기 시작했습니다. 병든 나무
            주로 남동쪽 사분면에 있지만 병든 나무도 몇 그렇다.
            다른 사분면으로 유출됩니다
그림 11. 훈련 세트: 정사각형 숲에 있는 건강한 나무와 병든 나무의 위치

 

선, 곡선, 타원 등 무엇이든 정신적으로 그려서 병든 나무에서 건강한 나무를 뽑아내는 것입니다. 그런 다음 다음 줄을 펼쳐 두 가지 방법이 있습니다.

그림 12에 표시된 복잡한 도형은 수 있습니다. 이 도형을 모델로 생각하면 아주 멋지고 있습니다.

정말 불가능할까요? 정말 뛰어난 모델은 새로운 예를 성공적으로 분류합니다. 그림 13은 동일한 모델이 새로운 테스트 세트의 예를 보여줍니다.

그림 13. 나무 위에 겹쳐놓은 건강한 나무와 병든 나무 한 그루
            모델(예: 12)을 사용합니다. 이 모델은
            수 있습니다. <ph type="x-smartling-placeholder">
</ph> 그림 13.테스트 세트: 병든 나무와 건강한 나무를 구별하기 위한 복잡한 모델

 

따라서 그림 12의 복잡한 모델은 학습 세트에서 좋은 성능을 보였습니다. 테스트 세트에서 꽤 좋지 않은 결과를 얻었습니다. 이 사례는 데이터 레이크에서 과적합입니다.

접합, 과적합, 과소적합

모델은 데이터를 잘 예측해야 합니다. 즉, 모델에 '적합'하는 새로운 데이터를 얻을 수 있습니다.

보시다시피 과적합 모델은 학습 시 예측은 제대로 되지 않습니다. 과소적합 모델 학습 데이터에 대한 예측도 제대로 하지 않습니다. 과적합 모델이 실험실에서는 잘 작동하지만 실제 환경에서는 좋지 않은 제품을 과소적합 모델은 특정 예측에 잘 맞지 않는 제품과 같습니다. 살펴보겠습니다

그림 14. 데카르트 그래프 X축에는 &#39;예측 품질&#39;이라는 라벨이 지정되어 있습니다.
            학습 세트에 적용할 수 있습니다. Y축에는 &#39;예측 품질&#39;이라는
            생각하고 있었습니다. 곡선은 원점에서 시작해서 점진적으로 상승합니다.
            하지만 그만큼 빨리 떨어집니다. 곡선의 왼쪽 하단 부분
            (실제 데이터에 대한 예측 품질이 낮고
            학습 세트에 대한 예측)에는 &#39;과소적 모델&#39;이라는 라벨이 지정됩니다. 이
            곡선의 오른쪽 하단 부분 (가장 낮은 품질의
            학습 세트에 대한 예측 품질이 우수하지만)
            &#39;과적합 모델&#39;로 지정합니다 곡선의 정상 (고품질)
            실제 데이터 및 중간 품질의 예측에 대한 비율
            &#39;적합 모델&#39;이라는 라벨이 지정되어 있습니다.
그림 14. 과소적합, 과적합, 과적합 모델

 

일반화는 과적합의 반대 개념입니다. 즉, 일반화가 잘 되는 모델이 좋은 성능을 발휘합니다. 새로운 데이터에 대한 예측을 할 수 있습니다. 목표는 신경망을 일반화하는 모델을 만드는 것입니다. 새로운 데이터가 필요합니다

과적합 감지

다음 곡선은 과적합을 감지하는 데 도움이 됩니다.

  • 손실 곡선
  • 일반화 곡선

손실 곡선은 모델의 손실을 표시합니다. 비교할 수 있습니다. 둘 이상의 손실 곡선을 보여주는 그래프를 일반화라고 합니다. 곡선입니다. 다음 일반화 곡선은 다음과 같은 두 개의 손실 곡선을 보여줍니다.

그림 15. 점진적으로 학습 세트의 손실 함수
            있습니다. 검증세트의 손실 함수도
거부되고
            일정 횟수의 반복 후에 증가하기 시작합니다.
그림 15. 과적합을 강력하게 암시하는 일반화 곡선입니다.

 

두 손실 곡선은 처음에는 비슷하게 동작하다가 발산합니다. 즉, 일정 횟수의 반복 후에 손실이 감소하거나 학습 세트에 대해 일정하게 유지되지만 (수렴) 검증 세트에 사용할 수 있습니다. 이는 과적합을 의미합니다.

반면에 적합도가 높은 모델의 일반화 곡선은 두 개의 손실 곡선을 나타냄 여러 개의 신경망을 만들 수 있습니다.

과적합의 원인은 무엇인가요?

크게 보면 과적합은 다음 중 하나 또는 둘 다로 인해 발생합니다. 문제:

  • 학습 세트가 실제 데이터 (또는 검증 세트 또는 테스트 세트로 구성됩니다.
  • 모델이 너무 복잡합니다.

일반화 조건

모델은 학습 세트에서 학습하지만 모델의 가치를 실제로 테스트하는 것은 새로운 사례, 특히 실제 데이터에 대한 예측을 할 수 있습니다. 모델을 개발하는 동안 테스트 세트는 실제 데이터의 프록시 역할을 합니다. 일반화가 잘 되는 모델을 학습시킨다면 다음과 같은 데이터 세트 조건을 사용할 수 있습니다.

  • 예시는 독립적이고 동일하게 분산된 간단히 말하자면 서로 영향을 미칠 수 없습니다.
  • 데이터 세트는 정상: 데이터 세트는 시간이 지나도 크게 변하지 않습니다.
  • 데이터 세트 파티션의 분포는 동일합니다. 즉, 학습 세트의 예시는 학습 세트의 예가 검증 세트, 테스트 세트, 실세계 데이터에 적용할 수 있습니다.

다음 연습을 통해 위의 조건을 살펴봅니다.

연습문제: 이해도 확인

다음 데이터 세트 파티션을 생각해 보세요.
세 부분으로 분할된 가로 막대: 막대의 70%
                     15% 는 학습 세트, 15%는
                     테스트 세트
학습 세트에 있는 예시가 의 예제와 유사한 통계 분포를 얻었습니다. 어떻게 해야 할까요?
이전에 데이터 세트의 예를 광범위하게 셔플합니다. 분리하는 것이 좋습니다
예. 예시를 잘 셔플하면 파티션을 훨씬 더 많이 만들 수 있음 가능성이 높습니다.
예시를 가장 오래된 것에서 최신 것 순으로 정렬하세요.
데이터 세트의 예가 변하지 않으면 정렬은 파티션을 더 적게 있습니다.
아무 조치도 취하지 않습니다. 충분한 예가 주어지면 평균의 법칙은 자연스럽게 분포가 통계적으로 유사함
하지만 이는 사실이 아닙니다. 예시 데이터 세트의 특정 섹션이 다른 섹션의 섹션과 다를 수 있습니다. 섹션으로 이동합니다.
인기도를 예측하는 모델을 개발하고 있는 스트리밍 서비스 새로운 TV 프로그램의 잠재력을 살펴봤습니다 이 데이터 세트에서 모델을 학습시키기 위한 스트리밍 서비스 계획 10억 개의 예시가 포함되어 있으며 10년이 되었습니다. 이 모델에 문제가 발생할까요?
아마 그럴 거예요. 시청자 과거 행동이 불가능한 방식으로 예측합니다.
예. 시청자의 취향은 정체되어 있지 않습니다. 끊임없이 변합니다.
절대 아니에요. 데이터 세트가 제대로 작성될 만큼 학습합니다.
안타깝게도 시청자는 변하지 않는다는 것입니다.
그렇지 않을 수도 있습니다. 시청자 취향이 예측 가능한 주기적 방식으로 변화합니다. 10년 간의 데이터가 있으면 모델이 훌륭한 예측을 할 수 있을 것입니다. 살펴봤습니다
엔터테인먼트의 특정 측면은 다소 주기적이지만 과거 연예인 역사에서 학습된 모델은 분명 향후 몇 년을 예측하는 데 어려움이 있습니다.
사람들이 1마일을 걷는 데 걸리는 시간을 예측하는 것을 목표로 하는 모델 날씨 데이터 (온도, 이슬점 및 날씨가 다양한 도시에서 1년 동안 수집된 강수량) 크게 다를 수 있습니다 여기에서 모델을 빌드하고 테스트할 수 있나요? 이는 날씨 측정값이 전날에 비해 크게 변한 어떤 계절인가요?
예. 이 데이터 세트에서 모델을 빌드하고 테스트할 수 있습니다. 데이터가 균등하게 분할되었는지 확인하기만 하면 되므로 4계절의 데이터가 모두 계절에 따라 균일하게 실행할 수 있습니다
아니요
이 데이터 세트에 온도, 이슬 점, 강수량을 기준으로 예측하면 2014년 12월 1일 기준 이 데이터 세트에서 볼 수 있습니다. 데이터가 파티션으로 나뉘어 있는지만 확인하면 되며, 4계절의 데이터가 동일한 기간에 균등하게 상이한 파티션으로 나눌 수 있습니다

챌린지 연습

탑승자가 최적의 가격으로 자전거를 구매할 수 있는 날짜를 예측하는 모델을 만들고 있습니다. 기차 표가 나와 있습니다. 예를 들어 모델은 사용자가 7월 8일에 7월 23일에 출발하는 열차의 티켓을 구입하는 경우 기차 회사는 다양한 기준으로 업데이트를 기반으로 매시간 가격을 업데이트합니다. 현재 사용 가능한 좌석 수에 따라 달라집니다. 이는 다음과 같은 의미입니다.

  • 좌석이 많으면 일반적으로 티켓 가격이 낮습니다.
  • 좌석 수가 너무 적으면 일반적으로 티켓 가격이 비쌉니다.
모델이 낮은 수치로 나타납니다. 손실을 야기할 수 있지만 경우에 따라서는 끔찍한 예측을 할 수 있다는 것을 깨달았습니다. 왜냐하면
정답을 보려면 여기를 클릭하세요.