선형 회귀: 초매개변수

초매개변수는 변수임 학습의 여러 측면을 제어한다는 것입니다 세 가지 일반적인 초매개변수는 다음과 같습니다.

반면에 매개변수는 모델 자체의 일부인 가중치 및 편향과 같은 변수가 포함됩니다. 포함 즉, 초매개변수는 사용자가 직접 제어하는 값입니다. 매개변수는 값이며 학습 중에 모델이 계산하는 값입니다

학습률

학습률은 사용자가 설정하는 부동 소수점 수는 수렴합니다. 학습률이 너무 낮으면 모델이 오랜 시간이 걸릴 수 있습니다. 수렴합니다. 하지만 학습률이 너무 높으면 모델이 대신 편향을 최소화하는 가중치와 편향을 중심으로 손실이 발생할 수 있습니다. 목표는 너무 높거나 너무 낮지 않도록 학습률을 모델이 빠르게 수렴하는 것을 볼 수 있습니다.

학습률은 가중치에 적용할 변화의 크기를 결정합니다. 경사하강법의 각 단계에서 편향과 편향을 측정할 수 있습니다 모델은 학습률에 따른 기울기를 조정하여 모델의 매개변수 (가중치)를 결정합니다. 및 편향 값)을 반환합니다. 그라데이션의 세 번째 단계에서는 내림차순, '소량' 특정 방향으로 이동하다 학습률을 나타냅니다.

이전 모델 매개변수와 새 모델 매개변수의 차이점은 손실 함수의 기울기에 비례합니다. 예를 들어 경사가 크면 모델이 큰 단계를 거쳐야 합니다. 작으면 작은 발걸음을 내딛습니다. 대상 예를 들어 경사의 크기가 2.5이고 학습률이 0.01이면 모델은 매개변수를 0.025만큼 변경합니다.

이상적인 학습률은 모델이 적절한 수 내에서 수렴하는 데 도움이 됩니다. 학습합니다. 그림 21에서 손실 곡선은 모델이 수렴 전에 나타나는 첫 20회의 반복에서 개선되는 것을 볼 수 있습니다

그림 21. 평면화 전 가파른 경사를 보여주는 손실 곡선

그림 21. 다음과 같은 학습률로 학습된 모델을 보여주는 손실 그래프 빠르게 수렴됩니다

반대로 학습률이 너무 작으면 모델이 학습하는 데 필요한 반복을 너무 많이 수렴합니다. 그림 22에서 손실 곡선은 미미한 양만 만드는 모델을 보여줍니다. 다음과 같은 개선사항이 있습니다.

그림 22. 거의 45도에 가까운 경사를 보여주는 손실 곡선

그림 22. 작은 학습률로 학습된 모델을 보여주는 손실 그래프

학습률이 너무 크면 수렴되지 않습니다. 각 반복은 손실이 급등하거나 계속 증가하게 됩니다. 그림 23에서 손실은 곡선은 모델이 감소했다가 반복될 때마다 손실을 늘리는 것을 보여줍니다. 그림 24에서는 이후 반복에서 손실이 증가합니다.

그림 23. 들쭉날쭉한 위아래 선을 보여주는 손실 곡선

그림 23. 다음과 같은 학습률로 학습된 모델을 보여주는 손실 그래프 손실 곡선이 심하게 불규칙해지면서 손실 곡선이 위아래로 증가할 수 있습니다

그림 24. 이후 반복에서 손실이 증가하는 것을 보여주는 손실 곡선

그림 24. 다음과 같은 학습률로 학습된 모델을 보여주는 손실 그래프 너무 커서 이후 반복에서 손실 곡선이 크게 증가합니다.

연습문제: 학습 내용 점검하기

이상적인 학습률은 얼마인가요?
이상적인 학습률은 문제에 따라 다릅니다.
각 모델과 데이터 세트는 고유한 이상적인 학습률을 갖습니다.
0.01
1.0

배치 크기

배치 크기는 일괄 예측에 가중치를 업데이트하기 전에 모델이 처리하는 예시의 수를 나타냄 편향이 있습니다 모델이 모든 각 항목의 손실을 계산해야 한다고 가중치와 편향을 업데이트하기 전 데이터 세트의 예를 미리 확인해 주세요. 그러나 데이터 세트에는 수십만 또는 수백만 개의 예시가 포함되어 있으며 실용적이지 않습니다

별도의 작업 없이 평균적으로 적절한 경사를 구하기 위한 두 가지 일반적인 기법 가중치와 편향을 업데이트하기 전에 데이터 세트의 모든 예를 살펴보아야 합니다. 확률적 경사하강법 미니 배치 확률적 경사 내림차순:

  • 확률적 경사하강법 (SGD): 확률적 경사하강법에서만 사용 반복당 단일 예 (배치 크기 1) 충분히 감안함 SGD는 작동하지만 노이즈가 매우 많습니다. "노이즈" 는 손실이 증가하지 않고 증가하도록 하는 학습을 있습니다. '확률적'이라는 용어 는 각 배치가 무작위로 선택됩니다

    다음 이미지에서 모델에 따라 손실이 어떻게 약간 변동하는지 확인하세요. SGD를 사용하여 가중치와 편향을 업데이트하므로 손실에 노이즈가 발생할 수 있습니다. 그래프:

    그림 25. 평탄해지지만 약간의 변동이 많이 있는 가파른 손실 곡선입니다.

    그림 25. 확률적 경사하강법 (SGD)으로 학습된 모델 노이즈를 더합니다.

    확률적 경사하강법을 사용하면 전체 구간에서 노이즈가 전체 손실 곡선을 볼 수 있습니다.

  • 미니 배치 확률적 경사하강법 (미니 배치 SGD): 미니 배치 확률적 경사하강법은 전체 배치와 SGD 간의 절충입니다. 대상 $ N $ 데이터 포인트 수, 배치 크기는 1보다 큰 숫자일 수 있음 $ N $ 미만입니다. 모델이 각 배치에 포함된 예를 선택 경사의 평균을 계산한 다음 가중치와 편향을 업데이트합니다. 1회 반복해야 합니다

    각 배치의 예 수를 결정하는 것은 데이터 세트와 컴퓨팅 리소스를 제공합니다 일반적으로 작은 배치 크기는 SGD와 더 큰 배치 크기는 전체 배치 경사하강법처럼 동작합니다.

    그림 26. 평탄해지기 시작하는 가파른 손실 곡선으로, 수렴 직전에 훨씬 작은 변동을 보입니다.

    그림 26. 미니 배치 SGD로 학습된 모델입니다.

모델을 학습시킬 때 노이즈가 바람직하지 않다고 생각할 수 있는데, 이 특성은 제거해야 합니다 하지만 일정량의 노이즈는 좋은 일입니다. 이후 모듈에서는 노이즈가 모델에 어떤 도움이 되는지 알아봅니다. 일반화하여 더 나은 결과를 얻어 신경망에서 최적의 가중치와 편향 네트워크입니다.

에포크

학습 중에 에포크는 모델이 학습 세트의 모든 예시를 한 번 처리했다는 의미입니다. 예를 들어 1,000개의 예시가 있는 학습 세트와 100개의 예시로 이루어진 미니 배치 크기의 경우 모델에 10회의 반복을 한 에포크를 완료할 수 있습니다

학습에는 일반적으로 많은 세대가 필요합니다. 즉 시스템에서 모든 예시를 여러 번 반복하게 됩니다

에포크 수는 모델이 시작되기 전에 설정한 초매개변수입니다. Vertex AI Feature Store에서 제공되는 많은 경우 이 작업을 수행하는 데 걸리는 에포크 수를 실험해야 수렴되지 않습니다. 일반적으로 에포크가 많을수록 더 나은 모델이 생성되지만 학습하는 데 더 많은 시간이 걸립니다

그림 27. 전체 배치는 전체 데이터 세트이고, 미니 배치는 데이터 세트의 하위 집합이며, 에포크는 10개의 미니 배치를 통과하는 전체 패스입니다.

그림 27. 전체 배치와 미니 배치 비교.

다음 표는 배치 크기 및 에포크가 데이터 레이크의 수와 어떤 관련이 있는지 모델이 매개변수를 업데이트하는 횟수

일괄 유형 가중치 및 편향 업데이트가 발생하는 경우
전체 배치 모델은 데이터 세트의 모든 예를 확인한 후 예를 들면 다음과 같습니다. 데이터 세트에 1,000개의 예시가 포함되어 있고 모델이 20세대 동안 학습하는 경우 모델은 에포크당 한 번씩 가중치와 편향을 20번 업데이트합니다.
확률적 경사하강법 모델이 데이터 세트에서 하나의 예를 확인한 후 예를 들어 데이터 세트에 1,000개의 예시가 포함되어 있고 20에포크 동안 모델이 가중치와 편향을 20,000번 업데이트합니다.
미니 배치 확률적 경사하강법 모델은 각 배치의 예를 확인한 후 예를 들면 다음과 같습니다. 데이터 세트에 1,000개의 예가 포함되어 있고 배치 크기가 100인 경우 모델이 20세대 동안 학습하면 모델이 가중치를 업데이트하고 200배 더 할 수 있습니다.

연습문제: 학습 내용 점검하기

1. 미니 배치 SGD를 사용할 때 가장 좋은 배치 크기는 무엇인가요?
경우에 따라 다름
이상적인 배치 크기는 데이터 세트와 사용 가능한 데이터 세트에 따라 컴퓨팅 리소스
배치당 예시 10개
배치당 예시 100개
2. 다음 중 참인 설명은 무엇인가요?
배치가 클수록 이상점이 많은 데이터에는 적합하지 않습니다.
거짓입니다. 더 많은 경사를 함께 평균화하여 커짐 이상점이 있을 때 발생하는 부정적인 영향을 줄이는 데 도움이 될 수 있습니다 있습니다.
학습률을 두 배로 높이면 학습 속도가 느려질 수 있습니다.
이 문장은 참입니다. 학습률을 두 배로 높이면 학습률이 너무 높아서 가중치가 '이리저리 뛰다' 수렴에 필요한 시간이 늘어나게 됩니다. 항상 그렇듯이 최상의 초매개변수는 데이터 세트와 컴퓨팅 리소스를 제공합니다