이 페이지는 Cloud Translation API를 통해 번역되었습니다.

신경망: 활성화 함수

이전 연습문제에서 네트워크에 숨겨진 레이어를 추가하는 것만으로는 비선형성을 나타내기에 충분하지 않다는 것을 확인했습니다. 선형 연산에 대해 실행되는 선형 연산은 여전히 선형입니다.

값 간의 비선형 관계를 학습하도록 신경망을 구성하려면 어떻게 해야 할까요? 비선형 수학 연산을 모델에 삽입하는 방법이 필요합니다.

이 내용이 다소 익숙하다면 앞서 과정의 초반에 선형 모델의 출력에 비선형 수학 연산을 적용했기 때문입니다. 로지스틱 회귀 모듈에서는 모델의 출력을 시그모이드 함수를 통해 전달하여 0~1의 연속 값 (확률을 나타냄)을 출력하도록 선형 회귀 모델을 조정했습니다.

신경망에도 동일한 원칙을 적용할 수 있습니다. 앞서 실습 2의 모델을 다시 살펴보겠습니다. 이번에는 각 노드의 값을 출력하기 전에 먼저 시그모이드 함수를 적용합니다.

재생 버튼 오른쪽에 있는 >| 버튼을 클릭하여 각 노드의 계산을 단계별로 수행해 보세요. 그래프 아래의 계산 패널에서 각 노드 값을 계산하기 위해 수행된 수학 연산을 검토합니다. 이제 각 노드의 출력은 이전 레이어에 있는 노드의 선형 조합에 대한 시그모이드 변환이며, 출력 값은 모두 0과 1 사이로 찌그러집니다.

여기서 시그모이드는 신경망의 활성화 함수, 즉 신경망의 다음 레이어 계산에 입력값으로 전달되기 전에 뉴런의 출력 값에 대한 비선형 변환으로 사용됩니다.

이제 활성화 함수를 추가했으므로 레이어를 추가하면 더 큰 효과를 얻을 수 있습니다. 비선형성을 비선형성에 쌓으면 입력과 예측된 출력 간의 매우 복잡한 관계를 모델링할 수 있습니다. 간단히 말해 각 레이어는 원시 입력에 대해 더 복잡하고 상위 수준의 함수를 효과적으로 학습합니다. 작동 방식에 대한 직관을 키우려면 크리스 올라의 훌륭한 블로그 게시물을 참고하세요.

일반적인 활성화 함수

활성화 함수로 일반적으로 사용되는 세 가지 수학 함수는 시그모이드, tanh, ReLU입니다.

위에서 설명한 시그모이드 함수는 입력 $x$에 대해 다음 변환을 실행하여 0과 1 사이의 출력 값을 생성합니다.

\[F(x)=\frac{1} {1+e^{-x}}\]

다음은 이 함수의 그래프입니다.

그림 4. 시그모이드 함수의 도표: x가 음의 무한대에 가까워질 때
점근법으로 x축에 접근하는 S자형 곡선,
x가 무한대에 가까워질수록 1도입니다. — **그림 4. 시그모이드 함수의 플롯**

tanh('쌍곡선 탄젠트'의 줄임말) 함수는 입력 $x$ 를 변환하여 -1과 1 사이의 출력 값을 생성합니다.

\[F(x)=tanh(x)\]

이 함수의 도표는 다음과 같습니다.

그림 5. tanh 함수의 그래프: 시그모이드 함수보다 약간 더 가파른 S자 모양 곡선으로, x가 음의 무한대로 접근하면 점근적으로 –1에 접근하고 x가 무한대로 접근하면 1에 접근합니다. — **그림 5. tanh 함수의 도표입니다.**

정류 선형 유닛 활성화 함수 (줄여서 ReLU)는 다음 알고리즘을 사용하여 출력을 변환합니다.

입력 값 $x$ 가 0보다 작은 경우 0을 반환합니다.
입력 값 $x$ 가 0보다 크거나 같은 경우 입력 값을 반환합니다.

ReLU는 max() 함수를 사용하여 수학적으로 표현할 수 있습니다.

$$F(x)=max(0,x)$$

다음은 이 함수의 그래프입니다.

그림 6. ReLU 함수의 그래프: 음의 무한대에서 0까지 x축을 따라 수평선이 이어지다가 0에서 무한대까지 기울기가 1 (y=x)인 대각선이 됩니다. — **그림 6. ReLU 함수의 그래프**

ReLU는 신경망 학습 중에 그라디언트 소실 문제에 영향을 덜 받으므로 시그모이드나 tanh와 같은 부드러운 함수보다 활성화 함수로 더 잘 작동하는 경우가 많습니다. ReLU는 이러한 함수보다 계산하기도 훨씬 쉽습니다.

기타 활성화 함수

실제로는 모든 수학 함수가 활성화 함수 역할을 할 수 있습니다. $\sigma$ 가 활성화 함수를 나타낸다고 가정해 보겠습니다. 네트워크의 노드 값은 다음 공식으로 계산됩니다.

$$\sigma(\boldsymbol w \cdot \boldsymbol x+b)$$

Keras는 여러 활성화 함수를 즉시 지원합니다. 하지만 ReLU로 시작하는 것이 좋습니다.

요약

다음 동영상에서는 신경망 구성 방법에 대해 지금까지 학습한 모든 내용을 요약합니다.

이제 모델에 사람들이 신경망을 언급할 때 일반적으로 의미하는 모든 표준 구성요소가 포함되었습니다.

뉴런과 유사한 노드 집합이 레이어에 구성되어 있습니다.
각 신경망 레이어와 하위 레이어와의 연결을 나타내는 가중치 집합이 있습니다. 하위 레이어는 또 다른 신경망 레이어이거나 유형이 다른 레이어일 수도 있습니다.
편향 집합이 각 노드에 하나씩 존재합니다.
레이어의 각 노드의 출력을 변환하는 활성화 함수입니다. 레이어마다 활성화 함수가 다를 수 있습니다.

주의: 신경망이 항상 특성 교차보다 나은 것은 아니지만 많은 경우에 효과적인 유연한 대안을 제공합니다.

노드 및 히든 레이어 (15분)

역전파를 사용한 학습 (10분)