신경망: 구조

신경망이 비선형 문제를 해결하는 데 어떻게 도움이 되는지 알아보기 위해 선형 모델을 그래프로 표현합니다.

연속된 파란색 원 3개는 그 위의 초록색 원과 화살표로 연결되어 있습니다.

그림 3. 그래프인 선형 모델

각 파란색 원은 입력 특성을 나타내고 녹색 원은 입력의 가중 합계입니다.

비선형 처리 능력을 개선하기 위해 이 모델을 어떻게 변경할 수 있을까요? 문제가 있나요?

히든 레이어

다음 그래프로 표시된 모델에는 '히든 레이어'가 추가되었습니다. 중간값을 나타냅니다. 히든 레이어의 각 노란색 노드는 가중치가 적용된 합계임 값이 표시됩니다. 출력은 노란색의 가중치가 적용된 합계입니다. 노드라는 두 가지 리소스가 있습니다

라벨이 지정된 3개의 파란색 원

그림 4. 2계층 모델의 그래프

이 모델은 선형일까요? 맞습니다. 출력은 여전히 살펴보겠습니다

다음 그래프로 나타낸 모델에는 두 번째 히든 레이어를 가중치가 적용된 합계 레이어가 있습니다.

라벨이 지정된 3개의 파란색 원

그림 5. 3계층 모델의 그래프

이 모델은 여전히 선형일까요? 예, 그렇습니다. 출력을 공식을 사용하면 다시 가중치가 적용된 합계를 얻을 수 있습니다. 입력입니다. 이 합계는 그림 2의 비선형 문제를 효과적으로 모델링하지 않습니다.

활성화 함수

비선형 문제를 모델링하기 위해 비선형성을 직접 도입할 수 있습니다. 우리는 각 히든 레이어 노드를 비선형 함수를 통해 파이핑합니다.

다음 그래프로 나타낸 모델에서 히든 레이어 1은 전달되기 전에 비선형 함수에 의해 변환됩니다. 다음 레이어의 가중 합에 곱합니다 이 비선형 함수를 활성화 함수입니다.

'비선형 변환 레이어' 라벨이 지정된 분홍색 원으로 이루어진 행을 제외하면 이전 그림과 동일합니다. 히든 레이어 두 개 사이에 추가되었습니다.

그림 6. 활성화 함수가 있는 3계층 모델의 그래프

이제 활성화 함수를 추가했으므로 레이어를 추가하면 더 큰 효과를 얻을 수 있습니다. 비선형성에 비선형성을 쌓으면 관계를 나타냅니다. 요약하면 각 보다 복잡한 고수준 함수를 효과적으로 학습합니다. 원시 입력 데이터를 가져올 수 있습니다 작동 방식에 대해 더 많은 직관력을 개발하려면 크리스 올라의 유용한 블로그 게시물

일반적인 활성화 함수

다음 시그모이드 활성화 함수는 가중치가 적용된 합계를 0과 1 사이의 값입니다.

$$F(x)=\frac{1} {1+e^{-x}}$$

그래프는 다음과 같습니다.

시그모이드 함수

그림 7. 시그모이드 활성화 함수

다음 정류 선형 유닛 활성화 함수 (또는 ReLU)는 주로 시그모이드와 같은 매끄러운 함수보다 약간 더 효과적입니다. 컴퓨팅도 훨씬 더 쉽습니다

$$F(x)=max(0,x)$$

ReLU의 우월성은 아마도 ReLU에 의해 좌우될 수 있는 경험적 결과에 근거합니다. 더 유용한 응답 범위를 갖출 수 있습니다. 시그모이드의 반응성은 양측에서 상대적으로 빨리 벗어날 수 있습니다.

ReLU 활성화 함수

그림 8. ReLU 활성화 함수

실제로 모든 수학 함수는 활성화 함수 역할을 할 수 있습니다. \(\sigma\) 이 활성화 함수를 나타냄 Relu, 시그모이드 등입니다. 결과적으로 네트워크의 노드 값은 공식:

$$\sigma(\boldsymbol w \cdot \boldsymbol x+b)$$

요약

이제 우리 모델에는 사람들이 일반적으로 사용하는 '신경망'이라는 의미입니다.

  • 뉴런과 유사한 노드 집합으로, 레이어로 구성됩니다.
  • 각 신경망 간의 연결을 나타내는 가중치 집합 그 아래에 있는 레이어가 있습니다. 그 아래 레이어는 또는 다른 종류의 레이어가 있을 수 있습니다.
  • 편향 세트는 노드당 하나씩입니다.
  • 레이어에서 각 노드의 출력을 변환하는 활성화 함수입니다. 레이어마다 활성화 함수가 다를 수 있습니다.

주의: 신경망이 항상 더 좋은 것은 아닙니다 신경망은 여러 특성 교차를 처리할 수 있는 유연한 대안을 많은 경우에 잘 작동합니다.