머신러닝 용어집: 시퀀스 모델

이 페이지에는 시퀀스 모델 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.

B

바이그램

#seq
#language

N=2인 N-그램입니다.

E

폭발적인 경사 문제

#seq

심층신경망 (특히 순환 신경망)의 경사가 놀라울 정도로 가파르게 (높게) 변하는 경향입니다. 가파른 기울기는 종종 딥 신경망의 각 노드가중치를 매우 크게 업데이트합니다.

폭발적인 경사 문제로 인해 모델을 학습하기가 어렵거나 불가능해집니다. 그라데이션 자르기를 사용하면 이 문제를 완화할 수 있습니다.

경사 소멸 문제와 비교해 보세요.

F

forget gate

#seq

장기 단기 기억 세포의 일부로, 세포를 통한 정보 흐름을 조절합니다. 잊어버리기 게이트는 셀 상태에서 삭제할 정보를 결정하여 컨텍스트를 유지합니다.

G

그라데이션 제한

#seq

경사하강법을 사용하여 모델을 학습할 때 경사의 최대값을 인위적으로 제한 (클리핑)하여 경사 폭발 문제를 완화하는 데 일반적으로 사용되는 메커니즘입니다.

L

장단기 메모리 (LSTM)

#seq

필기 인식, 머신 번역, 이미지 자막과 같은 애플리케이션에서 데이터 시퀀스를 처리하는 데 사용되는 회귀형 신경망의 셀 유형입니다. LSTM은 긴 데이터 시퀀스로 인해 RNN을 학습할 때 발생하는 소멸 기울기 문제를 해결합니다. 이를 위해 RNN의 이전 셀의 새 입력과 컨텍스트를 기반으로 내부 메모리 상태에서 기록을 유지합니다.

LSTM

#seq

장단기 메모리의 약어입니다.

N

N-그램

#seq
#language

순서가 있는 N개 단어의 시퀀스입니다. 예를 들어 truly madly는 2-그램입니다. 순서는 의미가 있으므로 madly trulytruly madly와 다른 2-그램입니다.

N 이 종류의 N-그램에 대한 이름
2 바이그램 또는 2-그램 to go, go to, eat lunch, eat dinner
3 트라이그램 또는 3-그램 ate too much, three blind mice, the bell tolls
4 4-그램 walk in the park, dust in the wind, the boy ate lentils

많은 자연어 이해 모델이 N-그램을 사용하여 사용자가 다음에 입력하거나 말할 가능성이 있는 단어를 예측합니다. 예를 들어 사용자가 three blind를 입력했다고 가정합니다. 트라이그램을 기반으로 하는 NLU 모델은 사용자가 다음에 mice를 입력할 것으로 예측할 수 있습니다.

N-그램을 순서가 지정되지 않은 단어 세트인 단어 집합과 비교해 보시기 바랍니다.

R

순환 신경망(RNN)

#seq

의도적으로 여러 번 실행되는 신경망으로 각 실행의 일부가 다음 실행으로 유입됩니다. 특히 이전 실행의 히든 레이어가 다음 실행의 동일한 히든 레이어에 입력의 일부를 제공합니다. 순환 신경망(RNN)은 시퀀스를 평가할 때 특히 유용하며, 히든 레이어가 시퀀스의 이전 부분에 대한 신경망의 이전 실행으로부터 학습할 수 있습니다.

예를 들어 다음 그림은 네 번 실행되는 recurrent neural network(RNN)을 보여줍니다. 첫 번째 실행에서 히든 레이어에 학습된 값이 두 번째 실행에서 동일한 히든 레이어에 입력의 일부로 제공됩니다. 마찬가지로 두 번째 실행에서 히든 레이어에 학습된 값이 세 번째 실행에서 동일한 히든 레이어에 입력의 일부로 제공됩니다. 이러한 방식으로 순환 신경망(RNN)은 개별 단어를 측정하지 않고 점진적으로 학습하여 전체 시퀀스의 의미를 예측합니다.

4회 실행되어 네 개의 입력 단어를 처리하는 RNN입니다.

RNN

#seq

recurrent neural networks의 약어입니다.

S

시퀀스 모델

#seq

입력에 순차적 종속 항목이 있는 모델입니다. 예를 들면 이전에 시청한 동영상의 순서를 바탕으로 다음에 시청할 동영상을 예측하는 경우입니다.

T

timestep

#seq

순환 신경망 내의 '펼쳐지지 않은' 셀 1개 예를 들어 다음 그림은 세 개의 타임스텝 (하위 표시자 t-1, t, t+1로 라벨이 지정됨)을 보여줍니다.

순환 신경망의 세 타임스텝 첫 번째 타임스텝의 출력은 두 번째 타임스텝의 입력이 됩니다. 두 번째 타임스텝의 출력은 세 번째 타임스텝의 입력이 됩니다.

트라이그램

#seq
#language

N=3인 N-그램입니다.

V

경사 소멸 문제

#seq

일부 심층신경망의 초기 숨겨진 레이어의 경사가 놀라울 정도로 평평해지는 (낮아지는) 경향 기울기가 점점 낮아지면 심층신경망의 노드에 있는 가중치가 점점 더 적게 변경되어 학습이 거의 또는 전혀 이루어지지 않습니다. 경사 소멸 문제가 있는 모델은 학습하기가 어렵거나 불가능해집니다. 장단기 메모리 셀이 이 문제를 해결합니다.

폭발적인 기울기 문제와 비교해 보세요.