언어 모델이란 무엇인가요?
언어 모델 토큰의 확률 예측 더 긴 토큰 시퀀스 내에서 발생하는 토큰의 시퀀스입니다. 토큰 단어, 하위 단어 (단어의 하위 집합) 또는 단일 문자일 수도 있습니다.
다음 문장과 이 문장을 완성할 수 있는 토큰을 생각해 보세요.
When I hear rain on my roof, I _______ in my kitchen.
언어 모델은 다른 토큰 또는 토큰의 확률을 일련의 토큰으로 채워져 있습니다. 예를 들어 확률 테이블은 가능한 토큰과 그 확률을 식별합니다.
확률 | 토큰 |
---|---|
9.4% | 수프 요리 |
5.2% | 주전자 워밍업 |
3.6% | 몸을 움츠리다 |
2.5% | 낮잠 |
2.2% | 휴식 |
어떤 상황에서는 토큰의 시퀀스가 한 문장의 전체 문장이 될 수 있습니다. 단락 또는 에세이 전체의 내용이 포함됩니다.
애플리케이션은 확률 테이블을 사용하여 예측을 수행할 수 있습니다. 가장 확률이 높은 예상 검색어일 수 있습니다 (예: '수프 요리'). 특정 토큰보다 높은 확률을 가진 토큰 중에서 임곗값입니다.
텍스트 시퀀스에서 빈칸을 채울 확률을 추정하면 다음과 같은 보다 복잡한 작업으로도 확장됩니다.
- 텍스트를 생성하는 중입니다.
- 텍스트를 한 언어에서 다른 언어로 번역
- 문서 요약
토큰의 통계적 패턴을 모델링함으로써 최신 언어 모델은 언어 자체를 매우 강력한 방식으로 표현할 수 있고, 있습니다.
N-그램 언어 모델
N-그램은 순서가 지정된 단어 시퀀스입니다. 사용됩니다. 여기서 N은 시퀀스의 단어 수입니다. 예를 들어 N이 2일 때 N-그램을 2-그램 (또는 bigram); N이 5이면 N-그램은 5-그램이라고 합니다. 학습 문서에 다음과 같은 문구가 있습니다.
you are very nice
그 결과 2-그램은 다음과 같습니다.
- 나는
- 매우
- 대단하다
N이 3일 때 N-그램을 3-그램 (또는 트라이그램)를 입력할 수도 있습니다. 같은 구문에서 결과 3-그램은 다음과 같습니다.
- 넌 정말
- 진짜 친절해
두 단어가 입력으로 주어지면 3-그램을 기반으로 하는 언어 모델은 확률을 평가합니다. 다음 두 단어를 예로 들어보겠습니다.
orange is
언어 모델은 학습에서 파생된 다양한 3-그램을 모두 검사함
orange is
로 시작하는 코퍼스의 조합을 사용하여 가능성이 가장 높은 세 번째 단어를 결정합니다.
수백 개의 3-그램이 orange is
라는 두 단어로 시작할 수 있지만,
다음 두 가지 가능성에만 집중하세요.
orange is ripe orange is cheerful
첫 번째 가능성 (orange is ripe
)은 과일 주황색에 관한 것이고
두 번째 가능성 (orange is cheerful
)은 색상에 관한 것입니다.
주황색입니다.
컨텍스트
인간은 비교적 긴 컨텍스트를 유지할 수 있습니다. 연극의 3막을 보면서 행동 1에 소개된 캐릭터에 대한 지식을 습득 마찬가지로 장황한 농담을 요약하면 맥락을 기억할 수 있어 웃음을 자아냅니다. 장난이 아니더라도 말이죠.
언어 모델에서는 컨텍스트가 대상 토큰입니다. 컨텍스트는 언어 모델이 '주황색'인지 여부를 판단하는 데 감귤류 과일 또는 색상을 나타냅니다.
컨텍스트는 언어 모델이 더 나은 예측을 하는 데 도움이 될 수 있지만
3-그램이 충분한 맥락을 제공합니까? 안타깝게도 3-그램의 유일한 컨텍스트는
첫 두 단어입니다 예를 들어 orange is
라는 두 단어는
언어 모델이 세 번째 단어를 예측하는 데 충분한 컨텍스트를 제공합니다.
3-그램에 기반한 언어 모델은 컨텍스트의 부족으로 인해 많은 실수를 합니다.
긴 N-그램은 짧은 N-그램보다 확실히 더 많은 컨텍스트를 제공합니다. 그러나 N이 커질수록 각 인스턴스의 상대적 발생 횟수는 감소합니다. N이 매우 커질 때, 언어 모델은 일반적으로 단일 N 토큰이 있을 때마다 새 인스턴스를 생성하는데 이는 타겟 토큰을 예측하는 데 사용됩니다
순환 신경망(RNN)
순환 신경 네트워크 N-그램보다 더 많은 컨텍스트를 제공합니다 순환 신경망은 신경망의 학습합니다. 예를 들어 순환 신경망은 각 단어에서 선택된 컨텍스트를 점진적으로 학습하고 이를 무시하는 방법을 학습하게 됨 문장을 만듭니다. 대규모 순환 신경망은 여러 개의 문장에서 컨텍스트를 획득할 수 있음 학습합니다.
순환 신경망은 N-그램보다 더 많은 컨텍스트를 학습하지만 반복 신경망이 직관적으로 이해할 수 있는 것은 제한됩니다. 순환 신경망은 '토큰별 토큰' 정보를 평가합니다. 이와 대조적으로 대규모 언어 모델은 섹션 - 전체 맥락을 한 번에 평가할 수 있습니다.
긴 컨텍스트에 대해 순환 신경망을 학습시키는 것은 소실 경사 문제에 대해 자세히 알아보세요.
연습문제: 학습 내용 점검하기
- 6-그램을 기반으로 하는 언어 모델
- 5-그램을 기반으로 하는 언어 모델