대규모 언어 모델

를 통해 개인정보처리방침을 정의할 수 있습니다.

언어 모델이란 무엇인가요?

언어 모델 토큰의 확률 예측 더 긴 토큰 시퀀스 내에서 발생하는 토큰의 시퀀스입니다. 토큰 단어, 하위 단어 (단어의 하위 집합) 또는 단일 문자일 수도 있습니다.

대부분의 최신 언어 모델은 하위 단어, 즉 의미론적 의미가 포함된 텍스트입니다. 청크의 길이는 단일 문자(예: 구두점 또는 소유형 s)를 전체 단어에 포함하는 것이 좋습니다. 접두사와 접미어는 별도의 하위 단어로 표시될 수 있습니다. 예를 들어 시청하지 않음이라는 단어는 다음과 같이 나타낼 수 있습니다. 세 개의 하위 단어:

  • un (접두사)
  • watch (루트)
  • ed (접미사)

고양이라는 단어는 다음의 두 하위 단어로 표현할 수 있습니다.

  • cat (루트)
  • s (접미사)

좀 더 복잡한 단어(예: '반일체주의') 인코더-디코더 아키텍처를 6개의 하위 단어로 구성됩니다.

  • 안티
  • 디스
  • 설정하다
  • 멘트
  • 아리안
  • 이즘

토큰화는 언어별로 수행되므로 토큰당 문자 수는 언어마다 다릅니다 영어의 경우 토큰 1개는 최대 4자에 해당합니다. 즉, 400개 토큰 ~= 300개의 영어 단어가 됩니다.

토큰은 언어 모델링의 원자 단위 또는 가장 작은 단위입니다.

이제 토큰도 <ph type="x-smartling-placeholder"></ph> 컴퓨터 비전과 <ph type="x-smartling-placeholder"></ph> 오디오 생성을 해야 합니다.

다음 문장과 이 문장을 완성할 수 있는 토큰을 생각해 보세요.

When I hear rain on my roof, I _______ in my kitchen.

언어 모델은 다른 토큰 또는 토큰의 확률을 일련의 토큰으로 채워져 있습니다. 예를 들어 확률 테이블은 가능한 토큰과 그 확률을 식별합니다.

확률 토큰
9.4% 수프 요리
5.2% 주전자 워밍업
3.6% 몸을 움츠리다
2.5% 낮잠
2.2% 휴식

어떤 상황에서는 토큰의 시퀀스가 한 문장의 전체 문장이 될 수 있습니다. 단락 또는 에세이 전체의 내용이 포함됩니다.

애플리케이션은 확률 테이블을 사용하여 예측을 수행할 수 있습니다. 가장 확률이 높은 예상 검색어일 수 있습니다 (예: '수프 요리'). 특정 토큰보다 높은 확률을 가진 토큰 중에서 임곗값입니다.

텍스트 시퀀스에서 빈칸을 채울 확률을 추정하면 다음과 같은 보다 복잡한 작업으로도 확장됩니다.

  • 텍스트를 생성하는 중입니다.
  • 텍스트를 한 언어에서 다른 언어로 번역
  • 문서 요약

토큰의 통계적 패턴을 모델링함으로써 최신 언어 모델은 언어 자체를 매우 강력한 방식으로 표현할 수 있고, 있습니다.

N-그램 언어 모델

N-그램은 순서가 지정된 단어 시퀀스입니다. 사용됩니다. 여기서 N은 시퀀스의 단어 수입니다. 예를 들어 N이 2일 때 N-그램을 2-그램 (또는 bigram); N이 5이면 N-그램은 5-그램이라고 합니다. 학습 문서에 다음과 같은 문구가 있습니다.

you are very nice

그 결과 2-그램은 다음과 같습니다.

  • 나는
  • 매우
  • 대단하다

N이 3일 때 N-그램을 3-그램 (또는 트라이그램)를 입력할 수도 있습니다. 같은 구문에서 결과 3-그램은 다음과 같습니다.

  • 넌 정말
  • 진짜 친절해

두 단어가 입력으로 주어지면 3-그램을 기반으로 하는 언어 모델은 확률을 평가합니다. 다음 두 단어를 예로 들어보겠습니다.

orange is

언어 모델은 학습에서 파생된 다양한 3-그램을 모두 검사함 orange is로 시작하는 코퍼스의 조합을 사용하여 가능성이 가장 높은 세 번째 단어를 결정합니다. 수백 개의 3-그램이 orange is라는 두 단어로 시작할 수 있지만, 다음 두 가지 가능성에만 집중하세요.

orange is ripe
orange is cheerful

첫 번째 가능성 (orange is ripe)은 과일 주황색에 관한 것이고 두 번째 가능성 (orange is cheerful)은 색상에 관한 것입니다. 주황색입니다.

컨텍스트

인간은 비교적 긴 컨텍스트를 유지할 수 있습니다. 연극의 3막을 보면서 행동 1에 소개된 캐릭터에 대한 지식을 습득 마찬가지로 장황한 농담을 요약하면 맥락을 기억할 수 있어 웃음을 자아냅니다. 장난이 아니더라도 말이죠.

언어 모델에서는 컨텍스트가 대상 토큰입니다. 컨텍스트는 언어 모델이 '주황색'인지 여부를 판단하는 데 감귤류 과일 또는 색상을 나타냅니다.

컨텍스트는 언어 모델이 더 나은 예측을 하는 데 도움이 될 수 있지만 3-그램이 충분한 맥락을 제공합니까? 안타깝게도 3-그램의 유일한 컨텍스트는 첫 두 단어입니다 예를 들어 orange is라는 두 단어는 언어 모델이 세 번째 단어를 예측하는 데 충분한 컨텍스트를 제공합니다. 3-그램에 기반한 언어 모델은 컨텍스트의 부족으로 인해 많은 실수를 합니다.

긴 N-그램은 짧은 N-그램보다 확실히 더 많은 컨텍스트를 제공합니다. 그러나 N이 커질수록 각 인스턴스의 상대적 발생 횟수는 감소합니다. N이 매우 커질 때, 언어 모델은 일반적으로 단일 N 토큰이 있을 때마다 새 인스턴스를 생성하는데 이는 타겟 토큰을 예측하는 데 사용됩니다

순환 신경망(RNN)

순환 신경 네트워크 N-그램보다 더 많은 컨텍스트를 제공합니다 순환 신경망은 신경망의 학습합니다. 예를 들어 순환 신경망은 각 단어에서 선택된 컨텍스트를 점진적으로 학습하고 이를 무시하는 방법을 학습하게 됨 문장을 만듭니다. 대규모 순환 신경망은 여러 개의 문장에서 컨텍스트를 획득할 수 있음 학습합니다.

순환 신경망은 N-그램보다 더 많은 컨텍스트를 학습하지만 반복 신경망이 직관적으로 이해할 수 있는 것은 제한됩니다. 순환 신경망은 '토큰별 토큰' 정보를 평가합니다. 이와 대조적으로 대규모 언어 모델은 섹션 - 전체 맥락을 한 번에 평가할 수 있습니다.

긴 컨텍스트에 대해 순환 신경망을 학습시키는 것은 소실 경사 문제에 대해 자세히 알아보세요.

연습문제: 학습 내용 점검하기

영어 텍스트를 더 잘 예측하는 언어 모델은 무엇인가요?
  • 6-그램을 기반으로 하는 언어 모델
  • 5-그램을 기반으로 하는 언어 모델
6-그램을 기반으로 하는 언어 모델입니다.
5-그램을 기반으로 한 언어 모델입니다.
답은 교육의 규모와 다양성에 따라 달라집니다. 설정합니다.