LLM: 대규모 언어 모델이란 무엇인가요?

새로운 기술인 대규모 언어 모델 (LLM) 때로는 많은 단락의 가치를 예측할 수 있습니다 예측된 토큰만 남깁니다 토큰은 단어, 하위 단어( 단일 문자일 수도 있습니다. LLM은 훨씬 더 나은 예측을 수행합니다. N-그램 언어 모델이나 순환 신경망보다 더 효율적입니다.

  • LLM에는 훨씬 더 많은 매개변수가 포함되어 있습니다. 더 효율적입니다.
  • LLM은 훨씬 더 많은 맥락을 수집합니다.

이 섹션에서는 가장 성공적이고 널리 사용되는 아키텍처를 소개합니다. Transformer를 살펴보겠습니다

Transformer란 무엇인가요?

Transformer는 다양한 계산을 위한 언어 모델 응용 분야로는 번역이 있습니다.

그림 1. 입력값은 '나는 착한 강아지다'입니다. Transformer 기반
            입력값을 출력으로 변환: Je suis un bon
            chien은 프랑스어로 번역된
동일한 문장입니다
그림 1. Transformer 기반 애플리케이션은 영어에서 프랑스어로 번역합니다.

 

Full Transformer는 인코더와 디코더로 구성됩니다.

  • 인코더는 중간 표현으로 변환합니다. 인코더는 신경망입니다.
  • 디코더는 그 중간 표현을 유용한 텍스트로 변환합니다. 또한 디코더는 신경망을 살펴보게 될 것입니다.

예를 들어 번역사는

  • 인코더는 입력 텍스트 (예: 영어 문장)를 중간 표현을 사용합니다.
  • 디코더는 이 중간 표현을 출력 텍스트( 프랑스어 문장).
그림 2. Transformer 기반 번역기는 인코더와
            이 함수는 영어 문장의 중간 표현을 생성합니다.
            볼 수 있습니다 디코더는 이 중간 표현을
            프랑스어 출력 문장입니다.
그림 2. 완전한 Transformer에는 인코더와 디코더가 모두 포함되어 있습니다.

 

셀프 어텐션이란 무엇인가요?

Transformer는 컨텍스트를 개선하기 위해 셀프 어텐션. 각 입력 토큰을 대신하여 효과적으로 셀프 어텐션을 요청합니다 다음 질문에 답해야 합니다.

"다른 입력 토큰이 이 토큰의 해석에 토큰?"

'self' "셀프 어텐션"으로 입력 시퀀스를 나타냅니다. 일부 관심 있음 출력 시퀀스에서 토큰에 대한 입력 토큰의 가중치 관계 토큰으로 변환합니다. 하지만 셀프 어텐션만 입력 시퀀스에서 토큰 간 관계의 중요도에 가중치를 부여합니다.

문제를 단순화하기 위해 각 토큰이 단어이고 완전한 단어라고 가정합니다. 맥락은 한 문장일 뿐입니다 다음 문장을 고려하세요.

The animal didn't cross the street because it was too tired.

앞의 문장에는 11개 단어가 포함되어 있습니다. 11개 단어는 각각 나머지 10개 단어를 주의 깊게 살펴보면서 그 자체로 중요합니다. 예를 들어 문장에 대명사가 포함됩니다. 그것입니다. 호칭은 모호한 경우가 많습니다. it 대명사는 일반적으로 최근 명사구 또는 명사구에 해당될 수 있지만 예시 문장에서는 최근 명사구를 그것이 동물을 의미하나요, 아니면 거리를 뜻하나요?

셀프 어텐션 메커니즘은 근처에 있는 단어와 it 대명사. 그림 3은 결과를 보여줍니다. 선이 파란색일수록 그 단어가 대명사 it에 중요한 역할을 합니다. 즉, 동물it이라는 대명사에 street보다 더 중요합니다.

그림 3. 문장 내 11개 단어 각각의 관련성:
            '동물이 너무 피곤해서 길을 건너지 않았다.'
            'it'이라는 대명사로 이어집니다 '동물'이라는 단어 가장 관련성 높은
            그 대명사 'it'.
그림 3. 대명사 it에 대한 셀프 어텐션 보낸 사람 Transformer: 학습 과정을 위한 언어 이해를 참조하세요.

 

반대로 문장의 마지막 단어가 다음과 같이 변경된다고 가정해 보겠습니다.

The animal didn't cross the street because it was too wide.

이 수정된 문장에서 자체 관심은 거리동물보다 대명사보다 더 관련성이 높습니다.

일부 셀프 어텐션 메커니즘은 양방향입니다. 즉, 단어 앞 의 토큰에 대한 관련성 점수를 계산 출석했습니다. 예를 들어, 그림 3에서 문자 앞뒤의 단어가 그것이 검토됩니다 따라서 양방향 셀프 어텐션 메커니즘은 단어 양쪽의 단어에서 문맥을 추출해 낼 수 있습니다. 반면에 단방향 셀프 어텐션 메커니즘은 단어에서 컨텍스트만 수집할 수 있으며, 단어의 한쪽 면이 비어있지 않습니다. 양방향 셀프 어텐션은 전체 시퀀스의 표현을 생성하는 데 특히 유용한 반면 토큰별로 시퀀스를 생성하는 애플리케이션에는 단방향이 필요합니다. 있다는 것을 의미합니다 따라서 인코더는 양방향 셀프 어텐션(self-attention)을 디코더는 단방향을 사용합니다.

다중 헤드 셀프 어텐션이란 무엇인가요?

각 셀프 어텐션 계층은 일반적으로 셀프 어텐션 헤드 레이어의 출력은 수학적 연산이며 출력의 출력 값(예: 가중 평균 또는 내적) 생각해야 합니다.

각 셀프 어텐션 계층은 임의의 값으로 초기화되므로 입력되는 각 단어와 해당 단어 사이의 표시됩니다. 예를 들어 앞서 살펴본 셀프 어텐션 계층은 섹션에서 it 대명사가 어떤 명사를 지칭했는지 확인하는 데 초점을 두었습니다. 그러나 다른 셀프 어텐션 계층은 각 단어를 다른 단어로 나누거나 다른 상호작용을 배우게 됩니다.

트랜스포머는 왜 이렇게 큰 걸까요?

트랜스포머에는 수백억 또는 수조 개의 매개변수입니다. 이 과정에서는 일반적으로 더 작은 규모의 더 많은 수로 나뉩니다. 결국 매개변수 수가 적은 모델은 더 적은 리소스를 사용합니다. 보다 많은 수의 매개변수를 갖는 모델보다 더 효율적입니다. 그러나 연구에 따르면 Transformer는 더 적은 수의 매개변수로 Transformer를 일관되게 능가하는 성능을 발휘합니다.

그렇다면 LLM은 어떻게 텍스트를 생성할까요?

연구진이 누락된 단어를 예측하도록 LLM을 학습시키는 방법을 살펴보았습니다. 실감 나지 않을 수도 있습니다. 결국 단어 한두 개를 예측하는 것은 기본적으로 다양한 텍스트, 이메일 및 작성 소프트웨어에 내장되어 있는 자동 완성 기능입니다. LLM이 문장이나 단락을 생성하는 방법 광고용 사이트에 대한 하이쿠입니다.

실제로 LLM은 본질적으로 LLM을 자동으로 생성할 수 있는 자동 완성 메커니즘입니다. 수천 개의 토큰을 예측 (완료)할 수 있습니다. 예를 들어, 한 문장의 뒤에 마스킹된 문장이 나옵니다.

My dog, Max, knows how to perform many traditional dog tricks.
___ (masked sentence)

LLM은 다음과 같이 마스킹된 문장에 대한 확률을 생성할 수 있습니다.

확률 단어
3.1% 예를 들어, 그는 앉아서 머무르고 이월됩니다
2.9% 예를 들어, 그는 앉고, 머무르고, 이월됩니다

충분히 큰 LLM은 단락과 전체 단락에 대한 확률을 생성할 수 있습니다. 에세이가 포함됩니다. LLM에 대한 사용자의 질문은 문장 뒤에 허수 가면이 표시됩니다. 예를 들면 다음과 같습니다.

User's question: What is the easiest trick to teach a dog?
LLM's response:  ___

LLM은 가능한 다양한 응답에 대한 확률을 생성합니다.

또 다른 예로, LLM은 방대한 양의 수학적인 '단어'에 대해 문제" 정교한 수학적 추론을 수행하는 것처럼 보일 수 있습니다. 그러나 이러한 LLM은 기본적으로 단어 문제 프롬프트를 자동 완성하는 것에 불과합니다.

LLM의 이점

LLM은 광범위한 주제에 대한 명확하고 이해하기 쉬운 텍스트를 생성할 수 있습니다. 확인할 수 있습니다 LLM은 작업을 예측할 수 있습니다. 명시적으로 학습됩니다. 일부 연구자들은 LLM이 의학적으로 학습되지 않은 입력 예측에 의존할 뿐 아니라 이 주장을 반박했습니다.

LLM 관련 문제

LLM을 학습시키는 데는 다음과 같은 많은 문제가 수반됩니다.

  • 방대한 훈련 세트를 수집 중입니다.
  • 수개월과 막대한 컴퓨팅 리소스 및 전기입니다.
  • 동시 로드 문제 해결

LLM을 사용하여 예측을 추론하면 다음과 같은 문제가 발생합니다.

  • LLM은 할루시네이션, 이는 예측에 실수가 있는 경우가 많다는 것을 의미합니다.
  • LLM은 엄청난 양의 컴퓨팅 리소스와 전기를 소비합니다. 대규모 데이터 세트로 LLM을 학습시키면 일반적으로 대규모 학습이 늘어남에 따라 추론에 필요한 리소스의 양이 세트에는 더 많은 학습 리소스가 필요합니다
  • 모든 ML 모델과 마찬가지로 LLM도 모든 종류의 편향을 나타낼 수 있습니다.

연습문제: 학습 내용 점검하기

Transformer가 다음을 포함한 10억 개의 문서에 대해 학습되었다고 가정해 보겠습니다. 한 단어 이상의 단어가 포함된 수천 개의 문서 코끼리 다음 중 참인 문장은 무엇인가요?
코끼리의 먹이에서 중요한 부분인 아카시아 나무는 점점 더 높은 자기 주목 점수를 얻게 되고 코끼리
그렇습니다. 그러면 Transformer는 코끼리의 먹이입니다.
Transformer는 코끼리라는 단어를 다양한 코끼리라는 단어가 포함된 관용구를 찾습니다.
예, 시스템에서 높은 셀프 어텐션 점수를 적용하기 시작합니다. 코끼리와 코끼리 관용구를 사용합니다.
Transformer는 냉소적이거나 학습 데이터에서 코끼리라는 단어를 역설적으로 사용한 것입니다.
충분히 광범위한 Transformer를 기반으로 학습 세트가 풍자, 유머, 역설이 아닙니다. 그러므로 냉소와 역설을 무시하기보다는 Transformer는 그로부터 학습합니다.