대규모 언어 모델 소개

언어 모델이나 대규모 언어 모델이 처음이신가요? 아래 리소스를 확인해 보세요.

언어 모델이란 무엇인가요?

언어 모델은 머신러닝입니다. 모델 AI는 그럴듯한 언어를 예측하고 생성하는 것을 목표로 합니다 자동 완성은 예로 들 수 있습니다

이 모델은 잠재적 손실 확률을 token 또는 더 긴 토큰 시퀀스 내에서 발생하는 토큰의 시퀀스입니다. 다음과 같은 방법을 고려해 보세요. 다음 문장:

When I hear rain on my roof, I _______ in my kitchen.

토큰이 단어라고 가정하면 언어 모델이 이 단어를 교체할 다른 단어 또는 일련의 단어의 확률을 밑줄로 표시됩니다. 예를 들어, 언어 모델은 확률:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

'토큰 시퀀스' 전체 문장일 수도 있고 일련의 문장일 수도 있습니다. 즉, 언어 모델은 한 언어에서 서로 다른 전체 URL의 확률을 사용할 수 있습니다.

시퀀스에서 다음에 올 확률을 추정하는 것은 텍스트 생성, 언어 번역, 답변하기 질문을 던질 수 있습니다.

대규모 언어 모델이란 무엇인가요?

인간의 언어를 대규모로 모델링하는 작업은 매우 복잡하고 리소스 집약적임 노력해야 합니다. 언어 모델의 현재 기능과 대규모 언어 모델은 수십 년에 걸쳐 발전해 왔습니다.

모델이 더 크고 크게 빌드됨에 따라 복잡성과 효율성이 증가합니다. 초기 언어 모델은 한 단어의 확률을 예측할 수 있었습니다. 모던 문장, 문단 또는 문장 부호의 확률을 예측하여 문서 전체를 볼 수도 있습니다

지난 몇 년 동안 언어 모델의 규모와 기능이 폭발적으로 증가했습니다. 컴퓨터 메모리, 데이터 세트 크기 및 처리 성능이 증가함에 따라 긴 텍스트 시퀀스를 모델링하는 더 효과적인 기술이 개발되었습니다.

대형은 얼마나 큰가요?

정의가 모호하지만 '넓음' BERT (1억 1,000만 회)를 설명하는 데 PaLM2 (최대 3,400억 개 매개변수)를 지원합니다.

매개변수가중치 학습 중에 학습한 모델이 학습 데이터에서 다음 토큰을 예측하는 데 시퀀스입니다. '크게' 모델의 매개변수 수를 가리키거나 데이터 세트의 단어 수를 선택할 수도 있습니다

트랜스포머

언어 모델링의 주요 발전은 2017년에 Transformer는 Transformer 블록이라는 관심을 끌 수 있습니다. 이를 통해 가장 중요한 부분에 집중하여 더 긴 시퀀스를 처리할 수 있게 되었습니다. 입력의 중요한 부분을 차지하여 이전 단계에서 발생한 메모리 문제를 해결 모델을 학습시키는 작업도 반복해야 합니다

Transformer는 다양한 계산을 위한 다양한 언어 모델 애플리케이션을 구축하는 데 사용됩니다

"I am a good dog."가 입력되면 Transformer 기반 번역사는 이를 '"Je suis un bon chien." 출력으로 변환합니다. 동일한 문장을 프랑스어로 번역합니다.

완전한 트랜스포머는 encoder디코더와 같습니다. 인코더는 입력 텍스트를 중간 표현으로 변환하고, 디코더는 그 중간 표현을 유용한 텍스트로 변환합니다.

셀프 어텐션

트랜스포머는 셀프 어텐션이라는 개념에 크게 의존합니다. 셀프 서비스 자기 주도형은 '자기 중심적'으로 초점을 맞춥니다. 셀프 어텐션은 입력된 각 토큰을 대신하여 효과적으로 '얼마나 많은 다른 입력 토큰이 모두 나에게 중요한가요? 문제를 단순화하기 위해 각 토큰이 단어이고 전체 컨텍스트가 단일 단어라고 가정합니다. 볼 수 있습니다 다음 문장을 고려하세요.

동물은 너무 피곤해서 길을 건너지 않았습니다.

앞의 문장에는 11개의 단어가 있으므로, 11단어는 각각 나머지 10개 단어가 각각 얼마나 중요한지 있습니다. 예를 들어 문장에 it 대명사가 포함되어 있습니다. 호칭은 모호한 경우가 많습니다. 대명사 it는 항상 근사 명사를 나타냅니다. 아래 예제 문장에서는 최근 명사가 그것을 지칭합니다. 동물 아니면 거리에서요?

셀프 어텐션 메커니즘은 근처에 있는 각 단어와 it 대명사.

LLM의 사용 사례에는 어떤 것이 있나요?

LLM은 빌드 대상인 작업에 매우 효과적이며 가장 그럴듯한 텍스트를 찾는 것입니다 이들은 다른 작업에 대한 높은 성능 예: 요약, 질문 응답 및 텍스트 분류를 지원합니다 이를 가리켜 응급 능력을 제공합니다. LLM은 일부 수학 문제를 풀고 코드를 작성할 수 있습니다. 합니다.

LLM은 인간의 음성 패턴을 흉내 내는 데 탁월합니다. 무엇보다도 정보를 다양한 스타일과 색조와 잘 조합합니다.

그러나 LLM은 단순히 모델을 구성하는 데 그치지 않고 텍스트를 생성합니다. 최근 LLM은 감정 감지기를 빌드하고 이미지 자막을 생성합니다.

LLM 고려사항

이렇게 큰 모델에는 단점이 없습니다.

대형 LLM은 비용이 많이 듭니다. 학습하는 데 몇 달이 걸릴 수 있고, 그 결과 많은 리소스를 소비합니다

또한 일반적으로 다른 작업에 재활용할 수 있어 매우 유용한 기능입니다.

매개변수가 1조 개 이상인 모델 학습 엔지니어링 문제를 야기할 수 있습니다 특수 인프라 및 프로그래밍 칩으로의 흐름을 조율하고 다시 돌아오는 데 필요한 기술이 필요합니다.

이러한 대규모 모델의 비용을 절감할 수 있는 방법이 있습니다. 두 가지 접근 방식은 오프라인 추론증류입니다.

편향은 대규모 모델에서 문제가 될 수 있으며 학습 시 고려되어야 합니다. 쉽게 관리할 수 있습니다

이러한 모델은 인간의 언어를 기반으로 학습되기 때문에 언어 오용, 인종 편향, 정보를 포함할 수 있습니다.

이러한 모델이 계속해서 커지고 성능이 개선됨에 따라 더 나은 점은, 책임감 있는 AI를 이해하기 위해 지속적으로 노력해야 한다는 것입니다. 완화할 수 있습니다 에 대한 Google의 접근 방식 책임감 있는 AI입니다