대규모 언어 모델 소개

언어 모델 또는 대규모 언어 모델이 처음인가요? 아래 리소스를 확인하세요.

언어 모델이란 무엇인가요?

언어 모델은 머신러닝입니다. 모델 AI는 그럴듯한 언어를 예측하고 생성하는 것을 목표로 합니다 자동 완성은 예로 들 수 있습니다

이 모델은 잠재적 손실 확률을 token 또는 더 긴 토큰 시퀀스 내에서 발생하는 토큰의 시퀀스입니다. 다음 문장을 고려해 보세요.

When I hear rain on my roof, I _______ in my kitchen.

토큰이 단어라고 가정하면 언어 모델이 이 단어를 교체할 다른 단어 또는 일련의 단어의 확률을 밑줄로 표시됩니다. 예를 들어, 언어 모델은 확률:

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

'토큰 시퀀스'는 전체 문장 또는 일련의 문장일 수 있습니다. 즉, 언어 모델은 여러 전체 문장 또는 텍스트 블록의 가능성을 계산할 수 있습니다.

시퀀스에서 다음에 올 확률을 추정하는 것은 텍스트 생성, 언어 번역, 답변하기 질문을 던질 수 있습니다.

대규모 언어 모델이란 무엇인가요?

인간의 언어를 대규모로 모델링하는 작업은 매우 복잡하고 리소스 집약적임 노력해야 합니다. 언어 모델의 현재 기능과 대규모 언어 모델은 수십 년에 걸쳐 발전해 왔습니다.

모델이 점점 더 커짐에 따라 복잡성과 효율성이 증가합니다. 초기 언어 모델은 단일 단어의 확률을 예측할 수 있었습니다. 현대의 대규모 언어 모델은 문장, 단락 또는 전체 문서의 확률을 예측할 수 있습니다.

컴퓨터 메모리, 데이터 세트 크기, 처리 능력이 증가하고 더 긴 텍스트 시퀀스를 모델링하는 더 효과적인 기법이 개발되면서 지난 몇 년 동안 언어 모델의 크기와 기능이 폭발적으로 증가했습니다.

'대규모'는 어느 정도를 말하나요?

정의가 모호하지만 '넓음' BERT (1억 1,000만 회)를 설명하는 데 PaLM2 (최대 3,400억 개 매개변수)를 지원합니다.

매개변수는 학습 중에 모델이 학습한 가중치로, 시퀀스의 다음 토큰을 예측하는 데 사용됩니다. '크게' 모델의 매개변수 수를 가리키거나 데이터 세트의 단어 수를 분석할 수도 있습니다

트랜스포머

언어 모델링의 핵심적인 발전은 2017년에 주의 개념을 중심으로 설계된 아키텍처인 Transformer가 도입된 것입니다. 이를 통해 입력의 가장 중요한 부분에 집중하여 더 긴 시퀀스를 처리할 수 있게 되었으며, 이전 모델에서 발생한 메모리 문제를 해결할 수 있었습니다.

트랜스포머는 번역기와 같은 다양한 언어 모델 애플리케이션을 위한 최첨단 아키텍처입니다.

입력이 'I am a good dog.'인 경우 Transformer 기반 번역기는 이 입력을 프랑스어로 번역된 동일한 문장인 'Je suis un bon chien.'이라는 출력으로 변환합니다.

완전한 트랜스포머는 encoder디코더로 변환할 수 있습니다. 인코더는 입력 텍스트를 중간 표현으로 변환하고 디코더는 이 중간 표현을 유용한 텍스트로 변환합니다.

셀프 어텐션

트랜스포머는 셀프 어텐션이라는 개념에 크게 의존합니다. 자기 주목의 자기 부분은 자료의 각 토큰에 대한 '자기 중심적' 초점을 나타냅니다. 사실상 각 입력 토큰을 대신하여 자기 주목은 '다른 모든 입력 토큰이 에게 얼마나 중요한가요?'라고 묻습니다. 문제를 단순화하기 위해 각 토큰이 단어이고 전체 컨텍스트가 단일 단어라고 가정합니다. 볼 수 있습니다 다음 문장을 살펴보세요.

동물은 너무 피곤해서 길을 건너지 않았습니다.

앞의 문장에는 11개의 단어가 있으므로 11단어는 각각 나머지 10개 단어가 각각 얼마나 중요한지 있습니다. 예를 들어 문장에 호칭 it이 포함되어 있습니다. 호칭은 모호한 경우가 많습니다. 호칭 it은 항상 최근 명사를 나타내지만, 예시 문장에서 it은 동물과 거리 중 어느 명사를 나타내나요?

자기 주목 메커니즘은 각 근처 단어와 호칭 it의 관련성을 결정합니다.

LLM의 사용 사례로는 어떤 것이 있나요?

LLM은 빌드 대상인 작업에 매우 효과적이며 가장 그럴듯한 텍스트를 찾는 것입니다 이들은 다른 작업에 대한 높은 성능 예: 요약, 질문 응답 및 텍스트 분류를 지원합니다 이를 발생 능력이라고 합니다. LLM은 일부 수학 문제를 해결하고 코드를 작성할 수도 있습니다(하지만 결과를 확인하는 것이 좋습니다).

LLM은 인간의 음성 패턴을 흉내 내는 데 탁월합니다. 무엇보다도 정보를 다양한 스타일과 색조와 잘 조합합니다.

그러나 LLM은 텍스트를 생성하는 것 이상을 수행하는 모델의 구성요소가 될 수 있습니다. 최근 LLM은 감정 감지기, 유해성 분류기를 빌드하고 이미지 자막을 생성하는 데 사용되었습니다.

LLM 고려사항

하지만 이렇게 큰 모델에는 단점이 있습니다.

대형 LLM은 비용이 많이 듭니다. 학습하는 데 몇 개월이 걸릴 수 있으며 그 결과 많은 리소스를 사용합니다.

또한 일반적으로 다른 작업에 재사용할 수 있으므로 유용한 면도 있습니다.

매개변수 1조 개 이상인 모델 학습 엔지니어링 문제를 야기할 수 있습니다 특수 인프라 및 프로그래밍 칩으로의 흐름을 조율하고 다시 돌아오는 데 필요한 기술이 필요합니다.

이러한 대규모 모델의 비용을 절감할 수 있는 방법이 있습니다. 두 가지 접근 방식은 오프라인 추론증류입니다.

편향은 대규모 모델에서 문제가 될 수 있으며 학습 시 고려되어야 합니다. 살펴봤습니다

이러한 모델은 인간의 언어를 기반으로 학습되기 때문에 언어 오용, 인종 편향, 정보를 포함할 수 있습니다.

이러한 모델이 계속해서 커지고 성능이 개선됨에 따라 더 나은 점은, 책임감 있는 AI를 이해하기 위해 지속적으로 노력해야 한다는 것입니다. 완화할 수 있습니다 책임감 있는 AI에 대한 Google의 접근 방식을 자세히 알아보세요.

LLM 자세히 알아보기

대규모 언어 모델에 대해 자세히 알아보고 싶으신가요? 머신러닝 단기집중과정에서 새로운 대규모 언어 모델 모듈을 확인하세요.