대규모 언어 모델 소개

언어 모델 또는 대규모 언어 모델을 처음 사용하시나요? 아래 리소스를 확인하세요.

언어 모델이란 무엇인가요?

언어 모델은 타당한 언어를 예측하고 생성하는 것을 목표로 하는 머신러닝 모델입니다. 예를 들어 자동 완성은 언어 모델입니다.

이 모델은 토큰이 될 확률 또는 더 긴 토큰 시퀀스 내에서 발생하는 토큰 시퀀스를 예측하는 방식으로 작동합니다. 다음 문장을 살펴보세요.

When I hear rain on my roof, I _______ in my kitchen.

토큰이 단어라고 가정하면 언어 모델은 밑줄을 대체할 다른 단어 또는 단어 시퀀스의 확률을 결정합니다. 예를 들어 언어 모델은 다음과 같은 확률을 결정할 수 있습니다.

cook soup 9.4%
warm up a kettle 5.2%
cower 3.6%
nap 2.5%
relax 2.2%
...

'토큰 시퀀스'는 전체 문장이나 일련의 문장일 수 있습니다. 즉, 언어 모델은 여러 전체 문장 또는 텍스트 블록의 가능성을 계산할 수 있습니다.

시퀀스에서 다음에 나올 확률을 예측하면 텍스트 생성, 언어 번역, 질문에 대한 답변 등 모든 종류의 작업에 유용합니다.

대규모 언어 모델이란 무엇인가요?

인간의 언어를 대규모로 모델링하는 작업은 매우 복잡하고 리소스 집약적인 작업입니다. 언어 모델 및 대규모 언어 모델의 현재 기능에 도달하는 과정은 수십 년간 이루어졌습니다.

모델이 점점 더 커지면 복잡도와 효율성도 증가합니다. 초기 언어 모델은 한 단어의 확률을 예측할 수 있습니다. 현대의 큰 언어 모델은 문장, 단락, 전체 문서까지도 예측할 수 있습니다.

지난 몇 년 동안 컴퓨터 메모리, 데이터 세트 크기, 처리 성능이 증가함에 따라 언어 모델의 크기와 기능이 폭발적으로 증가하고 더 긴 텍스트 시퀀스를 모델링하는 보다 효과적인 기술이 개발되었습니다.

얼마나 큰가요?

정의가 흐릿하지만 BERT (1억 1,000만 개의 매개변수)와 PaLM 2 (최대 3,400개의 매개변수)를 설명하는 데 '대형'이 사용되었습니다.

매개변수는 학습 중에 모델이 학습한 가중치로, 시퀀스의 다음 토큰을 예측하는 데 사용됩니다. 여기서 '크게'란 모델의 매개변수 수, 때로는 데이터 세트의 단어 수를 의미합니다.

트랜스포머

언어 모델링의 주요 개발은 2017년 관심 개념을 중심으로 설계된 아키텍처인 트랜스포머입니다. 이를 통해 입력에서 가장 중요한 부분에 집중하여 이전 모델에서 발생한 메모리 문제를 해결함으로써 더 긴 시퀀스를 처리할 수 있었습니다.

변환기는 번역사와 같은 다양한 언어 모델 애플리케이션을 위한 최첨단 아키텍처입니다.

입력이 "I am a good dog."인 경우 변환기 기반 번역사는 그 입력을 프랑스어로 번역되는 동일한 문장인 'Je suis un bon chien.'로 변환합니다.

전체 변환기는 인코더디코더로 구성됩니다. 인코더는 입력 텍스트를 중간 표현으로 변환하고 디코더는 이 중간 표현을 유용한 텍스트로 변환합니다.

자기 집중

트랜스포머는 자기 집중이라는 개념에 크게 의존합니다. 자기 집중의 자체 부분은 코퍼스에서 각 토큰의 '자아 중심' 포커스를 의미합니다. 실질적으로는 각 입력 토큰을 대신하여 "다른 입력 토큰은 me에 얼마나 중요한가요?"라고 묻습니다. 단순화하기 위해 각 토큰이 한 단어이고 전체 컨텍스트가 한 문장이라고 가정하겠습니다. 다음 문장을 살펴보세요.

동물은 너무 피곤해서 거리를 가로지르지 않았습니다.

앞의 문장에 11개 단어가 있으므로 10개 단어 각각에 10개 단어가 각각 얼마나 중요한지 궁금해합니다. 예를 들어 문장에는 대명사 it이 포함되어 있습니다. 호칭은 모호한 경우가 많습니다. 대명사는 항상 최신 명사를 나타내지만, 예문에서 명사가 의미하는 동물은 '동물'인가요, '거리'인가요?

자체 집중 메커니즘은 대명사 it과 각 주변 단어의 관련성을 결정합니다.

LLM의 사용 사례는 무엇인가요?

LLM은 빌드에 매우 효과적인 작업이며 입력에 대한 응답으로 가장 타당한 텍스트를 생성합니다. 요약, 질문 답변, 텍스트 분류와 같은 다른 작업에서도 우수한 성과를 내기 시작했습니다. 이를 새로운 기능이라고 합니다. LLM은 일부 수학 문제를 해결하고 코드를 작성할 수도 있습니다. 하지만 작업 내용을 확인하는 것이 좋습니다.

LLM은 사람의 음성 패턴을 모방하는 데 탁월합니다. 무엇보다도 여러 가지 스타일과 어조로 정보를 조합하는 데 효과적입니다.

그러나 LLM은 텍스트 생성 이상의 역할을 하는 모델의 구성요소일 수 있습니다. 최근의 LLM은 감정 감지기와 유해성 분류기를 빌드하고 이미지 자막을 생성하는 데 사용되어 왔습니다.

LLM 고려사항

이 큰 모델은 단점이 없습니다.

가장 큰 LLM은 비용이 많이 듭니다. 학습하는 데 몇 달이 걸릴 수 있고, 그 결과 많은 리소스가 소비됩니다.

귀중한 은색 면으로 만든 다른 작업에 재활용할 수도 있습니다.

조 매개변수가 넘는 모델을 학습시키는 데는 엔지니어링 문제가 발생합니다. 칩과의 흐름을 조정하고 다시 돌아오려면 특별한 인프라와 프로그래밍 기술이 필요합니다.

이러한 대규모 모델의 비용을 완화할 수 있는 방법이 있습니다. 두 가지 접근 방식은 오프라인 추론증류입니다.

편향은 매우 큰 모델에서 문제가 될 수 있으므로 학습 및 배포 시 고려해야 합니다.

이러한 모델은 인간의 언어로 학습되므로 언어 오용, 인종, 성별, 종교 등의 편향을 포함하여 수많은 윤리적 문제가 발생할 수 있습니다.

이러한 모델이 계속해서 커지고 성능이 향상됨에 따라 이러한 단점을 이해하고 완화하는 데 계속해서 부단히 노력해야 합니다. 책임감 있는 AI에 대한 Google의 접근 방식 자세히 알아보기