머신러닝 용어집: 언어 평가

이 페이지에는 언어 평가 용어집 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

Attention,

#language

특정 단어 또는 단어의 일부의 중요도를 나타내는 신경망에서 사용되는 메커니즘입니다. 어텐션은 모델이 다음 토큰/단어를 예측하는 데 필요한 정보의 양을 압축합니다. 일반적인 어텐션 메커니즘은 입력 세트에 대한 가중 합계로 구성될 수 있으며, 여기서 각 입력의 가중치는 신경망의 다른 부분에 의해 계산됩니다.

Transformer의 구성요소인 셀프 어텐션멀티 헤드 셀프 어텐션도 참조하세요.

Autoencoder

#language
#image

입력에서 가장 중요한 정보를 추출하는 방법을 학습하는 시스템입니다. 자동 인코더는 인코더디코더의 조합입니다. 자동 인코더는 다음 2단계 프로세스를 사용합니다.

  1. 인코더는 입력을 (일반적으로) 손실이 있는 저차원(중간) 형식에 매핑합니다.
  2. 디코더는 저차원 형식을 원래의 고차원 입력 형식에 매핑하여 원본 입력의 손실 버전을 빌드합니다.

자동 인코더는 디코더가 인코더의 중간 형식에서 원본 입력을 최대한 유사하게 재구성하도록 하는 방식으로 엔드 투 엔드 학습 과정을 거칩니다. 중간 형식은 원본 형식보다 작기 때문에(저차원) 자동 인코더는 입력의 어떤 정보가 필수적인지 학습하게 되며 출력이 입력과 완전히 동일하지 않습니다.

예를 들면 다음과 같습니다.

  • 입력 데이터가 그래픽인 경우 정확한 복사본은 원본 그래픽과 비슷하지만 약간 수정됩니다. 정확하지 않은 사본이 원본 그래픽에서 노이즈를 제거하거나 누락된 일부 픽셀을 채울 수 있습니다.
  • 입력 데이터가 텍스트인 경우 자동 인코더는 원본 텍스트를 모방하지만 동일하지는 않은 새 텍스트를 생성합니다.

변동 자동 인코더도 참조하세요.

자동 회귀 모델

#language
#image
#생성형 AI

자체적인 이전 예측을 기반으로 예측을 추론하는 model입니다. 예를 들어 자동 회귀 언어 모델은 이전에 예측한 토큰을 기반으로 다음 토큰을 예측합니다. 모든 Transformer 기반 대규모 언어 모델은 자동 회귀 기능입니다.

반대로 GAN 기반 이미지 모델은 단계를 반복하지 않고 단일 정방향 전달로 생성하기 때문에 일반적으로 자동 회귀가 아닙니다. 그러나 특정 이미지 생성 모델은 이미지를 단계별로 생성하므로 자동 회귀가 가능합니다.

B

단어 집합

#language

순서에 상관없이 단어를 구 또는 구절로 표현합니다. 예를 들어 단어 집합은 다음 세 가지 구문을 동일하게 나타냅니다.

  • 개가 점프한다
  • 개 점프
  • 점프하는

각 단어는 희소 벡터의 색인에 매핑됩니다. 벡터에는 어휘에 있는 모든 단어에 대한 색인이 포함됩니다. 예를 들어 the dog 이동할 때 문구는 특징 벡터에 매핑되며 the, dogjumps 단어에 해당하는 세 개의 색인에 0이 아닌 값이 표시됩니다. 0이 아닌 값은 다음 중 하나일 수 있습니다.

  • 1은 단어가 있음을 나타냅니다.
  • 가방에 단어가 표시되는 횟수입니다. 예를 들어 the maroon dog is a dog with maroon fur라는 어구가 있으면 maroondog는 모두 2로 표시되고 다른 단어는 1로 표시됩니다.
  • 기타 값(예: 단어가 bag에 나타나는 횟수의 로그)

BERT (Bidirectional Encoder Representations from Transformers)

#language

텍스트 표현을 위한 모델 아키텍처. 학습된 BERT 모델은 텍스트 분류 또는 기타 ML 태스크에서 더 큰 모델의 일부로 작동할 수 있습니다.

BERT에는 다음과 같은 특성이 있습니다.

BERT의 변형은 다음과 같습니다.

BERT 개요는 오픈소싱 BERT: 자연어 처리를 위한 최첨단 사전 학습을 참조하세요.

양방향

#language

텍스트의 타겟 섹션 뒤에 오는 텍스트를 평가하는 시스템을 설명하는 데 사용되는 용어입니다. 반대로 단방향 시스템은 텍스트의 타겟 섹션 에 있는 텍스트만 평가합니다.

예를 들어 다음 질문에서 밑줄을 나타내는 단어의 확률을 결정해야 하는 마스크된 언어 모델이 있다고 가정해 보겠습니다.

너랑 _____이(가) 뭐야?

단방향 언어 모델은 '무엇을', 'is', 'the'라는 단어로만 얻을 수 있는 확률을 기반으로 해야 합니다. 반면에 양방향 언어 모델은 'with'와 'you'로부터 컨텍스트를 얻을 수도 있으므로 모델이 더 나은 예측을 생성하는 데 도움이 될 수 있습니다.

양방향 언어 모델

#language

텍스트와 다음 텍스트를 기반으로 텍스트 발췌 부분에서 특정 위치에 주어진 토큰이 있을 확률을 결정하는 언어 모델.

Bigram

#seq
#language

N=2인 N-그램입니다.

BLEU (Bilingual Evaluation Understudy)

#language

인간의 두 언어 (예: 영어와 러시아어) 간의 번역 품질을 나타내는 0.0~1.0 사이의 점수입니다. BLEU 점수가 1.0이면 완벽한 번역을, 0.0은 번역이 좋지 못했음을 나타냅니다.

C

인과적 언어 모델(Courusal Language model)

#language

단방향 언어 모델의 동의어입니다.

언어 모델링의 다양한 방향 접근 방식을 대조하려면 양방향 언어 모델을 참고하세요.

사고 사슬 프롬프팅

#language
#생성형 AI

대규모 언어 모델 (LLM)이 이유를 단계별로 설명하도록 권장하는 프롬프트 엔지니어링 기법입니다. 예를 들어 다음 프롬프트를 살펴보겠습니다. 특히 두 번째 문장에 주의해야 합니다.

시속 0~60마일을 7초 내에 운행하는 자동차에서 운전자는 몇 g의 힘을 느껴야 할까요? 답변에 관련된 모든 계산을 표시합니다.

LLM의 응답은 다음과 같을 수 있습니다.

  • 0, 60, 7 값을 적절한 위치에 연결하여 물리학 공식 시퀀스를 표시합니다.
  • 이러한 공식을 선택한 이유와 다양한 변수의 의미를 설명하십시오.

사고 연쇄 프롬프트는 LLM이 모든 계산을 수행해야 하므로 더 정답이 될 수 있습니다. 또한 사용자는 사고 연쇄 프롬프트를 통해 LLM의 단계를 조사하여 답변이 적절한지 판단할 수 있습니다.

구성요소 파싱

#language

한 문장을 더 작은 문법적 구조 ('구성 요소')로 나누는 행위 자연어 이해 모델과 같은 ML 시스템의 후반부에서는 구성요소를 원래 문장보다 더 쉽게 파싱할 수 있습니다. 예를 들어 다음 문장을 생각해 보세요.

제 친구는 고양이 두 마리를 입양했습니다.

구성성 파서는 이 문장을 다음 두 요소로 나눌 수 있습니다.

  • My 친구는 명사구입니다.
  • adopted two cats는 동사구입니다.

이러한 구성요소는 더 작은 구성요소로 더 세분화할 수 있습니다. 예: 동사구

고양이 두 마리 입양

는 다음과 같이 더 세분화할 수 있습니다.

  • adopted는 동사입니다.
  • two cats는 또 다른 명사구입니다.

크래시 블로섬

#language

의미가 모호한 문장 또는 구문입니다. 중의적 구문은 자연어 이해에서 중대한 문제를 야기합니다. 예를 들어 Red Tape Holds Up Skyscraper라는 광고 제목은 NLU 모델에서 광고 제목을 문자 그대로 또는 비유적으로 해석할 수 있기 때문에 홍수입니다.

케이스가

디코더

#language

일반적으로 처리된 표현, 밀집 표현 또는 내부 표현에서 좀 더 원시적인 희소 표현이나 외부 표현으로 변환하는 모든 ML 시스템입니다.

디코더는 종종 더 큰 모델의 구성요소인 경우가 많으며 인코더와 페어링되는 경우가 많습니다.

시퀀스-시퀀스 작업에서 디코더는 인코더에서 생성한 내부 상태로 시작하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처 내의 디코더 정의는 Transformer를 참조하세요.

노이즈 제거

#language

자기 지도 학습의 일반적인 접근 방식:

  1. 노이즈는 데이터 세트에 인위적으로 추가됩니다.
  2. model이 노이즈를 제거하려고 시도합니다.

노이즈 제거를 통해 라벨이 없는 예를 학습할 수 있습니다. 원본 데이터 세트는 대상 또는 라벨 역할을 하고 노이즈 데이터가 입력으로 사용됩니다.

일부 마스크된 언어 모델은 다음과 같이 노이즈 제거를 사용합니다.

  1. 일부 토큰을 마스킹하여 라벨이 없는 문장에 인위적으로 노이즈를 추가합니다.
  2. 모델이 원래 토큰을 예측하려고 시도합니다.

직접적인 프롬프트

#language
#생성형 AI

제로샷 프롬프팅의 동의어입니다.

E

거리 수정

#language

두 텍스트 문자열이 서로 얼마나 비슷한지를 측정합니다. 머신러닝에서 거리 수정은 간단하고 계산이 쉬우며, 비슷하다고 알려진 두 문자열을 비교하거나 주어진 문자열과 유사한 문자열을 찾을 수 있는 효과적인 방법이므로 유용합니다.

수정 거리에는 여러 가지 정의가 있으며, 각 정의는 서로 다른 문자열 작업을 사용합니다. 예를 들어 Levenshtein 거리는 삭제, 삽입, 대체 작업이 가장 적은 것으로 간주합니다.

예를 들어 레븐슈타인에서 '하트'와 '다트'라는 단어 사이의 거리는 3입니다. 다음 3가지 수정사항의 변경이 한 단어를 다른 단어로 변환하는 가장 적은 수이기 때문입니다.

  1. 하트 → deart('h'를 'd'로 대체)
  2. deart → dart('e' 삭제)
  3. dart → darts('s') 삽입

Embedding 레이어

#language
#fundamentals

저차원 임베딩 벡터를 점진적으로 학습하기 위해 고차원 범주형 특성으로 학습하는 특수한 히든 레이어입니다. 임베딩 레이어를 사용하면 신경망이 고차원 범주형 특성만 학습할 때보다 훨씬 효율적으로 학습시킬 수 있습니다.

예를 들어 지구는 현재 약 73,000종의 수종을 지원하고 있습니다. 트리 종은 모델의 특성이므로 모델의 입력 레이어에 73,000개 길이의 원-핫 벡터가 포함되어 있다고 가정해 보겠습니다. 예를 들어 baobab는 다음과 같이 표시될 수 있습니다.

73,000개 요소의 배열. 처음 6,232개 요소의 값은 0입니다. 다음 요소는 값 1을 보유합니다. 마지막 66,767개 요소는 값 0을 유지합니다.

요소가 73,000개인 배열은 매우 깁니다. 모델에 임베딩 레이어를 추가하지 않으면 72,999개의 0을 곱하기 때문에 학습에 시간이 많이 걸릴 수 있습니다. 12차원으로 구성되도록 임베딩 레이어를 선택할 수 있습니다. 결과적으로 임베딩 레이어는 각 수종의 새로운 임베딩 벡터를 점진적으로 학습합니다.

특정 상황에서는 해싱이 임베딩 레이어의 합리적인 대안이 됩니다.

임베딩 공간

#language

고차원 벡터 공간의 특성이 매핑되는 d차원 벡터 공간입니다. 의미 있는 수학적 결과를 도출하는 구조가 임베딩 공간에 포함되는 것이 이상적입니다. 예를 들어 이상적인 임베딩 공간에서 임베딩의 덧셈과 뺄셈을 통해 단어 유추 작업을 해결할 수 있습니다.

두 임베딩의 내적은 유사성의 척도입니다.

임베딩 벡터

#language

일반적으로 히든 레이어에 대한 입력을 설명하는 모든 히든 레이어에서 가져온 부동 소수점 수의 배열입니다. 임베딩 벡터는 임베딩 레이어에서 학습된 부동 소수점 수의 배열인 경우가 많습니다. 예를 들어 임베딩 레이어가 지구에 있는 73,000종의 수종별로 임베딩 벡터를 학습해야 한다고 가정해 보겠습니다. 다음 배열은 바오밥 나무의 임베딩 벡터일 수 있습니다.

각각 0.0과 1.0 사이의 부동 소수점 숫자를 포함하는 12개 요소의 배열.

임베딩 벡터는 랜덤 숫자 묶음이 아닙니다. 임베딩 레이어는 신경망이 학습 중에 다른 가중치를 학습하는 방식과 유사하게 학습을 통해 이러한 값을 결정합니다. 배열의 각 요소는 수종의 일부 특성에 따른 평점입니다. 어떤 요소가 어떤 수종의 특성을 나타내나요? 그것은 인간이 판단하기 매우 어렵습니다.

임베딩 벡터에서 수학적으로 주목할 만한 부분은 유사한 항목에 부동 소수점 숫자 집합이 많다는 것입니다. 예를 들어 유사한 나무 종은 다른 수종보다 부동 소수점 숫자 집합이 더 유사합니다. 삼나무와 세쿼이아는 관련된 수종이므로 삼나무나 코코넛 야자수보다 부동 소수점 수 집합이 더 유사합니다. 동일한 입력으로 모델을 다시 학습시키더라도 임베딩 벡터의 숫자는 모델을 다시 학습시킬 때마다 변경됩니다.

인코더

#language

일반적으로 원시 표현, 희소 표현 또는 외부 표현에서 좀 더 처리되고 밀도가 높은 내부 표현으로 변환하는 모든 ML 시스템입니다.

인코더는 종종 더 큰 모델의 구성요소인 경우가 많으며 디코더와 페어링되는 경우가 많습니다. 일부 Transformer는 인코더와 디코더를 페어링하지만, 다른 Transformer는 인코더 또는 디코더만 사용합니다.

일부 시스템은 인코더의 출력을 분류 또는 회귀 네트워크의 입력으로 사용합니다.

시퀀스-시퀀스 태스크에서 인코더는 입력 시퀀스를 가져와 내부 상태 (벡터)를 반환합니다. 그러면 디코더는 이 내부 상태를 사용하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처의 인코더 정의는 Transformer를 참조하세요.

F

퓨샷 프롬프팅

#language
#생성형 AI

대규모 언어 모델이 응답하는 방법을 보여주는 두 개 이상('몇 가지') 예시가 포함된 프롬프트 예를 들어 다음과 같은 긴 프롬프트에는 대규모 언어 모델이 쿼리에 답하는 방식을 보여주는 예시 두 개가 포함되어 있습니다.

프롬프트 1개의 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변해야 하는 질문입니다.
프랑스: EUR 한 가지 예.
영국: GBP 또 다른 예가 있습니다.
인도: 실제 쿼리입니다.

퓨샷 프롬프팅은 일반적으로 제로샷 프롬프팅원샷 프롬프팅보다 더 바람직한 결과를 생성합니다. 그러나 퓨샷 프롬프팅에는 더 긴 프롬프트가 필요합니다.

퓨샷 프롬프트는 프롬프트 기반 학습에 적용되는 퓨샷 학습의 한 형태입니다.

바이올린

#language

침입 코드나 인프라 없이 함수와 클래스의 값을 설정하는 Python 우선 구성 라이브러리입니다. Pax 및 기타 ML 코드베이스의 경우 이러한 함수와 클래스는 모델학습 초매개변수를 나타냅니다.

Fiddle은 머신러닝 코드베이스가 다음과 같이 일반적으로 나뉘어 있다고 가정합니다.

  • 레이어와 옵티마이저를 정의하는 라이브러리 코드입니다.
  • 라이브러리를 호출하고 모든 것을 함께 연결하는 데이터 세트 '글루' 코드

Fiddle은 평가되지 않고 변경 가능한 형식으로 글루 코드의 호출 구조를 캡처합니다.

미세 조정

#language
#image
#생성형 AI

선행 학습된 모델에서 특정 사용 사례에 맞게 매개변수를 미세 조정하기 위해 수행되는 두 번째 작업별 학습 과정입니다. 예를 들어 일부 대규모 언어 모델의 전체 학습 시퀀스는 다음과 같습니다.

  1. 사전 학습: 모든 영어 Wikipedia 페이지와 같은 방대한 일반 데이터 세트를 대상으로 대규모 언어 모델을 학습시킵니다.
  2. 미세 조정: 의료 쿼리에 응답과 같은 특정 작업을 수행하도록 선행 학습된 모델을 학습시킵니다. 미세 조정에는 일반적으로 특정 작업에 중점을 둔 수백 또는 수천 개의 예가 포함됩니다.

또 다른 예로, 대형 이미지 모델의 전체 학습 시퀀스는 다음과 같습니다.

  1. 사전 학습: Wikimedia Commons의 모든 이미지와 같은 방대한 일반 이미지 데이터 세트로 대규모 이미지 모델을 학습시킵니다.
  2. 미세 조정: 범고래 이미지 생성과 같은 특정 작업을 수행하도록 선행 학습된 모델을 학습시킵니다.

미세 조정에는 다음과 같은 전략을 원하는 대로 조합하여 사용할 수 있습니다.

  • 선행 학습된 모델의 모든 기존 매개변수 수정 이를 전체 미세 조정이라고도 합니다.
  • 선행 학습된 모델의 기존 매개변수 중 일부만 수정하고(일반적으로 출력 레이어에 가장 가까운 레이어) 다른 기존 매개변수는 변경하지 않고 (일반적으로 입력 레이어에 가장 가까운 레이어) 유지합니다. 매개변수 효율적인 조정을 참조하세요.
  • 일반적으로 출력 레이어에 가장 가까운 기존 레이어 위에 레이어를 추가합니다.

미세 조정은 전이 학습의 한 형태입니다. 따라서 미세 조정에서는 선행 학습된 모델을 학습시키는 데 사용된 것과 다른 손실 함수 또는 다른 모델 유형을 사용할 수 있습니다. 예를 들어 선행 학습된 대형 이미지 모델을 미세 조정하여 입력 이미지에서 새 수를 반환하는 회귀 모델을 만들 수 있습니다.

미세 조정과 다음 용어를 비교 및 대조해 보세요.

아마

#language

JAX를 기반으로 빌드된 딥 러닝용 고성능 오픈소스 라이브러리입니다. Flax는 학습 신경망 함수와 성능 평가 방법을 제공합니다.

플랙스포머

#language

Flax를 기반으로 하는 오픈소스 Transformer 라이브러리로, 자연어 처리 및 멀티모달 연구를 위해 주로 설계되었습니다.

G

생성형 AI

#language
#image
#생성형 AI

공식적인 정의가 없는 새롭게 떠오르는 혁신적인 분야 그렇지만 대부분의 전문가는 생성형 AI 모델이 다음 모든 요소를 갖춘 콘텐츠를 생성 ('생성')할 수 있다는 데 동의합니다.

  • 복잡한
  • 일관된
  • 원본

예를 들어 생성형 AI 모델은 정교한 에세이나 이미지를 만들 수 있습니다.

LSTMRNN을 비롯한 일부 초기 기술도 독창적이고 일관된 콘텐츠를 생성할 수 있습니다. 일부 전문가는 이러한 초기 기술을 생성형 AI로 여기고, 다른 전문가들은 진정한 생성형 AI가 이전 기술이 생산할 수 있는 것보다 더 복잡한 출력이 필요하다고 생각합니다.

예측 ML과 대비되는 개념입니다.

GPT (생성형 선행 학습된 Transformer)

#language

OpenAI에서 개발한 Transformer 기반 대규모 언어 모델 제품군

GPT 변형은 다음을 포함한 여러 모달리티에 적용될 수 있습니다.

  • 이미지 생성 (예: ImageGPT)
  • text-to-image 생성 (예: DALL-E)

H

환각

#language

그럴듯해 보이지만 사실에는 잘못된 출력을 생성하는 것으로 가장하는 생성형 AI 모델 생성 예를 들어 버락 오바마가 1865년에 사망했다고 주장하는 생성형 AI 모델은 할루시네이션입니다.

I

컨텍스트 내 학습

#language
#생성형 AI

퓨샷 프롬프팅의 동의어입니다.

L

LaMDA (대화 애플리케이션을 위한 언어 모델)

#language

Google이 개발한 Transformer 기반 대규모 언어 모델은 현실적인 대화 응답을 생성할 수 있는 대규모 대화 데이터 세트로 학습되었습니다.

LaMDA: Google의 획기적인 대화 기술에서 개요를 확인할 수 있습니다.

언어 모델(language model)

#language

보다 긴 토큰 시퀀스에서 발생하는 model 또는 토큰 시퀀스의 가능성을 예측하는 model

대규모 언어 모델(LLM)

#language

엄격한 정의가 없는 비공식 용어로, 일반적으로 많은 수의 매개변수가 있는 언어 모델을 의미합니다. 일부 대규모 언어 모델에는 1,000억 개가 넘는 매개변수가 포함되어 있습니다.

M

마스크 언어 모델(Masked Language model)

#language

시퀀스에서 공백을 채울 후보 토큰이 있을 확률을 예측하는 언어 모델 예를 들어 마스킹된 언어 모델은 후보 단어의 확률을 계산하여 다음 문장의 밑줄을 대체할 수 있습니다.

모자의 ____이(가) 돌아왔습니다.

문헌에는 일반적으로 밑줄 대신 'MASK' 문자열이 사용됩니다. 예를 들면 다음과 같습니다.

모자를 쓴 '마스크'가 돌아왔습니다.

대부분의 최신 마스크 언어 모델은 양방향입니다.

메타 학습

#language

학습 알고리즘을 찾거나 개선하는 머신러닝의 하위 집합입니다. 메타 학습 시스템은 소량의 데이터 또는 이전 작업에서 얻은 경험으로부터 새로운 작업을 빠르게 학습하도록 모델 학습을 목표로 할 수 있습니다. 메타 학습 알고리즘은 일반적으로 다음을 달성하고자 합니다.

  • 수동으로 추출한 특성 (예: 이니셜라이저 또는 옵티마이저)을 개선/학습합니다.
  • 데이터 효율과 컴퓨팅 효율을 높입니다.
  • 일반화 개선

메타 학습은 퓨샷 학습과 관련이 있습니다.

modality

#language

상위 수준의 데이터 카테고리입니다. 예를 들어 숫자, 텍스트, 이미지, 동영상, 오디오는 5가지 서로 다른 모달리티입니다.

모델 동시 로드

#language

model의 다른 부분을 서로 다른 model에 배치하는 학습 또는 추론을 확장하는 방법입니다. 모델 동시 로드는 너무 커서 단일 기기에 맞지 않는 모델을 사용 설정합니다.

모델 병렬 처리를 구현하기 위해 시스템은 일반적으로 다음을 수행합니다.

  1. 모델을 더 작은 부분으로 샤딩 (나누기)합니다.
  2. 작은 부분의 학습을 여러 프로세서에 분산합니다. 각 프로세서는 모델의 자체 부분을 학습시킵니다.
  3. 결과를 결합하여 단일 모델을 만듭니다.

모델 동시 로드로 인해 학습 속도가 느려집니다.

데이터 동시 로드도 참조하세요.

멀티 헤드 셀프 어텐션

#language

셀프 어텐션의 확장으로, 입력 시퀀스의 각 위치에 셀프 어텐션 메커니즘을 여러 번 적용합니다.

Transformer는 멀티 헤드 셀프 어텐션을 도입했습니다.

다중 모달 모델

#language

입력 또는 출력에 둘 이상의 모달리티가 포함된 모델입니다. 예를 들어 이미지와 텍스트 캡션 (두 가지 모달리티)을 모두 특성으로 사용하고 텍스트 캡션이 이미지에 얼마나 적절한지 나타내는 점수를 출력하는 모델을 생각해 보세요. 따라서 이 모델의 입력은 멀티모달이고 출력은 유니모달입니다.

구매 불가

자연어 이해

#language

사용자가 입력하거나 말한 내용에 근거하여 사용자의 의도를 판단합니다. 예를 들어 검색엔진은 자연어 이해를 사용하여 사용자가 입력하거나 말한 내용에 기반해 사용자가 검색하는 내용을 결정합니다.

N-그램

#seq
#language

순서가 지정된 N 단어 시퀀스입니다. 예를 들어 truly madly는 2-그램입니다. 순서는 의미가 있으므로 madly trusttruly madly와 다른 2-그램입니다.

구매 불가 이 종류의 N-그램에 대한 이름 예시
2 바이그램 또는 2-그램 가고, 가고, 점심을 먹고, 저녁 식사를 합니다
3 트라이그램 또는 3-그램 맹인 쥐 세 마리를 너무 많이 먹었고
4 4-그램 공원 산책, 바람에 먼지, 소년은 렌틸콩을 먹었다

많은 자연어 이해 모델이 N-그램을 사용하여 사용자가 다음에 입력하거나 말할 가능성이 있는 단어를 예측합니다. 예를 들어 사용자가 three 블라인드를 입력했다고 가정하겠습니다. 트라이그램을 기반으로 하는 NLU 모델은 사용자가 다음에 마우스를 입력할 것으로 예측할 수 있습니다.

N-그램을 순서가 지정되지 않은 단어 집합인 단어 집합과 대비합니다.

NLU

#language

자연어 이해의 약어입니다.

O

원샷 프롬프팅

#language
#생성형 AI

프롬프트: 대규모 언어 모델의 응답 방식을 보여주는 예시 하나가 포함되어 있습니다. 예를 들어 다음 프롬프트에는 대규모 언어 모델이 쿼리에 어떻게 응답해야 하는지를 보여주는 예시가 포함되어 있습니다.

프롬프트 1개의 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변해야 하는 질문입니다.
프랑스: EUR 한 가지 예.
인도: 실제 쿼리입니다.

원샷 프롬프트를 다음 용어와 비교 및 대조해 보세요.

P

매개변수 효율적인 조정

#language
#생성형 AI

전체 미세 조정보다 더 효율적으로 대규모 선행 학습된 언어 모델 (PLM)미세 조정하는 일련의 기법입니다. 매개변수 효율적인 조정은 일반적으로 전체 미세 조정보다 훨씬 적은 매개변수를 미세 조정하지만, 일반적으로 전체 미세 조정에서 빌드된 대규모 언어 모델만큼 (또는 거의 비슷한) 대규모 언어 모델을 생성합니다.

매개변수 효율적인 조정과 다음을 비교 및 대조하세요.

매개변수 효율적인 조정은 매개변수 효율적 미세 조정이라고도 합니다.

파이프라이닝

#language

모델의 처리가 연속 단계로 나뉘고 각 단계가 다른 기기에서 실행되는 모델 동시 로드의 한 형태입니다. 한 단계에서 배치 하나를 처리하는 동안 이전 단계에서는 다음 배치를 처리할 수 있습니다.

단계적 학습도 참고하세요.

PLM(PLM)

#language
#생성형 AI

선행 학습된 언어 모델의 약어입니다.

위치 인코딩

#language

시퀀스에서 토큰의 위치에 대한 정보를 토큰의 임베딩에 추가하는 기술입니다. Transformer 모델은 위치 인코딩을 사용하여 시퀀스의 여러 부분 간의 관계를 더 잘 이해할 수 있도록 합니다.

위치 인코딩의 일반적인 구현은 정현파 함수를 사용합니다. (구체적으로, 정현파 함수의 주파수와 진폭은 시퀀스 내 토큰의 위치에 따라 결정됩니다.) 이 기법을 사용하면 Transformer 모델이 위치를 기반으로 시퀀스의 여러 부분에 참석하는 방법을 학습할 수 있습니다.

선행 학습된 모델

#language
#image
#생성형 AI

이미 학습된 모델 또는 모델 구성요소 (예: 임베딩 벡터)입니다. 선행 학습된 임베딩 벡터를 신경망에 피드하는 경우도 있습니다. 모델이 선행 학습된 임베딩에 의존하지 않고 임베딩 벡터를 직접 학습시키는 경우도 있습니다.

선행 학습된 언어 모델이라는 용어는 사전 학습을 거친 대규모 언어 모델을 의미합니다.

사전 학습

#language
#image
#생성형 AI

대규모 데이터 세트에서의 모델 초기 학습입니다. 일부 선행 학습된 모델은 엉뚱한 거대 모델이므로 일반적으로 추가 학습을 통해 세분화해야 합니다. 예를 들어 ML 전문가는 Wikipedia의 모든 영어 페이지와 같은 방대한 텍스트 데이터 세트에서 대규모 언어 모델을 사전 학습시킬 수 있습니다. 사전 학습 후에 결과 모델을 다음 기법을 통해 더욱 세분화할 수 있습니다.

프롬프트

#language
#생성형 AI

모델이 특정 방식으로 동작하도록 조정하기 위해 대규모 언어 모델에 입력으로 입력된 텍스트입니다. 프롬프트는 문구처럼 짧거나 임의로 길 수 있습니다 (예: 소설의 전체 텍스트). 프롬프트는 다음 표에 표시된 카테고리를 포함하여 여러 카테고리로 분류됩니다.

프롬프트 카테고리 Notes
문제 비둘기는 얼마나 빨리 날 수 있을까요?
지침 광고용 사이트에 대한 재미있는 시 쓰기 대규모 언어 모델에 작업을 수행하도록 요청하는 프롬프트
마크다운 코드를 HTML로 번역합니다. 예:
마크다운: * 목록 항목
HTML: <ul> <li>목록 항목</li> </ul>
이 프롬프트 예의 첫 번째 문장은 지침입니다. 프롬프트의 나머지 부분이 예입니다.
역할 물리학 박사 학위에 이르는 머신러닝 학습에서 경사하강법을 사용하는 이유를 설명합니다. 문장의 첫 번째 부분은 안내이고, '물리학 박사에게 전달'이라는 문구는 역할 부분입니다.
완료할 모델의 부분 입력 영국 총리가 거주하고 있는 부분 입력 프롬프트는 이 예시에서와 같이 갑자기 끝나거나 밑줄로 끝날 수 있습니다.

생성형 AI 모델은 텍스트, 코드, 이미지, 임베딩, 동영상 등 거의 모든 것을 사용하여 메시지에 응답할 수 있습니다.

프롬프트 기반 학습

#language
#생성형 AI

임의의 텍스트 입력 (프롬프트)에 대한 응답으로 동작을 조정할 수 있는 특정 모델의 기능입니다. 일반적인 프롬프트 기반 학습 패러다임에서 대규모 언어 모델은 텍스트를 생성하여 프롬프트에 응답합니다. 예를 들어 사용자가 다음과 같은 프롬프트를 입력한다고 가정해 보겠습니다.

뉴턴의 제3 운동 법칙을 요약합니다.

프롬프트 기반 학습을 지원하는 모델은 이전 프롬프트에 응답하도록 특별히 학습되지 않았습니다. 대신 모델은 물리학에 관한 많은 사실, 일반적인 언어 규칙, 일반적으로 유용한 답변을 구성하는 요소에 관해 많은 것을 '알고 있습니다'. 이 지식으로 유용한 답변을 제공하기에 충분합니다. 추가적인 인간 피드백 ('답변이 너무 복잡했어요.' 또는 '반응이 무엇인가요?')을 사용하면 일부 프롬프트 기반 학습 시스템은 점차적으로 답변의 유용성을 개선할 수 있습니다.

프롬프트 디자인

#language
#생성형 AI

프롬프트 엔지니어링의 동의어입니다.

프롬프트 엔지니어링

#language
#생성형 AI

대규모 언어 모델에서 원하는 응답을 유도하는 프롬프트를 만드는 기술 인간이 프롬프트 엔지니어링을 수행합니다. 프롬프트를 잘 구조화하는 것은 대규모 언어 모델에서 유용한 응답을 보장하는 데 필수적인 부분입니다. 프롬프트 엔지니어링은 다음을 포함한 여러 요인에 따라 달라집니다.

  • 대규모 언어 모델을 사전 학습하고 미세 조정하는 데 사용되는 데이터 세트입니다.
  • 모델이 응답을 생성하는 데 사용하는 temperature 및 기타 디코딩 매개변수

유용한 프롬프트 작성에 관한 자세한 내용은 프롬프트 설계 소개를 참고하세요.

프롬프트 설계는 프롬프트 엔지니어링의 동의어입니다.

프롬프트 조정

#language
#생성형 AI

시스템이 실제 프롬프트 앞에 추가하는 '프리픽스'를 학습하는 매개변수 효율적인 조정 메커니즘.

프롬프트 조정의 한 가지 변형(프리픽스 조정이라고도 함)은 모든 레이어 앞에 프리픽스를 붙이는 것입니다. 반면에 대부분의 프롬프트 조정은 입력 레이어에만 접두사를 추가합니다.

R

역할 프롬프트

#language
#생성형 AI

생성형 AI 모델 응답의 타겟층을 식별하는 프롬프트의 선택적 부분입니다. 대규모 언어 모델이 역할 프롬프트가 없는 경우 질문하는 사람에게 유용할 수도 있고 유용하지 않을 수도 있습니다. 역할 프롬프트를 사용하면 대규모 언어 모델이 특정 대상에게 더 적절하고 유용한 방식으로 대답할 수 있습니다. 예를 들어 다음 프롬프트에서 역할 프롬프트 부분은 굵게 표시됩니다.

  • 경제학 박사 학위를 위해 이 자료를 요약해 주세요.
  • 10살 아이에게 조수가 어떻게 작용하는지 설명합니다.
  • 2008년 금융 위기를 설명합니다. 어린 아이나 골든 리트리버에게 하는 것처럼 이야기하세요.

S

셀프 어텐션 (셀프 어텐션 레이어라고도 함)

#language

임베딩 시퀀스 (예: 토큰 임베딩)를 다른 임베딩 시퀀스로 변환하는 신경망 레이어입니다. 출력 시퀀스의 각 임베딩은 어텐션 메커니즘을 통해 입력 시퀀스 요소의 정보를 통합하여 구성됩니다.

셀프 어텐션self 부분은 다른 컨텍스트가 아닌 자체에 관련된 시퀀스를 나타냅니다. 셀프 어텐션은 변환기의 기본 구성 요소 중 하나이며 '쿼리', '키', '값'과 같은 사전 조회 용어를 사용합니다.

셀프 어텐션 레이어는 단어마다 하나씩 일련의 입력 표현으로 시작됩니다. 단어의 입력 표현은 간단한 임베딩일 수 있습니다. 네트워크는 입력 시퀀스의 각 단어에 대해 전체 단어 시퀀스 내 모든 요소와 해당 단어의 관련성에 점수를 매깁니다. 관련성 점수는 단어의 최종 표현이 다른 단어의 표현을 포함하는 정도를 결정합니다.

다음 문장을 예로 들어 보겠습니다.

동물은 너무 피곤해서 길을 건너지 않았습니다.

Transformer: 언어 이해를 위한 새로운 신경망 아키텍처의 다음 그림은 대명사 it에 대한 셀프 어텐션 레이어의 어텐션 패턴을 보여주며 각 선의 어두움은 각 단어가 표현에 기여하는 정도를 나타냅니다.

다음 문장이 두 번 나타납니다. &#39;동물은 너무 피곤해서 길을 건너지 않았습니다.&#39;  선은 한 문장의 &#39;it&#39;이라는 단어와 다른 문장의 토큰 5개 (&#39;The&#39;, &#39;animal&#39;, &#39;street&#39;, &#39;it&#39;, 마침표)를 연결합니다.  &#39;it&#39;과 &#39;동물&#39; 사이의 경계가 가장 강력합니다.

셀프 어텐션 레이어는 'it'과 관련된 단어를 강조표시합니다. 이 경우 어텐션 레이어는 동물에 가장 높은 가중치를 할당하여 해당이 참조할 수 있는 단어를 강조표시하도록 학습했습니다.

n개의 토큰 시퀀스의 경우 셀프 어텐션은 임베딩 시퀀스 n개를 시퀀스의 각 위치에서 한 번씩 개별적으로 변환합니다.

어텐션멀티 헤드 셀프 어텐션도 참조하세요.

감정 분석

#language

통계 또는 머신러닝 알고리즘을 사용하여 서비스, 제품, 조직 또는 주제에 대한 그룹의 전반적인 태도(긍정적 또는 부정적)를 결정합니다. 예를 들어 알고리즘은 자연어 이해를 사용하여 대학 과정의 텍스트 피드백에 대한 감정 분석을 수행하여 학생들이 과정을 전반적으로 좋아하거나 싫어하는 정도를 판단할 수 있습니다.

시퀀스-투-시퀀스(Seq2Seq) 작업

#language

토큰의 입력 시퀀스를 토큰의 출력 시퀀스로 변환하는 작업입니다. 예를 들어 많이 사용되는 두 가지 시퀀스-투-시퀀스(Seq2Seq) 작업은 다음과 같습니다.

  • 번역사:
    • 샘플 입력 시퀀스: 'I love you.'
    • 샘플 출력 시퀀스: 'Je t'aime.'
  • 질문 답변:
    • 샘플 입력 시퀀스: '뉴욕시에서 내 차가 필요해?'
    • 샘플 출력 시퀀스: '아니요. 차는 집에 두세요.'

희소 특성(sparse feature)

#language
#fundamentals

대부분의 값이 0이거나 비어 있는 특성입니다. 예를 들어 1 값 하나와 0 값 100만 개를 포함하는 특성은 희소입니다. 반대로 밀집 특성은 대부분 0이나 비어 있지 않은 값을 갖습니다.

머신러닝에서 놀랍게도 희소 특성이 많은 특성입니다. 범주형 특성은 일반적으로 희소 특성입니다. 예를 들어 숲에서 사용할 수 있는 300종의 수종 중에서 하나의 예에서는 단풍나무만 식별할 수 있습니다. 또는 동영상 라이브러리에 있는 수백만 개의 동영상 중에서 하나의 예가 '카사블랑카'만 식별될 수도 있습니다.

모델에서는 일반적으로 원-핫 인코딩을 사용하여 희소 특성을 나타냅니다. 원-핫 인코딩이 큰 경우 효율성을 높이기 위해 원-핫 인코딩 위에 임베딩 레이어를 배치할 수 있습니다.

희소 표현

#language
#fundamentals

희소 특성에 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species이라는 범주형 특성이 특정 포레스트에 있는 36가지 트리 종을 식별한다고 가정해 보겠습니다. 또한 각 는 단일 종만 식별한다고 가정합니다.

원-핫 벡터를 사용하여 각 예에서 수종을 나타낼 수 있습니다. 원-핫 벡터는 단일 1 (이 예에서 특정 수종을 나타내기 위한) 및 35개의 0 (이 예에서는 아님) 35개의 수종을 나타냅니다. 따라서 maple의 원-핫 표현은 다음과 같을 수 있습니다.

위치 0에서 23까지는 값 0을, 위치 24는 값 1을, 위치 25부터 35까지는 값 0을 갖는 벡터입니다.

또는 희소 표현은 특정 종의 위치를 단순히 식별합니다. maple가 24 위치에 있다면 maple의 희소 표현은 다음과 같습니다.

24

희소 표현은 원-핫 표현보다 훨씬 더 간결합니다.

단계적 학습

#language

일련의 불연속 단계에서 모델을 학습시키는 전략입니다. 목표는 학습 프로세스의 속도를 높이거나 더 나은 모델 품질을 달성하는 것입니다.

다음은 점진적 스태킹 방식을 보여주는 그림입니다.

  • 1단계에는 히든 레이어 3개, 2단계에는 히든 레이어 6개, 3단계에는 히든 레이어 12개가 포함됩니다.
  • 2단계는 1단계의 히든 레이어 3개에서 학습된 가중치로 학습을 시작합니다. 3단계는 2단계의 6개 히든 레이어에서 학습한 가중치로 학습을 시작합니다.

&#39;1단계&#39;, &#39;2단계&#39;, &#39;3단계&#39;로 라벨이 지정된 3개의 단계가 있습니다.
          각 스테이지에는 서로 다른 수의 레이어가 포함됩니다. 1단계에는 3개의 레이어, 2단계에는 6개의 레이어, 3개의 스테이지에는 12개의 레이어가 있습니다.
          1단계의 레이어 3개가 2단계의 처음 3개 레이어가 됩니다.
          마찬가지로 2단계의 6개 레이어는 3단계의 처음 6개 레이어가 됩니다.

파이프라인도 참조하세요.

T

T5

#language

2020년 Google AI에서 도입한 텍스트-텍스트 전이 학습 모델. T5는 인코더-디코더 모델로, Transformer 아키텍처를 기반으로 하며 매우 큰 데이터 세트로 학습되었습니다. 텍스트 생성, 언어 번역, 대화식 질문 답변과 같은 다양한 자연어 처리 태스크에 효과적입니다.

T5는 'Text-to-Text Transfer Transformer'에 있는 5개의 T에서 이름을 따왔습니다.

T5X

#language

대규모 자연어 처리(NLP) 모델을 빌드하고 학습하도록 설계된 오픈소스 머신러닝 프레임워크입니다. T5는 T5X 코드베이스 (JAXFlax에 빌드됨)에 구현됩니다.

기온

#language
#image
#생성형 AI

모델 출력의 무작위성 수준을 제어하는 초매개변수. 온도가 높을수록 임의 출력이 증가하고, 온도가 낮을수록 임의 출력이 줄어듭니다.

최적의 온도를 선택하는 것은 특정 애플리케이션과 원하는 모델 출력 속성에 따라 다릅니다. 예를 들어 광고 소재 결과물을 생성하는 애플리케이션을 만들 때 온도를 높일 수 있습니다. 반대로 이미지 또는 텍스트를 분류하는 모델을 만들면 모델의 정확성과 일관성을 개선하기 위해 온도를 낮출 수 있습니다.

온도는 주로 softmax와 함께 사용됩니다.

텍스트 범위

#language

텍스트 문자열의 특정 하위 섹션과 연결된 배열 색인 스팬입니다. 예를 들어 Python 문자열 s="Be good now"에서 단어 good은 텍스트 범위 3부터 6까지를 차지합니다.

토큰

#language

언어 모델에서 모델이 학습하고 예측하는 원자 단위입니다. 토큰은 일반적으로 다음 중 하나입니다.

  • 단어. 예를 들어 'dogs like cats'라는 문구는 'dogs', 'like', 'cats'의 세 가지 단어 토큰으로 구성됩니다.
  • 문자. 예를 들어 'bike fish'라는 문구는 9개의 문자 토큰으로 구성됩니다. 빈 공간은 토큰 중 하나로 계산됩니다.
  • 하위 단어 - 단일 단어가 단일 토큰 또는 여러 토큰일 수 있습니다. 하위 단어는 루트 단어, 접두사 또는 접미사로 구성됩니다. 예를 들어 하위 단어를 토큰으로 사용하는 언어 모델은 'dogs'라는 단어를 두 개의 토큰 (루트 단어 'dog'와 복수형 접미사 's')으로 볼 수 있습니다. 동일한 언어 모델은 한 단어 'taller'를 두 개의 하위 단어 (루트 단어 'tall'과 접미사 'er')로 볼 수 있습니다.

언어 모델 외부의 도메인에서 토큰은 다른 종류의 원자 단위를 나타낼 수 있습니다. 예를 들어 컴퓨터 비전에서 토큰은 이미지의 하위 집합일 수 있습니다.

Transformer

#language

Google에서 개발한 신경망 아키텍처로, 셀프 어텐션 메커니즘에 의존하여 컨볼루션이나 순환 신경망에 의존하지 않고 일련의 입력 임베딩을 출력 임베딩의 시퀀스로 변환합니다. Transformer는 셀프 어텐션 레이어의 스택으로 보일 수 있습니다.

Transformer에는 다음이 포함될 수 있습니다.

인코더는 임베딩 시퀀스를 길이가 같은 새로운 시퀀스로 변환합니다. 인코더에는 동일한 레이어 N개가 포함되며 각 레이어에는 두 개의 하위 레이어가 포함됩니다. 이러한 두 개의 하위 레이어는 입력 임베딩 시퀀스의 각 위치에 적용되어 시퀀스의 각 요소를 새로운 임베딩으로 변환합니다. 첫 번째 인코더 하위 레이어는 입력 시퀀스 전체에서 정보를 집계합니다. 두 번째 인코더 하위 레이어는 집계된 정보를 출력 임베딩으로 변환합니다.

디코더는 입력 임베딩 시퀀스를 길이가 다른 출력 임베딩 시퀀스로 변환합니다. 또한 디코더는 3개의 하위 레이어가 있는 동일한 레이어 N개도 포함하며, 이 중 두 개는 인코더 하위 레이어와 유사합니다. 세 번째 디코더 하위 레이어는 인코더의 출력을 가져오고 셀프 어텐션 메커니즘을 적용하여 인코더에서 정보를 수집합니다.

Transformer: 언어 이해를 위한 새로운 신경망 아키텍처 블로그 게시물에서 Transformer를 효과적으로 소개할 수 있습니다.

트라이그램

#seq
#language

N=3인 N-그램입니다.

U

단방향

#language

텍스트의 타겟 섹션 에 있는 텍스트만 평가하는 시스템입니다. 반면에 양방향 시스템은 텍스트의 대상 섹션 뒤에 오는 텍스트를 모두 평가합니다. 자세한 내용은 양방향을 참고하세요.

단방향 언어 모델(단방향 언어 모델)

#language

언어 모델은 타겟 토큰 가 아니라 에 나타나는 토큰을 기준으로만 확률을 계산합니다. 양방향 언어 모델과 대비되는 개념입니다.

V

변이 자동 인코더 (VAE)

#language

자동 인코더의 한 유형으로, 입력과 출력 간의 불일치를 활용하여 수정된 버전의 입력을 생성합니다. 변이 자동 인코더는 생성형 AI에 유용합니다.

VAE는 확률 모델의 매개변수를 추정하는 기법인 변형 추론을 기반으로 합니다.

W

단어 임베딩

#language

임베딩 벡터 내 단어 집합의 각 단어를 표현합니다. 즉, 각 단어를 0.0과 1.0 사이의 부동 소수점 값 벡터로 표현합니다. 의미가 비슷한 단어는 의미가 다른 단어보다 더 비슷한 의미를 갖습니다. 예를 들어 당근, 셀러리, 오이비행기, 선글라스, 치약과는 상당히 비슷한 표현입니다.

Z

제로샷 프롬프팅

#language
#생성형 AI

대규모 언어 모델의 응답 방법의 예를 제공하지 않는 프롬프트 예를 들면 다음과 같습니다.

프롬프트 1개의 요소 Notes
지정된 국가의 공식 통화는 무엇인가요? LLM이 답변해야 하는 질문입니다.
인도: 실제 쿼리입니다.

대규모 언어 모델은 다음 중 하나로 응답할 수 있습니다.

  • 루피 기호
  • 인도 루피(INR)
  • 인도 루피
  • 루피
  • 인도 루피

모두 정답이지만 특정 형식을 선호할 수도 있습니다.

제로샷 프롬프팅을 다음 용어와 비교 및 대조해 보세요.