머신러닝 용어집: 언어 평가

이 페이지에는 언어 평가 용어집이 나와 있습니다. 모든 용어집을 보려면 여기를 클릭하세요.

A

관심

#language

데이터 세트에서 입력 집합의 정보를 집계하는 다양한 신경망 아키텍처 메커니즘 일반적인 주의 메커니즘은 일련의 입력에 대한 가중치 합계로 구성될 수 있으며, 각 입력의 가중치는 신경망의 다른 부분을 통해 계산됩니다.

트랜스포머의 구성 요소인 자체 부제목멀티 헤드 자체 주의도 참조하세요.

B

단어 집합

#language

순서와 관계없이 문구 또는 문구의 단어를 나타냅니다. 예를 들어 단어 집합은 다음 세 구문을 동일하게 나타냅니다.

  • 강아지 점프
  • 개를 점프합니다
  • 점프하는 강아지

각 단어는 희소 벡터의 색인에 매핑됩니다. 여기서 벡터는 어휘에 있는 모든 단어의 색인이 있습니다. 예를 들어 개는 점프합니다라는 문구는 the, dog, jumps 단어에 해당하는 세 색인에서 0이 아닌 값을 갖는 특징 벡터에 매핑됩니다. 0이 아닌 값은 다음 중 하나일 수 있습니다.

  • 1은 단어의 존재를 나타냅니다.
  • 가방에 단어가 표시되는 횟수입니다. 예를 들어, maroon dog가 적갈색 강아지가 있는 강아지라는 구문인 경우 maroondog는 모두 2로 표시되고 다른 단어는 1로 표시됩니다.
  • 다른 값(예: 단어가 백에 표시되는 횟수의 대수)

BERT (변환기의 양방향 인코더 표현)

#language

텍스트 표현을 위한 모델 아키텍처 학습된 BERT 모델은 텍스트 분류 또는 기타 ML 태스크에서 더 큰 모델의 일부 역할을 할 수 있습니다.

BERT의 특성은 다음과 같습니다.

  • Transformer 아키텍처를 사용하므로 자체 시선에 의존합니다.
  • Transformer의 인코더 부분을 사용합니다. 인코더의 역할은 분류와 같은 특정 작업을 수행하는 대신 훌륭한 텍스트 표현을 생성하는 것입니다.
  • 양방향입니다.
  • 비지도 학습마스킹을 사용합니다.

BERT의 대안은 다음과 같습니다.

BERT 개요는 오픈소스 BERT: 자연어 처리를 위한 최첨단 사전 학습을 참고하세요.

Bigram

#seq
#language

N=2인 N-그램입니다.

양방향

#language

텍스트의 타겟 섹션 오는 텍스트를 평가하는 시스템을 설명하는 데 사용되는 용어입니다. 반면에 단방향 시스템은 텍스트의 타겟 섹션 앞에 있는 텍스트만 평가합니다.

예를 들어 다음 질문의 밑줄을 나타내는 단어나 단어의 가능성을 판단해야 하는 마스크된 언어 모델을 생각해 보세요.

_____은(는) 어떤 용도로 사용하나요?

단방향 언어 모델은 '무엇', '~', '같음'이라는 단어에서 제공하는 컨텍스트에 기반하여 확률을 계산해야 합니다. 이와 반대로, 양방향 언어 모델은 모델이 더 나은 예측을 생성하는 데 도움이 될 수 있는 'with'와 'you'로부터 컨텍스트를 얻을 수 있습니다.

양방향 언어 모델

#language

이전뒤에 오는 텍스트를 기반으로 텍스트 발췌문에서 특정 위치에 특정 토큰이 존재할 가능성을 결정하는 언어 모델입니다.

BLEU (Bualual Evaluation Understudy)

#language

두 인간 언어 간 번역 품질 (예: 영어와 러시아어)을 나타내는 0.0에서 1.0 사이의 점수입니다. BLEU 점수가 1.0이면 완벽한 번역이고 BLEU 점수가 0.0이면 번역이 좋지 않다는 의미입니다.

C

인과관계 모델

#language

단방향 언어 모델의 동의어입니다.

언어 모델링에서 여러 방향 접근 방식을 비교하려면 양방향 언어 모델을 참고하세요.

비정상 종료 꽃

#language

의미가 명확하지 않은 문장 또는 문구 비정상 종료는 자연어 이해에 중요한 문제를 나타냅니다. 예를 들어 Red Tape Holds Up Skyscraper 헤드라인은 NLU 모델에서 광고 제목을 문자 그대로 또는 비유적으로 해석할 수 있으므로 중의적 예입니다.

D

디코더

#language

일반적으로 처리, 밀집 또는 내부 표현에서 보다 원시, 희소 또는 외부 표현으로 변환하는 모든 ML 시스템

디코더는 종종 더 큰 모델의 구성요소로, 인코더와 페어링되는 경우가 많습니다.

시퀀스-시퀀스 작업에서 디코더는 인코더가 생성한 내부 상태로 시작하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처 내의 디코더 정의는 Transformer를 참고하세요.

노이즈 제거

#language

일반적인 자기 주도 학습 방식은 다음과 같습니다.

  1. 노이즈는 데이터 세트에 인위적으로 추가됩니다.
  2. 모델은 노이즈를 제거하려고 합니다.

노이즈 제거를 통해 라벨이 없는 예를 학습할 수 있습니다. 원본 데이터 세트는 대상 또는 라벨 역할을 하고 노이즈 데이터는 입력으로 사용합니다.

일부 마스크된 언어 모델은 다음과 같이 노이즈를 사용합니다.

  1. 일부 토큰을 마스킹하여 라벨이 지정되지 않은 문장에 노이즈를 인위적으로 추가합니다.
  2. 모델이 원래 토큰을 예측하려고 합니다.

E

임베딩 레이어

#language
#fundamentals

저차원 임베딩 벡터를 점진적으로 학습하기 위해 고차원 범주형 특성으로 학습하는 특수한 히든 레이어입니다. 임베딩 레이어를 사용하면 신경망이 고차원 범주형 특성만 학습하는 것보다 훨씬 효율적으로 학습할 수 있습니다.

예를 들어, 지구는 현재 약 73,000개의 종을 지원합니다. 트리 종이 모델에서 특성이라고 할 때, 모델의 입력 레이어에 73,000개 길이의 원-핫 벡터가 포함되어 있다고 가정해 보겠습니다. 예를 들어 baobab는 다음과 같이 표시될 수 있습니다.

73,000개 요소의 배열입니다. 처음 6,232개 요소는 값 0을 보유합니다. 다음 요소는 값 1을 보유합니다. 마지막 66,767개 요소는 0 값을 갖습니다.

73,000개 요소의 배열이 매우 깁니다. 모델에 임베딩 레이어를 추가하지 않으면 72,999개의 0을 곱하기 때문에 학습에 매우 많은 시간이 걸립니다. 임베딩 레이어를 선택하여 12개의 차원으로 구성할 수도 있습니다. 따라서 임베딩 레이어는 각 트리 종의 새로운 임베딩 벡터를 점진적으로 학습합니다.

특정 상황에서 임베딩 레이어 대신 사용할 수 있는 대안은 해싱입니다.

임베딩 공간

#language

고차원 벡터 공간의 특성이 매핑되는 d차원 벡터 공간입니다. 의미 있는 수학적 결과를 산출하는 구조가 임베딩 공간에 있는 것이 가장 좋습니다. 예를 들어 이상적인 임베딩 공간에서 임베딩의 덧셈과 뺄셈은 단어 비유 태스크를 해결할 수 있습니다.

두 임베딩의 내적은 유사성의 척도입니다.

임베딩 벡터

#language

일반적으로 임의의 숨겨진 레이어히든 레이어에서 입력값을 설명하는 부동 소수점 숫자 배열입니다. 임베딩 벡터는 임베딩 레이어에서 학습된 부동 소수점 숫자의 배열인 경우가 많습니다. 예를 들어 임베딩 레이어가 지구에 있는 73,000개의 종에 대한 임베딩 벡터를 학습해야 한다고 가정해 보겠습니다. 다음 배열은 바오밥 트리의 임베딩 벡터일 수 있습니다.

12개 요소의 배열로, 각각 0.0에서 1.0 사이의 부동 소수점 숫자를 포함합니다.

임베딩 벡터는 임의의 숫자가 아닙니다. 임베딩 레이어는 학습 중에 신경망이 다른 가중치를 학습하는 방법과 비슷하게 학습을 통해 이러한 값을 결정합니다. 배열의 각 요소는 수종의 특징을 따른 등급입니다. 어떤 트리 종의 특징인 요소인가요? 사람이 판단하기는 아주 어렵습니다.

임베딩 벡터에서 수학적으로 주목할 부분은 유사한 항목에 부동 소수점 숫자 집합이 있다는 점입니다. 예를 들어 비슷한 트리 종은 서로 다른 트리 종과 비슷한 부동 소수점 숫자를 갖습니다. 삼나무와 세쿼이아는 관련 종입니다. 따라서 삼나무와 코코넛 야자보다 숫자형 부동 소수점 숫자를 더 많이 가지고 있습니다. 동일한 입력으로 모델을 다시 학습하더라도 모델을 다시 학습시킬 때마다 임베딩 벡터의 숫자가 변경됩니다.

인코더

#language

일반적으로 원시, 희소 또는 외부 표현에서 보다 처리, 밀도 또는 내부 표현이 되는 모든 ML 시스템

인코더는 종종 더 큰 모델의 구성요소로, 디코더와 자주 페어링됩니다. 일부 Transformer는 인코더를 디코더와 페어링하지만 다른 변환기는 인코더만 또는 디코더만 사용합니다.

일부 시스템은 인코더의 출력을 분류 또는 회귀 네트워크에 대한 입력으로 사용합니다.

시퀀스-시퀀스 작업에서 인코더는 입력 시퀀스를 취하고 내부 상태 (벡터)를 반환합니다. 그런 다음 디코더는 이러한 내부 상태를 사용하여 다음 시퀀스를 예측합니다.

Transformer 아키텍처의 인코더 정의는 Transformer를 참조하세요.

G

GPT (생성된 선행 학습된 변환기)

#language

OpenAI에서 개발한 Transformer 기반 큰 언어 모델 제품군입니다.

GPT 변형은 다음을 비롯한 여러 모달리티에 적용할 수 있습니다.

  • 이미지 생성 (예: ImageGPT)
  • 텍스트에서 이미지 생성 (예: DALL-E)

L

LaMDA (대화 애플리케이션용 언어 모델)

#language

Google에서 개발한 Transformer 기반 큰 언어 모델로 현실적인 대화 응답을 생성할 수 있는 대규모 대화상자 데이터 세트로 학습되었습니다.

LaMDA: Google의 혁신적인 대화 기술에서는 개요를 제공합니다.

언어 모델

#language

더 긴 토큰 시퀀스에서 토큰 또는 토큰 시퀀스의 확률을 추정하는 모델입니다.

대형 언어 모델

#language

엄격한 정의가 없는 비공식 용어로, 일반적으로 매개변수가 많은 언어 모델을 의미합니다. 일부 대규모 언어 모델에는 1,000억 개 이상의 매개변수가 포함되어 있습니다.

M

마스킹 언어 모델

#language

후보 토큰이 시퀀스에서 공백을 채울 확률을 예측하는 언어 모델입니다. 예를 들어 마스킹된 언어 모델은 추천 단어에서 다음 문장의 밑줄을 대체할 확률을 계산할 수 있습니다.

모자에 있던 ____이(가) 다시 돌아왔습니다.

일반적으로 라이브러리에서는 밑줄 대신 'MASK'' 문자열을 사용합니다. 예를 들면 다음과 같습니다.

모자에 있던 'MASK'가 돌아왔습니다.

대부분의 마스킹된 최신 언어 모델은 양방향입니다.

메타 학습

#language

머신러닝의 하위 집합으로, 학습 알고리즘을 검색하거나 개선합니다. 메타 학습 시스템은 소량의 데이터나 이전 작업에서 얻은 환경을 바탕으로 새 작업을 빠르게 학습하도록 모델을 학습시키는 것을 목표로 할 수도 있습니다. 메타 학습 알고리즘은 일반적으로 다음을 달성하려고 합니다.

  • 수동 엔지니어링 기능 (예: 이니셜라이저 또는 옵티마이저) 개선/학습
  • 데이터 효율성과 컴퓨팅 효율성을 높이세요.
  • 일반화 개선

메타 학습은 퓨샷 학습과 관련이 있습니다.

modality

#language

상위 수준 데이터 카테고리 예를 들어 숫자, 텍스트, 이미지, 동영상, 오디오는 다섯 가지 모달리티입니다.

모델 병렬 처리

#language

한 모델의 여러 부분을 여러 기기에 배치하는 학습 또는 추론을 확장하는 방법입니다. 모델 병렬 처리를 사용하면 모델이 너무 커서 단일 기기에 맞지 않습니다.

데이터 병렬 처리도 참조하세요.

다중 헤드 자기 집중

#language

입력 시퀀스의 각 위치에 자체 감지 메커니즘을 여러 번 적용하는 자체 시선의 확장입니다.

Transformers는 다중 헤드 자기 자신을 도입했습니다.

멀티모달 모델

#language

입력 또는 출력에 모달리티가 두 개 이상 포함된 모델 예를 들어 이미지와 텍스트 자막 (두 개의 모달리티)을 모두 특성으로 삼고 이미지에 텍스트 자막이 얼마나 적절한지 나타내는 점수를 출력하는 모델을 가정해 보겠습니다. 따라서 이 모델의 입력은 다중 모달이고 출력은 단일 모달입니다.

구매 불가

자연어 이해

#language

사용자가 입력하거나 말한 내용을 기반으로 사용자의 의도를 파악합니다. 예를 들어 검색엔진은 자연어 이해를 사용하여 사용자가 입력하거나 말한 내용에 기반하여 사용자가 검색하는 내용을 결정합니다.

N-그램

#seq
#language

N개 단어의 순서가 지정된 시퀀스입니다. 예를 들어 truly madly는 2그램입니다. 순서는 관련이 있으므로 매드럽게 진짜진짜 화가 난과는 다른 2그램입니다.

구매 불가 이러한 종류의 N-그램 이름
2 Bigram 또는 2그램 이동, 이동, 점심 식사, 저녁 식사
3 트라이그램 또는 3그램 지나치게 많이 먹음, 블라인드 마우스 3개, 벨 요금
4 4그램 공원 산책, 바람에 따른 먼지, 소년이 렌즈콩을 먹음

많은 자연어 이해 모델은 N-그램을 사용하여 사용자가 입력하거나 다음에 말할 단어를 예측합니다. 예를 들어 사용자가 블라인드 3개를 입력했다고 가정해 보겠습니다. 트라이그램을 기반으로 하는 NLU 모델은 사용자가 다음에 mice를 입력할 것으로 예측할 수 있습니다.

N-그램을 순서가 지정되지 않은 단어 세트인 단어 집합과 비교합니다.

NLU

#language

자연어 이해의 약어입니다.

P

파이프라인

#language

모델의 처리가 연속적인 단계로 나뉘고 각 단계가 다른 기기에서 실행되는 모델 동시 로드의 한 형태입니다. 단계가 하나의 배치를 처리하는 동안 이전 단계는 다음 배치에서 작동할 수 있습니다.

단계별 학습도 참고하세요.

S

자기 어텐션 (자체 어텐션 레이어라고도 함)

#language

토큰 임베딩 시퀀스를 다른 임베딩 시퀀스로 변환하는 신경망 레이어입니다. 출력 시퀀스의 각 임베딩은 어텐션 메커니즘을 통해 입력 시퀀스의 요소 정보를 통합하여 구성됩니다.

자기 집중자신은 일부 다른 맥락이 아니라 스스로를 돌보는 순서를 나타냅니다. 자체 시선은 Transformers의 기본 구성 요소 중 하나이며 '쿼리', '키', '값'과 같은 사전 조회 용어를 사용합니다.

자체 속성 레이어는 각 단어에 하나씩 입력 표현의 시퀀스로 시작합니다. 단어의 입력 표현은 간단한 임베딩일 수 있습니다. 네트워크는 입력 시퀀스의 각 단어에 대해 단어 전체 시퀀스의 모든 요소와 단어 간의 관련성을 점수를 매깁니다. 관련성 점수는 단어의 최종 표현에 다른 단어의 표현이 얼마나 포함되어 있는지 결정합니다.

예를 들어, 다음 문장을 생각해 보세요.

동물이 너무 피곤해서 길 건너지 않았다.

변환기: 언어 이해를 위한 새로운 신경망 아키텍처의 다음 그림은 인칭 대명사 it에 대한 자기 집중 레이어와 각 단어의 표현이 표현에 얼마나 기여하는지를 보여주는 각 선의 어두움을 보여줍니다.

다음 문장은 두 번 나타납니다. '동물이 너무 피곤해서 길을 건널 수 없습니다.  줄은 한 문장에서 5개의 토큰 (',  'it 이용할'과 '동물' 사이의 선이 가장 강력합니다.

자체 표현 레이어는 'it'과 관련된 단어를 강조표시합니다. 이 경우 관심 레이어는 동물에 가장 높은 가중치를 할당하여 참조할 수 있는 단어를 강조표시하는 방법을 학습했습니다.

n토큰 시퀀스의 경우 자체 관심은 시퀀스의 각 위치에서 한 번씩 개별적으로 n개의 임베딩 시퀀스를 변환합니다.

주의멀티 헤드 자체 주의도 참조하세요.

감정 분석

#language

통계 또는 머신러닝 알고리즘을 사용하여 서비스, 제품, 조직 또는 주제에 대한 그룹의 긍정적인 태도나 부정적인 태도를 판단합니다. 예를 들어 자연어 이해를 사용하면 알고리즘이 대학 과정의 텍스트 피드백에 대한 감정 분석을 수행하여 학생이 일반적으로 과정을 좋아하거나 싫어하는 정도를 결정할 수 있습니다.

시퀀스-시퀀스 작업

#language

토큰의 입력 시퀀스를 토큰의 출력 시퀀스로 변환하는 작업입니다. 예를 들어 다음과 같은 두 가지 종류의 시퀀스-시퀀스 태스크가 있습니다.

  • 번역사:
    • 샘플 입력 시퀀스: "사랑해."
    • 샘플 출력 시퀀스 'Je t'aime."
  • 질문 답변:
    • 샘플 입력 시퀀스: "뉴욕시 내 차가 필요한가요?\"quot;
    • 샘플 출력 시퀀스: "아니요. 차를 집에 두세요.'

희소 특성

#language
#fundamentals

값이 대부분 0이거나 비어 있는 특성 예를 들어 1개의 값과 0개의 값을 포함하는 특성은 희소합니다. 반면 밀집 특성은 주로 0이거나 비어 있지 않은 값을 갖습니다.

머신러닝에서는 희소 특성이 놀라울 정도로 많습니다. 일반적으로 희소 특성은 범주형 특성입니다. 예를 들어 숲에 있는 300개의 가능한 나무 종 중 하나의 예만 메이플 트리를 식별할 수 있습니다. 한 가지 예는 동영상 라이브러리에 있는 수백만 개의 동영상 중에서 '카사블랑카'를 식별할 수 있다는 의미입니다.

모델에서는 일반적으로 원-핫 인코딩으로 희소 특성을 표현합니다. 원-핫 인코딩이 큰 경우 효율성을 높이기 위해 원-핫 인코딩 위에 임베딩 레이어를 배치할 수 있습니다.

희소 표현

#language
#fundamentals

희소 특성에 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species이라는 범주형 특성이 특정 포레스트의 36개 종을 식별한다고 가정해 보겠습니다. 또한 각 가 한 종만 식별한다고 가정합니다.

원-핫 벡터를 사용하여 각 예시에서 나무 종을 나타낼 수 있습니다. 원-핫 벡터는 단일 1 (이 예에서는 특정 트리 종을 나타냄)와 35개의 0 (이 예에서는 아닌 35개의 종을 표현함)를 포함합니다. 따라서 maple의 원-핫 표현은 다음과 같습니다.

위치 0~23은 값 0을, 위치 24는 값 1을, 위치 25~35는 값 0을 포함하는 벡터입니다.

또는 희소 표현 방식으로도 특정 종의 위치를 단순히 식별할 수 있습니다. maple이 위치 24에 있으면 maple의 희소 표현은 다음과 같습니다.

24

희소 표현은 원-핫 표현보다 훨씬 간결합니다.

단계적 학습

#language

불연속 단계의 시퀀스로 모델을 학습시키는 전술입니다. 목표는 학습 프로세스의 속도를 높이거나 모델 품질을 개선하는 것입니다.

점진적 스택 접근 방식은 다음과 같습니다.

  • 1단계에는 히든 레이어 3개가 포함되고 2단계에는 히든 레이어 6개가 포함되며 3단계에는 히든 레이어 12개가 포함됩니다.
  • 2단계는 1단계의 숨겨진 3개 레이어에서 학습된 가중치로 학습을 시작합니다. 3단계는 2단계의 6개 히든 레이어에서 학습된 가중치로 학습을 시작합니다.

3단계, 1단계, 2단계, 3단계입니다.
          각 단계에는 서로 다른 수의 레이어가 있습니다. 1단계에는 3개의 레이어가 포함되며 2단계에는 6개의 레이어가 포함되고 3단계에는 12개의 레이어가 포함됩니다.
          1단계의 3개 레이어가 2단계의 첫 3개 레이어가 됩니다.
          마찬가지로 2단계의 6개 레이어가 3단계의 처음 6개 레이어가 됩니다.

파이프라인도 참조하세요.

T

token

#language

언어 모델에서 모델이 학습하고 예측을 수행하는 원자적 단위입니다. 토큰은 일반적으로 다음 중 하나입니다.

  • 단어(예: '고양이와 같은 개')는 '강아지', '좋아요', '고양이'라는 세 가지 단어 토큰으로 구성됩니다.
  • 문자(예: "bike fish" 구문)는 9개의 문자 토큰으로 구성됩니다. 빈 공간은 토큰 중 하나로 계산됩니다.
  • 하위 단어: 단일 단어가 단일 토큰일 수도 있고 여러 토큰이 될 수도 있습니다. 하위 단어는 루트 단어, 접두사, 접미사로 구성됩니다. 예를 들어 하위 단어를 토큰으로 사용하는 언어 모델은 'dogs'라는 단어를 2개의 토큰 (루트 단어 'dog' 및 복수형 접미사 's&quot')으로 볼 수 있습니다. 동일한 언어 모델은 단일 단어 'taller'를 두 개의 하위 단어 (루트 단어 'tall' 및 접미사 'er&quot')로 볼 수 있습니다.

언어 모델 이외의 도메인에서 토큰은 다른 종류의 원자 단위를 나타낼 수 있습니다. 예를 들어 컴퓨터 비전에서 토큰은 이미지의 하위 집합일 수 있습니다.

Transformer

#language

Google에서 개발한 신경망 아키텍처는 컨볼루션 또는 순환 신경망에 의존하지 않고 자기 집중 메커니즘에 의존하여 입력 임베딩 시퀀스를 출력 임베딩 시퀀스로 변환합니다. Transformer는 자기 집중 레이어의 스택으로 볼 수 있습니다.

변환기에는 다음이 포함될 수 있습니다.

인코더는 임베딩 시퀀스를 동일한 길이의 새로운 시퀀스로 변환합니다. 인코더에는 N개의 동일한 레이어가 포함되며, 각 레이어는 하위 레이어 두 개를 포함합니다. 이 두 하위 레이어는 입력 임베딩 시퀀스의 각 위치에 적용되어 시퀀스의 각 요소를 새 임베딩으로 변환합니다. 첫 번째 인코더 하위 레이어는 입력 시퀀스 전체의 정보를 집계합니다. 두 번째 인코더 하위 레이어는 집계된 정보를 출력 임베딩으로 변환합니다.

디코더는 입력 임베딩 시퀀스를 다른 길이로 출력 임베딩 시퀀스로 변환합니다. 또한 디코더에는 3개의 하위 레이어가 있는 동일한 레이어 N개가 포함되며 그중 2개는 인코더 하위 레이어와 비슷합니다. 세 번째 디코더 하위 레이어는 인코더의 출력을 가져와 자체 집중 메커니즘을 적용하여 정보를 수집합니다.

Transformer: 언어 이해를 위한 새로운 신경망 아키텍처 블로그 게시물에서 Transformers에 대한 유용한 소개를 제공합니다.

트라이그램

#seq
#language

N=3인 N-그램입니다.

U

단방향

#language

텍스트의 타겟 섹션 앞에 오는 텍스트만 평가하는 시스템입니다. 반면에 양방향 시스템은 텍스트의 타겟 섹션 앞에 있으며 이 뒤에 나오는 텍스트를 모두 평가합니다. 자세한 내용은 양방향을 참고하세요.

단방향 언어 모델

#language

언어 모델은 타겟 토큰 가 아닌 앞에 표시되는 토큰만을 기반으로 하는 확률을 기반으로 합니다. 양방향 언어 모델과 대비되는 개념입니다.

W

단어 임베딩

#language

임베딩 벡터 내의 단어 세트에 있는 각 단어를 표시합니다. 즉, 각 단어를 0.0에서 1.0 사이의 부동 소수점 값의 벡터로 나타냅니다. 유의미한 의미가 있는 단어는 의미가 다른 단어보다 비슷한 표현이 있습니다. 예를 들어 캐럿, celery, 오이의 표현은 비교적 비슷하며 비행기, 선글라스, toothpaste의 표현과 매우 다릅니다.