LLM: 미세 조정, 정제, 프롬프트 엔지니어링

이전 단원에서는 범용 LLM에 대해 다음과 같이 다양하게 설명했습니다. 다른 이름:

  • 기반 LLM
  • 기본 LLM을
  • 선행 학습된 LLM

기반 LLM은 정보를 '알' 수 있을 만큼 충분한 자연어로 학습되어 주목할 만한 문법, 단어 및 관용구에 대해 알아봅니다. 기반 언어 모델은 학습이 진행된 주제에 관한 유용한 문장을 생성할 수 있습니다. 또한 기반 LLM은 일반적으로 '창의적이거나' 시를 쓴 것처럼 말이죠 하지만 기반 LLM의 생성 텍스트는 ML 모델 출력과 같은 다른 종류의 일반적인 ML 문제에 대한 회귀 또는 분류가 가능합니다. 이러한 사용 사례의 경우 기반 LLM은 솔루션이 아닌 플랫폼으로 제공하기도 합니다.

기반 LLM을 애플리케이션의 미세 조정이라는 프로세스가 필요합니다. 두 번째 프로세스인 정류는 미세 조정된 모델의 더 작은 버전 (매개변수가 더 적은)을 있습니다.

미세 조정

연구에 따르면 기반이 갖는 패턴 인식 능력은 언어 모델은 매우 강력해서 때로는 상대적으로 특정 작업을 학습하기 위한 추가 교육이 거의 필요하지 않습니다. 추가 학습을 통해 모델이 더 나은 예측을 할 수 있습니다. 특정 태스크에 집중할 수 있습니다 이 추가 교육은 미세 조정, LLM의 실용적인 면을 열 수 있습니다.

애플리케이션 태스크와 관련된 예제로 학습 미세 조정 지정할 수 있습니다 엔지니어는 경우에 따라 단 몇 가지의 방법으로 기반 LLM을 미세 조정할 수 있습니다. 수백, 수천 개의 학습 예시가 있습니다.

학습 예시의 수가 비교적 적음에도 불구하고 표준 미세 조정은 계산 비용이 많이 들기도 합니다 표준 미세 조정에는 각 매개변수의 가중치와 편향을 역전파 반복입니다. 다행히도 매개변수 효율적이라고 불리는 더 스마트한 조정 각 매개변수에서 하위 집합만 조정하여 LLM을 미세 조정할 수 있습니다. 역전파 반복입니다.

미세 조정된 모델의 예측은 보통 기반 LLM의 예측보다 학습합니다. 그러나 미세 조정된 모델에는 동일한 수의 매개변수를 기초 LLM으로 사용할 수 있습니다. 따라서 기반 LLM에 100억 개의 미세 조정된 버전에는 1, 000억 개의 매개변수입니다.

정제

미세 조정된 대부분의 LLM에는 엄청난 수의 매개변수가 포함되어 있습니다. 따라서 이를 위해서는 막대한 컴퓨팅 및 환경 자원이 필요합니다. 예측을 생성합니다 이러한 매개변수 중 상당수는 일반적으로 특정 애플리케이션과 관련이 없습니다.

정제 더 작은 버전의 LLM을 만듭니다 정제된 LLM은 예측을 생성합니다. 훨씬 빠르고 훨씬 적은 컴퓨팅 및 환경 자원을 필요로 합니다. 전체 LLM에 빌드됩니다. 하지만 정제된 모델의 예측은 일반적으로 원본 LLM의 예측만큼이나 훌륭합니다. 더 많은 기능이 포함된 LLM은 매개변수는 거의 항상 더 적은 수의 LLM보다 더 나은 예측을 생성합니다. 매개변수입니다.

프롬프트 엔지니어링

프롬프트 엔지니어링 를 사용하면 LLM의 최종 사용자가 모델의 출력을 맞춤설정할 수 있습니다. 즉, 최종 사용자가 LLM이 프롬프트에 어떻게 응답해야 하는지 명확히 합니다.

인간은 사례를 통해 잘 학습합니다. LLM도 마찬가지입니다. LLM에 예시 1개 보여주기 호출됨 원샷 프롬프팅을 지원합니다. 예를 들어 모델이 다음 형식을 사용하여 과일의 가족:

사용자가 과일의 이름을 입력하면 LLM은 해당 과일의 클래스를 출력합니다.

LLM에 이전 형식의 단일 예시를 보여주는 원샷 프롬프트 LLM에 해당 예를 기반으로 쿼리를 완료하도록 요청합니다. 예를 들면 다음과 같습니다.

peach: drupe
apple: ______

하나의 예만으로도 충분할 수 있습니다. 답이 '예'라면 LLM은 학습합니다. 예를 들면 다음과 같습니다.

apple: pome

예시 하나로는 충분하지 않은 경우도 있습니다. 즉, 사용자는 여러 LLM 예시를 보여줍니다. 예를 들어 다음 프롬프트에는 두 가지 예:

plum: drupe
pear: pome
lemon: ____

여러 예시를 제공하는 것을 퓨샷 프롬프팅을 지원합니다. 앞의 프롬프트의 처음 두 줄을 학습이라고 생각하면 됩니다. 예로 들 수 있습니다

LLM이 예시 없이 유용한 예측을 제공할 수 있는가 (제로샷 프롬프트)? 가끔이지만 LLM은 컨텍스트를 좋아합니다. 맥락이 없다면 다음 제로샷 프롬프트는 과일이 아닌 기술 회사에 대한 정보를 반환한다고 가정해 보겠습니다.

apple: _______

오프라인 추론

LLM의 매개변수 수는 때때로 온라인 추론 회귀 또는 학습과 같은 실제 작업에 사용하기에는 너무 느립니다. 있습니다. 따라서 많은 엔지니어링팀이 오프라인 추론 (또한 일괄 추론 또는 정적 추론)을 사용합니다. 즉, 광고 게재 시 검색어에 응답하는 것이 아니라 학습된 모델은 미리 예측을 수행한 다음 이러한 예측을 캐시합니다.

LLM이 작업을 완료하는 데 오랜 시간이 걸리는지 여부는 LLM은 일주일에 한 번 또는 한 달에 한 번만 작업을 수행하면 됩니다.

예: Google 검색 LLM을 사용했고 오프라인 추론을 수행하여 800개가 넘는 동의어 목록을 캐시합니다. 을 제공하고 있습니다. 그런 다음 Google 검색은 저장된 목록을 사용하여 실시간 트래픽에서 백신에 대한 검색어를 식별합니다.

책임감 있는 LLM 사용

모든 형태의 머신러닝과 마찬가지로 LLM은 일반적으로 다음과 같은 편향을 공유합니다.

  • 학습에 사용된 데이터
  • 추출한 데이터입니다.

제시된 교훈에 따라 LLM을 공정하고 책임감 있게 사용 이 과정의 앞부분에서 설명하겠습니다

연습문제: 학습 내용 점검하기

다음 중 LLM에 대한 올바른 설명은 무엇인가요?
정제된 LLM은 기반보다 적은 수의 매개변수를 포함합니다. 기반 언어 모델입니다.
예, 정제는 매개변수 수를 줄입니다.
미세 조정된 LLM은 기반보다 적은 수의 매개변수를 포함합니다. 학습의 기반이 되는 언어 모델입니다.
미세 조정된 모델에는 다음과 동일한 수의 매개변수가 포함됩니다. 모델을 학습시키는 작업도 반복해야 합니다
사용자가 프롬프트 엔지니어링을 많이 수행할수록 점점 더 커지고 있습니다
프롬프트 엔지니어링은 LLM을 추가 (또는 삭제 또는 변경)하지 않음 매개변수입니다.