langchain 공부

Transformer와 GPT3까지 발전 과정 (LLM 역사와 발전2)

필만이 2024. 9. 1. 16:28

이전 내용

https://makenow90.tistory.com/56

Transformer와 GPT

Transformer

  • Google에서 제안된 모델로, 번역과 같은 시퀀스 작업에 활용되며 LLM의 기초가 됩니다.
  • 인코더-디코더 구조를 사용하며, 병렬 처리 덕분에 효율적이고 강력한 성능을 발휘합니다.
  • Attention 메커니즘을 중심으로 모든 입력 간의 관계를 파악하여 정보를 처리합니다.
  • llm의 베이스가 되는 기술이라 보면된다.

GPT-1

  • OpenAI에서 개발한 모델로, Transformer의 디코더 부분을 활용하여 언어 생성과 이해 능력을 향상시켰습니다.
  • 사전 훈련 후 파인 튜닝을 통해 텍스트 생성, 번역, 요약 등 다양한 언어 작업에서 뛰어난 성능을 보였습니다.
  • 언어 모델링을 통해 다음 단어를 예측하는 방식으로 텍스트를 생성합니다.
  • 자연어 처리 작업에서 초기의 큰 혁신을 이루었고, 이후 GPT 계열 모델들의 기반이 되었습니다.

BERT

  • Google에서 개발한 모델로, Transformer의 인코더를 기반으로 양방향 문맥을 이해할 수 있는 구조를 갖추고 있습니다.
  • 사전 훈련과 파인 튜닝을 통해 텍스트 분류, 질의응답, 자연어 추론 등 다양한 NLP 작업에서 높은 성능을 보입니다.
  • 입력 문장의 앞뒤 문맥을 모두 고려하여 더 정교한 언어 이해를 가능하게 합니다.
  • 자연어 처리의 다양한 작업에서 표준이 되었으며, NLP 모델링에 큰 영향을 미쳤습니다.

GPT-2

  • OpenAI에서 GPT-1을 확장하여 개발한 모델로, 더 많은 파라미터와 더 큰 데이터셋을 사용해 성능을 극대화했습니다.
  • 긴 컨텍스트에서의 언어 생성이 가능하며, Zero-shot transfer로 특정 작업에 대해 미리 학습하지 않아도 좋은 성능을 보입니다.
  • 다양한 언어 생성 작업에서 자연스러운 텍스트를 생성할 수 있으며, 텍스트의 품질과 일관성이 크게 향상되었습니다.
  • 공개 이후 언어 모델의 가능성과 위험성에 대한 큰 논의가 일어나기도 했습니다.

XLNet

  • Google과 CMU에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE)의 장점을 결합한 구조입니다.
  • 양방향 정보를 학습하기 위해 모든 가능한 단어 순열을 학습합니다.
  • 기존의 언어 모델이 순차적으로 학습하는 방식에서 벗어나, 보다 풍부한 문맥 정보를 반영합니다.
  • AutoRegressive 방식으로 학습되어 문장 생성과 이해에서 뛰어난 성능을 보입니다.

RoBERTa

  • Facebook에서 개발한 모델로, BERT의 훈련 절차를 개선하여 성능을 극대화했습니다.
  • 더 긴 훈련 시간과 더 큰 배치 크기를 사용하여 모델의 일반화 성능을 향상시켰습니다.
  • BERT에서 사용되었던 NSP(Next Sentence Prediction) 방식을 제거하여 더욱 효율적인 학습을 가능하게 했습니다.
  • 다양한 자연어 처리 작업에서 BERT보다 더 나은 성능을 보여줍니다.

MASS

  • Microsoft에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE) 구조를 결합한 방식입니다.
  • 마스킹된 시퀀스를 입력으로 받아 인코더가 내부 표현을 생성합니다.
  • 인코더에서 생성된 내부 표현을 디코더의 입력으로 사용하여, 마스킹된 토큰을 예측합니다.
  • 기계 번역과 같은 시퀀스-투-시퀀스 작업에서 강력한 성능을 보입니다.

BART

  • Facebook에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE)의 장점을 결합한 구조입니다.
  • 입력 문장을 변환한 후 원래 문장으로 복원하는 방식으로 훈련됩니다.
  • 텍스트 생성, 특히 요약과 같은 작업에서 SOTA(State of the Art) 성능을 기록했습니다.
  • 다양한 자연어 처리 작업에서 널리 사용되며, 높은 품질의 텍스트 생성이 가능합니다.

MT-DNN

  • Microsoft에서 개발한 모델로, BERT를 기본 모델로 사용합니다.
  • 다양한 NLP 작업을 동시에 학습할 수 있는 멀티태스크 모델입니다.
  • 사전학습 단계에서 다양한 작업을 학습하여 일반화 성능을 높였습니다.
  • 여러 NLP 벤치마크에서 우수한 성능을 보였습니다.

T5

  • Google에서 개발한 모델로, Transformer의 인코더-디코더 구조를 사용합니다.
  • 모든 NLP 작업을 텍스트-투-텍스트(Text-to-Text) 형식으로 변환하여 처리합니다.
  • 대규모 사전학습과 미세조정을 통해 높은 성능을 달성했습니다.
  • 다양한 벤치마크에서 SOTA(State of the Art) 성능을 기록했습니다.

GPT-3

  • OpenAI에서 개발한 모델로, GPT-2를 확장하여 1750억 개의 파라미터를 갖췄습니다.
  • 대규모 사전학습을 통해 다양한 작업에서 뛰어난 성능을 보입니다.
  • Zero-shot transfer 능력을 갖추어 미리 학습하지 않은 작업에서도 좋은 결과를 냅니다.
  • 언어 생성, 요약, 번역 등 여러 NLP 작업에서 우수한 성능을 발휘합니다.