이전 내용
https://makenow90.tistory.com/56
Transformer와 GPT
Transformer
- Google에서 제안된 모델로, 번역과 같은 시퀀스 작업에 활용되며 LLM의 기초가 됩니다.
- 인코더-디코더 구조를 사용하며, 병렬 처리 덕분에 효율적이고 강력한 성능을 발휘합니다.
- Attention 메커니즘을 중심으로 모든 입력 간의 관계를 파악하여 정보를 처리합니다.
- llm의 베이스가 되는 기술이라 보면된다.
GPT-1
- OpenAI에서 개발한 모델로, Transformer의 디코더 부분을 활용하여 언어 생성과 이해 능력을 향상시켰습니다.
- 사전 훈련 후 파인 튜닝을 통해 텍스트 생성, 번역, 요약 등 다양한 언어 작업에서 뛰어난 성능을 보였습니다.
- 언어 모델링을 통해 다음 단어를 예측하는 방식으로 텍스트를 생성합니다.
- 자연어 처리 작업에서 초기의 큰 혁신을 이루었고, 이후 GPT 계열 모델들의 기반이 되었습니다.
BERT
- Google에서 개발한 모델로, Transformer의 인코더를 기반으로 양방향 문맥을 이해할 수 있는 구조를 갖추고 있습니다.
- 사전 훈련과 파인 튜닝을 통해 텍스트 분류, 질의응답, 자연어 추론 등 다양한 NLP 작업에서 높은 성능을 보입니다.
- 입력 문장의 앞뒤 문맥을 모두 고려하여 더 정교한 언어 이해를 가능하게 합니다.
- 자연어 처리의 다양한 작업에서 표준이 되었으며, NLP 모델링에 큰 영향을 미쳤습니다.
GPT-2
- OpenAI에서 GPT-1을 확장하여 개발한 모델로, 더 많은 파라미터와 더 큰 데이터셋을 사용해 성능을 극대화했습니다.
- 긴 컨텍스트에서의 언어 생성이 가능하며, Zero-shot transfer로 특정 작업에 대해 미리 학습하지 않아도 좋은 성능을 보입니다.
- 다양한 언어 생성 작업에서 자연스러운 텍스트를 생성할 수 있으며, 텍스트의 품질과 일관성이 크게 향상되었습니다.
- 공개 이후 언어 모델의 가능성과 위험성에 대한 큰 논의가 일어나기도 했습니다.
XLNet
- Google과 CMU에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE)의 장점을 결합한 구조입니다.
- 양방향 정보를 학습하기 위해 모든 가능한 단어 순열을 학습합니다.
- 기존의 언어 모델이 순차적으로 학습하는 방식에서 벗어나, 보다 풍부한 문맥 정보를 반영합니다.
- AutoRegressive 방식으로 학습되어 문장 생성과 이해에서 뛰어난 성능을 보입니다.
RoBERTa
- Facebook에서 개발한 모델로, BERT의 훈련 절차를 개선하여 성능을 극대화했습니다.
- 더 긴 훈련 시간과 더 큰 배치 크기를 사용하여 모델의 일반화 성능을 향상시켰습니다.
- BERT에서 사용되었던 NSP(Next Sentence Prediction) 방식을 제거하여 더욱 효율적인 학습을 가능하게 했습니다.
- 다양한 자연어 처리 작업에서 BERT보다 더 나은 성능을 보여줍니다.
MASS
- Microsoft에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE) 구조를 결합한 방식입니다.
- 마스킹된 시퀀스를 입력으로 받아 인코더가 내부 표현을 생성합니다.
- 인코더에서 생성된 내부 표현을 디코더의 입력으로 사용하여, 마스킹된 토큰을 예측합니다.
- 기계 번역과 같은 시퀀스-투-시퀀스 작업에서 강력한 성능을 보입니다.
BART
- Facebook에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE)의 장점을 결합한 구조입니다.
- 입력 문장을 변환한 후 원래 문장으로 복원하는 방식으로 훈련됩니다.
- 텍스트 생성, 특히 요약과 같은 작업에서 SOTA(State of the Art) 성능을 기록했습니다.
- 다양한 자연어 처리 작업에서 널리 사용되며, 높은 품질의 텍스트 생성이 가능합니다.
MT-DNN
- Microsoft에서 개발한 모델로, BERT를 기본 모델로 사용합니다.
- 다양한 NLP 작업을 동시에 학습할 수 있는 멀티태스크 모델입니다.
- 사전학습 단계에서 다양한 작업을 학습하여 일반화 성능을 높였습니다.
- 여러 NLP 벤치마크에서 우수한 성능을 보였습니다.
T5
- Google에서 개발한 모델로, Transformer의 인코더-디코더 구조를 사용합니다.
- 모든 NLP 작업을 텍스트-투-텍스트(Text-to-Text) 형식으로 변환하여 처리합니다.
- 대규모 사전학습과 미세조정을 통해 높은 성능을 달성했습니다.
- 다양한 벤치마크에서 SOTA(State of the Art) 성능을 기록했습니다.
GPT-3
- OpenAI에서 개발한 모델로, GPT-2를 확장하여 1750억 개의 파라미터를 갖췄습니다.
- 대규모 사전학습을 통해 다양한 작업에서 뛰어난 성능을 보입니다.
- Zero-shot transfer 능력을 갖추어 미리 학습하지 않은 작업에서도 좋은 결과를 냅니다.
- 언어 생성, 요약, 번역 등 여러 NLP 작업에서 우수한 성능을 발휘합니다.
'langchain 공부' 카테고리의 다른 글
Tokenizer와 embedding(LLM 역사와 발전4) (0) | 2024.09.02 |
---|---|
생성의 의미, 인코더 디코더 모델(LLM 역사와 발전3) (1) | 2024.09.01 |
딥러닝 모델의 변화와 Transformer의 탄생(LLM 역사와 발전1) (9) | 2024.09.01 |
RunnablePassthrough() 사용 이유 (0) | 2024.08.29 |
모든 Retriever(검색기) 비교 (0) | 2024.08.29 |