Transformer와 GPT3까지 발전 과정 (LLM 역사와 발전2)

langchain 공부

Transformer와 GPT3까지 발전 과정 (LLM 역사와 발전2)

필만이 2024. 9. 1. 16:28

이전 내용

https://makenow90.tistory.com/56

Transformer와 GPT

Transformer

Google에서 제안된 모델로, 번역과 같은 시퀀스 작업에 활용되며 LLM의 기초가 됩니다.
인코더-디코더 구조를 사용하며, 병렬 처리 덕분에 효율적이고 강력한 성능을 발휘합니다.
Attention 메커니즘을 중심으로 모든 입력 간의 관계를 파악하여 정보를 처리합니다.
llm의 베이스가 되는 기술이라 보면된다.

GPT-1

OpenAI에서 개발한 모델로, Transformer의 디코더 부분을 활용하여 언어 생성과 이해 능력을 향상시켰습니다.
사전 훈련 후 파인 튜닝을 통해 텍스트 생성, 번역, 요약 등 다양한 언어 작업에서 뛰어난 성능을 보였습니다.
언어 모델링을 통해 다음 단어를 예측하는 방식으로 텍스트를 생성합니다.
자연어 처리 작업에서 초기의 큰 혁신을 이루었고, 이후 GPT 계열 모델들의 기반이 되었습니다.

BERT

Google에서 개발한 모델로, Transformer의 인코더를 기반으로 양방향 문맥을 이해할 수 있는 구조를 갖추고 있습니다.
사전 훈련과 파인 튜닝을 통해 텍스트 분류, 질의응답, 자연어 추론 등 다양한 NLP 작업에서 높은 성능을 보입니다.
입력 문장의 앞뒤 문맥을 모두 고려하여 더 정교한 언어 이해를 가능하게 합니다.
자연어 처리의 다양한 작업에서 표준이 되었으며, NLP 모델링에 큰 영향을 미쳤습니다.

GPT-2

OpenAI에서 GPT-1을 확장하여 개발한 모델로, 더 많은 파라미터와 더 큰 데이터셋을 사용해 성능을 극대화했습니다.
긴 컨텍스트에서의 언어 생성이 가능하며, Zero-shot transfer로 특정 작업에 대해 미리 학습하지 않아도 좋은 성능을 보입니다.
다양한 언어 생성 작업에서 자연스러운 텍스트를 생성할 수 있으며, 텍스트의 품질과 일관성이 크게 향상되었습니다.
공개 이후 언어 모델의 가능성과 위험성에 대한 큰 논의가 일어나기도 했습니다.

XLNet

Google과 CMU에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE)의 장점을 결합한 구조입니다.
양방향 정보를 학습하기 위해 모든 가능한 단어 순열을 학습합니다.
기존의 언어 모델이 순차적으로 학습하는 방식에서 벗어나, 보다 풍부한 문맥 정보를 반영합니다.
AutoRegressive 방식으로 학습되어 문장 생성과 이해에서 뛰어난 성능을 보입니다.

RoBERTa

Facebook에서 개발한 모델로, BERT의 훈련 절차를 개선하여 성능을 극대화했습니다.
더 긴 훈련 시간과 더 큰 배치 크기를 사용하여 모델의 일반화 성능을 향상시켰습니다.
BERT에서 사용되었던 NSP(Next Sentence Prediction) 방식을 제거하여 더욱 효율적인 학습을 가능하게 했습니다.
다양한 자연어 처리 작업에서 BERT보다 더 나은 성능을 보여줍니다.

MASS

Microsoft에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE) 구조를 결합한 방식입니다.
마스킹된 시퀀스를 입력으로 받아 인코더가 내부 표현을 생성합니다.
인코더에서 생성된 내부 표현을 디코더의 입력으로 사용하여, 마스킹된 토큰을 예측합니다.
기계 번역과 같은 시퀀스-투-시퀀스 작업에서 강력한 성능을 보입니다.

BART

Facebook에서 개발한 모델로, AutoRegressive(AR)와 AutoEncoding(AE)의 장점을 결합한 구조입니다.
입력 문장을 변환한 후 원래 문장으로 복원하는 방식으로 훈련됩니다.
텍스트 생성, 특히 요약과 같은 작업에서 SOTA(State of the Art) 성능을 기록했습니다.
다양한 자연어 처리 작업에서 널리 사용되며, 높은 품질의 텍스트 생성이 가능합니다.

MT-DNN

Microsoft에서 개발한 모델로, BERT를 기본 모델로 사용합니다.
다양한 NLP 작업을 동시에 학습할 수 있는 멀티태스크 모델입니다.
사전학습 단계에서 다양한 작업을 학습하여 일반화 성능을 높였습니다.
여러 NLP 벤치마크에서 우수한 성능을 보였습니다.

T5

Google에서 개발한 모델로, Transformer의 인코더-디코더 구조를 사용합니다.
모든 NLP 작업을 텍스트-투-텍스트(Text-to-Text) 형식으로 변환하여 처리합니다.
대규모 사전학습과 미세조정을 통해 높은 성능을 달성했습니다.
다양한 벤치마크에서 SOTA(State of the Art) 성능을 기록했습니다.

GPT-3

OpenAI에서 개발한 모델로, GPT-2를 확장하여 1750억 개의 파라미터를 갖췄습니다.
대규모 사전학습을 통해 다양한 작업에서 뛰어난 성능을 보입니다.
Zero-shot transfer 능력을 갖추어 미리 학습하지 않은 작업에서도 좋은 결과를 냅니다.
언어 생성, 요약, 번역 등 여러 NLP 작업에서 우수한 성능을 발휘합니다.

'langchain 공부' 카테고리의 다른 글

Tokenizer와 embedding(LLM 역사와 발전4) (0)	2024.09.02
생성의 의미, 인코더 디코더 모델(LLM 역사와 발전3) (1)	2024.09.01
딥러닝 모델의 변화와 Transformer의 탄생(LLM 역사와 발전1) (9)	2024.09.01
RunnablePassthrough() 사용 이유 (0)	2024.08.29
모든 Retriever(검색기) 비교 (0)	2024.08.29

현재글Transformer와 GPT3까지 발전 과정 (LLM 역사와 발전2)

필요하면 만드는 남자

프로그램 제작 및 기타 문의 makenow90@gmail.com

prompttemplate, docker, psexec, python, FAISS, GPT, Langchain, processpoolexecutor, bm25, 멀티프로세서, runnablepassthrough, retriever, threadpoolexecutor, rag, 멀티스레드, reranker, ollama, 오블완, bm25retriever, contextualcompression, LLM, 도커, win32com, poetry, 벡터db, GPU, SSH, chatollama, json, 티스토리챌린지,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

필요하면 만드는 남자

Transformer와 GPT3까지 발전 과정 (LLM 역사와 발전2)

이전 내용

Transformer와 GPT

Transformer

GPT-1

BERT

GPT-2

XLNet

RoBERTa

MASS

BART

MT-DNN

T5

GPT-3

'langchain 공부' 카테고리의 다른 글

'langchain 공부'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Transformer와 GPT3까지 발전 과정 (LLM 역사와 발전2)

이전 내용

Transformer와 GPT

Transformer

GPT-1

BERT

GPT-2

XLNet

RoBERTa

MASS

BART

MT-DNN

T5

GPT-3

'langchain 공부' 카테고리의 다른 글

'langchain 공부'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역