전체 글 99

langchain 주요 컴포넌트 설명

주요 컴포넌트tokenizerEmbedding LayerTransformer Decoder LayersOutput Layer컴포넌트 설명TokenizerTokenizer는 자연어 처리(NLP) 시스템에서 입력 텍스트를 처리하는 첫 번째 단계에서 활용되는 도구입니다. 이 과정에서 텍스트를 토큰(Token)이라는 최소 단위로 분할합니다. 자주 함께 쓰이는 문자 쌍을 병합해 서브 워드를 생성 합니다. 토큰은 단어, 부분 단어, 혹은 심지어 개별 문자일 수도 있습니다. 모델이 텍스트를 이해하고 처리하기 위해서는 먼저 이처럼 텍스트를 작은 단위로 나누는 과정이 필요합니다.token : 텍스트를 분할하는 최소 단위BPE (Byte Pair Encoding) Tokenizer의 동작 과정BPE 토크나이저는 텍스트 데..

langchain 공부 2024.09.02

Tokenizer와 embedding(LLM 역사와 발전4)

LLM 작동방식 및 원리TokenizerTokenizer는 자연어 처리(NLP) 시스템에서 입력 텍스트를 처리하는 첫 번째 단계에서 사용됩니다. 텍스트를 신경망에서 처리할 수 있는 형태로 변환하며, 텍스트를 토큰(Token)이라는 최소 단위로 분할하여, 모델이 처리할 수 있도록 준비합니다.토큰(Token)이란?토큰은 텍스트를 구성하는 가장 작은 단위로, 단어, 부분 단어, 또는 심지어 문자 하나일 수 있습니다. 토큰화 과정을 통해 긴 텍스트를 모델이 이해할 수 있는 형태로 변환합니다.LLM에서 많이 활용하는 Tokenizer: BPE (Byte Pair Encoding)BPE Tokenizer는 LLM(대규모 언어 모델)에서 가장 널리 사용되는 토크나이저 중 하나입니다. 이 방식은 텍스트를 서브워드 단위..

langchain 공부 2024.09.02

생성의 의미, 인코더 디코더 모델(LLM 역사와 발전3)

생성이란?생성 모델은 새로운 데이터를 만들어내는 모델을 의미합니다.이 모델은 이미 존재하는 데이터의 분포를 학습하여, 그와 비슷한 데이터를 생성할 수 있습니다.각 데이터는 고유한 특징들을 가지고 있으며, 이러한 특징들은 잠재 벡터(latent vector)로 표현됩니다.여러 잠재 벡터가 모여 잠재 공간(latent space)을 형성하며, 생성 모델은 이 잠재 공간을 학습하여 새로운 데이터를 생성합니다.잠재 벡터(latent vector): 데이터 포인트를 숫자로 표현한 것으로, 데이터의 주요한 특징들을 담고 있습니다.잠재 공간(Latent Space) 잠재 백터의 의미잠재 공간(Latent Space)은 생성 모델과 같은 딥러닝 모델에서 중요한 개념으로, 데이터를 더 효율적으로 표현하기 위해 고차원의 ..

langchain 공부 2024.09.01