Embedding 2

임베딩과 차원의 의미

배경원래는 모든 내용을 한 파일에 담고 그걸 임베딩 했었다.이번에는 여러 요소(table, text)를 각각 임베딩 해서 합치는 프로세스를 진행했다.각 요소별 차원이 맞지 않아 임베딩에 계속 실패했다.해결과정현재 사용하고 있는 MiniLM의 최대 임베딩 차원은 384 였다.따라서 모든 임베딩 길이를 384로 고정하기로 했다.임베딩이 384보다 작다면 나머지를 0으로 채우고, 더 길다면 384에서 자르게 했다.이렇게 문제를 해결했지만, 임베딩과 차원의 의미에 대해 더 자세히 알아야 했다.임베딩(Embedding)이란?임베딩(Embedding)은 고차원 데이터(텍스트, 이미지, 오디오 등)를 저차원의 벡터 공간으로 변환하는 기술입니다. 이 벡터는 의미적으로 유사한 데이터를 벡터 공간에서 가깝게 배치하는 역할..

langchain 공부 2024.09.10

Tokenizer와 embedding(LLM 역사와 발전4)

LLM 작동방식 및 원리TokenizerTokenizer는 자연어 처리(NLP) 시스템에서 입력 텍스트를 처리하는 첫 번째 단계에서 사용됩니다. 텍스트를 신경망에서 처리할 수 있는 형태로 변환하며, 텍스트를 토큰(Token)이라는 최소 단위로 분할하여, 모델이 처리할 수 있도록 준비합니다.토큰(Token)이란?토큰은 텍스트를 구성하는 가장 작은 단위로, 단어, 부분 단어, 또는 심지어 문자 하나일 수 있습니다. 토큰화 과정을 통해 긴 텍스트를 모델이 이해할 수 있는 형태로 변환합니다.LLM에서 많이 활용하는 Tokenizer: BPE (Byte Pair Encoding)BPE Tokenizer는 LLM(대규모 언어 모델)에서 가장 널리 사용되는 토크나이저 중 하나입니다. 이 방식은 텍스트를 서브워드 단위..

langchain 공부 2024.09.02