rag 5

RAG 제작시 목차 제거 자동화 하기

배경목차가 있으면 Rag 검색기에 걸려서, 검색기의 성능을 떨어트렸다.원본을 눈으로 보고 전처리(목차 제거) 해줬다.대량의 문서를 업로드 할 때는, 목차 분류를 자동화 할 필요성 느낌.해결과정시행착오를 거치며 목차를 구별하는 아래 프롬트를 제작해서 LLM을 돌림."""You are tasked with identifying whether the provided text is a "목차" or part of the "본문" of a book. Follow these instructions:1. If the text contains 4 or more numeric indicators like chapter numbers or page numbers, label it as "목차".2. If the text ..

서버 없는 초 저비용 rag 인프라 구상

서버 없는 초 저비용 rag 인프라 구상배경1. 얼마전 3090 중고 본체를 샀다. 나는 뭘 사면 최대한 뽑아 먹어야 한다.2. 하나의 본체로 외부의 rag 작업을 처리하면서, 내 로컬의 작업도 처리하고 싶었다.3. 3090이 여전히 좋은 GPU긴 하지만 여러 작업을 한번에 처리하는데 무리가 있다.4. 작업을 순서대로 하나 씩 처리하면 좋겠다고 생각했다.5. 작업을 순서대로? 쌓아 놓고? 머릿속에 큐가 떠올랐다. 인프라 구조 질답 서버 : 디코에서 다른 사람이 질문을 올리면 가져와서 큐에 올린다.내 로컬의 작업도 큐에 올린다.LLM 추론서버 : 큐에서 작업을 받아서 LLM 작업을 하나씩 실행한다. 이때 우선순위에 따라 디코 질문은 빠르게 처리하고, 내 로컬 작업은 우선순위를 낮게 설정한다. ( 말하자면 ..

langchain 공부 2024.09.26

생성의 의미, 인코더 디코더 모델(LLM 역사와 발전3)

생성이란?생성 모델은 새로운 데이터를 만들어내는 모델을 의미합니다.이 모델은 이미 존재하는 데이터의 분포를 학습하여, 그와 비슷한 데이터를 생성할 수 있습니다.각 데이터는 고유한 특징들을 가지고 있으며, 이러한 특징들은 잠재 벡터(latent vector)로 표현됩니다.여러 잠재 벡터가 모여 잠재 공간(latent space)을 형성하며, 생성 모델은 이 잠재 공간을 학습하여 새로운 데이터를 생성합니다.잠재 벡터(latent vector): 데이터 포인트를 숫자로 표현한 것으로, 데이터의 주요한 특징들을 담고 있습니다.잠재 공간(Latent Space) 잠재 백터의 의미잠재 공간(Latent Space)은 생성 모델과 같은 딥러닝 모델에서 중요한 개념으로, 데이터를 더 효율적으로 표현하기 위해 고차원의 ..

langchain 공부 2024.09.01

ollama 활용해 PDF rag 시스템 만들기 1

목표 : PDF의 내용을 이용해 rag 시스템 제작환경 : window 내 powershell 실습(시스템 구성)poetry를 이용해 새 프로젝트 제작PS C:\Users\weare\pro-ollama > poetry new pdf-rag만들어진 프로젝트 폴더로 이동PS C:\Users\weare\pro-ollama> cd pdf-ragpoetry 이용해서 프로젝트에 필요한 모듈들을 설치필요 모듈들 : langchain, rapidocr-onnxruntime, pypdf, chromadb, sentence-transformers PS C:\Users\weare\pro-ollama> poetry add langchain(이런식으로 하나씩 설치)프로젝트 폴더에 노트북 파일 생성 test.ipynb, 커널 선..