서버 없는 초 저비용 rag 인프라 구상
배경
1. 얼마전 3090 중고 본체를 샀다. 나는 뭘 사면 최대한 뽑아 먹어야 한다.
2. 하나의 본체로 외부의 rag 작업을 처리하면서, 내 로컬의 작업도 처리하고 싶었다.
3. 3090이 여전히 좋은 GPU긴 하지만 여러 작업을 한번에 처리하는데 무리가 있다.
4. 작업을 순서대로 하나 씩 처리하면 좋겠다고 생각했다.
5. 작업을 순서대로? 쌓아 놓고? 머릿속에 큐가 떠올랐다.
인프라 구조
질답 서버 : 디코에서 다른 사람이 질문을 올리면 가져와서 큐에 올린다.
내 로컬의 작업도 큐에 올린다.
LLM 추론서버 : 큐에서 작업을 받아서 LLM 작업을 하나씩 실행한다. 이때 우선순위에 따라 디코 질문은 빠르게 처리하고, 내 로컬 작업은 우선순위를 낮게 설정한다. ( 말하자면 노래방 우선 예약 같은 느낌이다.)
rabbitMQ : 큐 서버로 rabbitMQ를 정했다. 왜냐하면 우선순위 큐가 적용 가능 하기 때문이다.
결과물
'langchain 공부' 카테고리의 다른 글
InMemoryDocstore 내부 코드 분석 (1) | 2024.11.07 |
---|---|
invoke와 get_relevant_documents의 차이 (1) | 2024.10.16 |
임베딩과 차원의 의미 (0) | 2024.09.10 |
llm 디코딩 방식 모음 (0) | 2024.09.02 |
langchain 주요 컴포넌트 설명 (2) | 2024.09.02 |