langchain 공부

서버 없는 초 저비용 rag 인프라 구상

필만이 2024. 9. 26. 20:36

서버 없는 초 저비용 rag 인프라 구상

배경

1. 얼마전 3090 중고 본체를 샀다. 나는 뭘 사면 최대한 뽑아 먹어야 한다.
2. 하나의 본체로 외부의 rag 작업을 처리하면서, 내 로컬의 작업도 처리하고 싶었다.
3. 3090이 여전히 좋은 GPU긴 하지만 여러 작업을 한번에 처리하는데 무리가 있다.
4. 작업을 순서대로 하나 씩 처리하면 좋겠다고 생각했다.
5. 작업을 순서대로? 쌓아 놓고? 머릿속에 큐가 떠올랐다.

 

인프라 구조

 

질답 서버 : 디코에서 다른 사람이 질문을 올리면 가져와서 큐에 올린다.
내 로컬의 작업도 큐에 올린다.

LLM 추론서버 : 큐에서 작업을 받아서 LLM 작업을 하나씩 실행한다. 이때 우선순위에 따라 디코 질문은 빠르게 처리하고, 내 로컬 작업은 우선순위를 낮게 설정한다. ( 말하자면 노래방 우선 예약 같은 느낌이다.)

rabbitMQ : 큐 서버로 rabbitMQ를 정했다. 왜냐하면 우선순위 큐가 적용 가능 하기 때문이다.

 

결과물

'langchain 공부' 카테고리의 다른 글

InMemoryDocstore 내부 코드 분석  (1) 2024.11.07
invoke와 get_relevant_documents의 차이  (1) 2024.10.16
임베딩과 차원의 의미  (0) 2024.09.10
llm 디코딩 방식 모음  (0) 2024.09.02
langchain 주요 컴포넌트 설명  (2) 2024.09.02