전체 글 99

chromadb

뭔데?AI 기반의 오픈 소스 벡터 데이터베이스로 Apache 2.0 라이선스가 부여됨Apache 2.0 라이선스는 오픈 소스 라이선스 중 하나로, 누구나 소프트웨어를 자유롭게 사용, 수정, 배포할 수 있도록 허용하는 라이선스일반 적용 코드from langchain_community.document_loaders import TextLoaderfrom langchain_openai.embeddings import OpenAIEmbeddingsfrom langchain.text_splitter import CharacterTextSplitterfrom langchain_community.vectorstores import Chroma# 텍스트를 600자 단위로 분할text_splitter = Characte..

사용툴 분석 2024.06.18

벡터 데이터베이스

배경 : pdf-rag 제작에 chromadb를 사용했는데, 이유가 궁금하다. 알고보니 chromadb는 벡터데이터베이스.그렇다면 벡터 db는 뭐고 어디에 쓸까? 벡터 데이터베이스(Vector Database)일반적인 데이터베이스는 텍스트, 숫자, 날짜 등의 형태의 데이터를 저장하고 검색하는 데에 사용됨벡터DB는 말그대로 벡터를 저장하는 데 사용되는 데이터베이스로서 여기에는 텍스트나, 이미지와 같은 비정형 데이터를 벡터로 바꾸어서 저장하게 된다.한편 이렇게 다양한 데이터를 저장하는 건 좋으나 정작 데이터를 찾으려 할 때 새로운 해결책이 필요하게 되었다. 대용량의 문서, 이미지, 심지어는 동영상과 같은 데이터는 어떻게 검색할 것인가하는 문제를 해결하기 위해 벡터DB가 등장하였다. 결과적으로 현재까지 비정형..

ollama 활용해 PDF rag 시스템 만들기 1

목표 : PDF의 내용을 이용해 rag 시스템 제작환경 : window 내 powershell 실습(시스템 구성)poetry를 이용해 새 프로젝트 제작PS C:\Users\weare\pro-ollama > poetry new pdf-rag만들어진 프로젝트 폴더로 이동PS C:\Users\weare\pro-ollama> cd pdf-ragpoetry 이용해서 프로젝트에 필요한 모듈들을 설치필요 모듈들 : langchain, rapidocr-onnxruntime, pypdf, chromadb, sentence-transformers PS C:\Users\weare\pro-ollama> poetry add langchain(이런식으로 하나씩 설치)프로젝트 폴더에 노트북 파일 생성 test.ipynb, 커널 선..