데브허브 | DEVHUB | RAG 비법노트 기본편 - 6. 컨텍스트와 외부데이터로딩

RAG 시스템에서 프롬프트에 컨텍스트를 많이 포함할수록 비용 증가, 속도 저하, 토큰 처리량 문제 등 여러 부작용이 발생하므로 효율적인 관리가 필수적입니다. 💰
방대한 데이터를 프롬프트에 효과적으로 주입하기 위해 압축이 필요하지만, LM을 통한 압축은 데이터 열화 및 세부 정보 손실을 초래할 수 있습니다. 📉
원본 데이터를 단순히 전달하는 대신 의미 구조(시맨틱 구조)로 해석하고 변형(예: 그래프)하여 LM에 제공하면, LM이 토큰 생성 시 컨텍스트를 훨씬 정교하게 반영할 수 있습니다. 🧠
방대한 컨텍스트를 효율적으로 기억하고 필요한 부분만 검색하여 프롬프트에 포함시키기 위해 임베딩 벡터 검색, LM 기반 검색, 풀 텍스트 인덱싱, 엘라스틱 서치 등 다양한 저장 및 검색 방법이 활용됩니다. 📚
대부분의 외부 데이터(JSON, XML, HTML 등)는 형식 구조만 있을 뿐 의미론적 구조가 부족하여 LM이 데이터를 이해하고 활용하는 데 큰 어려움을 겪습니다. 🚧
이미지, 사운드, 스캔된 PDF 등 비텍스트 데이터와 대용량 파일(예: 270MB PDF)은 로딩 및 처리에 기술적 어려움과 서버 부하를 야기하며, 분산 로딩 전략이 필요합니다. 🐘
과거 알고리즘적 해결책(코딩, 라이브러리)이 주를 이뤘던 데이터 임포트 및 전처리 분야에서, 이제는 LM 기반 해결책(예: GPT를 이용한 OCR)이 더 나은 성능과 편의성을 제공합니다. 🚀
LangChain은 외부 데이터 임포트 및 전처리 과정의 복잡성을 해결하기 위해 알고리즘적 라이브러리뿐만 아니라 LM과 결합된 유틸리티를 제공하여 개발 편의성을 크게 높입니다. 🔗
대용량 데이터를 효율적으로 다루기 위한 데이터 분할(청킹)은 필수적이며, 분할의 목적(예: 로딩 효율, 부분 편집, 프롬프트 최적화)을 명확히 정의하는 것이 가장 중요합니다. ✂️
데이터 임포트, 정합성 검사, 변환, 분할 등의 전처리 과정은 데이터 특성과 목적에 따라 무한한 조합과 반복적인 튜닝이 필요하며, 이는 노하우와 많은 시행착오를 요구하는 '노가다' 영역입니다. 🛠️

RAG 비법노트 기본편 - 6. 컨텍스트와 외부데이터로딩

내부 라이브러리를 공개하기 어려운 이유 #오픈소스

Write Clean Flutter Code - Parameters

200달러 챗GPT 최* 가성비. 샘울트먼의 꼼수?? 까보니 20달러 o1의 숨은 기능 ㄷㄷㄷ

OpenAI Dev Day in 4 Minutes: Agent Builder, GPT-5-Pro, Sora 2 API and more

THIS Is Why You Need To Use Tweens

Finally! The UNCENSORED Deepseek R1 Open Source!