유튜브블로그Top 10
내 프로필

데브허브 안내
소개업데이트 소식

데브허브 커뮤니티

RAG 비법노트 기본편 - 6. 컨텍스트와 외부데이터로딩

코드스피츠

2025. 10. 25.

0

#ai
#backend
  • RAG 시스템에서 프롬프트에 컨텍스트를 많이 포함할수록 비용 증가, 속도 저하, 토큰 처리량 문제 등 여러 부작용이 발생하므로 효율적인 관리가 필수적입니다. 💰
  • 방대한 데이터를 프롬프트에 효과적으로 주입하기 위해 압축이 필요하지만, LM을 통한 압축은 데이터 열화 및 세부 정보 손실을 초래할 수 있습니다. 📉
  • 원본 데이터를 단순히 전달하는 대신 의미 구조(시맨틱 구조)로 해석하고 변형(예: 그래프)하여 LM에 제공하면, LM이 토큰 생성 시 컨텍스트를 훨씬 정교하게 반영할 수 있습니다. 🧠
  • 방대한 컨텍스트를 효율적으로 기억하고 필요한 부분만 검색하여 프롬프트에 포함시키기 위해 임베딩 벡터 검색, LM 기반 검색, 풀 텍스트 인덱싱, 엘라스틱 서치 등 다양한 저장 및 검색 방법이 활용됩니다. 📚
  • 대부분의 외부 데이터(JSON, XML, HTML 등)는 형식 구조만 있을 뿐 의미론적 구조가 부족하여 LM이 데이터를 이해하고 활용하는 데 큰 어려움을 겪습니다. 🚧
  • 이미지, 사운드, 스캔된 PDF 등 비텍스트 데이터와 대용량 파일(예: 270MB PDF)은 로딩 및 처리에 기술적 어려움과 서버 부하를 야기하며, 분산 로딩 전략이 필요합니다. 🐘
  • 과거 알고리즘적 해결책(코딩, 라이브러리)이 주를 이뤘던 데이터 임포트 및 전처리 분야에서, 이제는 LM 기반 해결책(예: GPT를 이용한 OCR)이 더 나은 성능과 편의성을 제공합니다. 🚀
  • LangChain은 외부 데이터 임포트 및 전처리 과정의 복잡성을 해결하기 위해 알고리즘적 라이브러리뿐만 아니라 LM과 결합된 유틸리티를 제공하여 개발 편의성을 크게 높입니다. 🔗
  • 대용량 데이터를 효율적으로 다루기 위한 데이터 분할(청킹)은 필수적이며, 분할의 목적(예: 로딩 효율, 부분 편집, 프롬프트 최적화)을 명확히 정의하는 것이 가장 중요합니다. ✂️
  • 데이터 임포트, 정합성 검사, 변환, 분할 등의 전처리 과정은 데이터 특성과 목적에 따라 무한한 조합과 반복적인 튜닝이 필요하며, 이는 노하우와 많은 시행착오를 요구하는 '노가다' 영역입니다. 🛠️

Recommanded Videos