- LM을 이용한 데이터 축소는 검색 결과가 많을 때 프롬프트에 넣기 위해 필요하며, 이는 프롬프트 기법에 의존합니다. 🔍
- 너무 큰 컨텍스트는 어텐션을 희석시키므로, 요약을 통해 디테일 손실을 감수하면서도 중요한 정보는 남겨야 합니다. ✂️
- LM에게 요약을 시키는 것은 LM이 편향을 일으키는 방식을 가장 잘 알기 때문에 정당하며, 사용자 질의 시 편향을 잘 일으키도록 지시해야 합니다. 🤖
- 큰 데이터를 미리 요약해두면 사용자 질의 시 토큰 비용을 절감할 수 있으며, 다양한 요약 기법(스터프, 맵 리듀스, 맵 리파인 등)이 존재합니다. 💰
- 맵 리듀스는 큰 문서를 페이지별로 요약한 후, 요약된 내용을 반복적으로 요약하여 차원을 축소하는 방식입니다. 🗺️
- 맵 리파인은 서사 구조가 있는 문서에 사용되며, 앞의 요약분을 바탕으로 뒤의 내용을 요약하는 방식으로 정보 손실을 최소화합니다. 📚
- COD(Chain-of-Density)는 리파인 기법을 이용하며, 프롬프트 구조를 이해하는 것이 중요합니다. 🔗
- 클러스터 맵 리파인은 랩터 기법을 함께 사용하지만, 데이터셋에 따라 적용이 어려울 수 있습니다. 🧩
- 에이전트 AI는 사용자 질의로부터 도구용 내용을 추출하고, 도구 결과를 프롬프트로 변환하여 질의를 증강하는 방식으로 작동합니다. 🛠️
- 도구 추출 전략은 한 번에 모든 도구를 추출하거나, 도구별로 추출하는 방식이 있으며, 모든 도구를 펑션 형태로 통합하는 전략도 있습니다. 🧰
- SQL 추출 프롬프트 예시에서 볼 수 있듯이, LM은 인스트럭션을 통해 평가되므로, MCP 서버 운용 시 디스크립션을 잘 작성하는 것이 중요합니다. 📝
- 함수 연동 추출 시, 외부 제공 함수의 정의를 제이슨 형태로 제공하고, 시스템 프롬프트와 함께 사용하여 결과를 얻을 수 있습니다. ⚙️
- 개별 도구용 프롬프트로 분산시켜 질의를 처리한 후, 결과를 취합하는 과정에서 어텐션 희석을 방지하는 것이 중요합니다. 🎯