How to Solve the #1 AI Agent Production Blocker with Evals | LangChain Interrupt
- 에이전트 빌더 설문조사 결과, 에이전트 프로덕션의 가장 큰 장애물은 품질 문제임. 🚧
- 프로토타입에서 프로덕션으로 전환하고 품질을 향상시키기 위해 평가(eval)를 사용함. 🧪
- 평가는 지속적인 여정이며, 오프라인, 온라인, 인루프 평가의 세 가지 유형이 있음. 🔄
- 오프라인 평가는 프로덕션 전에 데이터 세트를 사용하여 성능을 측정하는 것임. 📊
- 온라인 평가는 프로덕션 환경에서 실시간으로 앱의 성능을 추적하는 것임. 📈
- 인루프 평가는 에이전트가 실행되는 동안 평가를 수행하여 자체 수정하도록 하는 것임. 🤖
- 평가에는 데이터와 평가자(evaluator)의 두 가지 주요 구성 요소가 있음. 🧩
- Langsmith는 훌륭한 관찰 가능성(observability)에서 시작되며, 데이터 세트 구축을 용이하게 함. 🔭
- LLM을 심판으로 사용하는 기술은 강력하지만 설정 및 신뢰가 어려울 수 있음. 🤔
- 평가는 지속적인 여정이며, 오프라인, 온라인, 인루프 평가를 모두 고려해야 함. 🗺️