Get Started with LangSmith Multi-turn Evaluations
- LangSmith의 새로운 기능인 '멀티턴 평가'는 전체 사용자 대화(스레드)에 걸쳐 온라인 평가를 수행합니다. 🔄
- 기존 평가를 보완하며, 평가자가 단일 메시지가 아닌 전체 대화의 맥락을 필요로 할 때 유용합니다. 💬
- 각 대화 턴은 '트레이스'로 표현되며, 여러 트레이스가 모여 '스레드'를 구성하고, 멀티턴 평가자는 이 스레드를 기반으로 작동합니다. 🧵
- 측정 가능한 세 가지 주요 범주: 사용자 의도 클러스터링, 대화 결과(사용자 만족도/감정), 대화 흐름(도구 호출 순서, 에이전트 막힘) 분석입니다. 📊
- 멀티턴 평가를 위해 트레이스의 최상위 입출력은 메시지 목록 형식이어야 하며, 대화 종료 시점을 판단하는 '유휴 시간'을 설정해야 합니다. ⚙️
- 평가 설정 시, 특정 턴 수 이상 필터링, LLM 심사 프롬프트 생성, 그리고 '모든 메시지', '인간-AI 쌍', '첫 인간-마지막 AI 메시지' 중 평가에 보낼 메시지 유형을 선택할 수 있습니다. 📝
- 평가 결과는 대시보드에서 추적하거나 특정 조건(예: 부정적인 사용자 감정)으로 스레드를 필터링하여 문제 해결에 활용할 수 있습니다. 🔍
- 이 기능은 현재 바로 사용 가능하며, 고객 지원 챗봇과 같은 다중 턴 상호작용 앱에 특히 유용합니다. 🚀