Getting Started with LangSmith (3/6): Datasets & Evaluations
- LangSmith의 오프라인 평가는 애플리케이션 변경이 성능을 개선하는지 확인하는 핵심 도구입니다. 🧪
- 데이터셋은 앱 테스트를 위한 예제 모음이며, '골든 데이터셋'은 완벽한 응답을 모아 앱이 모방하도록 돕는 산업 표준 패턴입니다. 🏆
- 데이터셋 예제는 수동 생성, AI 생성, 또는 프로젝트 트레이스에서 추가할 수 있으며, 입력 및 참조 출력 스키마를 정의할 수 있습니다. ➕
- 실험은 데이터셋의 모든 입력에 대해 앱을 실행하고, 그 결과를 참조 출력과 비교하여 앱 성능을 측정합니다. 🔬
- 평가자는 앱 출력 지표를 측정하는 함수로, '커스텀 코드 평가자'는 확정적이고 폐쇄형 지표에, 'LLM 심사 평가자'는 LLM을 활용하여 개방형 지표를 평가합니다. ⚖️
- LLM 심사 평가자는 입력, 참조 출력, 앱 출력을 모두 활용하여 LLM이 정확성, 단순성 등 복잡한 기준을 평가하도록 합니다. 🧠
- LangSmith는 실험 결과를 시각적으로 제공하며, 여러 실험(예: 다른 모델) 간의 성능을 비교하고 특정 예제에서 어떤 차이가 있었는지 상세히 분석할 수 있습니다. 📊
- '자동 평가자' 기능은 특정 데이터셋의 모든 실험에서 자동으로 실행되어, 반복적인 평가자 정의 없이 일관된 지표 수집을 가능하게 합니다. ⚙️
데브허브 | DEVHUB | Getting Started with LangSmith (3/6): Datasets & Evaluations