How to Run an Evaluation in the LangSmith UI
- LangSmith UI를 사용하여 법률 연구 에이전트 평가를 실행하는 방법 👩⚖️
- 제품 관리자 또는 주제 전문가가 LM 애플리케이션의 품질 및 성능에 대한 컨텍스트를 가장 잘 이해하고 평가를 주도할 수 있음 🧠
- 평가를 위해 테스트할 프롬프트 결정, 입력 및 참조 출력이 포함된 Ground Truth 데이터 세트 생성, 성능 평가 지표 정의가 필요함 ✅
- LangSmith Playground에서 프롬프트를 빠르게 반복하고 테스트하며 실험할 수 있음 🧪
- 데이터 세트에는 사례 의견 및 참조 요약 목록이 포함되어야 함 📜
- 법률 요약 사용 사례의 경우, 중요하게 고려해야 할 지표는 허위 정보 여부, 정확성, 간결성임 🧐
- LangSmith는 일반적인 사용 사례에 대해 이미 구축된 평가 도구를 제공함 🛠️
- 사용자 정의 평가 도구를 생성하여 특정 요구 사항을 충족할 수 있음 ✨
- 실험 결과는 애플리케이션 성능을 나타내며, 프롬프트를 반복하고 테스트하여 지표를 개선할 수 있음 📈
- 실험 보기에서 집계된 결과를 보고 프롬프트 개선 영역을 식별할 수 있음 📊