데브허브 | DEVHUB | Getting Started with LangSmith (5/6): Automations & Online EvaluationGetting Started with LangSmith (5/6): Automations & Online Evaluation
- LangSmith의 자동화는 프로덕션 애플리케이션으로 전송되는 모든 트레이스에 대해 실행되도록 구성할 수 있는 강력한 규칙입니다. ⚙️
- 온라인 평가는 라이브 프로덕션 사용자 상호작용에서 애플리케이션 출력 메트릭을 측정하는 자동화 유형으로, 큐레이션된 데이터셋을 사용하는 오프라인 평가와 다릅니다. 📊
- 자동화 설정 시, 특정 트레이스에 대한 필터링, 비용 효율성을 위한 샘플링 비율 조정, 그리고 과거 트레이스 적용 여부를 구성할 수 있습니다. 🛠️
- 자동화는 트레이스를 주석 큐/데이터셋에 추가, 평가자 적용, 웹훅 트리거, 알림 구성, 트레이스 보존 기간 연장 등 다양한 작업을 수행합니다. 🚀
- 온라인 평가자는 LLM 또는 사용자 정의 코드를 사용하지만, 프로덕션 트레이스에서는 참조 출력을 사용할 수 없습니다. 🧠
- 예시로, 챗봇 답변의 단순성을 평가하는 온라인 평가자와, 높은 점수를 받은 트레이스를 수동 검토를 위해 주석 큐에 추가하는 자동화를 설정할 수 있습니다. 📝
- 자동화는 피드백을 통해 효과적으로 연결될 수 있으며, 한 규칙이 피드백을 추가하면 해당 트레이스가 다른 자동화를 통해 다시 처리되어 피드백에 의해 트리거되는 규칙들이 올바르게 실행됩니다. 🔗
- 온라인 평가자에 의해 생성된 피드백은 트레이싱 프로젝트의 피드백 열과 개별 트레이스 상세 정보에서 확인 가능하며, 주석 큐에서도 샘플링된 실행을 볼 수 있습니다. ✅
- 기본 트레이스 보존 기간은 14일이지만, 피드백 추가 또는 데이터셋 포함 시 연장될 수 있습니다. 🗓️