- Open Evals는 다중 턴 대화를 시뮬레이션하고 애플리케이션 성능을 평가하는 유틸리티 세트입니다. 🤖
- 애플리케이션, 시뮬레이션된 사용자, 평가 기준의 세 가지 주요 구성 요소가 필요합니다. 🔑
- 시뮬레이션된 사용자는 특정 페르소나 또는 대화 흐름을 정의하여 다양한 상황에서 애플리케이션의 반응을 테스트합니다. 🎭
- 평가 기준은 대화 턴에 따른 성공 여부, 문제 해결 여부, 사용자 감정 등을 정의합니다. ✅
- 중단 조건 매개변수를 사용하여 대화 종료 시점을 제어할 수 있습니다. 🛑