- 데이터 세트는 애플리케이션 테스트를 위한 예제 모음입니다. 📚
- 데이터 세트는 CSV/JSONL 업로드 또는 수동 생성을 통해 만들 수 있습니다. ✍️
- AI 생성 예제를 사용하여 데이터 세트에 예제를 추가할 수 있습니다. 🤖
- 프로젝트 추적을 통해 데이터 세트에 예제를 추가할 수도 있습니다. 👣
- 실험은 데이터 세트의 모든 입력에 대해 애플리케이션을 실행하고 결과를 참조 출력과 비교합니다. 🧪
- 평가자는 애플리케이션 출력에 대한 메트릭을 측정하는 함수입니다. 📊
- 사용자 정의 코드 평가자는 결정론적 함수에 적합합니다. ⚙️
- LLM as a Judge 평가자는 개방형 메트릭에 적합합니다. 🧠
- 자동 평가자는 모든 실험에서 자동으로 실행되는 평가자입니다. 💫
- 실험 결과를 비교하여 모델 성능을 분석할 수 있습니다. 🔍