데브허브 | DEVHUB | Product Evals (for AI Applications) in Three Simple StepsProduct Evals (for AI Applications) in Three Simple Steps
- LLM 애플리케이션의 실제 성능에 대한 확신을 얻기 위해 Evals는 필수적이지만, 올바르게 수행하기 어렵습니다. 🛡️
- 제품 Evals 구축을 위한 핵심은 '작은 데이터셋 라벨링', 'LLM 평가자 정렬', '설정 변경 시마다 평가 하네스 실행'의 세 가지 기본 단계입니다. 💡
- Langsmith는 이 세 가지 단계를 효과적으로 지원하여 LLM 애플리케이션의 Evals를 쉽게 구축하고 개선할 수 있도록 돕습니다. 🛠️
- 애플리케이션의 초기 출력을 생성한 후, 'AI처럼 들리지 않는가', '너무 마케팅적이지 않은가' 등 사용자 관련 기준에 따라 소규모 데이터셋을 수동으로 라벨링합니다. 🏷️
- 라벨링된 데이터를 기반으로 LLM을 평가자로 훈련시키고, 인간의 라벨과 일치하도록 반복적으로 프롬프트를 조정하여 높은 정렬도를 달성합니다. 🤖
- 정렬된 LLM 평가자를 사용하여 프롬프트나 LLM 모델 변경과 같은 구성 변경 시마다 새로운 출력을 자동으로 평가하고, 개선 사항을 측정합니다. 🚀
- Evals 과정은 '라벨링-정렬-실행'의 반복적인 루프를 통해 지속적으로 개선됩니다. 새로운 출력을 라벨링하고 평가자를 재정렬하여 더 정확한 평가를 가능하게 합니다. 🔄
- 일반적인 평가 기준 대신, 애플리케이션의 특정 목표와 일치하는 고유하고 관련성 높은 평가 기준을 설정하는 것이 중요합니다. 🎯